ref: https://medium.com/sailpointtechblog/improving-on-call-engineering-at-sailpoint-35213090c35c
本篇是一個經驗分享文,Sailpoint 想要探討疫情後整個團隊是如何重建並且改善 On-Call 的整個運作模式。
因應 COVID 帶來的職缺變化,愈來愈多的遠端工作者加入到 SailPoint 的團隊中,整個 DevOps Team 的人數也因此整整翻了一倍。
過往的 on-call 流程基本上沒有什麼受到太多重視與關注,並且一直以來都運作的很好,但是隨者團隊人數與專案數量的提升,當前的運作方式只能用堪用來說
因此需要重新審思如何改善,加強整體效率。
SailPoint 之前的 On-Call 是使用 PageDuty 這套服務來處理的,因此團隊想要看看是否這中間還可以有改善的空間
不論是新的流程或是 PageDuty 有什麼功能是團隊還沒有妥善使用的。
Baby Steps with PagerDuty
PageDuty 有個名為 PagerDuty Virtual Summit 的年度盛會,作者團隊決定參加盛會來聽看看有什麼功能是目前沒有好好使用的。
除了 Digital Operations Tier 這個更加智慧甚至提供基於 machine learning 的相關控制功能外,作者團隊還學到了關於 Slack
的新整合功能,有鑒於整個團隊愈來愈趨向遠端協作, Slack 的使用也就變得愈加重要,因此團隊優先的將 Slack 整合該新功能。
Feature Rich Proof of Concept, A Short Story
1. 作者團隊於會後積極的聯繫 PageDuty 的團隊,想要針對各項新功能進行更多的探討與使用,這方面 PageDuty 也很積極的幫忙建立 PoC 環境與回答各種問題,讓團隊可以試用這些新功能
2. 第一個嘗試的功能是針對團隊的 RDS Alert 的智慧處理功能。過往當 DB 出現問題時 Cloud Watch 就會出現高達 60 多個相關 Alert,透過新的智慧功能這些 alerts 會被辨識為一個單一意外,就不會遇到 Alert 洗版的現象
3. 過往 RDS Alert 出現時,每次都要針對那些 Alert 一個一個的去 acknowledge,現在因為全部都統一辨識為單一 Alert,因此 acknowledge 也只需要執行一次,整個效率大幅度上升, on-call 的工程師可以花更多時間去專注解決問題。
4. 下一個嘗試的功能就是全新的儀表板,該儀表板顯示了 alerts 的趨勢變化與相關參數,這些資料讓該團隊每週的 on-call 會議有更多的資料去檢視過去一週的情況,藉此可以找到團隊中比較脆弱容易出事情的服務。
文章中還有兩個章節探討剩下的改善,對於 On-Call 有經驗也有興趣的人別錯過全文。
「devops工程師是什麼」的推薦目錄:
- 關於devops工程師是什麼 在 矽谷牛的耕田筆記 Facebook 的最佳貼文
- 關於devops工程師是什麼 在 DavidKo Learning Journey Facebook 的精選貼文
- 關於devops工程師是什麼 在 矽谷牛的耕田筆記 Facebook 的精選貼文
- 關於devops工程師是什麼 在 [心得] 初階DevOps/SRE 工程師是如何煉成的- 看板Soft_Job 的評價
- 關於devops工程師是什麼 在 純靠北工程師, profile picture - Facebook 的評價
- 關於devops工程師是什麼 在 60秒告訴你「DevOps」是什麼? - YouTube 的評價
- 關於devops工程師是什麼 在 DevOps 工程師生涯寶典 - GitHub 的評價
- 關於devops工程師是什麼 在 答疑:Dev 和DevOps 有啥区别? - 坎德人的小包包 的評價
devops工程師是什麼 在 DavidKo Learning Journey Facebook 的精選貼文
[敏捷和 DevOps 做得好的關鍵是什麼?]
如何判斷一家公司 agile 和 DevOps 做得好不好呢?
文化是很關鍵的因素, 但是這個東西是內在的, 不容易觀察出來
但是有什麼東西是外顯的? 很容易被觀察到呢?
在看過幾家成功案例後 (FB, Etsy, Microsoft, Netflix, Google)
你可以發現它們都有共同的地方 ......
那就是自動化測試做很多, 很廣, 很多層次 .....
有 BVT 測試, 有 daily build, 有單元測試, 有整合測試, 有壓測等等 ...
它佈下了許多安全網, 讓快速調整時也不會害怕
一旦出問題, 就會被及早抓出來
否則你的快速因應改變, 只是讓事情越改越可怕
工程師們, 努力增加你的自動化測試 喔
老闆們, 要讓工程師們有時間去做自動化測試 和增強其技能 喔
devops工程師是什麼 在 矽谷牛的耕田筆記 Facebook 的精選貼文
ref: https://iximiuz.com/en/posts/devops-sre-and-platform-engineering/
本篇是一個由 Twitter 討論串引發的後續文章,作者想要聊聊 DevOps, SRE 以及 Platform Engineering 的差異。
文章中附有相關 Twitter 討論串的連結,對於原文有興趣的也可以去參閱一下 Twitter
註:就我個人觀察到的現象,台灣企業很少看到 Platform Engineer 的職位,有人知道有哪些公司有開這種職位可以留言分享一下
作者自述自己是個從事 SRE 工作但是內心卻是個軟體工程的技術專欄作家,因此就自己的過往經驗想分享一下對於這三者的看法,而這些討論就引起了一些回文
因此作者將這些概念整合下來寫下這篇文章來總結一下各方網友們的看法。
作者的軟體生涯中,從分工仔細的團隊到新創公司都經歷過,再還沒有認知到 DevOps/SRE 這類型名詞前就已經體驗過部署開發維運三合一的人生。
隨者愈來愈多人開始探討 DevOps 以及 SRE 這兩個詞,兩者之間的比較沒有停過,甚至還有專屬的兩個 awesome 系列 awesome-sre, awesome-devops 清單來列舉如何學習這兩個技術。
整個求職市場也因為這兩個名詞的出現而有變化,作者也因應這股潮流開始往下探索,因此最後就以自己自身的經驗來分享自己對於這些名詞的想法。
其中作者有提到一點也是我非常認同的,就是這些名詞代表什麼含義,這些職稱要做什麼都會隨者不同公司不同團隊而有變化,畢竟每個公司的產品跟商業走向都不同
期待能有一個一統天下的職稱跟工作內容反而才是不切實際的。所以接下來的探討就只是作者跟幾個網友們的討論,不要當作圭臬,也不要當作聖旨,自己有自己的想法比較重要。
# What is Development
1. 作者認為開發的概念非常簡單,就撰寫程式,唯一能夠為公司貢獻 $$$ 的職位,畢竟有人寫程式還有產品,沒人寫程式也沒什麼好部署的。
2. 推特網友表示: 只有 sales 才是幫公司賺錢的,剩下都是公司的支出
3. 作者從 2011 開始了軟體工程師生涯,過往作者都很期望自己可以去部署一下自己撰寫的程式,但是基本上都是團隊內的其他神秘人物會默默的部署這些程式到生產環境。
# What is DevOps
1. 作者不想探討何謂官方的正式定義,只想聊聊自己多年工作經驗的感想
2. 對作者來說, DevOps 是一個能夠讓開發者對於部署應用程式有更多機會與權力的文化,實作上沒有一定的準則
3. 作者還待過那些開發者都擁有 sudo 權限來部署應用的新創公司,不過現在這些流程都慢慢的被自動化 CI/CD 流程給取代。
4. DevOps 最初的想法應該是遠遠超過作者所描述的,不過作者就自己工作上的經驗,找工作的經驗,看職稱 JD 的經驗來看,DevOps 更像讓開發者打造的產物可以更有效率的被部署
5. DevOps 本身不應該去探討產品的商業邏輯,那是開發者要探討的。
# What is SRE
1. Google 推出了一系列的書來探討何謂 SRE,那系列書籍的想法偏向 SRE 是其中一種 DevOps 文化的實作方式。
2. 相對於 DevOps,作者更喜歡 SRE 帶來的職缺內容。
3. 作者對於提到 CI/CD pipeline 之類的職缺都感到無聊且沒興趣,而 DevOps 的工作職缺往往都充滿這些令人無聊的東西。
4. 相反的,作者更喜歡去專研系統問題,譬如探討為什麼會有 bug, memory leak, 效能不好...等
5. 作者認為 SRE 要負責去維護上線環境,確保使用上沒有問題。
6. Google 的 SRE 系列書籍還提到了關於 monitoring, alerting, SLO 等各種如何確保服務正常的機制。 Facebook 則是有非常著名的 Production Engineer 的職稱,其跟典型的 SRE 基本上沒太大的差別。
7. 推特網友表示: SRE 專注於生產環境, DevOps 專注於 CI/CD 與開發效率與流程
8. 另外一名推特網友表示(這也是我目前最喜歡的答案): DevOps 從開發角度為起點, SRE 從維護上線環境出發,兩職缺於某處產生交集。
# What is Platform Engineering
1. 作者想起當年還是一家新創的唯一一位工程師時,那時候還要去租借實體機器來架設環境,所以那時候也撰寫了不少腳本來安裝機器,也要確保機器之間的網路可以正常運作。
2. 加入一間比較有規模的公司後瞭解到看來 infra 相關的工作是一個很類似 SRE/DevOps 但是又有些許不同的領域
3. 作者認為 Platform Engineering 目標就是要打造一個可以讓 Dev, Ops, SRE 能夠使用的環境
4. 作者感覺 Platform Engineering 要負責維護 data-center 內上千台的機器,確保這群機器能夠正常運作,維護外也要包含升級,設定等。
# What's about titles?
1. 作者前述探討的都是基於負責領域,比較不去談這些職稱應該要做什麼
2. 根據作者經驗,當公司規模逐漸變大時,分工就會愈來愈細,這時候 Dev, Ops, SRE, PE 等職缺就會開始逐漸專項化。
3. 重點就是, YMMV (Your Mileage May Vary ),不同情況,不同答案,不要太專注於一個死板板的解釋。
個人想法: 公司要開什麼職缺名稱就不管他了,工作內容才是最重要的,有錢的任性老闆也可以開一個"開源軟體整合工程師"但是要你整合 CI/CD 加上維運的工作。
devops工程師是什麼 在 純靠北工程師, profile picture - Facebook 的推薦與評價
純靠北工程師1ab SRE工程師、DevOps工程師工作內容到底是什麼啊? 全平台留言https://kaobei.engineer/cards/show/1667 匿名發文請 ... ... <看更多>
devops工程師是什麼 在 60秒告訴你「DevOps」是什麼? - YouTube 的推薦與評價

DevOps 是什麼 ❓〕▪️360分鐘,打造 DevOps ... 將平常要花人力手動執行的工作交給Jenkins 處理, 工程師 不需要處理太多的雜事,有更多的時間可以好好 ... ... <看更多>
devops工程師是什麼 在 [心得] 初階DevOps/SRE 工程師是如何煉成的- 看板Soft_Job 的推薦與評價