返回首頁
當前位置: 主頁 > 精通Office > 其他教程 >

這是有贊的故障管理經驗

時間:2018-11-22 21:25來源:知行網www.f1globe.com 編輯:麥田守望者

線上故障是指提供給客戶使用的IT服務全部或部分不可用,包括服務性能的降低,如:服務延遲導致用戶體驗變差。

在創業前期,為了搶占市場先機,產品新功能的發布速度追求往往優先于其質量,埋下了很多技術債務,部分技術債務的爆發會引起線上故障,造成客戶的體驗下降或經濟損失。

故障管理的目標是“盡快恢復服務到正常運行,并且最小化對業務運營的不利影響,從而盡可能地保證服務質量和可用性的水平”。

在故障發生后,故障緊急處理小組會定位、分析和恢復故障,并在故障恢復后對故障進行Review和總結,制定出可執行的Actions,以提高故障處理效率和避免類似故障再次發生。

下面將為大家簡單介紹有贊的故障管理實踐。

故障處理流程介紹

有贊使用JIRA作為跨部門協作工具,線上故障管理也借助于JIRA。我們制定了下面的故障處理流程,故障JIRA工單遵循該工作流,而故障Action(s)會被建立在對應的故障JIRA工單子任務中,子任務的工作流為JIRA默認工作流。

確認故障與通知協調人

當收到客戶、內部員工或監控上報的潛在故障時,報告人會盡快確認故障的有效性。

當確定是個故障后,會提交一個故障JIRA工單,并通知故障協調人(來自研發效率團隊,主要負責業務與技術部門之間的信息同步和協調)。

協調人確保公司內業務部門、技術和產品部門被通知到位,同時將故障上報到“可用性保障微信群”里,故障原因排查和討論會在該群里或拉單獨的故障處理群進行。

定位/處理故障

為避免無關消息干擾,故障處理人組建故障緊急處理小組(在微信群里或坐在一起),以提高故障處理效率。

故障處理人在定位到問題后需將故障原因和預計多久修復同步給協調人。對于處理時間比較長的故障,緊急處理小組會每隔半小時對相關業務部門同步一次故障處理進展。

故障恢復

如確定是發布引起的故障,需將代碼回滾到故障前的某個穩定版本。

故障恢復后,故障處理人需跟業務影響方確認是否有數據需要修復。如有,需將影響情況反饋給協調人,并配合業務方盡快修復數據。

組織故障Review

故障Review一般安排在故障處理結束后24小時內,包括故障過程回顧、故障原因分析、改進預防措施制定、故障定級等,其產出物為:

故障分析報告。故障定級分為P1、P2、P3和P4四個等級(依次降低),每個業務組都有特定的等級定義,主要從業務影響面和影響時間來確定。目前使用的故障報告模板如下:

同步故障報告

故障Review參與人一般是故障處理人、協調人、責任人及責任方組長,故障報告人視情況自愿參與。

為了讓所有技術小伙伴都能了解到故障信息,故障責任人需將最終版的故障報告同步到產品技術群。

建立每個Action JIRA子任務

故障責任人在JIRA故障單下創建子任務,每個子任務對應一個故障Action,子任務的“到期日”字段需被更新成:Action的Deadline,并將其分配給Action執行人。

故障與故障Actions跟進

JIRA看板是個很直觀的工具,支持在規定的工作流之間移動任務板。我們使用JIRA的kanban board來跟進故障及其Actions(如下圖),頂部快速過濾器可以快速訪問各技術業務組不同狀態下的故障或Actions信息,橫向上拆分成3個泳道:

故障、逾期故障Actions和待處理故障Actions。

如果某個Action的到期日已經到了,該Action任務板會顯示在“逾期故障Actions”泳道中,否則會顯示在“待處理故障Actions”泳道中,故障協調人會定期跟進下逾期故障Actions的執行,并將逾期的故障Actions同步到產品技術群里,以提醒Action執行人及時處理JIRA。

故障數據分析

通過分析故障數據,我們可以發現問題在哪里,并進行改進。目前故障數據主要記錄在JIRA和Confluence上,我們會將其按特定格式備份到Numbers中,從不同角度分析這些故障數據,如:

每月故障數對比、每月故障處理時間對比、近兩月故障等級占比分布、近兩月故障類別占比分布、近兩月故障來源對比和近兩月各業務組故障數對比等。

結合每月發布數據和線上問題數據的綜合數據分析,我們得出了“發布次數很多的月份,其線上問題和故障數也相對較多”的結論。為了減少故障發生率,我們需要減少發布頻率和規范發布流程。

小結

根據當前存在的問題制定出一套流程不難,難在對流程執行的跟蹤和監督。有贊線上故障處理流程由研發效率團隊負責跟蹤和監督,確保了每個故障都能經過Review,并形成完整的故障分析報告,同步給所有技術小伙伴。同時,每個故障Action都是可執行的,且有明確的執行人和Deadline。

經過一年多的故障管理,我們不僅沉淀了寶貴的故障數據,為改進方向提供了參考,也增強了小伙伴的故障意識,對線上環境的敬畏之心和對故障的緊急處理意識。

關于“故障管理”,我們只邁出了一小步,還有諸多待改進的地方。例如,我們目前主要管理了線上的故障,對公司內部系統故障并沒有管理起來;目前大家了解故障信息的途徑是:

JIRA、Confluence和技術報表,缺乏一個公共的故障檢索和自動生成故障報表平臺;我們的事件管理(Event Management)水平還很低,很多故障是由客戶上報,而不是由監控系統先發現。

------分隔線----------------------------
標簽(Tag):故障管理經驗
------分隔線----------------------------
推薦內容
猜你感興趣
99久久免费高清热精品