您已經知道業務連續性/災難恢復是組織成功的關鍵組成部分。 我們知道需要有指標來衡量工作的有效性。 第一步是了解業務連續性和災難恢復規劃中重要的指標,這正是本文將要討論的內容。 您還需要一個工具來收集和報告這些指標。 根據您的組織規模和 BC/DR 計劃的成熟度級別,其範圍可以從 Excel 模板到功能強大的自動化軟件。
有 7 個重要的業務連續性/災難恢復指標需要監控以增長和衡量恢復計劃:
雖然還有許多其他指標需要監控,但這些指標可作為基本的計劃審查,並表明您為解決阻塞問題做好了充分的準備。
前兩個重要的 BC/DR 指標是恢復時間目標 (RTO) 和恢復點目標 (RPO)。 RTO 是項目可以空閒的最大可接受時間量。 RPO 決定了您可以承受丟失多長時間的數據,以及您的備份是否可以保存其餘數據。 例如,如果您可以承受丟失一小時的數據,則需要至少每小時進行一次備份。
備份和恢復過程是良好的 BC/DR 計劃的核心,因此您需要考慮 RTO 和 RPO 來確定最適合該作業的備份和恢復工具。 例如,如果您生成中等到高交易量和價值的連續交易,您可以承受損失多少交易分鐘? 你能承受多久的下班時間? 此類應用程序可能會受益於通過連續數據保護 (CDP) 實現的非常頻繁的塊級備份,但除非同時查看 RTO 和 RPO,否則您不會知道這一點。
最後,你需要測量 涵蓋每個業務流程的計劃數量 , 以及 自每個計劃更新以來經過的時間 。 關鍵績效指標 (KPI) 是衡量計劃運行情況的指標,也是您不能忽視的指標。 您可以設置 KPI,確定審查和更新計劃的頻率(例如每月、6 個月或每年)以及恢復計劃涵蓋多少業務功能,並製定行動計劃以實現 100% 的覆蓋率。 如果您缺乏時間和資源,請從最關鍵的業務流程開始。
企業可能有數百到數千個流程,如果沒有計劃就不可能恢復流程。 BC/DR 規劃的一個關鍵指標是 受潛在災難威脅的進程數量 .
您應該從風險分析和業務影響分析開始:
然後,您可以製定計劃來保護這些流程並最大程度地減少發生災難時的中斷。
但靜態計劃可能會停滯不前。 除非您定期更新計劃以考慮應用程序、數據、環境、員工和風險的變化,否則您無法回滾流程。 您應該為自己設置提醒,以便在周期的適當時刻提示計劃審查。 在完美的世界中,你會得到各個部門負責人的確認,他們審查和更新了他們的計劃,但說實話:審查和更新這些計劃是一個巨大的麻煩,如果他們及時完成,那幾乎是奇蹟。 使用該軟件可以緩解這個痛點:您可以自動向各種計劃所有者發送電子郵件提醒,並在軟件中跟踪他們的進度 - 無需被動攻擊性電子郵件! 該軟件還消除了許多與變更管理相關的繁瑣任務。 例如,自動化數據集成將使您的數據隨著其他應用程序中的數據變化而自動更新。 如果在 100 個計劃中使用同一個聯繫人,並且他們的電話號碼發生變化,集成系統也會將該變化推送到您的業務連續性和應急管理計劃中。
確定業務功能如何相互依賴的最簡單方法之一是使用依賴關係建模工具。 這將幫助您直觀地了解應用程序的依賴項是否允許您滿足 RTO 和 SLA。
例如,如果您需要在 12 小時內恢復應付帳款服務,但這取決於可能需要長達 24 小時才能恢復的財務軟件,則應付帳款服務無法滿足 12 小時 SLA。 依賴建模器動態地說明這些依賴關係以及計劃何時以及如何崩潰。
你應該測量 恢復業務流程所需的實際時間 。 您可以使用 BC/DR 工具來測試恢復過程,以跟踪每個步驟需要多長時間。
或者,您可以使用手動計時每個步驟的老式方法。 這些測試將幫助您確定您的人員和流程是否可以使用現有計劃滿足 RTO。 您應該能夠在計劃允許的時間內完成恢復任務,如果不能,則需要修改您的計劃,使其切合實際且可實現。
最後,此資源中涵蓋的最後一個指標是 實際恢復時間與預期恢復時間之間的差異 ,也稱為差距分析。 您可以通過故障轉移和恢復測試、企業級 BC/DR 測試以及差距分析來測試差距。 一旦發現計劃中的差距,您就可以設置 KPI 並在計劃過程中使用它們。
BC/DR 軟件收集的數據必須“乾淨”,以確保准確的報告和規劃。 為了保持良好的數據衛生,請務必使用下拉菜單、選項列表、文本格式和數據驗證來標準化數據輸入。 例如,如果我們將員工電話號碼納入計劃,我們建議檢查這些電話號碼是否包含區號並仍在使用。
重複數據刪除以及身份和訪問管理 (IAM) 可以幫助生成優雅的數據。 您可以使用重複數據刪除來消除同一條目的多個方面。 您可以使用憑據(驗證)以及權限(授權)以確保只有合格的用戶才能輸入記錄和主數據。 通過將 BC/DR 系統與其他應用程序(例如,HR 系統)集成,您還可以節省大量時間和麻煩,以避免記錄重複和任何可能的錯誤。
使用關係建模工具確定關鍵業務功能以及它們如何相互依賴。
接下來,我們使用 RTO 和 RPO 指標設置可接受的停機時間閾值。 我們測試計劃,看看我們是否接近或超過這些閾值。 之後,讓我們回顧一下計劃並再次測試它們。 我們應該設置 KPI 來衡量計劃更新和測試的頻率,並進行差距分析以比較計劃恢復時間與實際恢復時間。
最後,確保保持數據“衛生”,以實現準確的報告。 如果數據不准確,BC/DR 指標就完全沒有用處。 這似乎是理所當然的事情,但令人驚訝的是,有多少公司通過歪曲其 SLA 的報告來讓自己陷入一種錯誤的安全感。 現實一點總是最好的,即使這意味著接受所涉及的風險。
Ercole Palmeri