在CrowdStrike停機事件之後,自動IT更新的前景將如何?

在CrowdStrike停機事件之後,自動IT更新的前景將如何?

2024.08.09

網路攻擊事件凸顯了科技組織對於盲目信任廠商軟體更新的傾向,這是邁向 IT 自動化過程中的最新警訊。該事件反映出,科技公司為了追求自動化,常會忽視軟體更新的潛在風險,導致系統遭到入侵。因此,企業應審慎評估供應商更新,並加強網路安全防護,避免重蹈覆轍。

2023年7月19日,全球各地的企業紛紛陷入停頓,數以百萬計的Windows電腦當機,並出現令人生畏的藍色死亡畫面。兇手正是安全廠商CrowdStrike平台的一項軟體更新,導致部分企業中斷數小時,嚴重者更長達數日。

此次資訊科技中斷事件造成全國各地的航空公司無法起飛,銀行應用程式也全面癱瘓,凸顯一段失誤的程式碼對任何仰賴資訊科技的營運所造成的實質影響。

在CrowdStrike事件過後,分析師們向資訊長及其他科技主管強調,必須加強對自動軟體更新的審查。問題的部分原因在於,業界持續推動更廣泛的資訊科技自動化,以及過度仰賴中央化的廠商更新。

HFS Research的執行長暨首席分析師Phil Fersht表示:「在過去五年間,軟體即服務(SaaS)的自動化幾乎已達瘋狂的程度。」他補充說:「我們必須重新檢視這種做法,因為自動化的風險遠遠超過其所帶來的效率。」

費許表示:「這對整個IT產業過度依賴盲目信任一切都會自動升級,是一記大大的警醒。」「相當小的程式碼問題,都可能造成我們剛才所見的巨大衝擊。」

導致CrowdStrike全球中斷服務的有缺陷更新,雖然僅存活不到一小時,但自動化更新卻擴大了其影響範圍。據估計,有財富500強公司因此中斷服務而蒙受逾54億美元的財務損失。

費許說:「我想這只是一點點的自滿,對大型科技公司過度信任,只要我們購買了微軟的產品,一切就會沒問題。」

自動化的挫折
CrowdStrike的中斷服務事件凸顯了,一旦關鍵軟體發生故障,並透過自動更新進入廣泛採用的解決方案,將會產生什麼樣的後果。

Forrester研究總監貝茲表示,隨著Unix及後來Linux提供套件管理工具,自動化IT更新逐漸普及。之後便出現集中式修補程式管理,用於筆記型電腦機群管理,微軟轉向雲端解決方案如Microsoft 365則是一個分水嶺。

貝茲說:「我想這種方便性確實很誘人。」

如果沒有適當的品質保證機制,盲目信任廠商的自動化更新,可能會導致關鍵系統發生廣泛問題。

Info-Tech Research研究總監安南德以電子郵件表示:「自動化能夠快速且一致地複製結果,卻不顧這結果的優劣。壞的變更傳播得跟好的變更一樣快。」

無論根本原因為何,IT系統停機都可能影響營運並引發客戶不滿。根據Splunk的數據顯示,這也會帶來高昂的代價:停機每年為美國企業造成逾4,000億美元的損失。

Annand表示,技術領導者有責任採取預防措施,防範未來軟體更新出錯的影響。隨著IT組織朝向AI和自動化發展,這次停機事件凸顯了內部制衡機制的必要性。

防止下一次重大事故
分析師指出,風險緩解技術(如金絲雀部署)的重要性——在廣泛部署之前,先在受控條件下進行初步推出。

在這次停機事故後,CrowdStrike宣布將採取措施,重拾客戶信心,例如增加額外的驗證測試,並透過分階段部署策略推出新的更新。

TEKsystems公司的Microsoft全球夥伴關係總監Jen Kling表示:「品質保證和回歸測試至關重要。你不能盲目相信推出的任何更新。」

高階主管必須考慮,關鍵系統和應用程式是否應立即遵循發布週期,或者在確認其操作安全性之前,延遲更新是否較為合適。

Kling說:「當你進行業務持續性和災難復原規劃時,你必須考慮接受這些更新的速度。許多公司立即接受了推出的內容。」

在CrowdStrike事件之後,觀點的轉變已經開始出現。

相關文章