新聞中心
PRESS CENTER2022 年最嚴重的網(wǎng)絡(luò)和服務(wù)中斷產(chǎn)生了深遠的影響。航班停飛,虛擬會議中斷,通信受阻。
根據(jù)思科擁有的網(wǎng)絡(luò)情報公司ThousandEyes的分析,導(dǎo)致主要基礎(chǔ)設(shè)施和服務(wù)提供商癱瘓的罪魁禍?zhǔn)滓捕喾N多樣,該公司是一家跟蹤互聯(lián)網(wǎng)和云流量的網(wǎng)絡(luò)情報公司。與維護相關(guān)的錯誤不止一次被引用:加拿大運營商羅杰斯通信公司經(jīng)歷了一次大規(guī)模的全國性中斷,這可以追溯到維護更新,維護腳本錯誤給軟件制造商Atlassian帶來了問題。
BGP 配置錯誤也出現(xiàn)在排名靠前的中斷報告中。邊界網(wǎng)關(guān)協(xié)議告訴互聯(lián)網(wǎng)流量要采用什么路由,但如果路由信息不正確,那么流量可能會被轉(zhuǎn)移到不正確的路由,這發(fā)生在Twitter上。(在我們的每周互聯(lián)網(wǎng)健康檢查中閱讀有關(guān)美國和全球中斷的更多信息。
以下是一年中排名前 10 位的中斷,按時間順序排列。
英國航空丟失在線系統(tǒng):2 月 25 日
2 月 25 日,英國航空公司的在線服務(wù)數(shù)小時無法訪問,導(dǎo)致數(shù)百架航班取消并中斷航空公司運營。無法預(yù)訂航班,旅客也無法以電子方式辦理登機手續(xù)。據(jù)報道,當(dāng)其在線系統(tǒng)無法訪問時,該航空公司被迫恢復(fù)基于紙張的流程,并且在全球范圍內(nèi)都感受到了影響?!拔覀兊谋O(jiān)控顯示,航空公司在線服務(wù)(和服務(wù)器)的網(wǎng)絡(luò)路徑是可以訪問的,但服務(wù)器和站點響應(yīng)超時,”ThousandEyes在其中斷分析中表示,該分析將故障歸咎于無響應(yīng)的應(yīng)用程序服務(wù)器 - 而不是網(wǎng)絡(luò)問題 - 中斷。
“問題的性質(zhì)以及航空公司對此的反應(yīng)表明,根本原因可能是多個前端服務(wù)所依賴的中央后端存儲庫。如果是這種情況,此事件可能會成為英國航空公司重新構(gòu)建或解構(gòu)其后端以避免單點故障并降低再次發(fā)生的可能性的催化劑。然而,同樣可能的是,導(dǎo)致停電的一系列事件很少發(fā)生,并且將來可以大部分控制。時間會證明一切,“千眼說。
推特被BGP劫持:3月28日
3月28日,俄羅斯互聯(lián)網(wǎng)和衛(wèi)星通信提供商JSC RTComm.RU 不當(dāng)宣布了Twitter的前綴之一(104.244.42.0/24),導(dǎo)致發(fā)往Twitter的流量被重新路由到某些用戶并失敗后,某些用戶無法使用Twitter。在RTComm的BGP公告被撤回后,受影響的用戶恢復(fù)了對Twitter服務(wù)的訪問。ThousandEyes指出,BGP錯誤配置可用于有針對性地阻止流量 - 但是并不總是很容易分辨出情況是意外的還是故意的。
“我們知道,3月28日的推特事件是由RTComm宣布自己是推特前綴的起源,然后撤回它引起的。雖然我們不知道是什么導(dǎo)致了這一宣布,但重要的是要了解BGP的意外配置錯誤并不少見,并且鑒于ISP撤回了該路由,RTComm很可能無意對Twitter的服務(wù)造成全球影響的中斷。也就是說,某些地區(qū)的ISP已經(jīng)使用BGP的本地化操縱來根據(jù)本地訪問策略阻止流量,“ThousandEyes在其中斷分析中表示。
組織處理路由泄漏和劫持的一種方法是監(jiān)視快速檢測,并使用資源公鑰基礎(chǔ)結(jié)構(gòu) (RPKI)(用于執(zhí)行路由源授權(quán)的加密安全機制)等安全機制來保護 BGP。RPKI 對 BGP 劫持和泄漏有效,但采用并不廣泛?!半m然您的公司可能實施了RPKI來抵御BGP威脅,但您的電信公司可能不會。選擇ISP時需要考慮的事情,“ThousandEyes說。
Atlassian 夸大了中斷影響:4 月 5 日
Atlassian 在 4 月 5 日上午報告了其幾個最大的開發(fā)工具存在的問題,包括 Jira、Confluence 和 OpsGenie。維護腳本錯誤導(dǎo)致這些服務(wù)中斷數(shù)天,但僅影響了大約 400 名 Atlassian 客戶。
ThousandEyes在分析中斷時強調(diào)了供應(yīng)商狀態(tài)頁面在報告問題時的重要性:Atlassian的狀態(tài)頁面有“橙色和紅色指示器的海洋”,表明發(fā)生了嚴重的中斷,該公司表示將動員數(shù)百名工程師來糾正事件,但對于大多數(shù)客戶來說,沒有問題。
狀態(tài)頁面通常低估了中斷的程度,但狀態(tài)頁面也可能夸大其影響,ThousandEyes警告說:“這是一個非常困難的平衡:說得太少或太晚,客戶會對響應(yīng)能力感到不安;說得太多,過于透明,冒著不必要地擔(dān)心大量未受影響的客戶以及更廣泛的利益相關(guān)者的風(fēng)險。
羅杰斯停電削減了加拿大各地的服務(wù):7月8日
拙劣的維護更新導(dǎo)致加拿大運營商羅杰斯通信公司的網(wǎng)絡(luò)在全國范圍內(nèi)長期中斷。停電影響了約1200萬客戶的電話和互聯(lián)網(wǎng)服務(wù),并阻礙了全國的許多關(guān)鍵服務(wù),包括銀行交易,政府服務(wù)和應(yīng)急響應(yīng)能力。
根據(jù)ThousandEyes的說法,由于內(nèi)部路由問題,羅杰斯撤回了其前綴,這使得一級提供商在近24小時內(nèi)無法通過互聯(lián)網(wǎng)聯(lián)系?!斑@一事件似乎是由大量羅杰斯前綴的撤回引發(fā)的,這使得他們的網(wǎng)絡(luò)無法通過全球互聯(lián)網(wǎng)訪問。然而,在這段時間內(nèi)在其網(wǎng)絡(luò)中觀察到的行為表明,外部BGP路由的退出可能是由內(nèi)部路由問題引起的,“ThousandEyes在其中斷分析中表示。
羅杰斯停電是一個重要的提醒,提醒人們關(guān)鍵服務(wù)需要冗余;ThousandEyes建議,擁有多個網(wǎng)絡(luò)提供商,為發(fā)生中斷制定備份計劃,并確保具有主動可見性。“任何提供商都無法幸免于中斷,無論停電有多大。因此,對于醫(yī)院和銀行等關(guān)鍵服務(wù),計劃一個可以減輕中斷長度和范圍的備份網(wǎng)絡(luò)提供商,“ThousandEyes寫道。
AWS 美國東部區(qū)域停電:7 月 8 日
7 月 28 日的電源故障中斷了美國東部 2 區(qū)域中亞馬遜云科技 (AWS) 可用區(qū) 1 (AZ1) 內(nèi)的服務(wù)?!爸袛嘤绊懥伺c該地區(qū)的連接,并導(dǎo)致亞馬遜的EC2實例癱瘓,這影響了Webex,Okta,Splunk,BambooHR等應(yīng)用程序,”ThousandEyes在其中斷分析中報道。并非所有用戶或服務(wù)都受到同等影響;例如,位于思科數(shù)據(jù)中心的 Webex 組件仍可正常運行。AWS報告稱,停電僅持續(xù)了大約20分鐘,但其某些客戶的服務(wù)和應(yīng)用程序需要長達三個小時才能恢復(fù)。
為云交付的應(yīng)用程序和服務(wù)設(shè)計一定程度的物理冗余非常重要,ThousandEyes寫道:“數(shù)據(jù)中心停電沒有軟著陸 - 當(dāng)電源停止時,依賴的系統(tǒng)會很難。無論是電網(wǎng)中斷還是相關(guān)系統(tǒng)(如UPS電池)的故障,在這樣的時代,數(shù)字服務(wù)的架構(gòu)彈性和冗余至關(guān)重要。
谷歌搜索,谷歌地圖淘汰:8月9日
短暫的中斷影響了谷歌搜索和谷歌地圖,這些廣泛使用的谷歌服務(wù)在大約一個小時內(nèi)無法提供給世界各地的用戶。“嘗試訪問這些服務(wù)會導(dǎo)致來自Google邊緣服務(wù)器的錯誤消息,包括HTTP 500和502服務(wù)器響應(yīng),這些響應(yīng)通常表明內(nèi)部服務(wù)器或應(yīng)用程序問題,”ThousandEyes報道。
據(jù)報道,根本原因是軟件更新出錯。不僅最終用戶無法訪問谷歌搜索和谷歌地圖,而且依賴谷歌軟件功能的應(yīng)用程序在中斷期間也停止工作。
出于幾個原因,IT專業(yè)人員對中斷感興趣,ThousandEyes指出?!笆紫?,它強調(diào)了這樣一個事實,即即使是最穩(wěn)定的服務(wù),例如Google Search,我們很少遇到問題或聽說中斷的服務(wù),仍然受到可能破壞任何復(fù)雜數(shù)字系統(tǒng)的相同力量的影響。其次,該活動揭示了一些軟件系統(tǒng)是多么普遍,通過我們每天消費的許多數(shù)字服務(wù)交織在一起,卻沒有意識到這些軟件依賴關(guān)系。
縮放中斷破壞虛擬會議:9 月 15 日
在 9 月 15 日的中斷期間,用戶無法登錄或加入 Zoom 會議大約一個小時,這給全球用戶帶來了錯誤的網(wǎng)關(guān) (502) 錯誤。用戶無法登錄或加入會議,在某些情況下,已經(jīng)在會議中的用戶被踢出會議。
根本原因尚未得到證實,“但它似乎在Zoom的后端系統(tǒng)中,圍繞他們解決,路由或重新分配流量的能力,”ThousandEyes在其中斷分析中表示。
Zscaler 代理遭受 100% 數(shù)據(jù)包丟失:10 月 25 日
10 月 25 日,發(fā)往 Zscaler 代理端點子集的流量經(jīng)歷了 100% 的數(shù)據(jù)包丟失,影響了在其 Zscaler 云網(wǎng)絡(luò) 2 上使用 Zscaler 互聯(lián)網(wǎng)接入 (ZIA) 服務(wù)的客戶。根據(jù)ThousandEyes的中斷分析,最嚴重的數(shù)據(jù)包丟失持續(xù)了大約30分鐘,盡管在接下來的三個小時內(nèi),某些用戶位置的一些可訪問性問題和數(shù)據(jù)包丟失峰值間歇性地持續(xù)存在。
Zscaler在其狀態(tài)頁面上將該問題稱為“流量轉(zhuǎn)發(fā)問題”。當(dāng)無法訪問代理設(shè)備的虛擬 IP 時,會導(dǎo)致無法轉(zhuǎn)發(fā)流量。
ThousandEyes解釋了這種情況如何使使用Zscaler安全服務(wù)的某些客戶無法訪問關(guān)鍵業(yè)務(wù)工具和SaaS應(yīng)用程序:“這可能影響了使用Zscaler服務(wù)的企業(yè)客戶的各種應(yīng)用程序,因為它在安全服務(wù)邊緣(SSE)實施中很典型,不僅代理Web流量,還代理其他關(guān)鍵業(yè)務(wù)工具和SaaS服務(wù),如Salesforce。 ServiceNow和Microsoft Office 365。因此,代理位于用戶的數(shù)據(jù)路徑中,當(dāng)無法訪問代理時,對這些工具的訪問會受到影響,修復(fù)通常需要手動干預(yù)才能將受影響的用戶路由到備用網(wǎng)關(guān)。
WhatsApp中斷消息傳遞:10月25日
10月25日的兩小時中斷導(dǎo)致WhatsApp用戶無法在平臺上發(fā)送或接收消息。元維基擁有的免費軟件是世界上最受歡迎的消息傳遞應(yīng)用程序——根據(jù)數(shù)字智能平臺 Similarweb 的 2022 年數(shù)據(jù),全球 31% 的人口使用 WhatsApp。
根據(jù)ThousandEyes的中斷分析,中斷與后端應(yīng)用程序服務(wù)故障有關(guān),而不是網(wǎng)絡(luò)故障。它發(fā)生在印度的高峰時段,該應(yīng)用程序擁有數(shù)億用戶群。
AWS 美國東部區(qū)域再次命中:12 月 5 日
亞馬遜網(wǎng)絡(luò)服務(wù) (AWS) 在 12 月初在其美國東部 2 區(qū)域遭受了第二次中斷。據(jù) AWS 稱,中斷持續(xù)了大約 75 分鐘,導(dǎo)致往返美國東部 2 區(qū)域的互聯(lián)網(wǎng)連接問題。
ThousandEyes 觀察到兩個全球位置和 AWS 的 US-East-2 區(qū)域之間的數(shù)據(jù)包丟失了一個多小時。該事件影響了通過 ISP 連接到 AWS 服務(wù)的最終用戶?!斑@種損失僅在通過ISP連接的最終用戶之間出現(xiàn),并且似乎不會影響區(qū)域內(nèi)或區(qū)域之間的實例之間的連接,”ThousandEyes在其中斷分析中表示。
當(dāng)天晚些時候,AWS發(fā)布了一篇博客,稱問題已解決。“區(qū)域內(nèi)實例之間、區(qū)域之間的連接以及直接連接不受此問題的影響。問題已經(jīng)解決,連接已經(jīng)完全恢復(fù),“該帖子說。