原文:YQ
10 月 20 日,亞馬遜雲端服務(AWS)再次經歷了重大中斷,嚴重影響了加密貨幣基礎設施。香港時間下午 16 點左右開始,AWS 位於 US-EAST-1 區域(北維吉尼亞資料中心)的問題導致 Coinbase 以及包括 Robinhood 、 Infura 、 Base 和 Solana 在內的數十個主要加密貨幣平台的當機。
AWS 已經承認其核心資料庫和運算服務——Amazon DynamoDB 和 EC2——出現了「錯誤率增加」的情況,而這正是成千上萬家公司所依賴的服務。這次中斷,為本文的核心論點提供了直接而鮮明的印證:加密基礎設施對中心化雲端服務供應商的依賴,創造了系統性的脆弱點,這些脆弱點在壓力下會反覆暴露出來。
這個時機極具警示意義。在價值 193 億美元的清算瀑布暴露了交易所層面的基礎設施失靈僅十天后,AWS 中斷表明,問題已經從單一平台延伸到了基礎的雲端基礎設施層面。當 AWS 出現故障時,其連鎖反應會同時衝擊中心化交易所、去中心化」但仍依賴中心化組件的平台,以及無數依附其上的服務。
這並非孤立事件,而是長期模式的延續。 2025 年 4 月、 2021 年 12 月以及 2017 年 3 月均發生過類似的 AWS 當機事件,每次都導致主流加密貨幣服務中斷。問題已不在於「是否」會再次發生,而在於「何時」以及「由何觸發」。
2025 年 10 月 10 至 11 日的清算瀑布
這場發生於 2025 年 10 月 10 日至 11 日的清算連鎖事件,成為基礎設施失效機制的典型案例。 UTC 時間 10 月 10 日 20:00(香港時間 10 月 11 日 4:00),一項重大地緣政治公告引發市場普遍拋售。短短一小時內,清算規模高達 60 億美元。當亞洲市場開盤時,槓桿部位的整體蒸發額已達 193 億美元,波及 160 萬名交易者帳戶。

關鍵轉折點包括 API 限速、做市商退出、訂單簿流動性急劇下降。
- 20:00-21:00:初期衝擊-清算 60 億美元(紅區)
- 21:00-22:00:清算高峰-42 億美元,API 開始限流
- 22:00-04:00:持續惡化-91 億美元,市場深度極度稀薄

此次事件的規模超越以往任何加密市場事件至少一個數量級。縱向比較可見此事件的跳躍式特徵:
- 2020 年 3 月(疫情期間):12 億美元
- 2021 年 5 月(市場暴跌):16 億美元
- 2022 年 11 月(FTX 崩盤):16 億美元
- 2025 年 10 月:193 億美元,為此前紀錄的 16 倍
然而,清算數據只是表象。更關鍵的問題在於機制層面:外部市場事件為何能觸發如此特定的失效模式?答案揭示了中心化交易所架構與區塊鏈協議設計中存在的系統性弱點。
鏈下失靈:中心化交易所的架構問題
基礎設施過載與速率限制
交易所的 API 通常設有限速機制,用於防止濫用並維持伺服器負載穩定。在常規環境下,這種限制可阻止攻擊並確保交易順暢。然而在極端波動期間,當成千上萬交易者同時嘗試調整部位時,這個機制反而成為瓶頸。
在此次清算期間,CEX(中心化交易所)將清算通知限速為每秒一單,而係統實際需處理數千單。結果,資訊透明度驟降,用戶無法即時了解連鎖清算的嚴重程度。第三方監控工具顯示每分鐘數百筆清算,而官方數據卻少得多。
API 限速導致交易者在最關鍵的首小時內無法調整部位。連線請求逾時、下單失敗、停損指令未能執行、倉位資料延遲更新-所有這些都將市場事件轉化為操作性危機。
傳統交易所通常為「常規負載+安全冗餘」進行資源配置,但常規負載與極端負載之間差距極大。日均交易量不足以預測極端壓力下的需求高峰。在連鎖清算期間,交易量可激增 100 倍,部位查詢次數甚至飆升 1,000 倍。每位使用者同時檢查帳戶,令系統幾乎癱瘓。

雲端基礎設施的自動擴容雖有幫助,但無法即時回應。建立額外資料庫副本需要幾分鐘,產生新的 API 網關實例同樣需數分鐘。而在這段時間內,保證金系統仍基於因訂單簿擁堵而失真的價格資料對部位進行結算標記。
預言機操縱與定價漏洞
在 10 月清算事件中,保證金系統的一個關鍵設計缺陷被揭露:部分交易所依據內部現貨價格而非外部預言機價格來計算抵押品價值。在常規市場環境下,套利者能維持不同交易所間的價格一致性,但當基礎設施承壓時,此連動機制失效。

攻擊路徑可分為五個階段:
- 初始拋售:對 USDe 施加 6000 萬美元的賣壓
- 價格操縱: USDe 在單一交易所從 1.00 美元暴跌至 0.65 美元
- 預言機失靈: 保證金系統採用被竄改的內部價格
- 觸發連鎖:抵押品被低估,引發強制清算
- 放大效應:總計 193 億美元的清算(322 倍的放大)
這次攻擊利用了幣安使用現貨市場價格來為封裝的合成抵押品定價的機制。當一名攻擊者將價值 6000 萬美元的 USDe 拋售到流動性相對稀薄的訂單簿中時,現貨價格從 1.00 美元暴跌至 0.65 美元。被配置為以現貨價格標記抵押品的保證金系統,將所有以 USDe 為抵押品的部位價值下調了 35% 。這引發了追加保證金通知和數千個帳戶的強制清算。
這些清算迫使更多賣單進入同一個缺乏流動性的市場,進一步壓低了價格。保證金系統觀察到這些更低的價格,並減記了更多的部位。這個回饋循環將 6000 萬美元的賣壓放大了 322 倍,最終導致了 193 億美元的強制清算。

這個循環回饋圖說明了瀑布的自我強化性質:
價格下跌→ 觸發清算→ 強制賣出→ 價格進一步下跌→ [循環重複]
如果有一個設計合理的預言機系統,這種機制是行不通的。如果幣安使用了跨多個交易所的時間加權平均價格(TWAP),那麼瞬間的價格操縱就不會影響抵押品的估值。如果他們使用了來自 Chainlink 或其他多源預言機的聚合價格訊息,這次攻擊也會失敗。
幾天前的 wBETH 事件亦暴露類似問題 Wrapped Binance ETH(wBETH)本應與 ETH 保持 1:1 的兌換率。但在瀑布期間,流動性枯竭,wBETH/ETH 的現貨市場出現了 20% 的折價。保證金系統因此相應地減記了 wBETH 抵押品,觸發了對那些實際上由底層 ETH 完全抵押的頭寸的清算。
自動減倉(ADL)機制
當清算無法以當前市價執行時,交易所會實施自動減倉(ADL)機制,將損失在獲利的交易員中進行社會化分攤。 ADL 會以當前價格強制平掉獲利的頭寸,以彌補被清算部位的虧空。
在 10 月的瀑布期間,幣安在多個交易對上執行了 ADL 。持有盈利多頭頭寸的交易員發現他們的交易被強制平倉,不是因為他們自身的風險管理失敗,而是因為其他交易員的頭寸變得資不抵債。
ADL 反映出中心化衍生性商品交易的底層架構選擇:交易所保證自身不虧損,因而損失必然由以下幾種方式承擔:
- 保險基金(交易所為彌補清算虧空而預留的資本)
- ADL(強制獲利交易員平倉)
- 社會化損失(將損失分攤給所有使用者)
保險基金規模相對於未平倉合約的比例決定了 ADL 的發生頻率。 2025 年 10 月,幣安的保險基金總額約 20 億美元。相對於 BTC 、 ETH 和 BNB 永續合約 40 億美元的未平倉合約,這提供了 50% 的覆蓋範圍。但在 10 月的瀑布期間,所有交易對的未平倉合約總額超過了 200 億美元,保險基金無法涵蓋虧空。
10 月瀑布事件後,幣安宣布,當 BTC 、 ETH 和 BNB 的 U 本位永續合約總未平倉量低於 40 億美元時,他們將保證不會發生 ADL 。這項政策雖提升信任,但也揭露了結構性矛盾:若交易所要完全避免 ADL,必須持有更大規模保險基金,而這會佔用本可獲利運用的資金。
鏈上故障:區塊鏈協議的局限性

- Solana (2024 年 2 月): 5 小時- 投票吞吐量瓶頸
- Polygon (2024 年 3 月): 11 小時- 驗證者版本不匹配
- Optimism (2024 年 6 月): 2.5 小時- 排序器過載(空投)
- Solana (2024 年 9 月): 4.5 小時- 垃圾交易攻擊
- Arbitrum (2024 年 12 月): 1.5 小時- RPC 供應商故障
Solana:共識瓶頸
Solana 在 2024-2025 年間經歷了多次中斷。 2024 年 2 月的中斷持續了約 5 小時,9 月的中斷持續了 4-5 小時。這些中斷源自於類似的根本原因:網路在遭受垃圾交易攻擊或極端活動時無法處理交易量。
Solana 的架構為高吞吐量進行了最佳化。在理想條件下,網路每秒可處理 3000-5000 筆交易,並實現亞秒最終確定性。這一性能比以太坊高出幾個數量級。但在壓力事件中,這種最佳化反而製造了漏洞。
2024 年 9 月的中斷是由大量的垃圾交易淹沒了驗證者的投票機制所致。 Solana 的驗證者必須對區塊進行投票以達成共識。在正常操作中,驗證者會優先處理投票交易以確保共識進程。但先前的協議在費用市場上將投票交易與常規交易同等對待。
當交易記憶體池(mempool)被數百萬筆垃圾交易填滿時,驗證者難以廣播投票交易。沒有足夠的投票,區塊就無法最終確定。沒有最終確定的區塊,鏈就停止出塊。用戶的待處理交易卡在記憶體池中,新的交易也無法提交。
第三方監控工具 StatusGator 記錄 Solana 在 2024-2025 年多起服務中斷,而 Solana 官方並未發布正式說明。這造成資訊不對稱,使用者無法區分自身連線問題與網路整體問題。儘管第三方服務提供了監督,但平臺本身應具備完善狀態頁面以建立透明度。
以太坊:Gas 費爆炸
以太坊在 2021 年 DeFi 熱潮期間經歷了極端 Gas 費飆升。簡單轉帳的交易費超過 100 美元,複雜智能合約互動甚至高達 500-1000 美元。這使網路對小額交易幾近不可用,同時催生了另一種攻擊媒介:MEV(最大可提取價值)提取。

- 以太坊: 5 美元 (正常) → 450 美元 (壅塞高峰) – 成長 90 倍
- Arbitrum: 0.50 美元→ 15 美元- 成長 30 倍
- Optimism: 0.30 美元→ 12 美元- 成長 40 倍
在高 Gas 費環境下,成為驗證者的重要利潤來源。 MEV 指的是驗證者透過重新排序、包含或排除交易來獲得的額外收益。在這種情況下,套利者競相搶跑大型 DEX 的交易,而清算機器人則爭相率先清算抵押不足的部位。這種競爭導致 Gas 費競價戰加劇,即使是較低成本的 Layer 2 解決方案也會因高需求而出現顯著的費用成長。高 Gas 費環境進一步放大了 MEV 的獲利機會,相關活動的頻率和規模均有所提升。
在擁塞期間希望確保交易被打包的用戶必須出價比 MEV 機器人更高。這就造成了交易費超過交易價值本身的情境。想領取你 100 美元的空投?請支付 150 美元的 Gas 費。需要添加抵押品以避免清算?請與支付 500 美元以獲得優先權的機器人競爭。
以太坊的 Gas 限制代表每個區塊可執行的計算總量。在擁塞期間,用戶為稀缺的區塊空間競價。費用市場依設計運作:出價更高者優先。然而,這項設計使網路在使用高峰時期變得越發昂貴,而正是在用戶最需要接入時。
Layer 2:排序器瓶頸
Layer 2 解決方案試圖透過將計算移至鏈下,同時透過定期結算繼承以太坊的安全性來解決這個問題。 Optimism 、 Arbitrum 和其他 Rollups 在鏈下處理數千筆交易,然後將壓縮後的證明提交給以太坊。這種架構在正常操作中成功降低了單筆交易的成本。
但 Layer 2 解決方案引入了新的瓶頸。 2024 年 6 月,當 25 萬個地址同時申領空投時,Optimism 經歷了一次中斷。負責在提交到以太坊之前對交易進行排序的組件——排序器——不堪重負。用戶在幾個小時內無法提交交易。
這次中斷揭示了將運算移至鏈下並不能消除對基礎架構的需求。排序器必須處理傳入的交易,對其進行排序、執行,並為以太坊結算產生詐欺證明或零知識證明。在極端流量下,排序器面臨與獨立區塊鏈相同的擴展挑戰。
必須有多個 RPC 提供者保持可用。如果主提供商失敗,用戶應能無縫切換到備用方案。在 Optimism 中斷期間,一些 RPC 提供者仍在運行,而另一些則失敗了。那些錢包預設為失敗提供者的用戶,即使鏈本身仍然存活,也無法與鏈進行互動。
AWS 當機一再揭示加密生態中的集中基礎設施風險:
- 2025 年 10 月 20 日: US-EAST-1 區當機,影響 Coinbase 、 Venmo 、 Robinhood 、 Chime 等。 AWS 承認 DynamoDB 與 EC2 服務錯誤率上升。
- 2025 年 4 月:區域性當機影響 Binance 、 KuCoin 、 MEXC 等多家交易所同日中斷。各大交易所 AWS 託管組件故障。
- 2021 年 12 月: US-EAST-1 中斷導致 Coinbase 、 Binance.US 和「去中心化」交易所 dYdX 當機 8-9 小時,同時也影響了亞馬遜自己的倉庫和主流串流服務。
- 2017 年 3 月: S3(Simple Storage Service)中斷導致用戶在長達五小時內無法登入 Coinbase 和 GDAX,同時引發了廣泛的網路中斷。
這些交易所將關鍵組件託管在 AWS 基礎設施上。當 AWS 經歷區域性中斷時,多個主要交易所和服務會同時變得不可用。在中斷期間——恰恰是市場波動可能需要立即採取行動的時候——用戶無法存取資金、執行交易或修改頭寸。
Polygon:共識版本不匹配
Polygon 在 2024 年 3 月因驗證器版本不一致問題發生了長達 11 小時的停機事故。這是主要區塊鏈網路中分析的事故中最長的一次,凸顯了共識失敗的嚴重性。問題的根源在於部分驗證器運行舊版本軟體,而其他驗證器已升級至新版本。由於兩個版本對狀態轉換的計算方式不同,導致驗證器對正確狀態的結論不一致,進而引發共識失敗。
鏈無法產生新區塊,因為驗證者無法就區塊的有效性達成一致。這造成了一個僵局:運行舊軟體的驗證者拒絕來自新軟體驗證者的區塊,而運行新軟體的驗證者也拒絕來自舊軟體的區塊。
解決方案需要協調驗證者進行升級。但在中斷期間協調升級需要時間。每個驗證者運營商都必須被聯繫上,必須部署正確的軟體版本,並重新啟動他們的驗證者。在一個擁有數百個獨立驗證者的去中心化網路中,這種協調需要數小時甚至數天。
硬分叉通常使用區塊高度作為觸發器。所有驗證者在特定的區塊高度前完成升級,確保同時啟動。但這需要提前協調。而漸進式升級,即驗證者逐步採用新版本,則存在造成像 Polygon 中斷那樣的版本不符風險。
架構的權衡

「區塊鏈三難困境」映照如下系統:
- 比特幣: 高度去中心化,低效能
- 以太坊: 高度去中心化,中等性能
- Solana: 中等去中心化,高效能
- 幣安 (CEX): 最低程度的去中心化,最高性能
- Arbitrum/Optimism: 中高程度去中心化,中等表現
核心洞見:沒有系統能同時實現最大程度的去中心化和最高性能。每種設計都為不同的用例做出了刻意的權衡。
中心化交易所透過架構的簡單性實現低延遲。撮合引擎以微秒處理訂單,狀態存在於中央資料庫中,沒有共識協議引入開銷。但這種簡單性也造成了單點故障。當基礎設施承受壓力時,級聯故障會透過緊密耦合的系統傳播。
去中心化協議將狀態分佈在驗證者之間,消除了單點故障。高吞吐量鏈在中斷期間也能維持此特性(資金不會流失,只是活性暫時受損)。但在分散式驗證者之間達成共識會引入計算開銷。在狀態轉換最終確定之前,驗證者必須達成一致。當驗證者運行不相容的版本或面臨壓倒性的流量時,共識過程可能會暫時停止。
增加副本可以提高容錯性,但會增加協調成本。在拜占庭容錯系統中,每增加一個驗證者都會增加通訊開銷。高吞吐量架構透過優化的驗證者通訊來最小化這種開銷,從而實現卓越效能,但也使其對某些攻擊模式變得脆弱。而注重安全的架構則優先考慮驗證者的多樣性和共識的穩健性,限制了基礎層的吞吐量,同時最大化了彈性。
Layer 2 解決方案試圖透過分層設計來同時提供這兩種特性。它們透過 L1 結算繼承以太坊的安全屬性,同時透過鏈下計算提供高吞吐量。然而,它們在排序器和 RPC 層引入了新的瓶頸,顯示架構的複雜性在解決一些問題的同時,也創造了新的故障模式。
擴展性仍是根本問題
這些事件揭示出一個反覆出現的模式:區塊鏈及交易系統在常規負載下運作良好,但在極端壓力下往往出現崩潰。
- Solana 能有效處理日常流量,但在交易量增加 10,000% 時崩潰了。
- 以太坊的 Gas 費在 DeFi 應用程式普及前保持合理,但隨後因壅塞大幅上漲。
- Optimism 的基礎設施在正常情況下運作順暢,但在 25 萬地址同時領取空投時出現問題。
- 幣安的 API 在正常交易中功能正常,但在清算潮中因流量激增而受限。尤其是在 2025 年 10 月的事件中,幣安的 API 速率限制和資料庫連接在常規操作中足夠,但清算潮中所有交易者同時調整倉位,導致這些限製成為瓶頸。此外,為保護交易所設計的強制平倉機制在危機時刻反而加劇了問題,迫使大量用戶在最差時刻成為賣方。
自動擴容在面對突發性負載激增時顯得不足,因為新增伺服器需要數分鐘時間上線。在這段期間,保證金系統可能基於流動性不足的訂單簿產生錯誤的價格資料進行部位標記。當新伺服器上線時,清算連鎖反應已經擴散。
為應對罕見的壓力事件而進行過度配置會增加日常營運成本,因此交易所通常會優化系統以應對典型負載,並接受偶爾的失敗作為經濟上的合理選擇。然而,這種選擇將停機的成本轉嫁給用戶,造成用戶在關鍵市場波動期間面臨清算、交易卡頓或無法存取資金的問題。
基礎設施的改進

2024-2025 年間基礎設施故障的主要原因包括:
- 基礎設施過載: 35% (最常見)
- 網路壅塞: 20%
- 共識失敗: 18%
- 預言機操縱: 12%
- 驗證者問題: 10%
- 智能合約漏洞: 5%
可採取若干架構改進以減少失敗頻率與嚴重程度,但每項均伴隨權衡:
1. 分離定價與清算系統
10 月事件部分起因在於將保證金結算綁定至現貨市場價格。若使用封裝資產兌換率而非現貨價格,可避免 wBETH 估價失真。更廣義地說,關鍵風險管理系統不應依賴可能被操縱的市場數據。採用獨立預言系統、多源聚合、 TWAP 計算可提供更可靠價格。
2. 超額配置與冗餘基礎設施
2025 年 4 月影響幣安、 KuCoin 和 MEXC 的 AWS 中斷事件,展示了集中的基礎設施依賴風險。在多個雲端供應商之間運行關鍵元件會增加營運複雜性和成本,但能消除相關性故障。 Layer 2 網路可以維護多個具有自動故障切換功能的 RPC 提供者。在正常運作期間,額外的開銷似乎是浪費,但在需求高峰期可以防止數小時的停機。
3. 加強壓力測試與容量規劃
系統「運作良好直到失效」的模式表示壓力測試不足。模擬 100 倍正常負載應成為標準做法。在開發中識別瓶頸比在實際中斷中發現它們的成本要低得多。然而,真實的負載測試仍然具有挑戰性。生產環境的流量表現出合成測試無法完全捕捉的模式。使用者在真實崩盤期間的行為與測試期間不同。
前進之路
區塊鏈系統在技術上取得了顯著進步,但在應對壓力測試時仍存在顯著不足。目前系統依賴傳統業務時間設計的基礎設施,而加密市場是全球性、持續運作的,這導致在非正常工作時間發生壓力事件時,團隊需要緊急處理問題,而使用者則可能面臨巨大損失。傳統市場在壓力情況下會暫停交易,而加密市場只會熔斷。這種情況究竟是系統特性還是缺陷,取決於不同角度與立場。
超額配置是解決問題的可靠方案,但與經濟誘因相衝突。維持超額容量的成本高昂,僅需因應罕見事件。除非災難性故障帶來的成本夠高,否則產業可能不會主動採取措施。
監管壓力可能成為改變的推動力,例如要求 99.9% 的正常運作時間或限制可接受的停機時間。然而,監管通常是在災難發生後才出台,例如 Mt. Gox 在 2014 年倒閉後促使日本製定了加密貨幣交易所的正式監管政策。預計 2025 年 10 月的連鎖反應將引發類似的監管響應,至於這些反應是規定結果(如最大可接受停機時間、清算期間的最大滑點),還是規定實施方式(如特定的預言機提供商、熔斷器閾值),目前尚不確定。
產業需要在牛市中優先考慮系統的穩健性,而非成長。在市場繁榮時,停機問題往往被忽視,但下一輪週期的壓力測試可能會暴露新的弱點。業界是會從 2025 年 10 月的事件中學到教訓,還是會重蹈覆轍,這仍然是一個懸而未決的問題。歷史表明,行業通常透過數十億美元的失敗來發現關鍵漏洞,而不是主動改進系統。區塊鏈系統若要在壓力下保持可靠性,需要從原型架構轉向生產級基礎設施,這不僅需要資金支持,還需要在開發速度與穩健性之間找到平衡。
(以上內容獲合作夥伴 PANews 授權節錄及轉載,原文連結 )
免責聲明:本文只為提供市場訊息,所有內容及觀點僅供參考,不構成投資建議,不代表區塊客觀點和立場。投資者應自行決策與交易,對投資者交易形成的直接或間接損失,作者及區塊客將不承擔任何責任。