所以 openzeppelin 審核了 evmbench,這是來自 openai 和 paradigm 的 AI 安全基準。結果發現 AI 審計員基本上只是記住了他們訓練數據中的錯誤 🧵 /1
在訓練截止日期之前發布的每一份審計報告都已經融入模型中。因此,當它 "發現" 一個重入漏洞時,它並不是在推理你的代碼,而只是將模式與它已經記住的數百份報告進行匹配。
展示一本教科書式的 ERC-777 重入漏洞,它會立即亮起。關鍵發現,這是 CVE,這裡有 12 起類似事件。 展示一個它從未見過的機制中的新穎會計錯誤?它會標記缺失的事件並繼續前進。
可怕的部分不是它漏掉了東西。可怕的部分是它在漏掉東西的同時卻完全自信。毫不猶豫。只是感覺和模式匹配。無疑是有用的,但也不夠充分。
這正是我們為什麼選擇人類審計師來進行 alchemix v3 的原因。我們的標記/兌換系統、打包的 epoch+index 數學、生存累積器。這些在任何訓練語料庫中都不存在。零例子。AI 根本無法看見它。
103