所以 OpenZeppelin 审计了 EVMBench,这个来自 OpenAI 和 Paradigm 的 AI 安全基准。结果发现,AI 审计员基本上只是记住了他们训练数据中的漏洞 🧵 /1
在训练截止日期之前发布的每份审计报告都已融入模型中。因此,当它 "发现" 一个重入漏洞时,它并不是在推理你的代码,而只是将模式与它已经记住的数百份报告进行匹配。
展示一个教科书式的 ERC-777 重入攻击,它会立即亮起。关键发现,这里是 CVE,这里有 12 个类似事件。 展示一个它从未见过的机制中的新会计错误?它会标记缺失的事件并继续前进。
可怕的部分不是它遗漏了东西。可怕的部分是它在遗漏东西时完全自信。没有犹豫。只是感觉和模式匹配。无疑是有用的,但也不够。
这正是我们选择人类审计员来进行 alchemix v3 的原因。我们的 earmark/redeem 系统、复杂的 epoch+index 数学、存活累积器。这些在任何训练语料库中都不存在。没有例子。AI 根本无法理解它。
160