also hat OpenZeppelin EVMBench geprüft, dieses KI-Sicherheitsbenchmark von OpenAI und Paradigm. Es stellt sich heraus, dass KI-Prüfer im Grunde genommen nur Fehler aus ihren Trainingsdaten erinnern 🧵 /1
Jeder Prüfbericht, der vor dem Trainingsstopp veröffentlicht wurde, ist in das Modell integriert. Wenn es also einen Reentrancy-Bug "findet", denkt es nicht über deinen Code nach, sondern vergleicht einfach Muster mit Hunderten von Berichten, die es bereits auswendig gelernt hat.
zeige es ein Lehrbuch-ERC-777-Reentrancy und es leuchtet sofort auf. Kritischer Befund, hier ist die CVE, hier sind 12 ähnliche Vorfälle zeige es einen neuartigen Buchhaltungsfehler in einem Mechanismus, den es noch nie gesehen hat? Es kennzeichnet fehlende Ereignisse und macht weiter
Der beängstigende Teil ist nicht, dass es Dinge übersieht. Der beängstigende Teil ist, dass es dabei völlig überzeugt ist, während es Dinge übersieht. Null Zögern. Nur Vibes und Mustererkennung. Zweifellos nützlich, aber auch unzureichend.
genau aus diesem Grund haben wir uns für menschliche Prüfer für Alchemix V3 entschieden. Unser Earmark-/Einlöse-System, gepackte Epoch-+Index-Mathematik, Überlebensakkumulatoren. Nichts davon existiert in irgendeinem Trainingskorpus. Null Beispiele. KI kann es buchstäblich nicht sehen.
88