OpenAI 发布 EVMbench：AI在Defi上偷钱，黑客都得失业...

一直说Crypto抱腿AI是热脸贴冷屁股，但是在最近加密市场遇冷的时候，OpenAI 推出了 EVMbench，让不少加密圈的小伙伴开始激动了~

EVMbench 是什么？

首先你并没有看错，这里的EVM确实指的就是Ethereum Virtual Machine（以太坊虚拟机），也就是以太坊和大多数兼容链运行智能合约的底层环境。

但是这次OpenAI推出的EVMbench 不是一条链，也不是以太坊升级，而是一个 AI 测试工具。

这次的EVMbench和加密圈的关系也很深，因为这套工具的开发者，除了OpenAI之外，还有知名加密基金Paradigm和Web3 安全审计公司OtterSec。

目前这个EVMbench是以论文（见结尾“阅读原文”）的形式发表的，我今天也来个硬核的，给大家解读一下~

熟悉链上的朋友们都知道，智能合约简直就是个“黑暗森林”，不断有黑客扫描各种攻击机会，一旦漏洞被发现，就会造成难以挽回的重大损失。

因此不少项目方都选择花钱做代码安全审计。

但是OpenAI认为，链上环节特别适合作为AI的评测环境，因为所有数据和信息都在链上可查可验证~

然后他们就在真实的Defi环境中，找到了几百个真实项目。这些项目平均有一两千行代码，含有多个合约。

所以这个EVMBench（Bench有审判席的意思），就是让主流的 AI模型（GPT/Gemini/Claude）在这些项目上干这三件事：

然后评分看哪个干得好~

审计不行，偷钱行！

最后开发团队发现AI在发现或者修复漏洞方面表现一般，但是利用漏洞攻击合约的能力倒是很强！

在已知合约有关问题的情况，只有不到一半的漏洞能被发现或者修复，这只算是一般水平的“代码审计师”。

但是作为黑客偷钱成功的概率，高达70%以上！

而且AI 无论是当“链上黑客”还是当“审计员”，只要算力给够（AI 输出 token 数量），表现都能有明显提升。

各 AI 模型结果

讲到这里，大家肯定很关心各个模型到底谁比较厉害~

其实从前面的图表也可以看出，检测漏洞最厉害的是Claude Opus 4.6，它找到的漏洞按真实审计奖励能赚3.8万美金！

但是修复漏洞和偷钱能力最强的，还是OpenAI的GPT 5.3-Codex (毕竟是自己人写的论文，不能输呀)。

如果AI有个工程师给点提示的话，AI几乎在审计和偷钱方面的成功率，都可以达到90%以上！

总结

{{userData.name}}已认证