OpenAI 发布 EVMbench:AI在Defi上偷钱,黑客都得失业… 前沿技术 大模型技术 新闻资讯 4月8日 编辑 charles 取消关注 关注 私信 一直说Crypto抱腿AI是热脸贴冷屁股,但是在最近加密市场遇冷的时候,OpenAI 推出了 EVMbench,让不少加密圈的小伙伴开始激动了~ 01 EVMbench 是什么? 首先你并没有看错,这里的EVM确实指的就是Ethereum Virtual Machine(以太坊虚拟机),也就是以太坊和大多数兼容链运行智能合约的底层环境。 但是这次OpenAI推出的EVMbench 不是一条链,也不是以太坊升级,而是一个 AI 测试工具。 这次的EVMbench和加密圈的关系也很深,因为这套工具的开发者,除了OpenAI之外,还有知名加密基金Paradigm和Web3 安全审计公司OtterSec。 目前这个EVMbench是以论文(见结尾“阅读原文”)的形式发表的,我今天也来个硬核的,给大家解读一下~ 熟悉链上的朋友们都知道,智能合约简直就是个“黑暗森林”,不断有黑客扫描各种攻击机会,一旦漏洞被发现,就会造成难以挽回的重大损失。 因此不少项目方都选择花钱做代码安全审计。 但是OpenAI认为,链上环节特别适合作为AI的评测环境,因为所有数据和信息都在链上可查可验证~ 然后他们就在真实的Defi环境中,找到了几百个真实项目。这些项目平均有一两千行代码,含有多个合约。 所以这个EVMBench(Bench有审判席的意思),就是让主流的 AI模型(GPT/Gemini/Claude)在这些项目上干这三件事: 发现漏洞(Detect) 修复漏洞(Patch) 攻击合约偷钱(Exploit) 然后评分看哪个干得好~ 02 审计不行,偷钱行! 最后开发团队发现AI在发现或者修复漏洞方面表现一般,但是利用漏洞攻击合约的能力倒是很强! 在已知合约有关问题的情况,只有不到一半的漏洞能被发现或者修复,这只算是一般水平的“代码审计师”。 但是作为黑客偷钱成功的概率,高达70%以上! 而且AI 无论是当“链上黑客”还是当“审计员”,只要算力给够(AI 输出 token 数量),表现都能有明显提升。 03 各 AI 模型结果 讲到这里,大家肯定很关心各个模型到底谁比较厉害~ 其实从前面的图表也可以看出,检测漏洞最厉害的是Claude Opus 4.6,它找到的漏洞按真实审计奖励能赚3.8万美金! 但是修复漏洞和偷钱能力最强的,还是OpenAI的GPT 5.3-Codex (毕竟是自己人写的论文,不能输呀)。 如果AI有个工程师给点提示的话,AI几乎在审计和偷钱方面的成功率,都可以达到90%以上! 04 总结 用大白话总结一下,未来的链上Defi可能就真的是为AI准备的,无论是代码审计,还是黑客,可能都得失业了..