凌晨4点,OpenAI的GPT4.5专场直播,终于姗姗来迟。
2023年3月15日,GPT4发布,要多惊艳有多惊艳,那时候,所有人都是统一的一句话:卧槽,太强了。
然后从2023年年末开始,整个行业都在预期下一代GPT模型要在2024年的年初发布。
果等了整整一年,多模态4o来了,全新的推理模型o1来了,可下一代GPT基座模型却迟迟没有身影。
在发布的规格上,也是着实有点惨淡,甚至连奥特曼都没来。更没有GPT4和GPT4o那种秀上天的演示。
只有跟去年十二天专场直播一样,一个朴实无华的小房间。
突然想起当年GPT4刚发布时,布罗克曼那一段惊艳的多模态实机演示,给我带来了真的不小的震撼。
在本子上画了一个网站的草稿,拍照给了GPT-4,然后前端界面就做好了,带了HTML的代码。
看着好像都比4o强一些,但是我发现一个很诡异的事情,因为AIME 2024那个基准,我测过kimi1.5、智谱的zero等等,所以记的比较熟。
在这个评测里,AIME2024几个模型的得分分别为:
GPT4.5:36.7%,GPT4o:9.3%,o3-mini(high):87.3%。
03-mini(high)的数据是没问题的,跟之前发布o3-mini的时候得分一致。
但是在o1发布的时候,我明明记得,对比图里的4o的AIME2024的得分,是13.4啊。
怎么今天这发了个GPT4.5,GPT4o的评分还能掉4个点的,这也太抽象了。。。
第一个是准确度,第二个幻觉率,有一说一,这块确实不错,至少是OpenAI家最准的模型了。
他们自己列了一个还算比较好玩的题,让GPT-1到GPT-4.5全都答了一遍,这个世纪问题是这样的:
而GPT4.5,终于会诚实的告诉你,我不知道了,这是一个未解之谜。
至于代码这块,本身也不是推理模型,所以也并没有指望特别多强。
不过根据三方的基准测试,就纯能力上,看着还行,打不过Claude 3.7 Sonnet也正常,再怎么说那也是Claude。
X上有大佬也测了下那个经典的物理小球case,效果挺不错的。
但是,还有一点是不得不提的,就是抛开成本谈能力,那就是耍流氓。
GPT-4.5的价格,在我第一次看到的时候,我以为我眼睛出问题了。
每百万输入是75刀,每百万输出是150刀,哥,Claude 3.7百万输入才3美刀,百万输出才15美刀。
我都不想拿DeepSeek跟你比,都是非推理模型,DeepSeek v3的价格你知道多少吗。
人百万输入人民币2块钱,相当于0.27美刀,输出是8块钱,相当于1.1美刀。
输入是DeepSeek v3的280倍,输出是150倍,不是,我真的不理解啊。
目前,GPT-4.5已经对200刀的Pro会员开放,预计这几天就对Plus和Team用户开放。
我自然也是第一时间拿到了GPT-4.5的体验资格。
目前识图、搜索、画布啥的都支持,但是4o的语音、视频、共享屏幕啥的都没有,算是个退步。
而且有BUG,就是在问一些史实性的问题的时候,我明明没开搜索,非要给我强制开搜索去回答,就非常的离谱。
相比于4o,他们所说的情商能力,确实有了一些进步。
比如这个问题:朋友总是爽约,我想发短信表达愤怒但又不想绝交,我该怎么回复他。
如果是4o的回答,就会很der比,一股子没脑子没情商的人机味。
然后我又问了一个小小的逻辑问题,GPT-4o能理解。
GPT-4.5直接懵逼了,一直在理解情绪,这情商高的把智商干没了?
然后就是写作能力了,我自己测了几个常用的写作故事case,感觉…好像也不是那么尽人意,而且超级慢,慢的我想吐,感觉回到了GPT-4的年代了,一个字一个字的往外面蹦跶。
我都不说跟Claude 3.7和Grok3还有R1比,我真的觉得,还不如前段时间迭代后的GPT4o写的好,真的稀碎。。。
坦率的讲,对OpenAI期待有多大,失望就有多大。
就现在的状况,我觉得你永远可以相信DeepSeek。
未来GPT-5是整合了o3的模型,也是混合模型了。
你但凡慢一点,或者停下,身边的竞争者,就会呼啸而过。
以上,既然看到这里了,如果觉得不错,随手点个赞、在看、转发三连吧,如果想第一时间收到推送,也可以给我个星标⭐~谢谢你看我的文章,我们,下次再见。
>/ 作者:卡兹克
>/ 投稿或爆料,请联系邮箱:wzglyay@gmail.com