谷歌发布Gemini2.0,开启Agent新时代

谷歌抛出王炸杀手锏,先人一步开启Agent新时代。

整理丨允毅

编辑丨马晓宁

Open AI连续几天上新,谷歌也不甘示弱。

今天谷歌深夜炸群,重磅发布了杀手锏——Gemini2.0,声称“Gemini2.0 是我们迄今为止最新、功能最强大的 AI 模型。”

其最大的亮点是Gemini2.0 是第一家实现原生多模态输入输出的模型。

基于强大的新模型,谷歌又推出了三个AI agent产品,通用大模型助手Project Astra、浏览器助手Project Mariner、编程助手Jules,这一套“组合拳”下来,标志着谷歌AI已经初步做到了向“Agent”时代的转变。

谷歌DeepMind的CEO德米斯·哈萨比斯(Demis Hassabis)对此表示非常满意,因为Gemini 2.0 实际上达到了目前 Gemini 1.5 Pro 的水平。这意味着在保持相同成本效率、性能效率和速度的情况下,整体性能要整整提升一个档次。

1
Gemini2.0,第一个实现原生多模态输入输出的模型

在Gemini2.0发布前,谷歌发布的一款名为Gemini-exp-1206的模型已经火爆全网。该模型能够处理 200 万个标记(相当于一个多小时的视频),擅长处理大型复杂数据集。因为高超的性能,它在 Livebench 上排名第二,超过了Claude 3.5 Sonnet,直逼Open o1-preview。

谷歌发布Gemini2.0,开启Agent新时代

许多人猜测这可能就是Gemini2.0。

当Gemini2.0的实力真正揭开帷幕,比想象中还令人震撼。首先性能上全面升级。在速度方面,2.0 的速度是 1.5 Pro 的两倍,这一速度提升意味着用户将享受到更高效的处理能力和更快的响应时间。

谷歌发布Gemini2.0,开启Agent新时代

在性能方面,Gemini2.0可以支持图片、视频和音频等多模态输入与输出。可以直接生成图像与文本混合的内容,以及原生生成可控的多语言文本转语音(TTS)音频。它还可以原生调用Google Search、代码执行以及第三方用户定义的函数等工具。

基于Gemini2.0架构之上,谷歌推出了三个新的AI智能体