太疯狂了，Gemini可以用文本提示编辑图片了

google昨天更新了Gemini 2.0 Flash Experimental ，他多模态大幅提升，一句话总结：它能够用语言对一张图持续编辑调整，而且风格能够保持一致，图像不会产品畸变。Google AI Studio的产品经理宣布了他们还可以直接对视频链接进行对话分析。

下面我测试了一些case，从效果上看确实很惊艳了，能够持续对一张图片做更改，而且还可以直接输入视频链接，识别链接中的视频讲什么内容。

上传一张美女照片，然给给指令，第一次生成的项链不是珍珠项链，接着给新的指令，项链改成白色珍珠，效果非常棒！

太疯狂了，Gemini可以用文本提示编辑图片了

那么是不是，可以把两张照片组合起来，例如产品实物图，佩戴再模特身上，这效果绝了！！

可以准确识别两张图片，并且按照输入的要求组合起来，我只是提了一个要求：将第一张图中的项链佩戴到第二张图中的女孩脖子上。这直接抢p图的饭碗啊！

在油管上找了一个google AdSense 网站审批视频的教材链接，直接喂给Gemini，他花了一分钟总结了这个视频在讲什么。

为了测试是不是真的理解视频，而不是只提取了音轨。我又继续问：视频中出现了几个人，他们穿的什么衣服？ 回答结果非常准确！可以看出他确实理解了视频中的内容。

进入google aistudio，但需要有一个美国的ip，而且不是家宽，否则无法打开。地址如下：

https://aistudio.google.com/

选择Gemini 2.0 Flash Experimental，并且将输出格式选择为Images and text

{{userData.name}}已认证