等了那么久,V7 终于来了。
在 GPT-4o 带着“图像时代”的锋芒横扫而来之后,Midjourney 的每一个动作,几乎都被放大在显微镜下——
它会怎么回应?会不会跟上?还是就此被远远甩开?
V7 没有喧哗登场,也没宣布什么划时代,但它递出来的东西,我觉得还是值得坐下来细看一看。
这次更新,主要几个变化是这样的:
它的图变得更“有感觉”了——
不是简单的清晰度提升,而是纹理、结构、光感和人物细节都有了肉眼可感的进步。
尤其在人像与复杂场景的处理上,连贯性更强,画面少了“拼贴感”,多了些呼吸。
语言理解也有进步。
不像过去那样非得精雕 prompt 才能画出接近图,现在用更自然的语言去描述,它也能抓住大意。
当然,它还没做到“你说什么它都懂”,但语义的包容度确实更高了。
这背后还有个小细节值得注意——个性化设置现在默认开启,但需要用户手动“解锁”,过程大约 5 分钟。
意味着 V7 正在尝试打造“每个人的 Midjourney”,而不是统一风格的流水线。
不过我得说一句实话:
它在生成“图中文字”这块,还是没突破。
从 V6 开始,Midjourney 就在“让图里出现准确可读的文字”上栽了跟头。
到了 V7,尽管在语言理解上做了优化,但一旦让它在画面中嵌入句子、品牌名、标语,结果还是熟悉的跑偏——字母错漏、拼写混乱、语义脱节,几乎是常态。
所以看到有用户吐槽“文字生成依然失败”,我其实并不意外。
这是一堵预料之中的墙。
这不只是一个 bug,更是一种路径上的限制。
Midjourney 是从“图像”出发训练的,它没有真正经历过“语言建模”的学习过程,自然也无法像 GPT-4o 那样精准控制字词的输出。
Midjourney 不是语言模型,它的路径决定了它更擅长“画意境”而不是“读语言”。
它不是没尽力,而是压根没把“字”当作第一语言。
Midjourney 画得了诗意,却写不出一句清晰的字。
这堵墙,从 V6 就在那里,只是这次,大家期待它能翻过去——
结果它还是绕开了。
但就在这样的技术现实下,它推出了一个我非常关注的新功能:
草稿模式(Draft Mode)。
虽然我还没测试过,但从用户的描述来看,它像是一次创作体验上的轻盈革命:
一半价格,十倍速度,还能直接用语音生成图像。
你不再需要构思完整句子,只要开口说,它就开始画了。
有用户说,
“你只需要对 AI 说一句话,梦想就会在眼前展开。”
我相信这句话不是夸张,而是一种新的“创作姿态”:
你不再被 prompt 拖住,也不需要追求完美起笔,只是想先画出来看看,草稿模式就成了那个“试着开始”的起点。
这种轻盈感,我很期待亲手试试。
哪怕它现在还不完美,但从方向上来说,它确实在往“理解人”的路上走。
未来 60 天,官方还会每一两周持续更新,像是角色与物体参考图、风格个性化、Moodboard 调整、SREF 控制等等,慢慢把 V7 的轮廓补全。
Midjourney 没有加速赶路,但它在认真打磨脚下的砖。
在这场关于“图像工具未来形态”的竞赛里,它选择的路线,也许不是最快,但可能更有自己的味道。