Gemini 3.1 Flash-Lite 在展示“速度感”方面,比 GPT-5.3 Instant 最近主打的“对齐与聊天体验优化”更有冲击力。
Gemini 3.1 Flash-Lite 发布

主打“动态思考等级”与极致性价比

Google 发布了 Gemini 3.1 Flash-Lite(Preview),定位为 Gemini 3 系列中:
-
速度最快 -
成本最低 -
适合高并发场景
DeepMind 将其定位为一种 “规模化智能(intelligence at scale)”模型。
核心新特性是Dynamic Thinking Levels(动态思考等级)。开发者可以根据任务复杂度调节模型使用的计算资源:
-
简单任务 → 低计算量、低延迟 -
复杂任务 → 更高推理能力
类似于给模型加了一个“思考强度旋钮”。
关键性能指标
Jeff Dean 在 X 上公布了一些核心数据:
|
|
|
|---|---|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|

第三方机构 Artificial Analysis 的测试结果:
-
1M tokens 上下文 -
>360 tokens/s 输出速度 -
平均回答延迟约 5.1 秒
不过他们也指出实际混合成本比 2.5 Flash-Lite 有所上涨。
Arena 排名
根据 LMArena:
|
|
|
|---|---|
|
|
|
|
|
|
整体定位性能/成本边界上的一个强竞争点。
社区反应
AI 社区讨论最多的是两个点:
1 命名吐槽
很多人调侃:
Flash-Lite… very funny Google.
2 发布速度太快
Google 发布模型的速度比我测试模型还快。
多模态定位
Google 工程师还强调了 Flash-Lite 的一个实际用途:
“数据管道模型”
即用 Flash-Lite 直接处理各种输入,而不是写解析器。可以直接处理文本、图片、视频、音频、PDF。
这意味着它非常适合:
AI workflow / Agent pipeline。
感觉可以用来做 OpenClaw 小龙虾 🦞的模型。
OpenAI 推出 GPT-5.3 Instant

主打“更自然的聊天”
OpenAI 今天向所有 ChatGPT 用户推出 GPT-5.3 Instant。
这一版本明显是在回应用户对 5.2 的主要抱怨:
-
过度谨慎 -
免责声明过多 -
回答太保守
官方的目标是让模型更自然、更少“说教感”。

官方改进
OpenAI 宣称 GPT-5.3 Instant:
-
更自然的对话体验 -
更少无必要拒答 -
更少防御性免责声明 -
搜索结合回答更好
幻觉率改善
根据 OpenAI 内部数据:
|
|
|
|---|---|
|
|
|
|
|
|
API 与 Arena
目前:
-
API 中已出现 GPT-5.3-chat-latest -
LMArena 也已开放测试
开发者可以进行 side-by-side 对比评测。
GPT-5.4 被提前预告
OpenAI 还发布了一条高互动的推文:
“sooner than you think”
暗示 GPT-5.4 即将发布。但这引发了一些疑惑。此前 OpenAI 还表示 5.3 Thinking 和 Pro 版本还会继续推出。所以很多人不确定5.4 是否会提前上线。还有一些人猜测这可能是为了转移近期关于 DoD / NSA 合同争议 的舆论关注。
最后插一个 Anthropic 的收入增长曲线:
另外一个今天看到的数据,还是很震撼的。Anthropic 收入爆炸式增长:一年从 10 亿到 190 亿。刷新整个 AI 行业的纪录。
根据记者 Shirin Ghaffary 披露的数据,Anthropic 的 年度化收入(annualized revenue run rate) 在过去一年几乎呈指数级增长。
收入增长时间线
|
|
|
|---|---|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
$19B |
换句话说:
14 个月增长约 19 倍。
这轮增长发生在一个关键节点:Anthropic 与美国国防部(Pentagon)合作争议。
AI 公司正在进入一个新的阶段:
模型能力 + API + 企业 AI 基础设施 = 超高速商业化。


