Ling-2.6-flash 发布:更快响应、更强执行、更高 Token Efficiency



随着智能体(Agent)能力不断走向成熟,Token 消耗快速增长正在成为大模型落地中的核心矛盾之一。与传统聊天场景相比,Agent 任务的输入长度往往提升了两个数量级;与此同时,频繁的工具调用、多轮规划与长程执行,又不断拉长模型的输出链路。这意味着,模型在真实应用中不仅要面对更高的推理算力压力,也会带来更高的用户使用成本。


另一方面,为了进一步推高能力上限,行业中的主流模型正普遍走向“长思考”路径,以更长的推理过程换取更高的任务上限。但问题在于:对于日常高频的 Agent 使用场景而言,如此大量的推理 Token,是否始终必要?


基于这一现实问题,我们正式推出 Ling-2.6-flash —— 一款总参数量 104B激活参数 7.4B 的 Instruct 模型。面对持续攀升的 Token 压力,Ling-2.6-flash 选择了一条不同的技术路径:不是单纯依赖更长输出换取更高分数,而是围绕推理效率、Token 效率与 Agent 场景表现进行系统性优化,在保持竞争力智能水平的同时,尽可能做到更快、更省、更适合真实业务场景。


具体来看,Ling-2.6-flash 的核心能力体现在三个方面:


  • 混合线性架构,释放推理效率:通过引入混合线性架构,模型从底层优化计算效率,在 4 卡 H20 条件下推理速度最快可达到 340 tokens/s,Prefill 吞吐达到 Nemotron-3-Super 的 2.2 倍,以更高的“费效比”完成任务。


  • Token 效率优化,提升智效比:在训练过程中,我们对 Token 效率进行了针对性校准,力求以更精简的输出完成既定目标。在 Artificial Analysis 的完整评测中,Ling-2.6-flash 仅消耗 15M tokens,约为 Nemotron-3-Super 等模型的 1/10, 以更高的“智效比”完成任务。


  • 面向 Agent 场景进行定向增强:针对当前需求最旺盛的 Agent 应用,我们在工具调用、多步规划与任务执行能力上持续打磨,使模型在 BFCL-V4、TAU2-bench、SWE-bench Verified、Claw-Eval、PinchBench 等评测中,即使面对激活参数更大的模型,依然能够取得相近甚至 SOTA 级别的表现。


这也意味着,Ling-2.6-flash 所追求的,并不是单点极限能力,而是在控制 Token 消耗的前提下,依然保持对 Agent 任务的强竞争力。对开发者与企业而言,这代表着更低的推理成本、更高的部署效率,以及更适合大规模真实应用的模型体验。

Ling-2.6-flash 发布:更快响应、更强执行、更高 Token Efficiency

Ling-2.6-flash 在 Agent 相关基准上达到同尺寸 SOTA 水平,并在其他核心能力上保持出色表现。




Ling-2.6-flash 发布:更快响应、更强执行、更高 Token Efficiency

混合线性架构,释放推理效率


架构改进

Ling-2.6-flash 延用了 Ling 2.5 的模型架构设计:在 Ling 2.0 架构基础上引入了混合线性注意力机制。通过增量训练方式,将 Ling 2.0 架构的 GQA 注意力机制升级为 1:7 的 MLA + Lightning Linear 高效混合架构。


Ling-2.6-flash 发布:更快响应、更强执行、更高 Token Efficiency


得益于混合注意力机制与高度稀疏化的 MoE 架构,Ling-2.6-flash 在推理效率上展现出显著优势。与同尺寸级别的主流 SOTA 模型相比,Ling-2.6-flash 不仅首字响应更快,长输出场景下的生成效率也更高,Prefill 吞吐与 Decode 吞吐最高均可达到约 4 倍提升。


从下图中可以看到,随着上下文长度和生成长度持续增加,Ling-2.6-flash 的吞吐优势进一步放大。同时,Ling-2.6-flash 的优势并不只体现在静态指标上,而是在真实部署环境中,能够随着任务复杂度提升持续释放更强的速度收益。无论是长上下文理解,还是长文本连续生成,Ling-2.6-flash 都能在保持模型能力的同时,带来更快的响应、更高的吞吐,以及更具优势的实际部署效率。


Ling-2.6-flash 发布:更快响应、更强执行、更高 Token Efficiency

输出(Decode)吞吐优势对比,四卡H20-3e,TP=4,Batch Size = 32

Ling-2.6-flash 发布:更快响应、更强执行、更高 Token Efficiency

输入(Prefill)吞吐优势对比,四卡H20-3e,TP=4,Batch Size = 32



推理效率优化

在 Ling-2.6-flash 的预训练阶段,我们通过大规模算子融合显著提升了训练效率;在推理侧,则进一步围绕真实部署场景进行了深度适配,使融合算子在融合粒度、实现路径与数值行为上尽可能与训练侧保持一致。这样的设计不仅带来了更高的推理效率,也在 RL Rollout 阶段进一步增强了训推一致性。相关推理算子将随 linghe 陆续开源。


针对不同精度场景,我们对推理链路进行了系统性优化。


  • 针对 BF16 推理,我们实现了 QK Norm + RoPE、Group RMSNorm + Sigmoid Gate 等关键算子的深度融合,并在 MoE Router GEMM 与 LM Head GEMM 中采用 BF16 Input + FP32 Output 的计算方式,同时优化了 MLA RoPE 与 Top-K 的实现。


  • 针对 FP8 推理,我们进一步将 RMSNorm、SwiGLU 与量化算子进行融合,并针对小 Batch Size 场景引入 Split-K 的 Blockwise FP8 GEMM,进一步释放吞吐潜力。从算子融合、缓存机制到多 token 生成的一整套系统级协同优化。最终带来的,不只是更高的系统吞吐,也包括更高的单用户 TPS、更短的等待时间,以及在真实交互场景下更稳定、更流畅的使用体验。


Ling-2.6-flash 发布:更快响应、更强执行、更高 Token Efficiency


在 Artificial Analysis 榜单的 Output Speed 维度的官方测评中,对比同参数量级别的主流模型,Ling-2.6-flash 以 215 tokens/s 的输出速度处于第一梯队,展现出领先的生成效率。

Ling-2.6-flash 发布:更快响应、更强执行、更高 Token Efficiency



Ling-2.6-flash 发布:更快响应、更强执行、更高 Token Efficiency

 Token 效率优化,提升智效比


在 Artificial Analysis(AA)的 Intelligence vs. Output Tokens 对比中,Ling-2.6-flash 展现了突出的 token efficiency 优势。


从下图中可以看到,Ling-2.6-flash 以 15M output tokens 实现了 26 分 的 Intelligence Index,在保持较强智能水平的同时,将输出消耗控制在相对更低的位置。相比部分依赖更长输出换取更高分数的模型,Ling-2.6-flash 在“智能表现”与“输出成本”之间取得了更优平衡。这意味着,Ling-2.6-flash 的竞争力并不只体现在单点能力上,更体现在面向真实应用的整体效率优化上。它并非通过更冗长的输出堆叠分数,而是以更精炼的生成完成任务,在保证竞争力智能表现的同时,显著降低 token 消耗。


对于开发者和企业场景而言,这种能力带来的价值是直接且明确的:更低的推理开销、更快的首字响应、更短的整体生成时延,以及更流畅的交互体验。无论是 Agent 调用、复杂任务执行,还是高频线上服务,Ling-2.6-flash 都更适合真实部署环境下对速度、成本与体验的综合要求。


换句话说,Ling-2.6-flash 追求的并不是单纯“更强”,而是在“足够强”的基础上,进一步做到“更快、更省、更可落地”。


Ling-2.6-flash 发布:更快响应、更强执行、更高 Token Efficiency

基于 AA 榜单的官方测评分数绘制


从 Token 消耗看,Ling-2.6-flash 的智效比显著提升。


在 Artificial Analysis Intelligence Index 的完整评测中,Ling-2.6-flash 展现出显著更优的 Token 效率:其总消耗仅为 15M tokens,而 Nemotron-3-Super 等模型达到或超过 110M tokens。换言之,Ling-2.6-flash 仅用约 1/10 的 token 消耗完成同类评测任务,体现出更精简的输出方式与更高的智效比。


Ling-2.6-flash 发布:更快响应、更强执行、更高 Token Efficiency




Ling-2.6-flash 发布:更快响应、更强执行、更高 Token Efficiency

面向 Agent 场景进行定向增强


智能体优化

为增强模型 Agent 能力,我们显著扩展了 Ling-2.6-flash 训练数据的难度与广度,以优化其在复杂长程任务中的表现。依托自研的大规模高保真交互环境,我们对 Ling-2.6-flash 进行了针对性的 General Agent 与 Coding Agent 的强化学习(RL)训练。


  • 显著提升了模型在指令遵循、工具调用、多步规划及长程执行方面的表现,保障模型听懂指令、准确执行,Ling-2.6-flash 在 BFCL-V4、TAU2-bench、SWE-bench Verified、PinchBench 等代表性榜单上表现优异;


  • 通过 RL 优化模型在不同 Agent 场景下的泛化性与稳定性,大幅改进其在实际场景的应用体验,Ling-2.6-flash 在 Claude Code、Kilo Code、Qwen Code、Hermes Agent、OpenClaw 等框架中均展现了良好的使用体验。


Ling-2.6-flash 模型在通用知识、数学推理、指令遵循及长文本解析等维度保持优秀水准,各项指标均对齐同尺寸 SOTA 模型,保障全场景下稳健、优质的性能产出。


Ling-2.6-flash 发布:更快响应、更强执行、更高 Token Efficiency


  • PinchBench:对比分数引自 PinchBench 官方榜单(截至 2026 年 4 月 20 日),直接取用官方评测设置下的分数(可能包含 Reasoning Mode)。

  • Claw-Eval:对比分数引自 Claw-Eval 官方榜单(2026 年 3 月 25 日版本),直接取用官方评测设置下的分数(可能包含 Reasoning Mode)。其中,GPT-OSS-120B 与 GPT-5.4-mini 在 Claw-Eval 官方榜单暂未公布,因此未纳入对比结果。

  • TAU2-Bench:评测基于官方 v1.0.0 代码与数据集进行。参考 GLM-5 的评测配置,我们在Retail和Telecom领域对用户 Prompt进行微调,以确保用户请求表达更加清晰,并避免会话被过早终止。此外,所有领域均采用 GPT-5.2 作为 User Agent。

  • IFBench:、GPT-OSS-120B(low) 和 GPT-5.4-mini(Non-Reasoning) 的分数引自 AA 榜单;其余模型的结果来自内部评测。





Ling-2.6-flash 发布:更快响应、更强执行、更高 Token Efficiency

实战演示:Ling-2.6-flash 的即时执行能力


代码场景

1. 网页生成

场景介绍:Ling-2.6-flash 兼具高审美表达与高速代码生成能力,能够准确理解并调用前端组件与图标库,尤其适合单页面演示和原型制作中的快速验证。



2. INT4 的量化版本在 DGX Spark 上运行

场景介绍:基于 Ling-2.6-flash & DGX Spark 构建业界 SOTA Hermes 一体机教程。



3. 结合 Kilo Code 生成风格化网页

场景介绍:在 Kilo Code 中,Ling-2.6-flash 不只是代码生成器,更能将视觉指令快速转化为高质量界面。结合 Kilo Code 的工程底座,它能够胜任个性化视觉风格生成、报刊级排版,以及周刊、报告等办公内容的即时生成,实现兼顾速度与设计质感的“输入即成品”。




文本场景

1. Prompt 驱动的工作流执行

场景介绍:仅凭 Prompt,Ling-2.6-flash 即可胜任多步骤文本任务执行,在指令遵循、文风调整与实时生成方面表现突出,生成内容自然流畅。




Agent 工具调用场景

1. 红楼梦人物及事件图谱提取

场景介绍:Ling-2.6-flash 具备强大的上下文检索、工具调用与高速响应能力,适合复杂信息处理与知识增强场景。



2. autonovel 长篇小说写作

autonovel 是一款长篇小说写作助手,可覆盖世界观设定、角色构建、大纲生成到正文创作的全流程。基于 Ling-2.6-flash,autonovel 进一步提升了长篇创作的生成效率、上下文一致性与剧情推演能力,在超长文本生成、伏笔衔接和内容精修等环节表现突出。通过 200+ tokens/s 的极速生成,仅需几十分钟即可产出百万字长稿作品。



3. 需求整理和排期

Ling-2.6-flash 面向真实工作场景而设计,能够在信息检索、任务拆解、内容处理与工具协同等流程中稳定参与实际执行。凭借较低的幻觉率与较高的结果可用性,它不仅能回答问题,更能真正承担任务、推进流程,是一款“能干活”的实用型模型。






Ling-2.6-flash 发布:更快响应、更强执行、更高 Token Efficiency

局限性与未来计划

Ling-2.6-flash 在极致智效比上的探索,已经取得了阶段性进展。在工具调用、多步规划与长程任务执行等关键维度上,模型能力均实现了明显提升。结合推理效率与交互体验上的系统性优化,Ling-2.6-flash 已能够更从容地应对大规模、高频次的自动化执行任务,在真实应用场景中展现出更强的落地价值。


与此同时,我们也清醒地认识到,对极致智效比的追求并非没有代价。在部分高复杂度场景中,受限于推理深度,模型仍可能出现一定的工具幻觉;此外,在中英双语自然切换、复杂指令遵循等方面,Ling-2.6-flash 仍有进一步优化空间。


面向后续迭代,我们将继续探索智效比的更优边界,在保持高效推理特性的同时,进一步推动智能产出质量与 Token 效率之间的深度平衡,持续提升模型在全场景下的稳定性、可用性与交互体验。




Ling-2.6-flash 发布:更快响应、更强执行、更高 Token Efficiency

使用与体验


Elephant Alpha(Ling-2.6-flash 匿名测试版)正式揭晓

一周前,代号为 Elephant Alpha 的匿名模型登陆 OpenRouter。上线以来,其调用量持续增长,连续多日位列 Trending 榜首,日均 tokens 调用量达 100B 级别。今天,我们正式揭晓:Elephant Alpha 正是百灵模型 Ling-2.6-flash 的匿名测试版本。


Ling-2.6-flash 发布:更快响应、更强执行、更高 Token Efficiency


经过一周的持续迭代和优化,Ling-2.6-flash 在 Agent 场景的泛化性和稳定性方面获得了进一步提升。Elephant Alpah 测试期间,收到来自社区的真实反馈,在速度和 Token 消耗方面获得大家的认可。


Ling-2.6-flash 发布:更快响应、更强执行、更高 Token Efficiency
Ling-2.6-flash 发布:更快响应、更强执行、更高 Token Efficiency
Ling-2.6-flash 发布:更快响应、更强执行、更高 Token Efficiency
Ling-2.6-flash 发布:更快响应、更强执行、更高 Token Efficiency
Ling-2.6-flash 发布:更快响应、更强执行、更高 Token Efficiency

滑动查看更多




即刻接入

为方便更多开发者快速体验 Ling-2.6-flash,我们将在 OpenRouter 与官方平台同步提供一周免费 API 调用


OpenRouter 体验地址为:https://openrouter.ai/inclusionai/ling-2.6-flash:free


  • 免费期结束后,将按使用量计费:输入 $0.1 / 百万 tokens,输出 $0.3 / 百万 tokens,缓存命中 $0.02 / 百万 tokens(按 20% 计费)。


Ling-2.6-flash 官方 API 服务也已正式开放,访问地址为:https://ling.tbox.cn/chat

  • 官方免费期结束后,平台仍将提供每日 50 万 tokens 免费额度;超出部分按量计费:输入 ¥0.6 / 百万 tokens,输出 ¥1.8 / 百万 tokens。


模型的 BF16、FP8、INT4 等版本也将于近期正式开源,敬请关注。


点击【阅读原文】,访问蚂蚁百灵官方网站,获取百灵大模型更多一手资讯。



前沿技术大模型技术新闻资讯

当 AI 开始接管工作流:穿透 Workspace Agents,看懂下一代组织形态

2026-4-23 9:49:37

RAG技术前沿技术新闻资讯

2026 年做搜索就是做 Agent Memory

2026-4-23 15:00:19

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
购物车
优惠劵
搜索