MNN-Sana-Edit-V2:端侧运行的图像漫画风编辑大模型


MNN-Sana-Edit-V2:端侧运行的图像漫画风编辑大模型



MNN-Sana-Edit-V2 是由淘宝 Meta 团队联合杭州电子科技大学研发的端侧图像漫画风编辑大模型,基于 Sana 和 MetaQuery 学术成果创新构建,采用 Qwen3-0.6B 作为冻结的预训练 LLM,通过 Learnable Query 和 Connector 模块桥接文本理解与图像生成,结合 Linear DiT、Deep Compression Autoencoder 等高效架构设计,并依托 MNN 框架实现 4/8bit 量化部署,使全部模型可在手机端本地运行;该模型在 iPhone 17 Pro 上仅需约 15 秒即可完成 512×512 图像的漫画风格转换,较云端方案提速 2.5 倍,同时保障用户隐私与推理效率,目前已集成至 MNN Chat 应用(支持 iOS/Android),相关代码与模型权重已在 GitHub、HuggingFace 及 ModelScope 全面开源。

MNN-Sana-Edit-V2:端侧运行的图像漫画风编辑大模型MNN-Sana-Edit-V2:端侧运行的图像漫画风编辑大模型
前言

随着生成式人工智能技术的持续演进,端侧部署能力逐渐成为模型落地的重要考量。在图像编辑领域,兼顾隐私安全与推理效率,一直是技术探索的重点方向。


MNN-Sana-Edit-V2 是淘宝业务技术 Meta 团队联合杭州电子科技大学研发的端侧图像编辑大模型,该模型在参考 Sana 和 Metaquery 等学术界论文的基础上,基于文生图框架,创新性地增加了图像编辑功能,基于淘宝 MNN LLM 和 MNN Diffusion 的端侧量化部署能力,做到了所有模型本地运行,既能保护隐私,避免用户信息泄漏,又能做到快速运行,减少等待时间。通过测试,在 iPhone 17 Pro 上,MNN-Sana-Edit-V2 模型能够在 15 秒内完成任意图像的漫画风格转换,相比 OpenAI 的图像编辑能力,提速 2.5 倍。目前该功能已经在 MNN Chat 应用中正式上线,支持 Android 平台和 iOS 平台,同时所有模型和推理代码已经在 MNN 仓库进行开源,欢迎大家尝鲜使用。

MNN-Sana-Edit-V2:端侧运行的图像漫画风编辑大模型


MNN-Sana-Edit-V2 漫画风编辑效果


MNN Chat App下载地址:
iOS: https://apps.apple.com/us/app/mnn-chat/id6748348797
Android (Google Play) : 
https://play.google.com/store/apps/details?id=com.alibaba.mnnllm.android.release

MNN Chat Android 和 iOS App 使用 MNN-Sana-Edit-V2 效果截图:
MNN-Sana-Edit-V2:端侧运行的图像漫画风编辑大模型

下面我们将从网络框架设计,核心技术详解,训练策略,MNN 端侧部署优化几个方面对这个工作进行介绍。

MNN-Sana-Edit-V2:端侧运行的图像漫画风编辑大模型
网络框架设计


  系统架构设计


MNN-Sana-Edit-V2 整体采用 Sana 图像生成模型的网络架构,同时为了更好地利用预训练 LLM 对 Prompt 的理解能力,我们结合 MetaQuery 论文中提出的 Learnable Query 思想,利用可学习的一组网络参数来桥接预训练 LLM 与图像生成与编辑过程。

MNN-Sana-Edit-V2:端侧运行的图像漫画风编辑大模型


具体来说,MNN-Sana-Edit-V2网络包括下面组件:
  1. 预训练 LLM 采用 Qwen3-0.6B,使用保持 freeze 状态,参数不变,用于更好地理解 Prompt
  2. Learnable Query: 256 维的可学习参数,用于桥接文本理解和图像生成
  3. Connector 模块:负责将 LLM 的语义表示对齐到 DiT 的输入空间
  4. Reference Image: 输入参考图像
  5. Noise: 输入的高斯噪声
  6. DiT 模块:将输入的高斯噪声与参考图进行联合去噪声,得到编辑后的图像

MNN-Sana-Edit-V2:端侧运行的图像漫画风编辑大模型

核心技术详解


  Learnable Query: 连接理解与生成的桥梁

Learnable Query是可学习的”问题”向冻结的 LLM “提问”,提取适合图像生成的条件。
具体实现上,Learnable Query 作为一组可学习参数,采用正态分布进行初始化。在提取条件时,Learnable Query与 Text Embedding 一起输入到 LLM 模型中。模型输出的最后 N 个 Hidden States 参数即为生成条件。
实际使用时我们选择 N = 256 个 Learnable Query 参数。

  Connector 模块: 跨模态对齐

Connector 负责将 LLM 的语义表示对齐到 DiT 的输入空间,为图像生成过程中提供了强大的文本理解能力。
网络设计上,Connector 模块包含 Connector 网络和 Projector 网络。Connector 网络采用 Transformer 结构,用来高效提取信息;Projector 网络采用线性层作为实现,用来将 Connector 网络输出的特征对齐到 DiT 的维度。

Deep Compression Autoencoder
传统的 AE 压缩倍数大多为 8 倍,而 Sana 网络中采用了 32 倍的压缩设计(DC-AE-F32C32),相比别的8x的AEs, latent token的数量大大减小,既加速了训练,又减少了推理时的开销,适合端侧场景使用。

Linear DiT
线性注意力机制是 Sana 论文中的关键创新。传统注意力的计算复杂度为 O(N²),而 Sana 论文中将 DiT 中的 Attention 层都修改为了 Linear Attention, 计算复杂度为 O(N),减少计算量,加速推理,且通过实验验证,生图无质量损失。
Mix-FFN 模块在传统 FFN 的基础上,增加了 Depthwise 卷积,用于更好地捕捉局部信息。具体来说,Mix-FFN 包含三个组件:倒残差块、3×3 深度卷积、Gated Linear Unit。采用 Mix-FFN 的目的是去掉 Position Encoding,达到 NoPE 的效果。NoPe 即 No Positional Encoding,也即移除位置编码。

  文本编码器: Qwen3-0.6B

Sana 论文中采用选择Gemma-2 作为文本编码器具,我们的方案中,采用 Qwen3-0.6B 作为预训练 LLM。Qwen3-0.6B 相比 Gemma-2 的 2.6B,参数量更小,且文本理解能力更强,尤其是在中文 Prompt 场景。

另外,训练稳定性也至关重要。Sana 发现,直接使用 Decoder-only LLM 的文本嵌入会导致训练不稳定,原因在于传统的生图算法采用 T5 等模型,Embedding 层数值较小,而 Decoder-only LLM Embedding 层权重较大,直接沿用之前的训练方案,会导致数值爆炸。

为了解决这个问题,我们也采用 Sana 中的方案,增加RMSNorm 层,归一化文本 Embedding,同时引入小的可学习缩放因子,进一步稳定训练。


  Reference Latent

图像编辑需要原始图像作为输入,在我们的方案中,我们通过 VAE Encoder 获取源图像的 Latent, 作为参考输入 DiT 生图网络,引导编辑过程,保持图像结构一致性,实现更精确的图像编辑。

MNN-Sana-Edit-V2:端侧运行的图像漫画风编辑大模型

训练策略


三阶段训练
为了达到最佳的编辑效果,训练过程中我们分三个 Stage 来训练网络。
Stage 1 是预训练阶段,针对文本到图像任务,目标是对齐预训练 LLM 和图像生成任务。具体来说,该阶段只训练Learnable Query 和 Connector 部分的权重,别的模块保持权重固定。这个阶段,我们采用 2 M 的文本-图像对数据训练约 100K Step。
Stage 2 是图像生成微调阶段,训练 Learnable Query,Connector以及图像生成 DiT 模块的权重。基于内部收集的 60K 文本-图像对数据训练约 10K Step。
Stage3 是图像编辑微调阶段,在 Stage2 的基础上,增加参考图像作为额外输入,可训练参数同 Stage2。基于内部收集的 10K 图像编辑数据对训练约 100K Step。

MNN-Sana-Edit-V2:端侧运行的图像漫画风编辑大模型

MNN 端侧部署优化


模型转换
在 Pytorch 中训练好权重后,我们先将 Pytorch 模型转换为 ONNX 格式,然后再转换为 MNN 格式。由于 MNN 在长期的迭代中已经支持了绝大部分的 ONNX 算子,因此模型转换部分的流程比较顺畅。更多转换细节请参考MNN文档。

量化技术
MNN-Sana-Edit-V2 推理流程涉及多个模型,包括预训练的 LLM,VAE 的 Encoder 和 Decoder,以及去噪模型 DiT 等。通过合理的量化设置,能够显著减少模型内存占用,提高推理速度,且不对最终效果造成明显损失。
具体来说,对预训练的 LLM 模型权重,我们采用了 4Bit 非对称量化,别的模型均采用 8Bit 非对称量化。这个配置能最好地平衡推理性能和生图效果。

真机速度测试
我们在真机上,测试了 512×512 配置下的图像编辑速度:
操作系统
机器型号
芯片版本
生成图片整体耗时(s)
iOS
iPhone 17 Pro (2025 年 9 月发布)
A19 Pro
14.7
iOS
iPhone 16 Pro (2024 年 10 月发布)
A18 Pro
18
iOS
iPhone 15 Pro (2023 年 9 月发布)
A17 Pro
20
Android
一加13 (2024 年 10 月发布)
Snapdragon 8 Elite
45
Android
Xiaomi 12 Pro (2021 年 12 月发布)
Snapdragon 8 Gen 1
62
经测试,OpenAI 的吉卜力风格图像生成耗时 38s-45s,我们在 iPhone 17 Pro 上,以端侧模型比云端模型的配置,做到了 2.5 倍的提速。

运行要求
内存占用:5.5G
系统要求:iOS A16 及以上版本,Android 骁龙 8 及以上版本

最优超参说明
  • 输入图像尺寸:建议使用是以正方形图片作为输入,非正方形图片生成效果可能会有下降。
  • 输入图像内容:建议输入单张正脸人像,效果最佳,多人或者非人场景效果可能会有下降。
  • 输出分辨率:目前模型输出分辨率固定为 512×512
  • 图像编辑提示词:本模型流程中已固定提示词,无需额外设置,修改提示词可能汇降低效果。
  • 图像生成 step:建议使用 10 步,步数过低会有效果损失,步数增加效果无明显提升,且增加运行耗时。

源码和模型下载
源码:https://github.com/alibaba/MNN
文档:
https://github.com/alibaba/MNN/blob/master/apps/sana/README.md
模型权重:
huggingface: https://huggingface.co/taobao-mnn/MNN-Sana-Edit-V2
modelscope: https://modelscope.cn/models/MNN/MNN-Sana-Edit-V2

MNN-Sana-Edit-V2:端侧运行的图像漫画风编辑大模型

参考论文


  • SANA: Efficient High-Resolution Image Synthesis with Linear Diffusion Transformers
  • Transfer between Modalities with MetaQueries

MNN-Sana-Edit-V2:端侧运行的图像漫画风编辑大模型

团队介绍


本文作者蔚山,来自淘天集团-Meta技术团队。本团队目前负责面向消费场景的3D/XR基础技术建设和创新应用探索,创造以手机及XR 新设备为载体的消费购物新体验。团队在端智能、端云协同、商品三维重建、真人三维重建、3D引擎、XR引擎等方面有着深厚的技术积累,先后发布深度学习引擎MNN、商品三维重建工具Object Drawer、3D真人数字人TaoAvatar、端云协同系统Walle等。团队在OSDI、MLSys、CVPR、ICCV、NeurIPS、TPAMI等顶级学术会议和期刊上发表多篇论文。欢迎视觉算法、3D/XR引擎、深度学习引擎研发、终端研发等领域的优秀人才加入,共同走进3D数字新时代。




¤ 拓展阅读 ¤

3DXR技术 | 终端技术 | 音视频技术

服务端技术 | 技术质量 | 数据算法



前沿技术大模型技术新闻资讯

🤯 终于搞懂了!LLM、RAG 和 AI Agents 到底是什么关系?

2026-4-22 17:25:59

前沿技术大模型技术新闻资讯

刚刚!小米手机可以养小龙虾🦞了

2026-4-22 18:20:08

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
购物车
优惠劵
搜索