近年来,文本到图像生成模型凭借高水准的视觉生成效果,已在艺术创作、工业设计、媒体制作等创意内容领域得到广泛应用落地。
然而,现有旗舰级模型大多参数量级庞大,对计算性能有着较高要求,用户要么需要依赖云端推理解决方案,要么需要投资配置价格不菲的本地GPU算力,这让目前最先进的图像生成模型应用受到局限。

如何将高质量文生图模型高效适配部署于价格亲民的消费级设备?如何在手机、电脑等本地终端也能高效运行商业标准的AI生成能力?这成为众多科研机构与实验室探索的最新技术方向。
例如华为诺亚方舟实验室开发的PIXART系列模型,三星AI中心推出的NanoFLUX,苹果的手机端视觉语言模型FastVLM,谷歌面向安卓开发平台的Gemini Nano系列,AI独角兽Stability AI的SD3.5 Flash等等。
随着国内外大厂开始聚焦,端侧多模态与生成模型加快迈向落地期,端侧AI也不再是辅助功能,而可能成为下一代智能硬件的核心架构组成。
在此背景下,来自国内的一家AI创业公司,湖南汇视威智能科技有限公司(简称“汇视威”)最新迭代的全球首个基于国产算力预训练的“橘洲”视觉基座大模型,悄然刷新了性能纪录,而且完全基于中科曙光的国产算力训练而成,头部科技独家获悉。
对于个人、企业与不同行业应用而言,终端本地轻量化的文生图模型,有望重构AI图像生成的成本结构、使用场景与生态格局,推动行业从“云端中心化服务”走向“端云协同、隐私保护、普惠可用、自主可控”的新范式,激活更庞大的AIGC长尾市场价值。

据了解,新一代“橘洲”大模型参数大小仅为0.4B,相比业内竞品模型压缩到了超低水平,在目前旗舰安卓手机搭载的高通骁龙8 Gen5系列芯片基础上,其生成1024px高清图像的速度能达到2.5秒内,达到世界领先水准。同时,“橘洲”大模型适配了苹果A系列芯片,并正在适配鸿蒙系统。

去年9月底,业内知名AI公司Stability AI曾推出SD3.5-Flash模型,也能够在消费级硬件上运行生成高质量图像,其在NVIDIA消费级旗舰显卡RTX4090上能达到1秒内的生成速度,但要在手机、iPad或电脑芯片上跑,生成512px图像尚可达3秒内,但对于1024px高清图像生成则需要等待长达13到18秒,且未适配安卓手机常用的高通芯片。


2026年2月6日,三星AI中心也推出了一款终端模型NanoFLUX,该团队基于17B参数FLUX.1-Schnell 模型,采用渐进式压缩流水线把模型压缩到2.5B大小,其在高通SM8750‑AB骁龙8 Elite Gen4芯片上,能以2.45秒生成512px图像,但不支持苹果芯片。

对比来看,“橘洲”目前在模型压缩、芯片兼容范围、生成速度和质量等方面均实现了全面“优化”和性能“碾压”,填补了SOTA文生图模型和端侧方案之间的巨大鸿沟:

在边缘设备上实现高效的文本到图像生成,是生成式AI领域一个关键且不断崛起的研究方向,通过在计算和内存资源有限的情况下合成高质量图像,“橘洲”可使资源有限或有隐私要求的用户也能使用最先进的生成模型。

在科技巨头扎堆PK的AI生图赛道中,可以本地化部署的服务器级文生图模型或将改变行业生态,当高质量文生图能力下沉到每一台终端,有着巨大商业想象空间。
业内分析认为,对于应用服务商(B端)和个人创作者(C端)而言,这意味着生产力与创作自由的革命,零成本、无限量的本地生成无API调用费、无次数限制,摆脱了云端按张计费的成本枷锁,进一步降低AI创作门槛,当端侧能够实现超低延迟(手机/PC达2秒内),用户可以“边想边生成、快速迭代”,让AI真正成为即时创作工具。

此外,本地部署离线可用,场景无界,在断网/弱网环境下(如户外、飞行、偏远地区)仍可秒级出图,有望打破创作的时空限制,适配移动办公、现场设计、应急创作等场景,用户的隐私与数据主权所有提示词、生成图、创作历史也可完全留在本地设备。
对于企业而言,无需采购专业服务器能大幅降低算力部署成本,数据不出域,可满足金融、政务、医疗、军工等高隐私、强合规场景的要求,降低供应链与数据安全风险,同时在手机、平板、车载、智能硬件、工业终端的实时视觉生成也将大幅拓展业务边界。
从更宏观的产业层来看,则有望倒逼云端模型向着轻量化、高效化演进,未来形成云-端协同的行业生态,推动全栈国产化(训练+推理+部署)技术能力布局,实现自主可控与普惠发展,真正赋能千行百业。

“橘洲”大模型背后,是一支年轻的创业队伍,据悉,该模型的研发团队成员平均年龄不到30岁,汇视威创始人顾善植是位“95后”,目前在国防科大攻读计算机科学与技术专业博士学位,创始团队成员是来自清华大学、国防科大、牛津大学等高校的博导、博士、硕士。


