
老铁们,我是雨哥!
人到中年,不进则退!跟随雨哥从小白开始接触AI,分享学习历程。
————
我们在看一些新的大模型发布的时候,经常会听到什么“175亿参数”、“1万亿参数”,提起来很厉害的数字。那这些听上去很庞大的数字但到底代表什么?
是不是参数越多,模型就越强?还有一种新词叫激活参数,又是什么意思?今天,我们就来一起拆解这个AI术语背后的秘密。
01. 什么是“参数规模”?
通俗来说,AI大模型就像是一个拥有上亿甚至上千亿神经元连接的大脑,而“参数”就是这些连接中的权重。
-
🤖 参数规模(Parameter Size):指的是模型中所有可以训练的数值(权重和偏置)的总数。
-
🧠 数量越多,模型的“容量”越大,能学到的知识也更多。
-
💬 在语言模型中,参数越多,理解能力、语言生成能力理论上会更强。
举个例子:
-
GPT-2:1.5亿参数
-
GPT-3:175亿参数
-
GPT-4:据估超过1万亿参数(1T)
02. 什么是“激活参数”?
近年来,AI大模型进入了“专家混合”(Mixture of Experts, MoE)架构时代:
模型里有很多“专家模块”,每次输入时只调动其中一部分进行推理,就像多个大脑团队轮流上岗,节省资源。
于是,就有了另一个概念:
-
🔌 激活参数(Active Parameters):指的是模型在一次推理过程中实际用到的参数数量。
-
✅ 节省算力的同时还能保持性能,是当前高效大模型的重要技术路径。
03. 主流AI模型参数对比一览
为了更直观地理解,我们整理了一张截至2025年7月的主流AI模型参数对比表:
模型名称 |
发布机构 |
总参数规模(估) |
激活参数(估) |
架构类型 |
是否开源 |
---|---|---|---|---|---|
GPT-3 |
OpenAI |
175B |
175B |
Dense |
否 |
GPT-4(估) |
OpenAI |
~1T |
~200B |
MoE |
否 |
GPT-4o |
OpenAI |
未公开 |
未公开 |
多模态/MoE? |
否 |
Claude 3 Opus |
Anthropic |
~1T |
~200B |
MoE |
否 |
Gemini 1.5 Pro |
Google DeepMind |
~1.6T |
~60–180B |
MoE |
否 |
PaLM 2-ULTRA |
|
540B |
540B |
Dense |
否 |
Grok-1.5V |
xAI(马斯克) |
~300B(估) |
未公开 |
Dense/MoE? |
否 |
DeepSeek-MoE |
DeepSeek |
560B |
12.8B |
MoE |
✅ |
Yi-34B |
01.AI |
34B |
34B |
Dense |
✅ |
Qwen 2-72B |
阿里巴巴 |
72B |
72B |
Dense |
✅ |
💬 注:1B = 10亿,1T = 1万亿=1000B
04. “参数多”和“聪明”划等号吗?
不完全是。
-
参数多 ≠ 一定更聪明,还需要看模型的训练数据质量、算法架构和推理机制。
-
激活参数少的 MoE 模型可以用更少算力跑更大的脑子,比如 DeepSeek-MoE 每次只用12.8B,却能对标更大模型的表现。
05. 未来趋势:稀疏激活,效率为王
随着算力成本持续上升,AI行业正从“堆参数”转向“用得巧”:
-
✅ 多数顶级大模型都开始采用 MoE 架构
-
✅ 只激活部分专家,节能环保
-
✅ 性能依旧强劲,推理成本更低
这也是为什么 GPT-4、Claude 3、Gemini 都不再全量激活所有参数——聪明的大脑不需要每次都全员上岗!
📌 小结
术语 |
定义 |
比喻 |
---|---|---|
参数规模 |
模型中所有可学习的参数总数 |
一个大脑的“所有神经连接” |
激活参数 |
每次推理中实际用到的参数数量 |
这个大脑这次用到的“神经区域” |
未来,我们将看到越来越多“超级大模型”以更聪明的方式服务现实世界。你不需要1万个专家全体上岗,只要挑对两个就能给你答案——这,才是AI的智慧。
—— End
——
如果你觉得这篇文章有用,
欢迎点赞、转发、收藏、留言、推荐!
关注雨哥,共同成长!↓↓↓
往期好文推荐:
1.AI科普:从底层构架的演变看AI发展简史
2.ChatGPT O3模型“违抗”关闭指令?雨哥带你理性分析AI的边界
3.AI时代的职场新人,如何搭建系统性的成长规划