AI科普：带你看懂AI大模型的“参数规模”与“激活参数”

老铁们，我是雨哥！

人到中年，不进则退！跟随雨哥从小白开始接触AI，分享学习历程。

—— AI科普：带你看懂AI大模型的“参数规模”与“激活参数” ——

我们在看一些新的大模型发布的时候，经常会听到什么“175亿参数”、“1万亿参数”，提起来很厉害的数字。那这些听上去很庞大的数字但到底代表什么？

是不是参数越多，模型就越强？还有一种新词叫激活参数，又是什么意思？今天，我们就来一起拆解这个AI术语背后的秘密。

01. 什么是“参数规模”？

通俗来说，AI大模型就像是一个拥有上亿甚至上千亿神经元连接的大脑，而“参数”就是这些连接中的权重。

近年来，AI大模型进入了“专家混合”（Mixture of Experts, MoE）架构时代：

模型里有很多“专家模块”，每次输入时只调动其中一部分进行推理，就像多个大脑团队轮流上岗，节省资源。

于是，就有了另一个概念：

为了更直观地理解，我们整理了一张截至2025年7月的主流AI模型参数对比表：

模型名称	发布机构	总参数规模（估）	激活参数（估）	架构类型	是否开源
GPT-3	OpenAI	175B	175B	Dense	否
GPT-4（估）	OpenAI	~1T	~200B	MoE	否
GPT-4o	OpenAI	未公开	未公开	多模态/MoE?	否
Claude 3 Opus	Anthropic	~1T	~200B	MoE	否
Gemini 1.5 Pro	Google DeepMind	~1.6T	~60–180B	MoE	否
PaLM 2-ULTRA	Google	540B	540B	Dense	否
Grok-1.5V	xAI（马斯克）	~300B（估）	未公开	Dense/MoE?	否
DeepSeek-MoE	DeepSeek	560B	12.8B	MoE	✅
Yi-34B	01.AI	34B	34B	Dense	✅
Qwen 2-72B	阿里巴巴	72B	72B	Dense	✅

💬 注：1B = 10亿，1T = 1万亿=1000B

不完全是。

随着算力成本持续上升，AI行业正从“堆参数”转向“用得巧”：

这也是为什么 GPT-4、Claude 3、Gemini 都不再全量激活所有参数——聪明的大脑不需要每次都全员上岗！

术语	定义	比喻
参数规模	模型中所有可学习的参数总数	一个大脑的“所有神经连接”
激活参数	每次推理中实际用到的参数数量	这个大脑这次用到的“神经区域”

未来，我们将看到越来越多“超级大模型”以更聪明的方式服务现实世界。你不需要1万个专家全体上岗，只要挑对两个就能给你答案——这，才是AI的智慧。

—— AI科普：带你看懂AI大模型的“参数规模”与“激活参数” End ——

如果你觉得这篇文章有用，

欢迎点赞、转发、收藏、留言、推荐！ AI科普：带你看懂AI大模型的“参数规模”与“激活参数”

关注雨哥，共同成长!↓↓↓

往期好文推荐:

1.AI科普：从底层构架的演变看AI发展简史

2.ChatGPT O3模型“违抗”关闭指令？雨哥带你理性分析AI的边界

3.AI时代的职场新人，如何搭建系统性的成长规划