Phi-2：小模型的大能力

charles

分享大纲

Phi模型系列（暂不包含Phi-3）：

Phi-1：Phi系列第一个模型，拥有13亿参数，在Python编程基准测试中达到同期SLMs中的最先进性能。
Phi-1.5：同样拥有13亿参数，专注于常识推理和语言理解，性能与比它大5倍的模型相当。
Phi-2：拥有27亿参数，展现出卓越的推理和语言理解能力，在少于130亿参数的基础语言模型中表现最佳。在复杂基准测试中，Phi-2与比它大25倍的模型相匹配或更优。

Phi-2的关键洞察：

训练数据质量：对模型性能至关重要，Phi-2专注于“教科书级高质量”数据，包括合成数据集，模型常识推理和一般知识。
可伸缩知识转移：从拥有13 亿参数模型 Phi-1.5 开始，将其知识嵌入到 27 亿参数 Phi-2 中。这种规模化的知识转移不仅加速了训练收敛，而且显着提高了 Phi-2 基准分数。

Phi-2训练细节：

Phi-2基于Transformer模型，使用了1.4T的token，使用高质量的“教科书质量”数据，以及合成数据集。
训练使用96个A100 GPU，耗时14天。
作为基础模型，无RLHF进行对齐，也没有指令微调。

Phi-2评估：

在多个学术基准测试中（包括BBH、常识推理、语言理解、数学和编程等），Phi-2的性能超过了7B和13B参数的Mistral和Llama-2模型。
在多步推理任务（即编程和数学）上，Phi-2的性能甚至超过了比它大25倍的Llama-2-70B模型。

Phi-2：小模型的大能力

尽管模型大小较小，但Phi-2与Google Gemini Nano 2模型性能相当或更优。

Phi-2：小模型的大能力

Phi-2安全性和偏见：

Phi-2在安全性和偏见方面的行为优于经过对齐的现有开源模型，这归功于定制的数据策划技术。

分享的主要内容

Phi-2：小模型的大能力

Phi-2：小模型的大能力

Phi-2：小模型的大能力

Phi-2：小模型的大能力

Phi-2：小模型的大能力

Phi-2：小模型的大能力

Phi-2：小模型的大能力

Phi-2：小模型的大能力

Phi-2：小模型的大能力

Phi-2：小模型的大能力

Phi-2：小模型的大能力

Phi-2：小模型的大能力

Phi-2：小模型的大能力

Phi-2：小模型的大能力

Phi-2：小模型的大能力

Phi-2：小模型的大能力

Phi-2：小模型的大能力

Phi-2：小模型的大能力

Phi-2：小模型的大能力

Phi-2：小模型的大能力

Phi-2：小模型的大能力

Phi-2：小模型的大能力

Phi-2：小模型的大能力

Phi-2：小模型的大能力

Phi-2：小模型的大能力

Phi-2：小模型的大能力

Phi-2：小模型的大能力

Phi-2：小模型的大能力

Phi-2：小模型的大能力

前沿技术新闻资讯

攻破AI最强守卫，赏金2万刀！Anthropic新方法可阻止95% Claude「越狱」行为

2025-2-18 6:35:33

前沿技术新闻资讯

腾讯产品疯狂接入DeepSeek，哪个最好用？| AI新榜实测

2025-2-18 7:43:13

0 条回复 A文章作者 M管理员

更换删除

暂无讨论，说说你的看法吧

❯

购物车

优惠劵

搜索

幸运之星正在降临...

点击领取今天的签到奖励！

恭喜！您今天获得了{{mission.data.mission.credit}}积分

今日签到

连续签到

{{item.credit}}

连续{{item.count}}天

查看所有

我的优惠劵

_￥_优惠劵

使用时效：无法使用

使用时效：
之前

使用时效：永久有效

优惠劵ID：
×

限制以下商品使用：限制以下商品分类使用：不限制使用：

[{{ct.name}}]

所有商品和商品类型均可使用

没有优惠劵可用!

购物车

×

删除

购物车空空如也!

清空购物车前往结算

您有新的私信

没有新私信

写新私信查看全部