Bilibili发布Index-1.9B大模型:没错,就是那个二次元B站


Bilibili发布Index-1.9B大模型:没错,就是那个二次元B站

1. **模型简介**:

   – Index-1.9B系列是轻量级的语言模型。

   – 包含`Index-1.9B base`、`Index-1.9B pure`、`Index-1.9B chat`和`Index-1.9B character`等模型。

   – 模型已在HuggingFace和ModelScope上开源。

2. **预训练**:

   – 模型在2.8T的数据上训练,涵盖中英文等多种语言。

   – 数据经过清洗,包括避免偏置和去重。

   – 使用SentencePiece训练BPE Tokenizer,特别针对中文进行了优化。

3. **模型架构**:

   – 与主流的Decoder-Only Transformer模型一致,进行了一些调整,如更深的模型层数(36层)和Norm-Head机制。

4. **训练过程**:

   – 使用AdamW优化器,两阶段训练策略(Stable和Decay阶段)。

   – 训练基建使用了自研训练框架和华为昇腾910B卡。

5. **评测**:

   – 使用OpenCompass框架进行评测,包括综合性选择题、理解和推理、数学和代码评测。

6. **讨论和实验**:

   – 探讨了模型结构、学习率、预训练中是否加入指令等因素对模型性能的影响。

   – 进行了消融实验,分析了不同组件对模型性能的贡献。

7. **对齐**:

   – 通过SFT(Supervised Fine-Tuning)和DPO(Direct Preference Optimization)进一步优化模型,以符合人类偏好。

8. **角色扮演**:

   – 利用RAG(Retrieval-Augmented Generation)技术,实现few-shot角色扮演定制。

9. **局限性**:

   – 尽管采取了合规性检测,但模型可能存在未预料到的问题,使用时需注意潜在风险

以上由Kimi总结,0 shot。原文档字有点小,凑合看吧。在公众号后台回复“B站”获取原文档。

//

Bilibili发布Index-1.9B大模型:没错,就是那个二次元B站

Bilibili发布Index-1.9B大模型:没错,就是那个二次元B站

Bilibili发布Index-1.9B大模型:没错,就是那个二次元B站

Bilibili发布Index-1.9B大模型:没错,就是那个二次元B站

Bilibili发布Index-1.9B大模型:没错,就是那个二次元B站

Bilibili发布Index-1.9B大模型:没错,就是那个二次元B站

Bilibili发布Index-1.9B大模型:没错,就是那个二次元B站

Bilibili发布Index-1.9B大模型:没错,就是那个二次元B站

Bilibili发布Index-1.9B大模型:没错,就是那个二次元B站

Bilibili发布Index-1.9B大模型:没错,就是那个二次元B站

Bilibili发布Index-1.9B大模型:没错,就是那个二次元B站

Bilibili发布Index-1.9B大模型:没错,就是那个二次元B站

Bilibili发布Index-1.9B大模型:没错,就是那个二次元B站

Bilibili发布Index-1.9B大模型:没错,就是那个二次元B站

Bilibili发布Index-1.9B大模型:没错,就是那个二次元B站

Bilibili发布Index-1.9B大模型:没错,就是那个二次元B站

Bilibili发布Index-1.9B大模型:没错,就是那个二次元B站

Bilibili发布Index-1.9B大模型:没错,就是那个二次元B站

Bilibili发布Index-1.9B大模型:没错,就是那个二次元B站

Bilibili发布Index-1.9B大模型:没错,就是那个二次元B站

Bilibili发布Index-1.9B大模型:没错,就是那个二次元B站

Bilibili发布Index-1.9B大模型:没错,就是那个二次元B站

Bilibili发布Index-1.9B大模型:没错,就是那个二次元B站

Bilibili发布Index-1.9B大模型:没错,就是那个二次元B站

Bilibili发布Index-1.9B大模型:没错,就是那个二次元B站

Bilibili发布Index-1.9B大模型:没错,就是那个二次元B站

Bilibili发布Index-1.9B大模型:没错,就是那个二次元B站

END.

前沿技术新闻资讯

首次证实白盒Transformer可扩展性!马毅教授CRATE-α:鲸吞14亿数据,性能稳步提升

2024-12-29 2:00:49

前沿技术新闻资讯

复旦大学AI³徐盈辉研究员:Agent的可视化创作界面 | Agent Insights

2024-12-29 3:48:41

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
购物车
优惠劵
搜索