一文搞懂大模型的分词器（Tokenizer）

今天来聊一聊BERT和GPT的分词器，了解大模型的第一步：Tokenizer。

Tokenizer（分词器）是大语言模型（如BERT和GPT）预处理文本的核心组件，其作用是将原始文本拆解为子词、单词或字符，同时保留语义和结构信息。

一、BERT（WordPiece）

BERT的Tokenizer：基于WordPiece的子词分词

一、分词工作原理：

BERT使用WordPiece算法生成子词（subword）单元，通过贪心算法迭代合并语料中高频出现的字符对，平衡词汇表大小与OOV（未登录词）问题。

BERT将特殊标记预置在输入序列中，通过结构化标记引导模型理解任务目标与上下文边界。

[CLS]：表示序列的起始位置，常用于分类任务。

[SEP]：分隔不同句子或段落。

例如，Input ‘my dog is cute. he likes playing’ 分词为：

‘[CLS]‘、‘my‘、‘dog‘、‘is‘、‘cute‘、‘[SEP]‘、‘he‘、‘likes‘、‘play‘、‘##ing‘（“##”表示子词延续）和‘[SEP]‘。

二、专业术语：

忽略：WordPiece算法、贪心算法、OOV问题。

关注：Token（词元）、Tokenizer（分词）、Subword（子词）、Tag（标记）

二、GPT（BPE）

GPT的Tokenizer：基于BPE的子词分词

GPT（尤其是GPT-2/3）使用BPE算法，通过合并高频字节对生成子词，与WordPiece不同，BPE更注重频率统计。同时GPT-2采用字节级BPE，支持多语言输入（如中文、代码）而无需额外预处理。

二、专业术语：

忽略：BPE算法、频率统计、字节级BPE。

关注：Token（词元）、Tokenizer（分词）、Subword（子词）

{{userData.name}}已认证