在很多介绍AI的文章中,会频繁出现一些名词,比如LLM、MCP、EMB。这些专业术语是什么意思,有什么作用,背后的技术原理又是什么,对普通人来说有点难以理解。
这篇文章,我会尽量用通俗易懂的语言,讲清楚这些名词到底是什么意思,作用是什么,帮助大家更好地理解AI。
一、LLM:大型语言模型
LLM的全称为(Large Language Model),即大型语言模型。它指的是一种基于深度学习技术的人工智能基础模型,通过大量的文本数据训练,来逐步具备理解和生成自然语言的能力。
LLM的基本定义主要有三个:基于深度学习、处理自然语言、参数规模庞大。其中:
-
基于深度学习:基于Transformer技术架构的神经网络,通过自注意力机制(Self-Attention)捕捉输入序列中的长距离依赖关系,实现对文本的全局理解。 -
处理自然语言:执行问答、文本生成、翻译/对话等任务,是生成式AI的形式。 -
参数规模庞大:为了能很好的理解自然语言,需要将自然语言拆分为最小粒度的参数(Tokens),但自然语言的不同排列组合又包含多种含义,因此一个大模型通常包含几十上百亿甚至数千亿参数。
LLM是自然语言处理(NLP)领域的重要组成部分,目前我们所熟知的各个大厂推出的大模型,大多都是LLM。
LLM的训练过程,就是通过自注意力机制从海量文本数据中捕捉语言模式、研发结构和语义关联,他的核心目标是通过概率建模,预测下一个词语或序列,最终生成连贯且符合上下文的文本。
这也是为什么说大模型是一个概率预测机器,为什么会出现信息幻觉的原因。
当然,因为训练数据的类型不同,大模型也有不同的能力倾向,比如金融、法律、心理、医疗等类型的数据,训练出来的大模型,其能力在对应领域的准确率更高。很多文章中提到的多模态,简单理解就是它的模型基座可以处理多种不同类型的信息。
再进一步来说,像百度文库目前的AI模型所谓的自适应能力,就可以根据用户输入对其进行分析,并自动匹配对应的领域模型。
大模型的训练过程,可以简单地分为两个部分:预训练、后训练。
-
预训练(模仿学习)赋予基础能力,即从零到具备不错的能力,如AlphaGo的模仿学习阶段。 -
后训练(强化学习)优化行为能力,是从不错到卓越的过程,通过强化学习不断固化好的行为。
在大模型领域,典型的代表性模型,大致可以分为三种:
-
Llama(Meta):开源模型,支持代码生成与科学推理。 -
BERT(Google):基于双向Transformer的模型,擅长文本分类和语义理解(如搜索引擎优化)。 -
GPT系列(OpenAI):通过生成式预训练实现多轮对话和复杂任务处理,如GPT-4支持多模态输入。
当然,大模型目前来说依然存在局限性,主要是如下几个方面:
-
信息幻觉:可能生成看似合理但事实错误的文本。 -
数据偏见:训练数据中的偏见可能导致输出歧视性内容。 -
计算成本:训练千亿级模型需消耗数千GPU小时,成本高昂。
二、MCP:模型上下文协议
MCP的全称为(Model Context Protocol),即模型上下文协议。通俗理解的话,MCP是一种抽象的技术架构设计理念。
MCP是一种开放标准协议,旨在解决大型语言模型(LLM)与外部数据源和工具之间的通信问题,通过提供统一的接口和协议,使AI系统能够轻松地与各种外部资源进行交互,由Anthropic公司开发并开源。
MCP的基本定义:标准化的通信协议,用于建立AI模型与外部数据源之间的无缝连接。
它通过定义通用接口,允许AI助手动态访问和集成外部数据源(数据库、API、文件系统)以及工具和服务(计算工具、搜索引擎),从而扩展AI的功能并提高其效率,类似于AI领域的USB、Type-C接口。
MCP基于客户端-服务器架构,包含以下关键组件:
-
MCP Host:运行LLM的应用程序(如Claude客户端),负责发起任务请求。 -
MCP Client:在Host内维护与服务器的1:1连接,解析任务需求并协调资源调用。 -
MCP Server:作为中间层,向AI Agent动态暴露可用的工具、API和数据源(如本地文件、外部数据库),并提供安全控制和上下文管理。 -
Local/Remote Services:包括本地资源(文件系统)和远程服务(如GitHub、Google Maps API)。
工作流程中,MCP Server通过分层定义能力(如数据读取、函数调用、提示模板),使AI Agent根据任务需求自动匹配工具,并通过Function Calling执行操作,例如查询数据库或调用API,最终生成多步骤的连贯响应。
MCP和传统的API接口相比,区别如下:
总结一下,MCP的技术优势主要有如下几点:
-
简化集成:通过统一接口降低AI与外部工具集成复杂性,避免碎片化问题。
-
安全性与可控性:MCP支持双向连接,确保数据安全,并提供细粒度控制。
-
灵活性与扩展性:MCP支持自主工作流的决策和编排,适用于多种跨平台场景。
我们可以将MCP当作AI技术领域的万能插座,通过MCP集成各种AI工具和数据源,不用做专门的适配工作。
三、EMB:数据嵌入技术
EMB全称为(Embedding),简单理解就是将低质量数据变为可参照利用的高质量基准数据的技术。
专业解释,EMB可以将高维、稀疏的离散数据(文本中的单词、图像特征或类别标签)映射到低维、稠密的连续向量空间的技术。
EMB广泛应用于自然语言处理(NLP)、推荐系统、图像处理、计算机视觉等领域。其核心思想是通过将对象(如词语、句子、用户、物品等)映射为低维向量,捕捉对象之间的潜在语义关系和相似性,从而实现降维、特征提取和建模目标。
这些向量能够捕捉原始数据的语义信息和内在关系,便于机器学习模型进行处理和分析。下图所示EMB的作用:Embedding在自然语言处理(NLP)中的典型应用场景包括:
-
文本分类将文本转换为词向量(如Word2Vec或GloVe),对文档进行分类,如垃圾邮件过滤、主题分类。 -
机器翻译:捕捉单词语义和上下文关系,从而提高神经网络机器翻译(NMT)的效果,使翻译结果更接近“人话”。 -
命名实体识别(NER) :通嵌入技术,模型能够更好理解文本中的实体及其关系,从而提升命名实体识别的准确性。 -
情感分析:利用词嵌入捕捉单词的情感倾向,帮助模型判断文本的情感极性。 -
推荐系统:生成用户和物品的向量表示,通过捕捉潜在关系提升推荐系统的准确性。 -
语义搜索:通过将查询和文档映射到同一向量空间,实现高效的语义相似度计算。 -
文本相似性计算:利用词嵌入捕捉单词间的语义相似性,用于句子匹配、文本相似性分析等任务。 -
迁移学习与特征提取:高质量的词嵌入可以迁移至下游任务,无需重新学习词汇含义,从而扩展应用范围。
EMB的技术特点,概括来说主要有三点:
-
语义保留:通过训练使向量空间中的位置反映数据的内在关系(如“苹果”与“水果”存在包含关系)。 -
通用性与迁移性:同一嵌入模型可服务于多种下游任务(如分类、聚类、推荐)。 -
降维与特征提取:将高维稀疏数据(如独热编码的文本)压缩为低维稠密向量,减少计算复杂度。
Embedding技术目前已经在AI的各个领域深入使用,是LLM的核心技术构成之一。