LangChain 作为当前大语言模型(LLM)应用开发的事实标准框架,通过模块化设计与高效编排能力,让开发者快速实现数据增强生成、动态决策和复杂流程控制。以下是 LangChain 的核心功能与实战方法解析:
一、LangChain 核心定位
解决痛点:大模型落地难、数据处理复杂、多步骤逻辑难串联
核心价值:
-
模块化:像搭积木一样组合模型、数据与工具 -
高效编排:支持复杂任务流(如检索增强生成RAG、多工具协作) -
生态丰富:集成主流模型+ 数据库(Chroma、FAISS)+ 工具(搜索、计算)
? 二、核心开发流程
Step 1:安装与环境配置
# 安装核心库+OpenAI扩展
pip install -U langchain langchain-openai langchain-community
# 密钥配置(推荐环境变量)
import os
from dotenv import load_dotenv
from langchain_openai import ChatOpenAI
from langchain_openai import OpenAIEmbeddings
load_dotenv()
#读取项目下的.env文件
api_key = os.getenv('DEEPSEEK_API_KEY')
model = os.getenv('DEEPSEEK_MODEL')
base_url = os.getenv('DEEPSEEK_URL')
llm = ChatOpenAI(
model=model,
api_key=api_key,
base_url=base_url
)
embeddings = OpenAIEmbeddings(
model=os.getenv('SILICON_EMBEDDING_MODEL'),
base_url=os.getenv('SILICON_EMBEDDING'),
api_key = os.getenv('SILICON_API_KEY')
)
Step 2:选择你的武器库
| 模块 | 用途 | 推荐方案 |
|---|---|---|
| 模型调用 |
|
ChatOpenAI
OpenAIEmbeddings |
| 流程编排 |
|
LCEL表达式语言
|
| 外部数据 |
|
Chroma
RAG链 |
| 智能决策 |
|
智能体Agents |
Step 3:核心代码实战
场景1:用LCEL构建问答链
from langchain_core.prompts import ChatPromptTemplate
from llm import llm
# 定义管道式工作流
chain = (
ChatPromptTemplate.from_template("解释{term}的概念,用比喻手法:")
| llm
| (lambda x: x.content) # 提取文本内容
)
print(chain.invoke({"term": "神经网络"}))
# 输出:神经网络就像城市的交通网络,每个神经元是路口,权重是红绿灯...
场景2:智能体调用工具(搜索+计算)
from langchain.agents import AgentExecutor, create_tool_calling_agent
from langchain.tools import Tool
from llm import llm
from langchain_core.prompts import ChatPromptTemplate
# 自定义工具:计算字符串长度
defget_length(text: str) -> int:
return len(text)
# 创建工具集
tools = [
Tool(
name="text_length",
func=get_length,
description="计算输入文本的字符数"
)
]
# 构建智能体
agent = create_tool_calling_agent(
llm=llm,
tools=tools,
prompt=ChatPromptTemplate.from_messages([
("system", "你是一个严谨的助手,必须使用工具回答问题"),
("human", "{input}"),
("placeholder", "{agent_scratchpad}")
])
)
# 执行任务
agent_executor = AgentExecutor(agent=agent, tools=tools, verbose=True)
result = agent_executor.invoke({"input": "'Hello World'有多少个字符?"})
print(result)
输出:
> Entering new AgentExecutor chain...
Invoking: `text_length` with `Hello World`
11“Hello World”有11个字符。
> Finished chain.
{'input': "'Hello World'有多少个字符?", 'output': '“Hello World”有11个字符。'}
Step 3:进阶实战:RAG知识库问答
from langchain_community.vectorstores import Chroma
from langchain_core.output_parsers import StrOutputParser
from langchain_community.document_loaders import WebBaseLoader
from langchain.prompts import ChatPromptTemplate
from langchain_core.runnables import RunnablePassthrough
from llm import llm, embeddings
from langchain_text_splitters import RecursiveCharacterTextSplitter
# 1. 加载文档并分块
loader = WebBaseLoader("https://python.langchain.com/docs/concepts/structured_outputs/")
docs = loader.load()
text_splitter = RecursiveCharacterTextSplitter()
documents = text_splitter.split_documents(docs)
# 2. 向量化存储
vectorstore = Chroma.from_documents(documents, embeddings)
# 3. 构建RAG链
retriever = vectorstore.as_retriever()
rag_chain = (
{"context": retriever, "question": RunnablePassthrough()}
| ChatPromptTemplate.from_template("基于上下文回答问题:{question}n上下文:{context}")
| llm
| StrOutputParser()
)
# 4. 提问
print(rag_chain.invoke("模型格式化输出有几种方式"))
输出:
根据上下文,模型格式化输出主要有以下几种方式:
1. **JSON模式(JSON Mode)**
- 部分模型提供商支持此功能,允许定义JSON Schema作为输入,并强制模型生成符合该结构的JSON输出。
- 示例:通过`with_structured_output(method="json_mode")`启用,输出可直接解析为JSON对象。
2. **工具调用(Tool Calling)**
- 将输出结构绑定为工具的Schema,模型通过调用工具确保响应符合预定义格式。
- 示例:使用`bind_tools([Schema])`绑定工具,解析工具调用的参数(如字典或Pydantic对象)。
3. **Pydantic模型**
- 利用Pydantic的强类型和验证功能定义结构化输出,适合复杂场景。
- 示例:定义`BaseModel`子类,通过`model_validate()`将工具调用的字典解析为Pydantic对象。
4. **LangChain辅助方法(`with_structured_output()`)**
- 封装了工具调用和JSON模式的复杂性,自动绑定Schema并解析输出。
- 适用于所有支持结构化输出的模型提供商。
**总结**:主要方式包括JSON模式、工具调用、Pydantic模型,以及LangChain提供的统一方法`with_structured_output()`。
三、避坑指南
-
拒绝硬编码:用 LCEL替代传统SequentialChain,代码更简洁 -
优先智能体:用 Agents动态决策,替代固定流程工具链 -
数据分块必做:长文本务必使用 RecursiveCharacterTextSplitter预处理 -
安全第一:敏感数据避免明文输入,建议使用环境变量


