如何快速搭建个性化RAG聊天机器人

在 AI 领域，Retrieval-Augmented Generation（简称 RAG）已经成为生成式 AI 应用的重要技术，尤其是在对话式 AI 中。它结合了预训练大语言模型（LLM）如 OpenAI 的 GPT 和外部知识库（存储在向量数据库中，比如 Milvus 和 Zilliz Cloud），能够生成更加精准、上下文相关的回复，并且保持信息的实时性。

一个完整的 RAG 管道通常由四个基本组件组成：向量数据库、嵌入模型、LLM 和框架。

今天，我们就来一步步教大家如何用 Python 构建一个简单的 RAG 聊天机器人！如果你对 AI 技术感兴趣，或者正在寻找提升对话式 AI 性能的方法，这篇文章一定会让你收获满满。

我们会用到哪些关键技术组件？

在本次教程中，我们将使用以下工具和技术：

LangChain
可以帮助你轻松编排 LLM、向量存储、嵌入模型等之间的交互，从而简化 RAG 管道的集成过程。
Milvus
Milvus 是一款开源的向量数据库，专为高效存储、索引和搜索大规模向量嵌入而优化，非常适合 RAG、语义搜索和推荐系统等应用场景。当然，如果你不想自己管理基础设施，也可以选择 Zilliz Cloud，这是一个基于 Milvus 构建的全托管向量数据库服务，还提供免费套餐，支持多达 100 万个向量。
Fireworks AI Llama 3.1 8B Instruct
这个模型拥有 80 亿参数，擅长通过高级推理能力提供精确的指令和指导。无论是教育工具、虚拟助手还是互动内容生成，它都能生成连贯且多领域的响应，特别适合需要个性化交互的场景。
Cohere embed-multilingual-v2.0
这款嵌入模型专注于生成高质量的多语言嵌入，能够有效实现跨语言理解和检索。它的优势在于捕捉多种语言中的语义关系，非常适合多语言搜索、推荐系统和全球内容分析等应用。

第一步：安装并设置 LangChain

首先，我们需要安装 LangChain 相关依赖。打开你的终端，输入以下命令：

%pip install --quiet --upgrade langchain-text-splitters langchain-community langgraph

第二步：安装并设置 Fireworks AI Llama 3.1 8B Instruct

接下来，我们安装 Fireworks AI 的相关依赖。执行以下代码：

pip install -qU "langchain[fireworks]"
import getpass
import os
if not os.environ.get("FIREWORKS_API_KEY"):
    os.environ["FIREWORKS_API_KEY"] = getpass.getpass("Enter API key for Fireworks AI: ")
from langchain.chat_models import init_chat_model
llm = init_chat_model("accounts/fireworks/models/llama-v3p1-8b-instruct", model_provider="fireworks")

注意：你需要提前获取 Fireworks AI 的 API 密钥哦！

推荐大家去用硅基流动的API，Qwen 7B是免费的~

第三步：安装并设置 Cohere embed-multilingual-v2.0

接着，我们安装 Cohere 的嵌入模型依赖。运行以下代码：

pip install -qU langchain-cohere
import getpass
import os
if not os.environ.get("COHERE_API_KEY"):
    os.environ["COHERE_API_KEY"] = getpass.getpass("Enter API key for Cohere: ")
from langchain_cohere import CohereEmbeddings
embeddings = CohereEmbeddings(model="embed-multilingual-v2.0")

第四步：安装并设置 Milvus

现在，我们来安装 Milvus 向量数据库。执行以下代码：

pip install -qU langchain-milvus
from langchain_milvus import Milvus
vector_store = Milvus(embedding_function=embeddings)

第五步：构建 RAG 聊天机器人

到这里，所有组件都准备好了，接下来我们开始构建聊天机器人！我们会用 Milvus 的介绍文档作为私有知识库。当然，你也可以替换为你自己的数据集，定制属于你的 RAG 聊天机器人。

以下是完整的代码实现：

import bs4
from langchain import hub
from langchain_community.document_loaders import WebBaseLoader
from langchain_core.documents import Document
from langchain_text_splitters import RecursiveCharacterTextSplitter
from langgraph.graph import START, StateGraph
from typing_extensions import List, TypedDict

# 加载并切分博客内容
loader = WebBaseLoader(
    web_paths=("https://milvus.io/docs/overview.md",),
    bs_kwargs=dict(
        parse_only=bs4.SoupStrainer(
            class_=("doc-style doc-post-content")
        )
    ),
)
docs = loader.load()
text_splitter = RecursiveCharacterTextSplitter(chunk_size=1000, chunk_overlap=200)
all_splits = text_splitter.split_documents(docs)

# 索引切分后的文档
_ = vector_store.add_documents(documents=all_splits)

# 定义问答提示模板
prompt = hub.pull("rlm/rag-prompt")

# 定义应用状态
class State(TypedDict):
    question: str
    context: List[Document]
    answer: str

# 定义应用步骤
def retrieve(state: State):
    retrieved_docs = vector_store.similarity_search(state["question"])
    return {"context": retrieved_docs}

def generate(state: State):
    docs_content = "nn".join(doc.page_content for doc in state["context"])
    messages = prompt.invoke({"question": state["question"], "context": docs_content})
    response = llm.invoke(messages)
    return {"answer": response.content}

# 编译应用并测试
graph_builder = StateGraph(State).add_sequence([retrieve, generate])
graph_builder.add_edge(START, "retrieve")
graph = graph_builder.compile()

测试聊天机器人

好啦，聊天机器人已经搭建完成！让我们来测试一下吧：

response = graph.invoke({"question": "Milvus 支持哪些数据类型？"})
print(response["answer"])

示例输出

Milvus 支持多种数据类型，包括稀疏向量、二进制向量、JSON 和数组。此外，它还能处理常见的数值和字符类型，适用于不同的数据建模需求。这使得用户可以高效地管理非结构化或多模态数据。

优化

当我们构建 RAG 系统时，优化是确保性能和效率的关键。下面是一些针对各个组件的优化建议，帮助你打造更智能、更快、更灵敏的 RAG 应用。

LangChain 优化技巧

你可以通过减少冗余操作来优化 LangChain，比如合理设计链和代理的结构，利用缓存避免重复计算。模块化设计也能让你灵活更换模型或数据库，从而快速扩展系统。

Milvus 优化技巧

Milvus 是一个高效的向量数据库，优化它的性能可以从以下几个方面入手：

使用 HNSW（层次化导航小世界）索引来平衡速度和准确性；
根据使用模式对数据进行分区，提升查询性能；
批量插入向量以减少数据库锁竞争；
调整维度大小，找到适合你硬件和用例的最佳平衡点。

Fireworks AI Llama 3.1 8B Instruct 优化技巧

这款模型性价比很高，适合中等复杂度的 RAG 应用。你可以通过限制上下文长度、调整温度参数（建议 0.1-0.3）、以及缓存高频查询来优化其性能。

Cohere embed-multilingual-v2.0 优化技巧

这个多语言嵌入模型非常适合跨语言 RAG 场景。你可以通过预处理文本去除噪声、压缩嵌入、以及批处理操作来提升效率。

– END –

{{userData.name}}已认证