在 Kubernetes 上部署 llama3


Ollama 与 OpenWebUI 介绍

Ollama 是一个运行大模型的工具,可以看成是大模型领域的 Docker,可以下载所需的大模型并暴露 API。

OpenWebUI 是一个大模型的 Web UI 交互工具,支持 Ollama,即调用 Ollama 暴露的 API 实现与大模型交互:

在 Kubernetes 上部署 llama3

部署方案选型

OpenWebUI 的仓库中自带 Ollawma + OpenWebUI 的部署方式,主要是 kustomizehelm 这两种方式,参考 open-webui 仓库的 kubernetes 目录。

但我更推荐直接写 YAML 进行部署,原因如下:

  1. Ollama + OpenWebUI 所需 YAML 相对较少,直接根据需要写 YAML 更直接和灵活。
  2. 不需要研究 OpenWebUI 提供的 kustomizehelm 方式的用法。

选择模型

Llama3 目前主要有 8b70b 两个模型,分别对应 80 亿和 700 亿规模的参数模型,CPU 和 GPU 都支持,8b 是小模型,对配置要求不高,一般处于成本考虑,可以直接使用 CPU 运行,而 70b 则是大模型, CPU 肯定吃不消,GPU 的配置低也几乎跑不起来,主要是显存要大才行,经实测,24G 显存跑起来会非常非常慢,32G 的也有点吃力,40G 的相对流畅(比如 Nvdia A100)。

准备 Namespace

准备一个 namespace,用于部署运行 llama3 所需的服务,这里使用 llama namespace:

kubectl create ns llama

部署 Ollama

apiVers