Ollama 与 OpenWebUI 介绍
Ollama 是一个运行大模型的工具,可以看成是大模型领域的 Docker,可以下载所需的大模型并暴露 API。
OpenWebUI 是一个大模型的 Web UI 交互工具,支持 Ollama,即调用 Ollama 暴露的 API 实现与大模型交互:

部署方案选型
OpenWebUI
的仓库中自带 Ollawma
+ OpenWebUI
的部署方式,主要是 kustomize
和 helm
这两种方式,参考 open-webui 仓库的 kubernetes 目录。
但我更推荐直接写 YAML 进行部署,原因如下:
-
Ollama
+OpenWebUI
所需 YAML 相对较少,直接根据需要写 YAML 更直接和灵活。 -
不需要研究 OpenWebUI
提供的kustomize
和helm
方式的用法。
选择模型
Llama3 目前主要有 8b
和 70b
两个模型,分别对应 80 亿和 700 亿规模的参数模型,CPU 和 GPU 都支持,8b
是小模型,对配置要求不高,一般处于成本考虑,可以直接使用 CPU 运行,而 70b
则是大模型, CPU 肯定吃不消,GPU 的配置低也几乎跑不起来,主要是显存要大才行,经实测,24G 显存跑起来会非常非常慢,32G 的也有点吃力,40G 的相对流畅(比如 Nvdia A100)。
准备 Namespace
准备一个 namespace,用于部署运行 llama3 所需的服务,这里使用 llama
namespace:
kubectl create ns llama
部署 Ollama
apiVers