OpenCloudOS + GLM-5 全流程部署实战


OpenCloudOS + GLM-5 全流程部署实战OpenCloudOS + GLM-5 全流程部署实战OpenCloudOS + GLM-5 全流程部署实战OpenCloudOS + GLM-5 全流程部署实战OpenCloudOS + GLM-5 全流程部署实战OpenCloudOS + GLM-5 全流程部署实战OpenCloudOS + GLM-5 全流程部署实战OpenCloudOS + GLM-5 全流程部署实战OpenCloudOS + GLM-5 全流程部署实战OpenCloudOS + GLM-5 全流程部署实战OpenCloudOS + GLM-5 全流程部署实战OpenCloudOS + GLM-5 全流程部署实战OpenCloudOS + GLM-5 全流程部署实战OpenCloudOS + GLM-5 全流程部署实战OpenCloudOS + GLM-5 全流程部署实战OpenCloudOS + GLM-5 全流程部署实战OpenCloudOS + GLM-5 全流程部署实战OpenCloudOS + GLM-5 全流程部署实战OpenCloudOS + GLM-5 全流程部署实战

年前,智谱正式发布了万众瞩目的 GLM-5 。作为上市后的首个重磅核弹,GLM-5 带来了 745B MoE 架构和惊人的推理能力。但问题来了: 如此强悍的 745B 模型,如何在私有化环境中落地?

今天,我们不谈虚的。直接在国产操作系统 OpenCloudOS 9 上,用16张 NVIDIA H2096GB ,来一次硬核的部署实战!

一、为什么O9+GLM5

如果说 GLM-5 是软件上的“大脑”,那 OpenCloudOS 就是承载它的“神经中枢”。

面对 GLM-5 这种 MoE 架构,频繁的专家切换对内存调度和系统延迟提出了极高要求OpenCloudOS 9 内核经过深度调优,在处理高并发 AI 负载时,抖动极低,是目前跑大模型最稳的国产底座之一。

二、O9+ H20 极限部署 GLM-5 实战手册

2.1 环境清单

  • OS : OpenCloudOS 9 (Kernel 6.6)

  • GPU : NVIDIA H20 (96GB*16)

  • Driver : NVIDIA Driver 590+ / CUDA 13.1

  • Model : GLM-5-745B-fp8 (量化版)

  • 大于1TB的剩余磁盘空间

2.2 部署流程

2.2.1 驱动安装

推荐使用 NVIDIDriver 59版本目前 OpenCloudOS 的 EPO集成对应 RP通过以下指令执行安装默认安装590版本安装 58版本命令版本号


dnf install nvidia-driver
2.2.2 Nvidia Runtime安装

因为需要用到容器所以通过如下指令安装 Nvidia Runtime


# 添加nvidia runtime toolkitsudo yum-config-manager --add-repo https://nvidia.github.io/libnvidia-container/stable/rpm/nvidia-container-toolkit.reposudo dnf install docker-ce nvidia-container-toolkit -ysudo systemctl start docker.servicesudo systemctl enable docker.service
2.2.下载模型

首先载魔搭,通过魔搭下载模如果 python 版本使用是 O版本默认自带 python 3.6安装 python 3.11


pip3 install modelscopemodelscope download --model ZhipuAI/GLM-5-FP8 # 如使用OC 8版本,请先升级 python 版本至 3.11,且上面的pip3 命令变更为pip3.11。如使用OC 9版本,该步可跳过。dnf install python3.11 python3.11-pip -y
2.2.安装 vLLM

本次使用 vLL和 Ray 集群运行 GLM5

说明:Ray 是分布式计算框架。当单机显存不足以加载超大模型,需多机多卡并行推理时,必须用它来统一调度集群资源。

具体执行方式如下


# 使用专用的 vLLM 来运行,-v的模型映射路径,需根据您实际模型目录来写# 两台机器都需要启动集群,网卡 eth0 需根据您实际来设置docker run -itd --net=host --ipc=host  --privileged  --name=glm5 --gpus all --entrypoint /bin/bash  -e GLOO_SOCKET_IFNAME=eth0  -e NCCL_SOCKET_IFNAME=eth0  -e MASTER_ADDR=192.168.32.6  -e NCCL_DEBUG=INFO  -e NCCL_IB_DISABLE=1  -e NCCL_P2P_DISABLE=1  -e NCCL_SHM_DISABLE=0  -e NCCL_NET_GDR_LEVEL=0  -v /data/models/:/data/ vllm/vllm-openai:glm5
2.2.启动

1)先启动 Ray 集群

# 进入容器启动 Ray 集群主节点,假设主节点ip为 192.168.32.6ray start --head --port=6379 --num-gpus=8# 进入另外一台机器的容器启动从节点ray start --address='192.168.32.6:6379' --num-gpus=8# 查看集群状态,应该有16张GPUray status

OpenCloudOS + GLM-5 全流程部署实战

2)在主节点容器执行如下命令启动 vLLM


python3 -m vllm.entrypoints.openai.api_server     --model /data/GLM-5-FP8     --tensor-parallel-size 16     --pipeline-parallel-size 1     --distributed-executor-backend ray     --host 0.0.0.0     --tool-call-parser glm47     --reasoning-parser glm45     --enable-auto-tool-choice     --served-model-name glm5     --trust-remote-code     --port 8000

OpenCloudOS + GLM-5 全流程部署实战

OpenCloudOS + GLM-5 全流程部署实战

2.2.使用

服务启动通过 curl 命令发送请求进行验证

备注:如使用普通tcp,加之模型较大,所以延迟会较高。

curl http://localhost:8000/v1/chat/completions   -H "Content-Type: application/json"   -d '{    "model": "glm5",    "messages": [      {"role": "user", "content": "你好,介绍一下你自己"}    ]  }'

OpenCloudOS + GLM-5 全流程部署实战

方便后续使用可以安装 webUI


docker run -d   --name open-webui   -p 3000:8080   --add-host=host.docker.internal:host-gateway   -e OPENAI_API_BASE_URL=http://host.docker.internal:8000/v1   -e OPENAI_API_KEY=sk-xxx   -v open-webui-data:/app/backend/data   ghcr.nju.edu.cn/open-webui/open-webui:main

三、实战测试一下 GLM能力到底

我们一个典型编程场景问题测试下 GLM编程能力

OpenCloudOS + GLM-5 全流程部署实战

OpenCloudOS + GLM-5 全流程部署实战

作为对比我们接着用 Claudeopus 45完成同样一个编程指令

OpenCloudOS + GLM-5 全流程部署实战

OpenCloudOS + GLM-5 全流程部署实战

可以看到Claud存在明显语法错误而 GLM代码简洁思路清晰没有语法错误

OpenCloudOS + GLM-5 全流程部署实战

RAG技术前沿技术新闻资讯

5步构建企业级RAG应用:Dify与LangChain v1.0集成实战

2026-4-8 19:49:16

RAG技术前沿技术新闻资讯

RAG实战(一):Simple RAG篇

2026-4-8 20:40:16

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
购物车
优惠劵
搜索