02 部署框架对比
模型部署框架 | Xinference | LocalAI | Ollama | FastChat |
OpenAI API 接口对齐 | 支持 | 支持 | 支持 | 支持 |
加速推理引擎 | GPTQ, GGML, vLLM, TensorRT, mlx | GPTQ, GGML, vLLM, TensorRT | GGUF, GGML | vLLM |
接入模型类型 | LLM, Embedding, Rerank, Text-to-Image, Vision, Audio | LLM, Embedding, Rerank, Text-to-Image, Vision, Audio | LLM, Text-to-Image, Vision | LLM, Vision |
Function Call | 支持 | 支持 | 支持 | / |
更多平台支持(CPU, Metal) | 支持 | 支持 | 支持 | 支持 |
异构 | 支持 | 支持 | / | / |
集群 | 支持 | 支持 | / | / |
操作文档链接 | https://inference.readthedocs.io/zh-cn/latest/models/builtin/index.html | https://localai.io/model-compatibility/ | https://github.com/ollama/ollama?tab=readme-ov-file#model-library | https://github.com/lm-sys/FastChat#install |
可用模型 | 支持上百种大模型,https://inference.readthedocs.io/zh-cn/latest/models/builtin/index.html | https://localai.io/model-compatibility/#/ | https://ollama.com/library#/ | https://github.com/lm-sys/FastChat/blob/main/docs/model_support.md |
03 总结