全部标签

模型微调

“算法备案与大模型备案：你们是否已完成双备案？”

自《互联网信息服务深度合成管理规定》《生成式人工智能服务管理暂行办法》发布以来，已经有大量的AI产品完成了算法备案和大模型备案及登记。截止目前，国家网信办已发布十批算法备案已通过的清单，近5000个深度合成算法完成算法备案。300多个大模型完成大模型备案，完成大模型登记的企业也在200个左右。问：我们提供生成式AI服务的产品，到底是做算法备案、大模型备案还是做大模型登记呢答：算法备案一…
前沿技术
- 0
- 0
charles4月29日
vLLM部署Deepseek（CPU版）踩坑记录（失败经验贴）

一、背景之前一直是用Ollama做本地化部署的，但是ollama只适合自己在本地部署玩一玩，提供的API的丰富程度、吞吐量以及支持的问答的上下文长度等等完全没办法和vllm比，所以决定还是找台机器基于vllm（https://docs.vllm.ai/en/stable/getting_started/in…
前沿技术
- 0
- 0
charles4月29日
一台3090就能跑Gemma 3 27B！谷歌发布Gemma 3全系QAT版模型

谷歌 Gemma 3 上线刚刚过去一个月，现在又出新版本了。该版本经过量化感知训练（Quantization-Aware Training，QAT）优化，能在保持高质量的同时显著降低内存需求。比如经过 QAT 优化后，Gemma 3 27B 的 VRAM 占用量可以从 54GB 大幅降至 14.1GB，使其完全可以在 NVIDIA RTX 3090 等消费级 GPU 上本地运行！Chatbot A…
前沿技术
- 0
- 0
charles4月29日
MCP vs Function Calling，该如何选？

众所周知，大型语言模型（LLMs）已经彻底改变了企业自动化、客户交互以及决策制定的方式，其强大的语言生成能力为各行业带来了前所未有的机遇。然而，要充分发挥 LLMs 的潜力，仅仅部署一个预训练模型是远远不够的。企业需要在实际应用中将 LLMs 无缝集成到现有系统中，确保其在释放创造力的同时，能够保持输出的可控性；在提供灵活性的同时，兼顾结构的严谨性；在推动创新的同时，确保…
前沿技术
- 0
- 0
charles4月29日
国内企业应用AI大模型赋能软件测试的落地实践案例

一、概述近年来，随着大语言模型(LLM)技术的快速发展，国内企业开始将其应用于软件测试领域，以提高测试效率和质量。本报告将从应用方向、实践案例、实施方法、效果数据以及面临的挑战等方面，对国内企业应用大模型赋能软件测试的现状进行全面分析。目前，大模型在软件测试领域的应用主要集中在文本生成类的场景，如测试用例生成、测试分析、自动化测试脚本生成等。而在行为生成类场景（如自动执行、结果分析、自动程序修复等…
前沿技术
- 0
- 0
charles4月29日
8卡H20运行DeepSeek-V3-0324性能和推理实测

最近在一台 8卡H20 机器上，先后部署了 DeepSeek-R1-AWQ （671B）和最新的 DeepSeek-V3-0324 (685B) ，测试了下性能和数学问题跑分。服务器由火山引擎提供。先来看一下机器配置：8卡H20机器配置GPU：+-----------------------------------------------------------------------------…
前沿技术
- 0
- 0
charles4月29日
低延迟小智AI服务端搭建-ASR篇（续）：CPU可跑

不可否认，GPU推理的成本，足以让大部分玩家却步了。如果你：对高成本及其厌恶；个人玩家，不关心用户体验。可以试试接下来的CPU推理方案。本篇将首先介绍 sherpa-onnx，一款高性能的语音处理开源项目。然后，选择其中的模型，实现小智AI服务端ASR的实时CPU推理。1. sherpa-onnx 简介https://github.com/k2-fsa/sherpa-onnxsherpa…
前沿技术
- 0
- 0
charles4月29日
LoRA 与QLoRA区别

LoRA 与QLoRA：有何区别LoRA（低秩自适应）和 QLoRA（量化低秩自适应）技术都可用于训练 AI 模型。更具体地说，它们都属于参数高效微调（PEFT），这种微调技术比训练大语言模型（LLM）所用的其他方法更节省资源，因此广受欢迎。LoRA and QLoRA 都有助于更高效地对 LLM 进行微调，但在操作模型和利用存储来达到预期结果方面，它们有所不同。LoRA 和 QLoRA 与传统微…
前沿技术
- 0
- 0
charles4月29日
DeepSeek-V3-0324 本地部署，vLLM和SGLang的方法

DeepSeek-V3-0324 发布了之后，折腾了几天，把踩过的坑记录下来，也给正在折腾本地部署的朋友避避雷。本人水平有限，如有错误的地方欢迎指正模型下载DeepSeek-V3-0324发布的当天官方在huggingface上上传了所有的模型参数地址如下https://huggingface.co/deepseek-ai/DeepSeek-V3-0324为了图方便，我通常到model…
前沿技术
- 0
- 0
charles4月29日
Ollama对决vLLM：DEEPSEEK部署神器选谁？90%人选错！这份实测攻略让你秒懂！

一、工具定位：轻量小白 vs 硬核极客一句话总结：Ollama：个人用户的“瑞士军刀”，5分钟部署，笔记本也能跑大模型vLLM：企业级的“核动力引擎”，百人团队并发访问稳如老狗举个栗子?：场景1：大学生用MacBook跑Llama2写论文 → 闭眼选Ollama场景2：电商公司搭建AI客服系统 → 咬牙上vLLM二、核心差异：一张表看清关键选择点对比项OllamavLLM部署难度⭐⭐⭐⭐⭐ 一键安…
前沿技术
- 0
- 0
charles4月29日
ollama v0.6.6 震撼发布！推理能力翻倍、下载提速 50%，对比 vLLM/LMDeploy 谁更强

Ollama v0.6.6 重磅更新：更强推理、更快下载、更稳内存AI 开发者们注意了！Ollama v0.6.6 正式发布，带来多项重大优化，包括全新模型支持、下载速度提升、内存泄漏修复等，让本地大模型推理更高效、更稳定！? 核心更新亮点1. 两大全新模型上线• Granite 3.3（2B & 8B）：128K 超长上下文，优化指令跟随与逻辑推理能力，适…
前沿技术
- 0
- 0
charles4月29日
从零开始开发 MCP Server

在大型语言模型（LLM）生态快速演进的今天，Model Context Protocol（MCP）作为连接 AI 能力与真实世界的标准化协议，正逐步成为智能体开发的事实标准。该协议通过定义 Resources（静态资源）、Prompts（提示词模板）和 Tools（可执行工具）三大核心能力，让开发者能够以模块化方式为 LLM 扩展文件系统访问、API 集成甚至物联网控制等交互能力。然而当前 MCP…
前沿技术
- 0
- 0
charles4月28日
AI 应用开发不要在大模型迭代必经之路上

昨天和投资人交流过程中，想到这了一个话题，大模型迭代速度太夸了，创业者是无法跟进速度的，这些太烧钱了，对于AI 领域创业者来说，就是要把大模型迭代的必经之路功能要过滤掉，要不然AI 创业者就会很痛苦，这点上我们从一开始就考虑的很清楚。1、技术迭代的边际效益递减在大模型的发展历程中，技术迭代的边际效益递减问题日益凸显。一方面，算力成本呈现出指数级增长的态势。据报道，GPT-4 的训练成本超过 1 亿…
前沿技术
- 0
- 0
charles4月28日
阿里百炼出手了！MCP 现在配置门槛下降了 100 倍

各位应该最近频繁听到 MCP 这个词，简单来说 MCP 协议的出现将模型使用工具的难度下降了非常多。发布的这短短几个月各种工具的 MCP 服务井喷式的出现。我上周也写了一篇教程帮大家使用 MCP，但其实 MCP 使用不是很难，你只需要以前跟 AI 聊天一样给 AI 提出需求就行。难的是 MCP 的配置，真的非常恶心，现在支持 MCP 的客户端除了 Claude 就是 Cursor 这种 AI ID…
前沿技术
- 0
- 0
charles4月28日
突发！OpenAI推出API组织验证：不验证就不让用最新模型

OpenAI 刚刚上线了一项重要更新——API 组织验证（Verified Organization）。直接关系到你未来能否用上 OpenAI 最顶尖的 AI 模型和新功能接下来一周OpenAI将发布一系列新模型，Sam Altman 也已经官宣，如果不进行API验证，新模型可能无法通过API使用OpenAI 立场：总有那么一小撮人试图利用 API 从事违规、甚至不安全的活动。推出这个…
前沿技术
- 0
- 0
charles4月28日
教你在分分钟内将Cursor连接到100多台MCP服务器

今天和大家讲一下2025年最火的新趋势——Model Context Protocol (MCP)。它不仅让工作流的扩展变得更加简单，还解锁了许多强大的使用场景。今天，我们将学习如何将Cursor连接到100多个MCP服务器，并在文章最后分享一些超酷的例子。话不多说，直接开讲！我们会详细讲以下几个主题：什么是Model Context Protocol (MCP)？如何一步步将Cursor连接到1…
前沿技术
- 0
- 0
charles4月28日
AI王炸：MCP服务端客户端的完整实现

概述试想一下，如果要想在现有应用上构建，让AI读取引用我们功能和数据，该怎么办，比如询问某个城市的天气，我们希望AI能调用天气函数返回相应结果，这时MCP (Model Context Protocol)就可以派上用场了，它相当于我们电脑的USB-C接口，提供了一个标准方式让AI模型连接不同的引用和工具。我们可以建一个MUP Server来处理这类业务，比如市面上已有各类MUP Ser…
前沿技术
- 0
- 0
charles4月28日
AI应用如何测试｜轻松入门LLM评测

大多数开发者构建LLM应用时并未设置自动评测流程——即便这可能引入未被察觉的破坏性变更，因为评测本身极具挑战性。本文中，你将学习如何正确评测LLM输出。目录• LLM是什么？为何评测如此困难？• 用Python评测LLM输出的不同方法• 如何使用DeepEval评测LLMLLM是什么？为何评测如此困难？要理解LLM为何难以评测且常被称为“黑箱”，需先拆解其本质与运作原理。以GP…
前沿技术
- 0
- 0
charles4月28日
三问一图万字拆解DeepSeek-R1：训练之道、实力之源与市场之变

本文是作者基于自己的学习经历重新组织的一篇更易于初心者理解的关于DeepSeek的文章，也可以说是作者阶段性的学习笔记。前言距离DeepSeek发布已近三个月，DeepSeek的热度仍在持续发酵当中，在网络上可以看到眼花缭乱的有关DeepSeek-R1的技术文章，不过很多都是对论文原文的摘要或者零碎知识点的拼接，阅读下来依然会有很多不解之处，于是我打算基于自己的学习经历重新组织一篇更易于初心者理解…
前沿技术
- 0
- 0
charles4月28日
买最贵的GPU，挨最毒的打！

最近，某集成商操盘手老季郁闷透顶。搞了个AI项目，尾款还没结，锅全被他身上。老季在圈里号称季牛牛，搞项目从没失过手，可这一次，搞砸了。这锅是这样的一个老客户，某行业龙头，属于那种“混熟了”的类型，常年从老季公司采购服务器、存储、交换机啥的，处得还不错。前阵子，他们内部决定搞行业私有大模型。跟老季提了需求：之前的机房还在用，直接上一批GPU服务器就行，其他的都利旧。虽然客户说只买GPU服务器，但也算…
前沿技术
- 0
- 0
charles4月28日
大语言模型的训练后量化算法综述 | 得物技术

目录一、简介二、概念 1. 量化分类 2. 量化对象 3. 细粒度 4. 其他维度三、量化方法摘要 1. GPTQ 2. AWQ 3. HQQ 4.SmoothQuant &nbs…
前沿技术
- 0
- 0
charles4月28日
AI Agent工程的6个要素

"2025年是智能体的元年"，这种说法经常被提起，此前AI行业圈子有报道过AI Agent智能体自主性的摩尔定律，每7个月翻一番，根据在 GAIA通用人工智能助手测试集上的进展，看起来它们将在 2026 年初赶上人类基线，简而言之，AI Agent将在2026年达到人类操作智能的水平。而且，这一进展仍然主要由基础 LLM 的改进推动：如果使用经过微调的智能体模型，进展会更快，得…
前沿技术
- 0
- 0
charles4月28日
DeepSeek|手把手教你完成AI投喂数据训练

接上文在完成deepseek-r1模型的本地部署后，如何搭建自己的个人知识库，训练（投喂数据）出专属自己的AI工具呢？比如多模态学习：PDF、音频、视频；使AI更加准确的理解我们的意图，更快速完整的给出精准答案，提供更人性化的服务。follow me，跟着本文下述教程步骤操作就能搞定！分五个步骤：一、部署nomic-embed-text嵌入式模型此操作使用ollama就可以完成，首先，运行运行我们…
前沿技术
- 0
- 0
charles4月28日
大模型量化方式详解及建议

下是关于模型量化方式（如 q4_0、q5_K_M、q8_0）的详细技术解析，结合最新行业实践和研究成果：一、量化方式概述模型量化通过降低权重和激活值的精度（如 FP32 → INT8）来减少模型体积、提升推理速度、降低功耗。不同量化方式在精度、计算效率、硬件支持上存在显著差异。二、常见量化方式详解1. q4_0（4-bit 量化）技术细节：权重和激活值量化为 4-bit 整数，分组…
前沿技术
- 0
- 0
charles4月28日