全部标签

模型微调

微调大模型！ModelScope 算力，实现Qwen2.5微调模型

一、什么是微调（Fine-tuning）？微调（Fine-tuning）是机器学习中的迁移学习技术，指在大规模预训练模型（如Qwen2.5）基础上，使用特定任务的数据进行进一步训练，使模型适应新任务或领域。其核心目的是复用预训练模型的通用知识，同时通过少量数据调整模型参数以优化特定场景的表现。例如，Qwen2.5作为通用大模型可能无法直接处理医疗领域的专业术语，通过微调可使其掌握医疗报告生成能力，…
前沿技术
- 0
- 0
charles4月27日
Cursor是越来越难用了！逼着我写mdc文档比代码还多

Cursor真就越来越难用了，尤其从0.45版本开始，智能肉眼可见的下降，越来越Trae化了。这段时间以来我就发现Cursor的上下文越来越短，时不时的乱改文件，一个简单问题能盘它好久，明明就是已经提供了报错信息解决方式愣是不解决。最离谱的是我打开了MCP的功能，结果每次编辑文件他都会去调用MPC的写文件功能，我甚至把配置文件去掉了，他还在调MCP的rite_file。哎，以前有多智能，现在就有多…
前沿技术
- 0
- 0
charles4月27日
Docker部署Dify+RAGFlow避坑指南

在 Docker 中同时安装 dify 和 RAGFlow 后，可能会遇到以下问题：一、端口冲突问题现象：Dify 和 RAGFlow 默认使用相同的端口（80 和 443），导致某一服务无法启动。解决方案：修改 RAGFlow 的端口映射，例如在 docker-compose.yml 中调整：ports: - "8000:80&quo…
前沿技术
- 0
- 0
charles4月27日
大型语言模型如何高效微调量化？答案就是 QLoRA！

QLoRA（Quantized Low-Rank Adapters）是一种高效的微调技术，用于在消费级硬件（如单张GPU）上微调大语言模型（LLM）。它的核心思想是通过量化（Quantization）和低秩适配器（Low-Rank Adapters）来减少内存占用，同时保持模型的性能。QLoRA 的关键技术4-bit 量化：使用4-bit NormalFloat (NF4) 量化方法，使得模型占用…
前沿技术
- 0
- 0
charles4月27日
LLaMA Factory微调后的大模型在vLLM框架中对齐对话模版

LLaMA Factory微调后的大模型Chat对话效果，与该模型使用vLLM推理架构中的对话效果，可能会出现不一致的情况。模型回答不稳定：有一半是对的，有一半是无关的？一般是因为训练时间太短，loss曲线未收敛；需要继续微调训练；大模型回答与LLaMA Factory训练chat界面的不一致？一般是因为对话模版chat_template不一致。本文来讲解下对话模版不一致的情况的解决方法。一、原因…
前沿技术
- 0
- 0
charles4月27日
AI大模型分布式训练技术原理是什么？看这篇超犀利解析！

AI大模型分布式训练技术是解决单机资源不足、提升训练效率的核心手段。一、为什么需要分布式训练？模型规模爆炸：现代大模型（如GPT-3、LLaMA等）参数量达千亿级别，单卡GPU无法存储完整模型。计算资源需求：训练大模型需要海量计算（如GPT-3需数万GPU小时），分布式训练可加速训练过程。内存瓶颈：单卡显存不足以容纳大模型参数、梯度及优化器状态。二、分布式训练的并行策略1、数据并行（D…
前沿技术
- 0
- 0
charles4月27日
大模型部署该选谁？Ollama、vLLM 和 LMDeploy，各有千秋！

一、Ollama、vLLM 和 LMDeploy介绍Ollama、vLLM 和 LMDeploy 都是与大语言模型相关的工具或框架，以下是它们的具体介绍：Ollama简介：一个轻量级的模型托管框架，可在本地环境中运行和管理 LLM 模型。基于 Go 语言开发，集成了模型管理与交互界面，采用 MIT 许可。适用场景：适用于个人开发者测试、教育场景以及轻量应用，比如在 MacBook Pro（M3 芯…
前沿技术
- 0
- 0
charles4月27日
【强烈建议收藏】一文读懂大模型训练的通信原语

在大模型训练过程中，通信原语起着举足轻重的作用。大模型训练涉及海量数据和复杂计算，需要多节点协作。通信原语能保障各节点间高效数据交互，像All-Reduce可实现全局梯度同步，让各节点获取相同规约结果，保证模型参数更新一致性；Reduce-Scatter能将规约结果分块到各节点，便于并行计算。合理运用通信原语可优化训练流程，减少通信延迟，提升计算资源利用率，加速训练速度。若通信原语使用不当，会出现…
前沿技术
- 0
- 0
charles4月27日
为什么你的Cursor效率不如我

现阶段程序员们都在探索如何高效地释放AI编程能力，比如用一句prompt在项目工程中构建一份本地的上下文基础信息库，这其实是一种AI编程工程的优化使用过的 Cline 的同学应该都能感受到 Cline、 Cursor，Copilot 之间的”代差“。而Cline优秀的上下文管理能力很大程度上正是因为memory bank，相信大家都遇到过以下这些糟糕表现改了一个文件，没有修改另外的文件。如果是几百…
前沿技术
- 0
- 0
charles4月27日
RAGFlow vs Dify, 商业化落地场景选哪个？

随着大模型（LLM）技术在各行各业的快速落地，对话式 AI 的需求持续升温。越来越多的团队开始探索如何让智能对话更好地与业务场景融合，以提升客户体验、优化企业内部流程。在众多解决方案中，RAGFlow 与 dify 这两款产品因其独特的技术思路与应用定位而备受瞩目。本文将围绕它们的特点、应用场景以及适用人群展开分析，帮助您更好地理解二者的差异，从而做出最优的技术选型。…
前沿技术
- 0
- 0
charles4月26日
AutoDev Next：IDE 即 AI 编程服务，构建多端粪围编程

AutoDev Next 的核心理念是将强大的 IDE 能力与 AI 结合，打造“IDE 即服务”的下一代 AI 编程体验，随处即创建应用的编程服务体验。GitHub：https://github.com/unit-mesh/auto-dev-next引子：AI 编程的持续进化我们正经历一个从传统手动编码到 AI 辅助开发的转变时代。在这种新范式下，开发者可以通过自然语言描述需求，由 AI 负责生…
前沿技术
- 0
- 0
charles4月26日
论懂五行术数还得看DeepSeek，手把手教你搭建一个算命智能体！

前言在之前《白嫖DeepSeek的文章》里，我提到了好几种当下可以免费使用的DeepSeek方式。这两天又发现了一个完全免费的可联网满血模型使用方式，即支付宝的百宝箱产品，知道的人应该不多。不过这篇文章我不准备仅仅告知大家一个可以免费使用DeepSeek联网满血模型的另一个途径，它还提供了更多好用的功能，我将手把手教大家使用百宝箱提供的功能，搭建一个基于DeepSeek R1的算命智能体。至于为什…
前沿技术
- 0
- 0
charles4月26日
Open R1 项目进展第一期

DeepSeek R1 发布已经两周 (注: 原文发布于 2 月 2 日) 了，而我们启动 open-r1 项目——试图补齐它缺失的训练流程和合成数据——也才过了一周。这篇文章简单聊聊:Open-R1 在模仿 DeepSeek-R1 流程和数据方面的进展我们对 DeepSeek-R1 的认识和相关讨论DeepSeek-R1 发布…
前沿技术
- 0
- 0
charles4月26日
Open R1 项目进展第二期

原文发布于 2025 年 2 月 10 日我们启动 Open R1 项目已经两周了，这个项目是为了把 DeepSeek R1 缺失的部分补齐，特别是训练流程和合成数据。这篇文章里，我们很高兴跟大家分享一个大成果:，这是我们打造的第一个大规模数学推理数据集！除此之外，我们还聊聊社区里一些让人兴奋的进展，比如怎么整理出小而精的高质量数据集来微调模型，以及如何在训练和推理时控制推理模型的“思考步数”。一…
前沿技术
- 0
- 0
charles4月26日
通义灵码与魔搭Notebook深度集成：在线编码开箱即用，开发效率倍增

00前言通义灵码2.0 AI程序员于2025年1月上线，目前已支持超过百万开发者。该工具的智能编程能力现已与阿里云AI模型开发平台魔搭ModelScope实现技术集成，成为继函数计算FC之后接入该平台的又一开发工具。此次合作将通义灵码的代码生成能力应用于AI模型研发流程，为算法工程师提供开发支持。在魔搭 ModelScope 的Notebook在线开发环境中，开发者现可直接开启通义灵码的智能问答和…
前沿技术
- 0
- 0
charles4月26日
FastGPT原理分析-数据集创建第一步

概述FastGPT的文件上传过程分为两个阶段：第一个阶段：是文件上传。第二个阶段：是对文件进行向量化处理和QA化处理。本文介绍文件上传的总体流程，并对创建数据集的第一步的详细实现逻辑进行分析。数据集创建总体流程数据集创建分为两个步骤：第一步：文件上传和预处理，插入记录到mongodb的训练队列dataset_trainings表中。第二步：监控mongodb的插入操作，并启动数据处理：(1)嵌入向…
前沿技术
- 0
- 0
charles4月26日
如何利用Dify轻松构建你的专属语料库？

在人工智能的浪潮中，大语言模型（LLM）展现出强大的能力。除了聊天对话，LLM 还能帮助我们完成许多任务，例如构建用于模型微调的语料库。本文将以一个dify实际的工作流为例，向您介绍如何利用 LLM 自动化地创建高质量的语料数据。什么是语料库？为什么需要构建它？语料库，简单来说，就是大量文本数据的集合。对于训练或微调一个特定任务的语言模型来说，高质量的语料库至关重要。例如，…
前沿技术
- 0
- 0
charles4月26日
大模型的秘密武器：模型蒸馏技术

随着人工智能的快速发展，大模型的规模和复杂度不断攀升。以GPT系列为例，从GPT-1到GPT-4，模型参数呈指数级增长，带来了更强大的语言处理能力，但也伴随着高昂的计算成本和存储需求。在实际应用中，许多设备，如手机、边缘计算设备等，无法承受如此庞大的模型运行。这就如同打造了一辆超级跑车，性能卓越，但却无法在普通的小路上行驶。大模型蒸馏技术应运而生，旨在解决大模型在实际应用中的“水土不服”问题，让模…
前沿技术
- 0
- 0
charles4月26日
Xinference 本地部署全流程详解与疑难解答

一、基础环境配置1. Docker 与 NVIDIA 驱动验证核心步骤：Docker 安装验证：docker --version # 需 ≥24.0.5（2025年兼容性要求）NVIDIA 驱动兼容性：检查驱动版本（需 ≥535.129.03）：nvidia-smi | grep "Driver Version" # 输出示…
前沿技术
- 0
- 0
charles4月26日
客服中心如何微调专属AI大模型

在智能客服的浪潮下，AI大模型的应用正逐步成为企业提升服务质量和运营效率的重要工具。然而，未经优化的AI大模型往往无法精准理解用户需求，甚至可能因答复不当而引发客户不满。例如，某银行客服团队反馈，用户在深夜咨询ETC发票问题时，AI大模型竟然回复“建议您在白天工作时间咨询”，导致客户投诉。这种问题的出现，表明AI大模型必须经过精细化的微调，才能真正适应企业的业务需求和用户期望。本文将深入探讨如何高…
前沿技术
- 0
- 0
charles4月26日
全网首家，教你快速打造个人/企业版本 cursor

笔者长期在 cursor / windsurf 之间徘徊，多次切换 GitHub Copilot 发现都没有达到很好的效果。这里主要有几个重要的能力差距：1. Copilot 代码智能、且快速的自动应用。 2. Agent 自动编程模式。3. UI/UX交互体验细节前面两个功能的实现，从原理上并不复杂，但提示工程细节优化非常需要耐心。Copilot 团队在文档中也介绍了这里的工作量。今天尝试了最新…
前沿技术
- 0
- 0
charles4月26日
DeepSeek-R1本地化部署全流程

1.模型定位与平衡运行硬件需求1.5B/7B/8B版本定位：中小型模型、轻量级模型、平衡型模型参数规模：1.5B(15亿)、7B(70亿)、8B(80亿)特点：轻量级模型，资源消耗低，推理速度快，但处理复杂任务的能力有限。硬件需求：普通消费级GPU（如RTX3090/4090 GPU，显存≥4GB）适用场景：· 本地开发和测试：可处理一些常规的翻译、总结、摘要、生成等常见任务…
前沿技术
- 0
- 0
charles4月26日
他因选DeepSeek 70B 体验差，被开除

受害者案例这个案例是真实的，这个哥们之前问过我选什么版本，我俩还探讨过选什么版本比较好，我推荐他选满血版，哪怕是选择一个量化Q4的，他们预算不多，领导的意思是先做个AI助手，再慢慢体验后续逐步集成到业务系统里。最终，他们选择了一个之前合作过的集成商，提供了一个DeepSeek 蒸馏的70B版本，部署了一个AI助手用，领导说不好用，天…
前沿技术
- 0
- 0
charles4月26日
AI训练平台终极构建指南：结合RoCE/IB网络、3FS存储与HAI平台

AI训练平台的建设是人工智能领域发展的核心驱动力，尤其在分布式训练和大规模模型训练中，涉及网络、存储和平台集成的多方面技术。本报告基于当前研究和实践，详细探讨如何从底层RoCE或IB网络、网络优化、3FS存储到幻方HAI Platform平台的多维度构建高效AI训练平台，内容面向技术从业者和决策者，力求通俗易懂。1. 底层网络：RoCE和IB的技术基础AI训练对网络性能要求极高，尤其是分布式GPU…
前沿技术
- 0
- 0
charles4月26日