-
Google 发布 Gemini 3.1 Flash-Lite:每秒 363 tokens,百万 token 只要 $0.25
Google 刚发布了 Gemini 3 系列的最新成员,Gemini 3.1 Flash-Lite,主打一个又快又便宜。这个模型有多快呢?输出速度达到了 363 tokens/秒,而上一代 Gemini 2.5 Flash 是 249 tokens/秒,直接快了 45%。首个 token 的响应速度更是提升了 2.5 倍。简单说就是,你话还没问完,它答案都快出来了。…- 0
- 0
-
刚刚,GPT-5.3 发布:专治「油腻」,更准确!GPT-5.4 也快了
GPT-5.3,终于来了。全名 GPT-5.3 Instant。「More accurate, less cringe.」这是 GPT-5.3 的官方标签。翻译一下,「更准确,更不油腻。」OpenAI 说,「上一代 GPT-5.2 Instant 说话有时候咄咄逼人,还会对用户的意图和情绪做没来由的揣测。」有点意思。来看对比。一道纯物理题,弓箭远距离弹道计算。GPT-…- 0
- 0
-
RAG评估:Opik监控追踪RAG应用
随着LLM系统规模的扩大,确保其性能保持稳当可靠成为真正的挑战。因此,构建可靠且高效的基于LLM的应用系统,需要的不仅仅是部署一个模型,还需要持续评估以确保质量和可观察性,以便能够在部署后发现问题。很多团队在兴奋地搭完 RAG 管道后,却发现效果“玄学”:同样一套数据和模型,时而答得精准,时而胡说八道,线上用户反馈也忽好忽坏。到底是检索质量不行?还是生成阶段崩了?抑或上下文过长导致注意力稀释?配置…- 0
- 0
-
马斯克大赞阿里 AI,9B 参数硬刚 120B,海外网友:这叫小模型?
马斯克又双叒叕下场点赞中国 AI 了。昨天深夜,阿里通义千问团队在 X 平台正式发布了 Qwen3.5 小模型系列,覆盖 0.8B、2B、4B 和 9B 四个参数规格。甫一发布,便在海外科技圈引发强烈反响。马斯克也在该推文下评论称:「Impressive intelligence density」(令人印象深刻的智能密度)。这股热度的背后,APPSO 也好奇,为什么这几款小模型能够激起如此大的波澜…- 0
- 0
-
Struct Array 如何让多向量检索返回完整实体?知识库、电商、视频通用|Milvus Week
本文为Milvus Week系列第二篇,该系列旨在分享Zilliz、Milvus在系统性能、索引算法和云原生架构上的创新与实践,以下是DAY2内容划重点:Struct Array + MAX_SIM ,能够让数据库看懂 “多向量组成一个实体” 的逻辑,进而原生返回业务要的完整结果用向量数据库的人大概率都碰过这类问题:数据库里存的是被拆成片段的向量(比如一篇文档的段落向量、商品的单张图片向量),但业…- 0
- 0
-
企业级 AI Agent规模化落地的避坑指南,就藏在这四大趋势里
SaaS 用不好常卡在“最后一公里”。但 Al Agent 用不好,问题会出在“每一公里”。2025 被普遍视为企业级 Al Agent 的落地拐点:企业从“试试看”走向“用起来”,技术叙事让位于业务结果。美国著名通信 API 服务机构 Plivo 的调研显示,超过六成企业将 Al Agent 列为未来 12 个月的关键布局,“价值导向型…- 0
- 0
-
Claude Code 创造者直言:软件工程师这个头衔,可能要消失了
最近看了一期 Y Combinator 的播客节目 Lightcone,嘉宾是 Boris Cherny,Claude Code 的创造者。这期节目信息量非常大,Boris 从 Claude Code 的诞生讲起,一路聊到 AI 编程的未来、产品哲学、团队协作,甚至聊到了软件工程师这个职业本身会发生什么变化。我把里面最有价值的观点都提炼出来,尽量用大白话讲清楚。一切都是意外开始的Claude Co…- 0
- 0
-
GPT-5.4据传下周上线!200万上下文窗口+持久化状态,告别频繁遗忘
新智元报道 编辑:艾伦【新智元导读】OpenAI 意外泄露 GPT-5.4!新版凭 200 万 Tokens 与「状态化 AI」实现跨会话持久记忆,并支持全分辨率视觉直读。AI 将从聊天工具向「全自动代理」进化,彻底重塑工作流并引爆底层硬件内存之战。近日,OpenAI 的一名工程师在 Codex 的公开 GitHub 仓库中提交了一次代码拉取请求,无意间将「gp…- 0
- 0
-
MCP与数据库的完美结合
知识库检索总是答非所问?复杂查询根本搞不定?模型微调成本又太高?如果你也被这些问题困扰,今天这篇文章可能会给你一个全新的思路——MCP + 数据库,一种让AI精准检索结构化数据的"黑科技"。实测效果吊打传统RAG,而且几乎零代码!RAG的"中年危机"我们以为的RAG vs 现实中的RAG说起RAG(检索增强生成),很多人觉得这是给大模型"接外挂&q…- 0
- 0
-
AI时代,企业应立即停止使用低代码平台
我的观点非常明确:在AI成为软件生产主力的时代,企业应立即停止新增和使用低代码平台构建应用。不是谨慎观望,而是战略级转向。因为低代码构建出来的大量应用,将在未来三到五年内,逐步演变为无法被AI理解、无法被AI重构、无法被AI迭代的技术负债。可能我这个观点很多低代码厂商会不认同。但站在企业长期技术演进的角度来看,企业CIO以及软件企业的CTO必须要引起足够重视,下面我就这个观点来展开说明一下。一、软…- 0
- 0
-
KnowEval:RAG 工程化的最后一公里,让问答质量有据可依
KnowEval:RAG 工程化的最后一公里,让问答质量有据可依前言为什么需要 KnowEval?在过去一年与众多企业客户的交流中,我们发现一个普遍的痛点:RAG 系统上线后,如何量化评估问答质量?如何系统化提升检索效果?如何在多个优化方案中选择最优解?很多团队花费大量时间调试 RAG 系统,但往往凭感觉调参,缺乏数据支撑。A/B 测试需要人工逐条对比,效率低下。更关键的是,没有一套标…- 0
- 0
-
大模型文本分类:从原理到工程落地(含代码)
1. 大模型时代,文本分类为何需要新方案?1.1 传统文本分类的三大痛点1.2 大模型带来的颠覆性突破2. 核心原理:向量检索 + 大模型的双阶段架构2.1 离线阶段:构建 “标签 - 样本” 知识索引库2.2 在线阶段:两步完成文本分类3. 技术选型:从模型到工具的最佳组合4. 工程落地:核心模块实现4.1 项目结构设计4.2 核心模块实现4.2.1 句子嵌入模型:BGE-base-zh-v1.…- 0
- 0
-
打造高可靠 AI 助手:Skill 编排、Workflow 设计与 Spec Coding 的深度实践
背景2025 年 AI 辅助编程领域经历了多次里程碑式的快速发展。Vibe Coding在 2025 年 2 月,Andrej Karpathy 提出 Vibe Coding 的概念,即氛围编程,开发者只需要描述需要什么功能,不需要关注具体的代码实现。听起来非常的吸引人,但我认为 Vibe Coding 更大的意义是大幅降低编程的门槛,让一些不懂编程的人员,能够快速的落地自己的想法。反而 Vibe…- 0
- 0
-
百万人围观!Claude Code团队成员亲述CC究竟如何被开发出来:四条黄金经验
↑阅读之前记得关注+星标⭐️,😄,每天才能第一时间接收到更新 作为当下最热的Agent,Claude Code 究竟是如何打造出来的?CC团队成员 Thariq 亲自撰文,深度复盘了开发 Claude Code 过程中的实战经验。他指出,构建智能体框架最棘手、也最核心的环节,就是设计它的动作空间。当前API提供了Bash、技能、代码执行等五花八门的工具调用基元,开发者面临着灵魂拷问:到底…- 0
- 0
-
RAG 只是 AI 的上半场,OmniThink 才是类人的真思考(深度)
过去两年,从 ChatGPT 的爆发到各类 AI 应用的遍地开花,RAG(检索增强生成)成了技术圈最热门的词汇之一。几乎每一个企业级 AI 项目,都在谈论如何用 RAG 来增强大模型的能力,让 AI"知道"更多、"懂"更多。但这里有一个被忽视的核心问题:RAG 真的让 AI 变得更聪明了吗?还是我们只是制造了一个更快速的"答案复印机"?在…- 0
- 0
-
Figma 着急了!Codex 和 Figma 双向构建前端 UI
Figma,终于坐不住了。在 AI 掀翻代码界的这一年里,设计圈的老大哥 Figma 显然有点“破防”了。当人们开始拿着 Pencil 几秒钟生成可交互原型,当 Vibe Coding(氛围编程)让“设计师直接出成品”从口号变成现实,所有人的目光都聚焦在 Figma 身上:你这个全球最强的设计工具,难道真要沦为 AI 时代的“画板”?终于,Figma 憋出…- 0
- 0
-
从检索增强到自主检索:构建可行动的 Agentic RAG 系统
前言我们主要学习了如何构建多智能体系统,让大模型不仅能够“回答问题”,还能够在复杂任务中进行规划、决策,并通过工具调用完成更高层次的操作。然而,再强的智能体依然离不开一个核心前提——获取准确、可靠、上下文相关的信息。大模型本身并不具备实时知识库,它的知识来源于训练数据,天然具有时效性、覆盖不完整、无法访问企业内部资料等限制。而解决这一问题的关键技术,就是本节课的核心:Agentic RAG。与传统…- 0
- 0
-
RAG被判死刑:Google用一行API架空工程师!
Google宣判RAG死刑!那条曾让无数工程师自豪的技术链,如今只剩下一行API调用。Gemini的File Search,把检索、分块、索引、引用,全都封进了模型内部。开发者不再需要理解流程,只需要上传文件。当智能被自动化吞并,工程师第一次发现,自己也成了被自动化的一部分。在过去几年里,RAG是工程师的底气。他们手动切块、生成向量、建立索引,再把检索到的内容精准拼进prompt。那是一整套细腻又…- 0
- 0
-
Claude动手抄OpenAI老家了:一键把你在 ChatGPT 攒的记忆全搬走
你在 ChatGPT 攒了一年的偏好、习惯、工作上下文,现在可以三步搬进 Claude 了。不用重新调教,不用从头来过。Anthropic 上线了一个记忆迁移工具(Memory Import),让你把 ChatGPT、Gemini 等 AI 助手里积累的个人偏好和上下文,一键导入到 Claude 的记忆系统里。功能入口:https://claude.com/import-memory支持平台:Cl…- 0
- 0
-
Claude Code 的记忆机制:从CLAUDE.md到Auto Memory,它到底记住了什么?
Claude Code 刚上线了一个新功能叫 Auto Memory - 让 AI 自己记笔记,下次对话自动带上。听起来很美好,但如果你不理解它的记忆体系是怎么分层的,很容易搞出一堆互相矛盾的指令,或者发现"明明告诉过它"的东西下次又忘了。这篇把 Claude Code 的记忆机制从头理清。一、两种记忆Claude Code 的记忆分两大类:CLAUDE.m…- 0
- 0
-
目前较优的知识库解决方案
知识库的问题大概跟外星人能否听到甚至听懂旅行者号上面的金唱片是一个问题。AI是否能听懂我们想找什么?又如何感知我们的情绪,旅行者号的解决方案是给了操作说明,然后多种声音模式等。其实我们用RAG搞知识库也可以这么搞,精准的控制切片信息和给AI一个操作手册。总比叫外星人听懂地球语言(自己训练模型)要省事儿很多。逻辑上来说,我们希望AI在工作中如实的向我们反馈信息,而知识库作为必要的验证过程,也有不可或…- 0
- 0
-
谷歌WebMCP 现已推出抢先预览版
网站以后不止给人看,还得给 智能体用和看。Google 推动 W3C 生态里的 WebMCP,Chrome 也已经放出预览版。以前 Agent 想操作网站,基本只能走 UI 路线:模拟点按钮、填表单、读 DOM,非常慢,还很费 token。WebMCP 想做的是让网站直接声明“我提供哪些能力”,把动作变成结构化的 tools,让 Agent 直接调用。谁先把 WebMCP 的工具层设计好,谁就先吃…- 0
- 0
-
RAG不会过时,但你需要这10个上下文处理技巧|Context Engineering系列一
RAG效果不及预期,试试这10个上下文处理优化技巧 对大部分开发者来说,搭一个RAG或者Agent不难,怎么把它优化成生产可用的状态最难。 在这个过程中,检索效率、准确性、成本、响应速度,都是重点关注问题。 那么,如何对其进行优化?业内一致看好Context Engineering也就是上下文工程。 本系列文章,将从上下文工程的不同环节(上下文处理与生成、上下文处理、上下文管理)最新的行业探索与进…- 0
- 0
-
龙虾养成日记PPT看不过瘾?内部版逐字稿来了
春节14天,1157条消息,22万字对话——我从零养了一只AI龙虾。到第14天,它变成了一支8个Agent的团队,7×24小时自动运转。后来做了一场直播,全网超20万观看,新增关注超过99.99%同类主播。没抽奖没福利,观众平均看了22分钟。为什么这么多人想看?我觉得原因很简单:大家都知道AI是一次特别重要的革命,但不太相信,或者说不知道到底能做成啥样,因为它太新了。而我是自己身体力行去验证的——…- 0
- 0
❯
购物车
优惠劵
搜索
扫码打开当前页

联系我们
返回顶部
幸运之星正在降临...
点击领取今天的签到奖励!
恭喜!您今天获得了{{mission.data.mission.credit}}积分
我的优惠劵
-
¥优惠劵使用时效:无法使用使用时效:
之前
使用时效:永久有效优惠劵ID:×
没有优惠劵可用!
























