全部标签

新闻资讯

AI写代码，越改越错？前OpenAI首席科学家：我们高估了它的理解

在生成式人工智能狂飙突进的2025年，一个令人困惑的现象正引发业界高度关注：大模型在各类评测基准（eval）中屡创佳绩，却在真实应用场景中频频“掉链子”。尤其在软件开发领域，“氛围编程”（Vibe Coding）——即开发者仅凭模糊描述或直觉提示让AI自动生成代码——看似高效，实则隐患重重。前OpenAI联合创始人、首席科学家Ilya Sutskever近日在一档深度访谈中罕见发声，直指这一现象背…
前沿技术
- 0
- 0
charles3月22日
Claude赢麻了？OpenAI Codex正式支持Skills，GitHub连夜上车！

就在 Claude 正式开源 Skills 标准并推出 Agentskills.io 之后不久，OpenAI 迅速跟进。OpenAI 开发者官方账号宣布：Codex 现已正式支持 Skills（技能）功能。这意味着，那个曾在 0.65 版本中作为“试验性功能”登场的 Skills，现在已经成熟，并成为了 Codex 生态的一等公民。这一动作不仅是 Codex 功能的完善，更是 …
前沿技术
- 0
- 0
charles3月22日
别卷万亿参数了。Google 这个只有 270M 的“袖珍”模型，才是 2025 年的真杀器

别卷万亿参数了。Google 这个只有 270M 的“袖珍”模型，才是 2025 年的真杀器AI 圈的风向，彻底变了。过去这一年，我们都在卷什么？卷参数量，卷跑分，卷谁更像百科全书。但到了 2025 年底，如果你还在盯着“聊天机器人”看，那你可能已经掉队了。Google 刚刚扔出了一枚深水炸弹。不是万亿参数的巨兽，而是一个仅有 2.7 亿参数的“袖珍”模型——FunctionGemma…
前沿技术
- 0
- 0
charles3月21日
神级更新！Gemini 直连 NotebookLM，这才是真正的第二大脑。

Google 昨晚又悄悄搞了个大动作。国外很多硬核玩家都在刷屏，称之为“神级更新”。简单来说：Google 终于把“最强大脑”（Gemini）和“最强记忆库”（NotebookLM）打通了。可能你还没意识到这意味着什么。以前用 AI，最让我抓狂的是这种“割裂感”：Gemini 是个天才，但记性差：它懂天文地理，能写代码画图，但它不知道你电脑里那 500 个 PDF 到底写了啥。而且聊得太久，它就…
前沿技术
- 0
- 0
charles3月21日
AI接管输入法

作为AI技术触达C端用户最高频的入口之一，输入法赛道悄然掀起了一场由大模型主导的新浪潮。其中，字节、百度、腾讯等科技巨头纷纷将各自核心大模型能力植入输入法产品，大厂的扎堆入局促使指尖上形成了些许“智能内卷”，这不仅让搜狗等传统输入法大厂感受到前所未有的压力，同步引发了行业对用户真实需求、产品核心价值的深度思考。回到巨头们的商业化诉求和用户真实需求层面，在效率提升与功能冗余的平衡、智能体验与隐私安全…
前沿技术
- 0
- 0
charles3月21日
平均每个月亏3亿！从智谱招股书，我看到了大模型竞争的残酷现实

国内大模型第一股终于来了！12月19日，港交所官网显示，北京大模型企业智谱已通过港交所聆讯，并披露招股书文件，正式冲刺港股“大模型第一股”。作为国外大模型领域最炙手可热的公司，智谱的商业化堪称“神速”。过去三年，公司收入分别为0.57亿元、1.25亿元、3.12亿元。按收入计算，截至2024年，智谱是中国最大型的独立通用大模型开发商、中国第二大整体通用大模型开发商。但收入光鲜背后，也隐藏着大模型竞…
前沿技术
- 0
- 0
charles3月21日
我们可能搞错了 AI 的方向：未来不属于生成式 AI

（图源：MIT TR）本文为《麻省理工科技评论》“纠偏热潮”（Hype Correction）专题系列的一部分，该系列旨在重置人们对 AI 的预期：AI 是什么、它能带来什么、以及我们接下来该走向何处。2022 年 4 月 28 日，在华盛顿州斯波坎一场备受期待的演唱会上，音乐人保罗·麦卡特尼（Paul McCartney）用一项突破性的 AI 应用震惊了观众：他与已故多年的音乐搭档约翰·列侬（J…
前沿技术
- 0
- 0
charles3月21日
谷歌发布Gemini 3 Flash，全球免费，打破速度与智能不可兼得悖论

Gemini 3 Flash不仅在速度上超越了前代，更实现了高性能与低延迟的完美共存。谷歌正式发布了Gemini 3家族的最新成员Gemini 3 Flash。这款模型打破了人们对轻量级模型的固有认知，它不再是性能的阉割版，而是将前沿智能与极致速度融合的产物，目前已全面覆盖API、谷歌搜索以及面向消费者的全球免费的Gemini应用。前沿智能不再以牺牲速度为代价模型要想聪明，反应就会变慢；模型要想跑…
前沿技术
- 0
- 0
charles3月21日
刚刚，OpenAI最强编程大模型发布！

周五凌晨，OpenAI 发布 GPT-5.2-Codex，这是迄今为止最先进的智能体编码模型，专为复杂的实际软件工程而设计。GPT-5.2-Codex 是 GPT-5.2 的升级版本，提高了指令遵循能力、对长远语境的理解能力，它针对 Codex 中的智能体编码进行了进一步优化，包括通过上下文压缩改进长期工作。GPT-5.2-Codex 在重构和迁移等大型代码变更中表现更佳，在 Windows 环境…
前沿技术
- 0
- 0
charles3月21日
AI架构师的诞生：AI+传统DDD模式 = 实现开发效率提升75%

一、背景1.1 改造背景随着服务包业务的快速发展，新增一个服务包类型需要5-8人天的高昂成本，原有的单体架构暴露出严重的开发效率瓶颈：开发成本高昂：每次新增服务包类型需要在8个核心文件、15-20个方法中进行重复性修改，涉及200-300行代码变更；重复代码泛滥：商品类型判断逻辑在10个文件中重复出现，维护成本极高；架构耦合严重：3800行的单体业务服务类混合了商品、价格、合同等多个领域逻辑；扩展…
前沿技术
- 0
- 0
charles3月21日
Anthropic 指路，Letta 破局：Agent 下半场的关键词是 Skills

今年，关于 AI Agent 我们最能直观感受到的一个变化就是它已经在真正开始落地了。在内容团队的自动化生产链路中，企业内部的数据归档、自动报告、系统对接，或者是在一些小型业务流程的 7*24 小时自动运维，你都能看到它的身影。可是，我们在 Demo 中看到的可以推理几十步、自动拆解任务、跨系统执行的 Agent，到了真实业务场景，就变成了另一副样子？上一分钟还好好的，下一分钟就开始瞎跳…
前沿技术
- 0
- 0
charles3月21日
突发｜ChatGPT 版应用商店正式上线

就在刚刚，ChatGPT 应用商店已经正式推出。在 ChatGPT 里的「应用（BETA）」页面里，我们可以看到 OpenAI 按「精选 / 生活方式 / 工作效率」等分类列出多款应用，如 Adobe Photoshop、Apple Music、Canva、Figma、Booking.com 等，点开即可查看或使用对应能力。当然，用户也可以直接访问 chatgpt.com/apps&nb…
前沿技术
- 0
- 0
charles3月21日
端侧AI革命！Android App上可直接集成Gemini大模型了！

背景Google I/O 2025开发者大会上，谷歌宣布为ML Kit推出一组端上生成式AI（GenAI）API，这将彻底改变安卓应用集成AI能力的方式：开发者现在可以轻松将Gemini Nano模型集成到App应用中。功能描述ML Kit GenAI API首批发布了四个针对常见场景的API接口，每个都针对特定使用场景进行了优化：文本摘要功能：可以将长篇文章或聊天对话浓缩为简洁的要点列表。智能校…
前沿技术
- 0
- 0
charles3月21日
突发！ChatGPT版应用商店正式发布，第三方开发者新入口！

就在刚刚，OpenAI突然上线ChatGPT应用商店，这个被业内称为"AI专属App Store"的新平台，瞬间吸引了我们的目光。用户打开ChatGPT界面后，在新增的"应用（BETA）"页面中，能看到Adobe Photoshop、Apple Music、Canva、Figma、Booking.com等数十款主流应用已完成接入，点击就可以在对话中直接调用相…
前沿技术
- 0
- 0
charles3月21日
实测豆包1.8后，我终于明白字节为什么要推豆包手机了。

好久没有因为一款国产模型，产生这种明显的期待感了。这次，是豆包1.8。在这个大家都忙着做年终总结的十二月，我本来以为AI圈能消停一会儿。没想到，字节不讲武德，又搞事情。今早我的朋友圈、各社群直接被火山引擎冬季FORCE原动力大会刷屏了..从节奏上看，字节这几年在AI这条路上，一直走得非常稳。产品和模型并行发展，从文本到多模态，从对话到Agent，再从云端走到端侧。这次原动力大会，又是一次阶段性成果…
前沿技术
- 0
- 0
charles3月21日
通用Agent模型Seed1.8正式发布

随着大模型任务范围不断扩展，我们注意到，用户需求正从获取建议、查询信息，转向让模型直接执行复杂工作流。这意味着，通用模型必须具备更广泛的能力，超越现有语言生成的范畴。在此背景下，我们正式推出通用 Agent 模型 Seed1.8，它具备强大的多模态能力，支持图文输入，能在信息检索、代码生成、GUI 交互及复杂工作流等场景中高效精准地完成任务，满足日益多元的技术需求。以下是 Seed1.8 的三大核…
前沿技术
- 0
- 0
charles3月21日
谷歌发布Gemini 3 Flash，口述即原型，速度堪比搜索引擎

谷歌和 OpenAI 彻底杀疯了，在 OpenAI 发布图像模型的一天后，当地时间 12 月 17 日谷歌正式发布 Gemini 3 Flash，其宣传语是“以极低的成本，实现速度极快的尖端智能”。3 Flash 让极速智能进入了主力机时代，实现了 3 倍提速和成本骤降，零代码也能造应用，开启了氛围编程，实现了口述即原型。谷歌官方称其速度堪比搜索引擎，它在保持 Pro 级智商的同时，将 token…
前沿技术
- 0
- 0
charles3月21日
再论Skill：Agent 落地第一性原理

大模型给我们提供的是具有不确定性的创意，但是工作中我们需要的是确定性的结果今天我们在内部探讨中意识到一个事情——“Spec Coding（SDD）本质上是 Agent Skill 在编程领域的特殊应用”。既然 SDD 只是 Agent Skill 在 Coding 领域的特例，那么我们可以将这种 "Spec（规范/意图） -> Plan（计划） -> Impleme…
前沿技术
- 0
- 0
charles3月21日
Gemini 3 Flash闪电来袭：智力竟反超Pro！速度快3倍，全球免费

Gemini 3 Flash正式发布！至此，Gemini 3家族成为完全体：Flash、Pro和Deep Think。Flash模型已经全面上线Gemini APP、AI Studio、Google Antigravity和Gemini CLI，用户打开Gemini就是默认Gemini 3 Flash版本，直接免费使用！左右滑动查看如果说之前的AI模型是在模拟人类的思考，那么Gemini 3 Fl…
前沿技术
- 0
- 0
charles3月21日
Gemini 3 Flash 可能是 Google 最狠的一步棋

刚刚谷歌正式推出了Gemini 3 Flash，这可能是 Google 这几年最重要的一次模型发布如果只看名字，Gemini 3 Flash 很容易被误解成一个阉割版，快但不聪明的模型。但实际情况恰恰相反——它可能是 Google 到目前为止，战略意义最大的一次模型选择一句话先给结论：Gemini 3 Flash =前沿大模型智商 + 闪电级速度 + 超低成本的组合拳。它不是缩水版，而…
前沿技术
- 0
- 0
charles3月21日
Cursor 又“危险”了？谷歌深夜祭出 Gemini 3 Flash！编码能力反超 Gemini 3 Pro，价格还更低

在大模型竞赛进入“效率与规模并重”的新阶段之际，谷歌正再次亮出王牌。刚刚，谷歌发布最新模型 Gemini 3 Flash，据介绍，它拥有前沿智能，专为速度而生，可以帮助每个人更快地学习、构建和规划任何事物。早在模型发布前，Google AI Studio 开发者平台和 Gemini API 产品负责人 Logan Kilpatrick 就在 X 上发布了一条只有三个闪电符号的推文，当时就有大批网…
前沿技术
- 0
- 0
charles3月21日
OpenAI发布了其实时API的新模型

OpenAI更新了其实时API，添加了三个新的模型快照，旨在改善转录、语音合成和函数调用。据开发人员称，gpt-4o-mini-transcribe变体显著减少了幻觉。对于文本到语音任务，gpt-4o-mini-tts将单词错误率降低了35%。针对语音助手的gpt-realtime-mini模型，按照指令的准确性提高了22%，功能调用提高了13%。 OpenAI还明确提到了中文、日语、印尼语、印地…
前沿技术
- 0
- 0
charles3月21日
有人逆向拆解了ChatGPT 的记忆功能

2025年在开发创业产品的时候，有一个比较困扰团队的问题就是“记忆”模块怎么写：一方面行业里从Mem0开始各种刷榜SOTA的第三方记忆服务就层出不穷，从RAG到GraphRAG到艾宾浩斯遗忘曲线，怎么高端大气上档次怎么来。另一方面实际一试呢，就非常像接入了一个又一个阿尔兹海默+强迫性幻想综合患者。正好看到一位印度的AI工程师Manthan Gupta 通过逆向工程拆解了 ChatGPT 的记忆功能…
前沿技术
- 0
- 0
charles3月21日
智能体协同落地方案探索

编者荐语长期以来，任务聚焦型AI智能体因能力边界受限而形成“孤岛”，虽出现AutoGen、CrewAI等多智能体框架，但其进程内交互模式缺乏远程通信能力与标准协议。为解决协同瓶颈，本文提出基于A2A（Agent-To-Agent）协议的方案与基于动态MCP（Model Context Protocal）协议的方案，并从部署结构、资源消耗及适用场景三方面进行对比分析，期望能为复杂AI应用的高效落地提…
前沿技术
- 0
- 0
charles3月21日