-
一个神奇的视频生成 Skills,实测,狂喜
Agent、AI 编程、Vibe Coding 实战、泛人工智能、泛科技发展动态,日更原创技术文章" data-id="MzA4MjYwMTc5Nw==" data-is_biz_ban="0" data-service_type="1" data-verify_status="1"> 这个 skill…- 4
- 0
-
你的一人公司品牌部,带着Image-2模型的lovart中文版来了
昨晚去一个PM×AI大会做了个关于Skill的分享。 这次分享的PPT的设计感实在太绝了,颇受好评。一部分原因是我的Huashu Design Skill实在太强了,另一部分原因是我在做PPT动画的这套技艺又大大大进化了。 我那条推文一晚上又跑了上千互动,一个发PPT的推文居然能跑成这样。 设计这件事,从我开始用AI出图到现在,已经成了我每周输出的核心工作之一了。橙皮书封面、公众号配图、视频封面、…- 1
- 0
-
MNN-Sana-Edit-V2:端侧运行的图像漫画风编辑大模型
MNN-Sana-Edit-V2 是由淘宝 Meta 团队联合杭州电子科技大学研发的端侧图像漫画风编辑大模型,基于 Sana 和 MetaQuery 学术成果创新构建,采用 Qwen3-0.6B 作为冻结的预训练 LLM,通过 Learnable Query 和 Connector 模块桥接文本理解与图像生成,结合 Linear DiT、Deep Compression Autoencoder 等…- 2
- 0
-
刚刚!Codex 居然能直接画图了,OpenAI 凌晨甩出 Image 2.0
大家好,我是智见君! 今天凌晨 3 点多,OpenAI 在 X 上扔了一条大消息:ChatGPT Images 2.0 正式发布。官方给它的定位是"state-of-the-art 的图像模型",能处理复杂的视觉任务,生成精准且立刻可用的画面。 但真正让我眼睛一亮的,是官方描述里的这一句话: "从今天起,所有 ChatGPT 和 Codex 用户都能用。"…- 0
- 0
-
ChatGPT Images 2.0震撼发布!碾压谷歌Nano Banana,设计真要完了
编辑:Panda、Youli北京时间凌晨 3 点,直播准时开始,OpenAI 发布了 ChatGPT Images 2.0。 直播链接:https://openai.com/zh-Hans-CN/live/ 据介绍,「ChatGPT Images 2.0 是下一步进化:一个最先进的模型,能够处理复杂的视觉任务,并生成精确、可直接使用的视觉内容。」 似乎也正因为此,OpenAI 发布的官方博客内容还…- 0
- 0
-
PaddleOCR 3.5 发布:Web 端直用、文档一键转 Markdown,生态交互新体验
PaddleOCR3.5正式发布,带来以下核心升级: 发布浏览器端PaddleOCR.js,开发者可以用更轻量的方式在前端应用中直接调用OCR能力。 支持将PaddleOCR-VL文档解析内容转为Word,以及将Word、Excel、PPT等类型的办公文档转为Markdown。 融入Hugging Face开发生态,通过统一推理引擎配置方式,支持基于Transformers完成OCR系列模型推…- 1
- 0
-
用Claude Code剪视频,自动去口癖、加字幕、调色,完全免费开源
↑阅读之前记得关注+星标⭐️,😄,每天才能第一时间接收到更新 browser-use 团队最近开源了一个叫 video-use 的 Claude Code 技能。 项目地址: https://github.com/browser-use/video-use 作者表示,因为不想继续为视频编辑器付费,于是自己做了这个工具。 它能做什么? 把原始素材丢进一个文件夹,和 Claude Code 对话,…- 1
- 0
-
刚刚,李飞飞最新成果发布,手机也能跑亿级粒子的 3D 世界了|附体验地址
拍一圈照片,就能生成一个可交互的 3D 世界,已经不是什么新鲜话题了。但问题是如何把一个大世界塞进普通人的手机浏览器里。就在刚刚,李飞飞旗下 AI 世界模型公司 World Labs 发布并开源了一个最新成果:Spark 2.0。这个专为网页端设计的动态 3D 高斯点云(3DGS)渲染引擎,让在任何设备的浏览器里流畅运行上亿粒子的超大 3D 场景,开始逐渐成为现实。为什么把亿级粒子的 3D 世界塞…- 2
- 0
-
豆包「打电话」升级 Seeduplex:周围再吵,只认准你的声音
最近在用豆包的语音通话功能,跟它聊 AI + OPC 的选题。说到一半,脑子里突然卡壳,想找个更准确的词,就停了大概一两秒。我心想完了,下意识等待着被它打断,因为以前用语音 AI 都是这样,你稍微一顿,它就急着往上接,搞得像在跟一个急性子同事抢麦。但这次它没有。它就安安静静等着,直到我把后半句说完,才开始回应。那个瞬间我愣了一下,感觉跟之前用的语音助手完全不是一回事。更让我意外的是这周我去公园里的…- 2
- 0
-
美团发布原生多模态 LongCat-Next:当视觉和语音成为AI的母语
物理世界的信息由图像、声音、文字交织而成。今天的大模型,本质上仍然是以语言为中心的建模系统,语言作为人类智慧符号化表述,在“压缩即智能”的范式下表现出强大的能力。但通往真正的物理世界智能,也许语言并不是世界的边界。视觉、语音与文本等多模态信号,实际上是对现实物理对象的不同侧面投影。这就引出一个根本问题:能否让 AI 像处理语言一样,用同一种方式简洁有效地处理物理世界的多种信息? 如果能,…- 1
- 0
-
全解读|智谱 GLM-5V-Turbo 发布,多模态 Coding 基模
MODEL今天,智谱发布 GLM-5V-Turbo,定位「面向视觉编程的多模态 Coding 基座模型」一句话概括:在 GLM-5-Turbo 的编程和龙虾能力基座上,加入了原生的视觉理解和推理能力模型能看懂设计稿、截图、网页界面,据此生成完整可运行的代码GLM-5V-Turbo Playground:左边是手绘草图,右边是生成的完整前端页面从 GLM-5 到 GLM-5V-Turbo先理一下产品…- 1
- 0
-
GLM-5V-Turbo:多模态Coding,图像即代码
Agent时代,模型能力由模型智能以及其处理的context容量两个维度定义。一个能够原生处理图片、视频、文本等多模态context,同时擅长复杂编程、长程规划、动作执行的Coding基座模型,将是所有AI原生应用的基石。今天,我们发布GLM-5V-Turbo,面向视觉编程打造的多模态Coding基座模型。GLM-5V-Turbo从预训练阶段深度融合视觉与文本能力,让编程不再局限于纯文本输入。模型…- 1
- 0
-
突破零样本TTS音色克隆上限:LongCat-AudioDiT 的声音克隆艺术
音频生成技术正在经历一场全新的范式迁移——从传统级联架构,逐步向端到端生成范式演进。长期以来,主流的做法是“曲线救国”:合成系统先将音频压缩成梅尔频谱图等中间表征,再依赖神经声码器“翻译”回波形。每一次转换都带来信息损失与误差累积,最终丢失了最需要保留的细腻音色与个性化细节。能不能让 AI 直接学会声音本身的规律,跳过中间环节?为破解这一技术瓶颈,美团 LongCat 团队正式发布 LongCat…- 1
- 0
-
千人千面,精控调色,更懂你的Wan2.7-Image来了
今天,阿里发布图像生成与编辑统一模型Wan2.7-Image告别AI标准脸,实现“千人千面”全新支持“调色盘”,精准控制色彩3K token超长文本渲染,可写满一页A4纸交互式编辑,哪里不爽点哪里具备文生图、图生组图、图像指令编辑和交互式编辑等全链路能力文生图升级亮点千人千面:虚拟角色捏脸功能为告别千篇一律的“AI脸”,Wan2.7-Image强化了虚拟形象捏脸功能,支持从骨相、眼眸到五官细微处的…- 0
- 0
-
震惊!即梦推出 CLI,Agent 一行命令生成 Seedance 2.0 视频,AI 视频井喷
SMARTFLOW AI INSIGHT即梦出 CLI 了:一行命令让任意 Agent 生成图片和视频Seedance 2.0 · 文生图/文生视频/图生视频 · 限时体验 · 2026.03.31 字节跳动的即梦 AI 发布了官方 CLI 工具——一行 curl 安装,让任意 Agent(Claude Code、Codex、自定义脚本)直接调用即梦的图片和视频生成能力。高级会员限时体验…- 1
- 0
-
千问发布Qwen3.5-Omni全模态模型,超越Gemini3.1 Pro?附实测~
千问又又又更新模型了,Qwen3.5-Omni模型,也就是全模态模型,这里的全模态,是指支持全模态输入,输出是文本或者语音。话不多说,先看效果,我让Qwen3.5-Omni模型分析了一下剑来 阿良PV的相关内容,并且对比了Gemini3.1 Pro的效果,Qwen3.5-Omni更细致并且知道剑来~然后接入龙虾,我搞了个Skill,把罗永浩十字路口的2.5h的播客,直接4min速通,核心内容基本没…- 1
- 0
-
Google 和 Cohere 同日发布音频 AI 模型
Google 和 Cohere 在同一天发布了新的音频处理模型。Google 的 Gemini 3.1 Flash Live 主打自动化客户服务,Cohere Transcribe 则专注于语音转文字。两款模型都比前代有显著提升。这是 AI 从"看"到"听"的关键一步。Gemini 3.1 Flash Live:能听、能看、能懂情绪Google 这次有点东西…- 1
- 0
-
让“龙虾”帮你自动赚钱!OpenClaw Seedance 2.0 视频生成全攻略
千呼万唤始出来,终于肝完了龙虾(OpenClaw)实现seedance2.0视频一键生成本文将结合实战案例,介绍完整使用方法和心路历程,让大家感受下龙虾的强大服务器:适用于vps、自己电脑。Agent适用:openclaw、claude code 等一、源起这个事情起源于,推上一个大佬发的推文,看完后,我觉得专门开一个topic 来研究它结果龙虾出乎意料,顺利地将热门视频下载下来了,还…- 1
- 0
-
通用语音识别模型VibeVoice ASR:长达60分钟音频一次性“直出”结构化转写
语音识别技术在近年来取得了飞速发展,但在面对真实的复杂场景时,许多系统依然显得有些力不从心:漫长的会议、多人混杂的交谈、极具专业性的行业术语,或是中英夹杂的日常对话…… 传统的语音识别系统往往需要将长音频切分成一个个短小的片段,分别识别后再费力地“拼凑”起来。这种“化整为零”的方法不仅容易丢失上下文,还常常在谁说了什么、什么时候说的等问题上张冠李戴。近日,微软亚洲研究院发布了一款通用的语音识别模型…- 1
- 0
-
Agent 语音交互如何更稳、更快?一次高并发消息链路优化实践
随着大语言模型(LLM)、语音识别(ASR)、语音合成(TTS)等能力逐步成熟,AI Agent 开始从文本交互走向语音交互,典型场景包括 AI 教师、AI 情感聊天、AI 助手等。相比文本输入,语音更自然、更实时,用户可以直接通过说话完成提问、练习、任务触发与多轮对话,这也让“和 Agent 用语音对话”真正进入实际业务场景。但当 Agent 语音交互进入高并发场景后,很多团队会发现:最先遇到瓶…- 1
- 0
-
KDD 2026 | 小红书内容审核:Hi-Guard 让内容治理“知其然,更知其所以然”
引言:内容安全是平台治理的生命线,旨在精准识别与处置色情和暴力等不健康和违规内容。传统审核模型通过“黑盒”分数直接给出识别结论,在处理复杂语义和隐晦内容时和规则对齐方面存在困难。推动治理模型从“标签驱动”向“政策规则驱动”演进,同时具有政策规则的可解释性,已成为构建可信可泛化安全系统的核心方向。为解决上述问题,小红书内容理解团队提出层级式治理框架 Hi-Guard,通过分层流水线与路径感知的强化学…- 1
- 0
-
零帧起手 Codex × Figma 双向工作流实操
前几天我发了一篇关于 Figma 着急了!Codex 和 Figma 双向构建前端 UIAgent的完美融合" data-itemshowtype="0" linktype="text" data-linktype="2">取代Figma的新神器?Paper:设计、代码与AI Agent的完美融合的文章。很多人小…- 1
- 0
-
Seedance 2.0 正式发布
今天,我们正式发布新一代视频创作模型 Seedance 2.0。Seedance 2.0 采用统一的多模态音视频联合生成架构,支持文字、图片、音频、视频四种模态输入,集成了目前业界最全面的多模态内容参考和编辑能力。相比 1.5 版本,Seedance 2.0 的生成质量大幅提升,其在复杂交互和运动场景下的可用率更高,物理准确度、逼真度、可控性显著增强,更加贴合工业级创作场景的需求。其核心亮点如下:…- 1
- 0
-
文心大模型5.0正式版,上线!
今天,在百度文心Moment大会现场,文心大模型5.0正式版上线。文心大模型5.0正式版参数达2.4万亿,采用原生全模态统一建模技术,具备全模态理解与生成能力,支持文本、图像、音频、视频等多种信息的输入与输出。在40余项权威基准的综合评测中,文心5.0正式版的语言与多模态理解能力稳居国际第一梯队。图像与视频生成能力与垂直领域专精模型相当,整体处于全球领先水平。目前,用户可在文心APP、文心一言官网…- 1
- 0
❯
购物车
优惠劵
搜索
扫码打开当前页

联系我们
返回顶部
幸运之星正在降临...
点击领取今天的签到奖励!
恭喜!您今天获得了{{mission.data.mission.credit}}积分
我的优惠劵
-
¥优惠劵使用时效:无法使用使用时效:
之前
使用时效:永久有效优惠劵ID:×
没有优惠劵可用!
























