【AI News | 20250529】每日AI进展

AI Repos

1、WebAgent
阿里巴巴通义实验室近日发布了WebDancer，一款旨在实现自主信息搜索的原生智能体搜索推理模型。WebDancer采用ReAct框架，通过分阶段训练范式，包括浏览数据构建、轨迹采样、监督微调和强化学习，赋予智能体自主搜索和推理能力。该模型在GAIA和WebWalkerQA等基准测试中表现出色，Pass@3分数分别达到61.1%和54.6%，展现了其执行多步骤、复杂推理任务的强大潜力，有望在未来的Web 4.0时代中发挥关键作用。
在这里插入图片描述

2、OpenDerisk
OpenDeRisk 是一个AI原生风险智能系统，致力于为应用系统提供7x24小时全面深入的风险防护。该系统采用多智能体架构，通过SRE-Agent、Code-Agent、ReportAgent、Vis-Agent和Data-Agent之间的协作，实现DeepResearch RCA（根因分析），能够快速定位问题根源。OpenDeRisk具有可视化证据链和完全开源架构，基于大规模OpenRCA数据集进行训练，提升了风险诊断的透明度和准确性，为开发者和企业提供了强大的风险管理解决方案。
在这里插入图片描述

AI News

1、DeepSeek-R1-0528正式开源：性能媲美OpenAI o3，免费API已上线
中国AI初创公司DeepSeek正式开源了其大语言模型DeepSeek-R1-0528，其在LiveCodeBench测试中性能表现直逼OpenAI的o3高级版。该模型支持128K上下文，代码生成与推理能力显著提升，并有效减少了模型幻觉。DeepSeek-R1-0528已通过HuggingFace平台开源，并提供免费API服务，通过OpenRouter上线，极大地降低了开发者使用门槛。此举不仅展示了DeepSeek的技术实力，也加速了AI技术的普及和开源AI生态的发展。

2、新神器LocAgent发布：代码定位准确率高达92.7%，程序员福音！
OpenHands、耶鲁大学、南加州大学和斯坦福大学团队联合推出了创新性的图索引大语言模型（LLM）代理框架——LocAgent，旨在解决程序员难以定位代码问题的痛点。LocAgent能将代码库解析成包含文件、类和函数关系的图结构，并采用分层稀疏索引和工具接口，使LLM能高效地在复杂代码库中进行推理和搜索。这一新工具的代码定位准确率高达92.7%，显著提升了开发效率，是程序员的巨大福音，并将于2025年ACL会议上正式亮相。

3、Resemble AI开源TTS Chatterbox，性能直逼并超越ElevenLabs
Resemble AI开源了其文本转语音（TTS）模型Chatterbox，该模型基于0.5B规模的LLaMA架构，训练数据超过50万小时，在盲测中表现出惊人的真实感和流畅度，甚至超越了ElevenLabs。Chatterbox支持零样本语音克隆和情感夸张控制，具备超低延迟的实时合成能力。为防止滥用，每段生成音频均嵌入Perth神经水印技术。Chatterbox的开源将极大地降低TTS技术门槛，推动更多创新应用，同时Resemble AI也提供付费服务，实行开源与商业化双轨战略。

4、Opera 发布全球首款AI代理浏览器Neon：智能聊天与自动化任务引领Web4.0
Opera公司正式推出全球首款AI代理浏览器Opera Neon的Alpha版，标志着Web4.0时代的开启。Neon通过集成Neon Chat（智能上下文交互）、Neon Do（任务自动化）和Neon Make（AI内容创作）三大核心模块，将浏览器从被动工具转变为主动智能助手。它支持离线任务执行，注重本地隐私保护，并提供邀请制体验。Neon的发布重新定义了用户与网络的交互方式，在日益激烈的AI浏览器市场中展现出独特的竞争优势。

5、全栈智能体Lemon AI重磅发布：一键解锁多领域复杂任务自动化
创新型全栈通用AI Agent——Lemon AI近日正式亮相，以其强大的自主性和工具调用能力，实现了从任务需求到成果交付的全流程自动化。Lemon AI集成了自然语言处理、代码生成、网页浏览、API调用等多种功能，能够智能识别目标、规划步骤并执行任务。其应用场景广泛，覆盖市场调研、金融分析、数据分析、代码编程和生活规划等多个领域。Lemon AI的推出预示着AI Agent技术迈向新高度，有望重塑多行业智能化格局。

6、字节跳动发布AI剪辑应用“剪小映”，赋能生活瞬间创作
字节跳动最新推出AI剪辑应用“剪小映”，旨在通过“捕捉美好，智创影片”的口号，为用户提供便捷高效的视频创作体验。该应用延续了剪映的易用性，并深度整合了火山引擎豆包大模型技术，让用户无需专业技能也能轻松制作高质量视频。剪小映的发布大大降低了视频创作门槛，鼓励更多人记录和分享生活瞬间，也标志着字节跳动在AI视频编辑领域的又一创新力作。

7、字节跳动推出图像Agent“小云雀AI”，赋能一键爆款创作
字节跳动发布了全新的图像Agent“小云雀AI”，旨在成为“一键爆款创作神器”。这款智能工具功能类似于Lovart，用户只需简单指令，即可智能生成高质量视频和图片，极大地降低了内容创作门槛。小云雀AI依托字节自主研发的“云雀”大模型，融合了深度学习和多模态技术，具备强大的图像生成与视频编辑能力。目前已上线安卓客户端，iOS版本预计6月发布。此举标志着字节跳动在AI Agent领域迈出重要一步，有望重塑AI创作格局，推动生成式AI向更广泛场景渗透。

8、Meta发布Multi-SpatialMLLM：引领多模态AI空间理解新范式
Meta与香港中文大学联合发布了Multi-SpatialMLLM模型，该模型通过整合深度感知、视觉对应和动态感知三大组件，显著提升了多模态大语言模型（MLLMs）的空间理解能力。为解决现有模型在空间推理方面的局限性，研究团队构建了包含2700万样本的MultiSPA数据集并设计了五项训练任务。Multi-SpatialMLLM在各项基准测试中表现优异，平均准确率大幅提升，展现了其在机器人、自动驾驶等领域应用的巨大潜力，推动了AI视觉内容创作和空间理解技术的发展。

9、可灵2.1重磅上线：性能显著提升，价格骤降65%
AI视频生成工具可灵2.1现已正式上线，在性能显著提升的同时，价格大幅降低了65%，极大地提高了性价比。新版本引入了标准版、高品质版和大师版三种质量体系，分别提供720P和1080P画质选择，以满足不同用户的需求。可灵2.1在生成效果和速度上均超越了前版本，即使目前仅支持图生视频，但其卓越的表现使其成为短视频和广告制作的理想选择，显著改善了用户的创作体验。

10、蚂蚁集团开源Ming-lite-omni：媲美GPT-4o的首个开源多模态模型
蚂蚁集团百灵大模型团队宣布全面开源Ming-lite-omni，这是首个在模态支持方面能与GPT-4o媲美的开源多模态大模型。该模型基于MoE架构，拥有220亿总参数和30亿激活参数，其模型权重和推理代码已开放，后续将发布训练代码和数据。此举延续了蚂蚁集团的开源战略，并通过在非高端算力平台上训练，证明了国产GPU的强大能力，为全球开发者提供了顶级的多模态AI技术选择。

11、OpenAI图像生成API升级：实时流式预览、多轮编辑与MCP集成赋能无限创作
OpenAI大幅升级其图像生成API，引入实时流式预览，让用户在生成过程中即时查看，提升创作效率。新增的多轮编辑功能支持对已生成图像进行高保真修改，节省计算资源。更重要的是，API集成了模型上下文协议(MCP)，可连接Cloudflare、Stripe等多种外部工具和实时网络数据，极大地拓展了图像生成的使用场景，从实时数据可视化到个性化营销素材，为AI驱动的视觉内容创作带来无限可能。

12、百度上线AI高考系列产品，助力考生备考与志愿填报
为迎接2025年高考，百度推出系列AI产品，全方位助力考生。其中包括“高考高频考点库”，汇集近三年核心考点，提供针对性复习；升级后的“AI志愿助手”，能根据分数快速生成“冲稳保”志愿表，并提供个性化建议。此外，还设立了24小时在线的“外援团”直播间，由高校智能体、老师和学长学姐为考生提供实时答疑。这些AI工具旨在帮助考生高效备考、科学填报志愿，缓解高考压力。

13、Ollama v0.8 发布：本地AI迈向智能助手新纪元
Ollama v0.8的发布为本地大型语言模型带来了革命性升级，新增了流式传输响应和工具调用功能，使其能够实现实时交互和连接外部世界，例如进行实时网络搜索。新版本还修复了内存泄漏、优化了模型加载速度和长上下文推理，并增强了对AMD显卡的支持。Ollama v0.8通过开源和提升本地AI能力，降低了开发门槛，预示着本地AI在隐私敏感和离线场景下将扮演越来越重要的角色，成为更实用、更灵活的智能助手。

13、通义实验室发布OmniAudio：360°视频生成空间音频里程碑
通义实验室近日推出OmniAudio技术，成功实现从360°视频直接生成FOA（First-order Ambisonics）空间音频，为虚拟现实和沉浸式娱乐带来革新。该技术解决了现有方法对360°全景视频空间信息利用不足的问题，并通过构建大规模Sphere360数据集和采用两阶段训练方法，显著提升了生成音频的质量和与视频的对齐度。实验结果表明，OmniAudio在各项指标上均优于现有基线，开启了360°视频与高质量空间音频结合的新纪元。