【AI News | 20250529】每日AI进展

news2025/6/1 11:55:54

AI Repos

1、WebAgent
阿里巴巴通义实验室近日发布了WebDancer,一款旨在实现自主信息搜索的原生智能体搜索推理模型。WebDancer采用ReAct框架,通过分阶段训练范式,包括浏览数据构建、轨迹采样、监督微调和强化学习,赋予智能体自主搜索和推理能力。该模型在GAIA和WebWalkerQA等基准测试中表现出色,Pass@3分数分别达到61.1%和54.6%,展现了其执行多步骤、复杂推理任务的强大潜力,有望在未来的Web 4.0时代中发挥关键作用。
在这里插入图片描述

2、OpenDerisk
OpenDeRisk 是一个AI原生风险智能系统,致力于为应用系统提供7x24小时全面深入的风险防护。该系统采用多智能体架构,通过SRE-Agent、Code-Agent、ReportAgent、Vis-Agent和Data-Agent之间的协作,实现DeepResearch RCA(根因分析),能够快速定位问题根源。OpenDeRisk具有可视化证据链和完全开源架构,基于大规模OpenRCA数据集进行训练,提升了风险诊断的透明度和准确性,为开发者和企业提供了强大的风险管理解决方案。
在这里插入图片描述

AI News

1、DeepSeek-R1-0528正式开源:性能媲美OpenAI o3,免费API已上线
中国AI初创公司DeepSeek正式开源了其大语言模型DeepSeek-R1-0528,其在LiveCodeBench测试中性能表现直逼OpenAI的o3高级版。该模型支持128K上下文,代码生成与推理能力显著提升,并有效减少了模型幻觉。DeepSeek-R1-0528已通过HuggingFace平台开源,并提供免费API服务,通过OpenRouter上线,极大地降低了开发者使用门槛。此举不仅展示了DeepSeek的技术实力,也加速了AI技术的普及和开源AI生态的发展。

2、新神器LocAgent发布:代码定位准确率高达92.7%,程序员福音!
OpenHands、耶鲁大学、南加州大学和斯坦福大学团队联合推出了创新性的图索引大语言模型(LLM)代理框架——LocAgent,旨在解决程序员难以定位代码问题的痛点。LocAgent能将代码库解析成包含文件、类和函数关系的图结构,并采用分层稀疏索引和工具接口,使LLM能高效地在复杂代码库中进行推理和搜索。这一新工具的代码定位准确率高达92.7%,显著提升了开发效率,是程序员的巨大福音,并将于2025年ACL会议上正式亮相。

3、Resemble AI开源TTS Chatterbox,性能直逼并超越ElevenLabs
Resemble AI开源了其文本转语音(TTS)模型Chatterbox,该模型基于0.5B规模的LLaMA架构,训练数据超过50万小时,在盲测中表现出惊人的真实感和流畅度,甚至超越了ElevenLabs。Chatterbox支持零样本语音克隆和情感夸张控制,具备超低延迟的实时合成能力。为防止滥用,每段生成音频均嵌入Perth神经水印技术。Chatterbox的开源将极大地降低TTS技术门槛,推动更多创新应用,同时Resemble AI也提供付费服务,实行开源与商业化双轨战略。

4、Opera 发布全球首款AI代理浏览器Neon:智能聊天与自动化任务引领Web4.0
Opera公司正式推出全球首款AI代理浏览器Opera Neon的Alpha版,标志着Web4.0时代的开启。Neon通过集成Neon Chat(智能上下文交互)、Neon Do(任务自动化)和Neon Make(AI内容创作)三大核心模块,将浏览器从被动工具转变为主动智能助手。它支持离线任务执行,注重本地隐私保护,并提供邀请制体验。Neon的发布重新定义了用户与网络的交互方式,在日益激烈的AI浏览器市场中展现出独特的竞争优势。

5、全栈智能体Lemon AI重磅发布:一键解锁多领域复杂任务自动化
创新型全栈通用AI Agent——Lemon AI近日正式亮相,以其强大的自主性和工具调用能力,实现了从任务需求到成果交付的全流程自动化。Lemon AI集成了自然语言处理、代码生成、网页浏览、API调用等多种功能,能够智能识别目标、规划步骤并执行任务。其应用场景广泛,覆盖市场调研、金融分析、数据分析、代码编程和生活规划等多个领域。Lemon AI的推出预示着AI Agent技术迈向新高度,有望重塑多行业智能化格局。

6、字节跳动发布AI剪辑应用“剪小映”,赋能生活瞬间创作
字节跳动最新推出AI剪辑应用“剪小映”,旨在通过“捕捉美好,智创影片”的口号,为用户提供便捷高效的视频创作体验。该应用延续了剪映的易用性,并深度整合了火山引擎豆包大模型技术,让用户无需专业技能也能轻松制作高质量视频。剪小映的发布大大降低了视频创作门槛,鼓励更多人记录和分享生活瞬间,也标志着字节跳动在AI视频编辑领域的又一创新力作。

7、字节跳动推出图像Agent“小云雀AI”,赋能一键爆款创作
字节跳动发布了全新的图像Agent“小云雀AI”,旨在成为“一键爆款创作神器”。这款智能工具功能类似于Lovart,用户只需简单指令,即可智能生成高质量视频和图片,极大地降低了内容创作门槛。小云雀AI依托字节自主研发的“云雀”大模型,融合了深度学习和多模态技术,具备强大的图像生成与视频编辑能力。目前已上线安卓客户端,iOS版本预计6月发布。此举标志着字节跳动在AI Agent领域迈出重要一步,有望重塑AI创作格局,推动生成式AI向更广泛场景渗透。

8、Meta发布Multi-SpatialMLLM:引领多模态AI空间理解新范式
Meta与香港中文大学联合发布了Multi-SpatialMLLM模型,该模型通过整合深度感知、视觉对应和动态感知三大组件,显著提升了多模态大语言模型(MLLMs)的空间理解能力。为解决现有模型在空间推理方面的局限性,研究团队构建了包含2700万样本的MultiSPA数据集并设计了五项训练任务。Multi-SpatialMLLM在各项基准测试中表现优异,平均准确率大幅提升,展现了其在机器人、自动驾驶等领域应用的巨大潜力,推动了AI视觉内容创作和空间理解技术的发展。

9、可灵2.1重磅上线:性能显著提升,价格骤降65%
AI视频生成工具可灵2.1现已正式上线,在性能显著提升的同时,价格大幅降低了65%,极大地提高了性价比。新版本引入了标准版、高品质版和大师版三种质量体系,分别提供720P和1080P画质选择,以满足不同用户的需求。可灵2.1在生成效果和速度上均超越了前版本,即使目前仅支持图生视频,但其卓越的表现使其成为短视频和广告制作的理想选择,显著改善了用户的创作体验。

10、蚂蚁集团开源Ming-lite-omni:媲美GPT-4o的首个开源多模态模型
蚂蚁集团百灵大模型团队宣布全面开源Ming-lite-omni,这是首个在模态支持方面能与GPT-4o媲美的开源多模态大模型。该模型基于MoE架构,拥有220亿总参数和30亿激活参数,其模型权重和推理代码已开放,后续将发布训练代码和数据。此举延续了蚂蚁集团的开源战略,并通过在非高端算力平台上训练,证明了国产GPU的强大能力,为全球开发者提供了顶级的多模态AI技术选择。

11、OpenAI图像生成API升级:实时流式预览、多轮编辑与MCP集成赋能无限创作
OpenAI大幅升级其图像生成API,引入实时流式预览,让用户在生成过程中即时查看,提升创作效率。新增的多轮编辑功能支持对已生成图像进行高保真修改,节省计算资源。更重要的是,API集成了模型上下文协议(MCP),可连接Cloudflare、Stripe等多种外部工具和实时网络数据,极大地拓展了图像生成的使用场景,从实时数据可视化到个性化营销素材,为AI驱动的视觉内容创作带来无限可能。

12、百度上线AI高考系列产品,助力考生备考与志愿填报
为迎接2025年高考,百度推出系列AI产品,全方位助力考生。其中包括“高考高频考点库”,汇集近三年核心考点,提供针对性复习;升级后的“AI志愿助手”,能根据分数快速生成“冲稳保”志愿表,并提供个性化建议。此外,还设立了24小时在线的“外援团”直播间,由高校智能体、老师和学长学姐为考生提供实时答疑。这些AI工具旨在帮助考生高效备考、科学填报志愿,缓解高考压力。

13、Ollama v0.8 发布:本地AI迈向智能助手新纪元
Ollama v0.8的发布为本地大型语言模型带来了革命性升级,新增了流式传输响应和工具调用功能,使其能够实现实时交互和连接外部世界,例如进行实时网络搜索。新版本还修复了内存泄漏、优化了模型加载速度和长上下文推理,并增强了对AMD显卡的支持。Ollama v0.8通过开源和提升本地AI能力,降低了开发门槛,预示着本地AI在隐私敏感和离线场景下将扮演越来越重要的角色,成为更实用、更灵活的智能助手。

13、通义实验室发布OmniAudio:360°视频生成空间音频里程碑
通义实验室近日推出OmniAudio技术,成功实现从360°视频直接生成FOA(First-order Ambisonics)空间音频,为虚拟现实和沉浸式娱乐带来革新。该技术解决了现有方法对360°全景视频空间信息利用不足的问题,并通过构建大规模Sphere360数据集和采用两阶段训练方法,显著提升了生成音频的质量和与视频的对齐度。实验结果表明,OmniAudio在各项指标上均优于现有基线,开启了360°视频与高质量空间音频结合的新纪元。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2392476.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Day12 - 计算机网络 - HTTP

HTTP常用状态码及含义? 301和302区别? 301:永久性移动,请求的资源已被永久移动到新位置。服务器返回此响应时,会返回新的资源地址。302:临时性性移动,服务器从另外的地址响应资源,但…

Linux驱动学习笔记(十)

热插拔 1.热插拔:就是带电插拔,即允许用户在不关闭系统,不切断电源的情况下拆卸或安装硬盘,板卡等设备。热插拔是内核和用户空间之间,通过调用用户空间程序实现交互来实现的,当内核发生了某种热拔插事件时…

TI dsp FSI (快速串行接口)

简介 快速串行接口(FSI - Fast Serial Interface )模块是一种串行通信外设,能够在隔离设备之间实现可靠的高速通信。在两个没有共同电源和接地连接的电子电路必须交换信息的情况下,电气隔离设备被使用。 虽然隔离设备促进了信号通…

责任链模式:构建灵活可扩展的请求处理体系(Java 实现详解)

一、责任链模式核心概念解析 (一)模式定义与本质 责任链模式(Chain of Responsibility Pattern)是一种行为型设计模式,其核心思想是将多个处理者对象连成一条链,并沿着这条链传递请求,直到有某…

wechat-003-学习笔记

1.路由跳转页面:携带的参数会出现在onlaod中的options中。 注意:原生小程序对路由传参的长度也有限制,过长会被截掉。 2.wx.setNavigationBarTitle(Object object) 动态设置当前页面的标题 3.在根目录中的app.json文件中配置 后台播放音乐的能…

【大模型微调】魔搭社区GPU进行LLaMA-Factory微调大模型自我认知

文章概要: 本文是一篇详细的技术教程,介绍如何使用魔搭社区(ModelScope)的GPU资源来进行LLaMA-Factory的模型微调。文章分为11个主要步骤,从环境准备到最终的模型测试,系统地介绍了整个微调流程。主要内容包…

【数据结构】哈希表的实现

文章目录 1. 哈希的介绍1.1 直接定址法1.2 哈希冲突1.3 负载因子1.4 哈希函数1.4.1 除法散列法/除留余数法1.4.2 乘法散列法1.4.3 全域散列法 1.5 处理哈希冲突1.5.1 开放地址法1.5.1.1 线性探测1.5.1.2 二次探测1.5.1.3 双重探测1.5.1.4 三种探测方法对比 1.6.3 链地址法 2. 哈…

永磁同步电机控制算法--基于电磁转矩反馈补偿的新型IP调节器

一、基本原理 先给出IP速度控制器还是PI速度控制器的传递函数: PI调节器 IP调节器 从IP速度控制器还是PI速度控制器的传递函数可以看出,系统的抗负载转矩扰动能力相同,因此虽然采用IP速度控制器改善了转速环的超调问题,但仍然需要通过其他途…

RabbitMQ 应用 - SpringBoot

以下介绍的是基于 SpringBoot 的 RabbitMQ 开发介绍 Spring Spring AMQP RabbitMQ RabbitMQ tutorial - "Hello World!" | RabbitMQ 工程搭建步骤: 1.引入依赖 2.编写 yml 配置,配置基本信息 3.编写生产者代码 4.编写消费者代码 定义监听类,使用 RabbitListener…

基于递归思想的系统架构图自动化生成实践

文章目录 一、核心思想解析二、关键技术实现1. 动态布局算法2. 样式规范集成3. MCP服务封装三、典型应用场景四、最佳实践建议五、扩展方向一、核心思想解析 本系统通过递归算法实现了Markdown层级结构到PPTX架构图的自动转换,其核心设计思想包含两个维度: 数据结构递归:将…

OpenGL Chan视频学习-9 Index Buffers inOpenGL

bilibili视频链接: 【最好的OpenGL教程之一】https://www.bilibili.com/video/BV1MJ411u7Bc?p5&vd_source44b77bde056381262ee55e448b9b1973 函数网站: docs.gl 说明: 1.之后就不再单独整理网站具体函数了,网站直接翻译会…

Nginx安全防护与HTTPS部署实战

目录 前言一. 核心安全配置1. 隐藏版本号2. 限制危险请求方法3. 请求限制(CC攻击防御)(1)使用nginx的limit_req模块限制请求速率(2)压力测试验证 4. 防盗链 二. 高级防护1. 动态黑名单(1&#x…

JAVA重症监护系统源码 ICU重症监护系统源码 智慧医院重症监护系统源码

智慧医院重症监护系统源码 ICU重症监护系统源码 开发语言:JavaVUE ICU护理记录:实现病人数据的自动采集,实时记录监护过程数据。支持主流厂家的监护仪、呼吸机等床旁数字化设备的数据采集。对接检验检查系统,实现自动化录入。喜…

python:机器学习(KNN算法)

本文目录: 一、K-近邻算法思想二、KNN的应用方式( 一)分类流程(二)回归流程 三、API介绍(一)分类预测操作(二)回归预测操作 四、距离度量方法(一)…

【笔记】2025 年 Windows 系统下 abu 量化交易库部署与适配指南

#工作记录 前言 在量化交易的学习探索中,偶然接触到 2017 年开源的 abu 量化交易库,其代码结构和思路对新手理解量化回测、指标分析等基础逻辑有一定参考价值。然而,当尝试在 2025 年的开发环境中部署这个久未更新的项目时,遇到…

小程序 - 视图与逻辑

个人简介 👨‍💻‍个人主页: 魔术师 📖学习方向: 主攻前端方向,正逐渐往全栈发展 🚴个人状态: 研发工程师,现效力于政务服务网事业 🇨🇳人生格言: “心有多大,舞台就有多大。” 📚推荐学习: 🍉Vue2 🍋Vue3 🍓Vue2/3项目实战 🥝Node.js实战 🍒T…

ChatGPT Plus/Pro 订阅教程(支持支付宝)

订阅 ChatGPT Plus GPT-4 最简单,成功率最高的方案 1. 登录 chat.openai.com 依次点击 Login ,输入邮箱和密码 2. 点击升级 Upgrade 登录自己的 OpenAI 帐户后,点击左下角的 Upgrade to Plus,在弹窗中选择 Upgrade plan。 如果…

[蓝帽杯 2022 初赛]网站取证_2

一、找到与数据库有关系的PHP文件 打开内容如下,发现数据库密码是函数my_encrypt()返回的结果。 二、在文件夹encrypt中找到encrypt.php,内容如下,其中mcrypt已不再使用,所以使用php>7版本可能没有执行结果,需要换成较低版本…

安装 Node.js 和配置 cnpm 镜像源

一、安装 Node.js 方式一:官网下载(适合所有系统) 访问 Node.js 官网 推荐选择 LTS(长期支持)版本,点击下载安装包。 根据系统提示一步步完成安装。 方式二:通过包管理器安装(建…

MacOS内存管理-删除冗余系统数据System Data

文章目录 一、问题复现二、解决思路三、解决流程四、附录 一、问题复现 以题主的的 Mac 为例,我们可以看到System Data所占数据高达77.08GB,远远超出系统所占内存 二、解决思路 占据大量空间的是分散在系统中各个位置Cache数据; 其中容量最…