分享 | Gemini 3.1 Flash Live 发布,Dataify 助力 AI 交互转向多模态

news2026/5/3 12:54:52
2026 年 3 月 26 日Google 发布 Gemini 3.1 Flash Live。 同一天Google 还宣布 Search Live 全球扩展让用户在支持 AI Mode 的国家和语言里可以直接通过语音和摄像头与搜索进行实时对话。把这两个发布放在一起看重点其实不是“Google 又推了一个新模型”而是AI 交互范式正在换挡。过去几年主流使用方式还是“输入一段文字等模型生成一段回答”。 但这次 Google 明确押注的是另一条路线低延迟语音视觉上下文实时来回对话工具调用嵌入会话流更长时间的连续 session这意味着下一代 AI assistant 不再只是“回答器”而更像一个能实时观察、理解、检索、回应的交互系统。一、这次更新最值得注意的不是语音输出而是“会话模型”变了从 Google 官方说明看Gemini 3.1 Flash Live 的定位不是传统语音转文本组件也不是简单的 TTS 外挂而是面向 real-time dialogue 的 live model。官方给出的几个关键词非常值得关注更低延迟更自然的 rhythm更强的 tonal understanding更好的 task execution面向 voice-first agent这背后对应的其实不是单一能力提升而是整个交互回路被改写。旧的文本问答链路更像这样用户输入 - 模型读完整输入 - 生成完整输出 - 用户继续下一轮而实时语音视觉链路更接近音频流/图像流持续进入 - 模型持续更新理解 - 在合适时机即时回应 - 用户可以打断/补充 - 系统继续保持会话状态这两者最大的区别在于后者不是按“回合”工作而是按“流”工作。Google 在官方文档里对 Live API 的定义也非常直接它支持 continuous streams of audio, images, and text通过同一条持久连接返回低延迟响应。这已经不是标准 chat completion 的工作方式了。二、从官方文档看Google 实际上在公开一套“实时多模态会话架构”如果只看产品新闻容易把 Gemini 3.1 Flash Live 理解成“一个更自然的语音模型”。 但看完开发文档会发现它真正开放的是一套面向实时交互的接口模型。import asyncio from google import genai client genai.Client(api_keyYOUR_API_KEY) model gemini-3.1-flash-live-preview config {response_modalities: [AUDIO]} async def main(): async with client.aio.live.connect(modelmodel, configconfig) as session: print(Session started) # Send content... if __name__ __main__: asyncio.run(main())这段代码来自官方Get started with Gemini Live API using the Google GenAI SDK 文档。它看起来很简短但有两个信息量很大的点1. 会话是持久的这里不是一次请求一次响应而是 live.connect(...) 建立一条持续 session。这意味着模型运行方式正在从 stateless request 走向 stateful session。2. 输出模态是可配置的response_modalities允许直接指定音频输出这说明语音不再只是后处理层而是模型交互路径的一部分。这也是为什么 Google 在官方 Live API 文档里把输入规范写得非常明确 音频输入是16-bit PCM, 16kHz 图像按帧发送协议使用WebSocket 本质上就是把模型接进了实时流媒体场景。三、为什么“低延迟”在这里不是体验优化而是系统约束实时语音交互最容易被低估的是延迟对系统结构的影响。在文本产品里1 到 3 秒的响应很多用户都能接受。但语音对话不是这样。只要停顿稍长用户会立刻感知到系统没听懂、系统卡住了、对话不自然、打断和续接不顺等。所以 Google 这次反复强调 latency并不是单纯宣传“更快”而是在说明它针对的是另一种应用类型conversation-speed interaction。官方文档里发送音频流的示例也很直接# Assuming chunk is your raw PCM audio bytes await session.send_realtime_input( audiotypes.Blob( datachunk, mime_typeaudio/pcm;rate16000 ) )这里最关键的词是send_realtime_input 。它说明输入不是等用户说完之后统一提交而是边说边送。对于系统设计来说这会连带影响很多层前端采集粒度网络传输方式服务端缓冲策略语音检测机制模型推理触发时机工具调用插入点所以这波变化本质上不是“把输入框换成麦克风”而是把交互从离散式提交改成了流式协作。四、视觉进入会话之后输入不再是“问题”而是“现场”Search Live 的真正分水岭不只是可以说话而是可以打开摄像头继续问。Google 官方在 Search Live is expanding globally 的文章里写得很清楚用户可以在 Google app 里直接开启Live语音发问如果要询问眼前的东西比如安装一个架子也可以打开摄像头把视觉上下文一起给到系统。这意味着AI 交互的输入结构从过去系统只拿到一句话到现在现在系统拿到的是当前语音之前会话历史摄像头看到的场景搜索工具返回结果网页链接与结构化信息输入不再只是“query”而是“scene intent context”。Google 官方文档里发送视频帧的示例如下# Assuming frame is your JPEG-encoded image bytes await session.send_realtime_input( videotypes.Blob( dataframe, mime_typeimage/jpeg ) )这段代码本身不复杂但它把一个事实说得很清楚多模态不是把图片附件扔给模型而是把视觉流纳入会话。一旦进入这个阶段很多传统文本应用里的设计习惯就不够用了比如只围绕 prompt 设计上下文只按轮次组织状态只接文本型知识源只在回答前做一次检索这些在实时视觉会话里都会显得过窄。五、实时语音视觉为什么会把“会话管理”抬到更高优先级另一个常被忽视的点是 session 的长度和恢复能力。Google Live API 文档里专门有一章讲Session management 不压缩上下文时audio-only session 有时长限制audiovideo session 默认更短可以通过 context window compression 延长会话可以通过 session resumptio 在连接断开后恢复 session官方示例里context_window_compression 的配置是这样的from google.genai import types config types.LiveConnectConfig( response_modalities[AUDIO], context_window_compression( types.ContextWindowCompressionConfig( sliding_windowtypes.SlidingWindow(), ) ), )这段代码背后传达的信息是Google 已经默认开发者会遇到长会话、上下文膨胀、连接重建这些问题。也就是说实时 AI 交互不只是“识别音频然后回答”而是开始接近一个长期运行的交互进程。这和传统 chatbot 的差别非常大。 传统 chatbot 更像 request-response 服务 而实时多模态 agent 更像一个带状态的会话 runtime。六、工具调用在实时会话里开始变成“内嵌动作”而不是外挂步骤从官方文档看Live API 也支持 tool calling。Google 给出的 Python 示例是async for response in session.receive(): if response.tool_call: function_responses [ ] for fc in response.tool_call.function_calls: # 1. Execute the function locally result my_tool_function(**fc.args) # 2. Prepare the response function_responses.append(types.FunctionResponse( namefc.name, idfc.id, response{result: result} )) # 3. Send the tool response back to the session await session.send_tool_response(function_responsesfunction_responses)这一段的意义不在于“模型也能调函数”这件事大家已经不陌生了。 真正值得注意的是函数调用现在发生在 live session 里。这代表一种新的工作方式用户一边说系统一边判断是否需要外部工具工具结果返回后继续进会话对话不中断节奏尽量保持自然。这比“先说完、再检索、再生成”的线性链路更贴近真实互动。 同时也意味着上游工具和数据接口必须更稳定、更结构化因为它们已经被放进了实时路径。七、从这个热点往下看真正被重新定义的其实是“数据输入层”如果把 Gemini 3.1 Flash Live Search Live 看成一次交互升级那它向下游传导的第一个变化其实不是模型而是数据。原因很简单。 当用户开始问这类问题时“你看看我现在屏幕上的内容”“我正在看的这个商品值不值得买”“这条视频主要在讲什么”“现在这个关键词搜索里是谁排前面”“帮我结合画面和网页结果判断一下”系统就不可能只依赖模型内部参数了。 它必须有能力把外部世界里的内容接进来而且还要尽量保持实时。这时候数据输入层就会遇到新的要求不只是文本采集还要处理音视频与图像相关信息不只是拿原始页面还要返回结构化字段不只是一次性导入还要适应连续查询和热数据更新不只是“抓到内容”还要能进入语音/视觉 agent 的工作流也就是说交互升级会反过来推着数据基础设施升级。八、Dataify补足多模态数据入口如果顺着这个逻辑看Dataify 切入点是当 AI 交互变成实时、多模态、带外部上下文的系统之后公开数据如何以更可用的形式进入会话链路。结合 Dataify 官网公开的产品结构这条线其实很清晰SERP API 解决搜索结果页数据接入Web Scraper / Universal Scraping 解决网页正文与复杂页面结构化提取Video Scraping 处理视频、频道、播放列表、评论、互动指标、字幕和元数据这类更典型的多模态公开数据多领域数据集与相关处理能力则让音视频、社交媒体、电商等场景的数据准备更靠近 AI 应用本身Google 解决的是“模型如何实时听、看、说、调用工具”。 而 Dataify 更像是在补“这些实时系统要读什么外部数据数据怎么进来进来之后是不是结构化可用”。这尤其适合下面几类场景语音助手结合搜索结果和网页正文做即时答复视觉问答叠加视频评论、字幕、元数据进行补充判断多模态 agent 在会话中动态调用公开数据接口面向市场研究、内容洞察、竞品跟踪的实时分析系统也就是说交互层和数据层在这一轮不是平行关系而是开始直接耦合。九、这次事件真正值得记住的一点如果只把 Gemini 3.1 Flash Live 看成一次产品更新很容易低估它。 但如果把它和 Search Live 全球扩展放在一起就会看到一个更明确的趋势AI 正在从“文本生成接口”变成“实时多模态交互系统”。一旦进入这个阶段系统建设重点会发生位移从 prompt 优化转向 session 设计从一次性回答转向连续对话控制从纯文本知识源转向多模态外部输入从模型能力单点提升转向模型、工具、数据一起协作这也是为什么这条新闻值得单独拿出来分析。 它讨论的已经不是“语音好不好听”而是下一代 AI 系统的基本交互形态。结尾AI 的下一步不只是更会写而是更会听、更会看、更会在实时场景里持续互动。而一旦交互走向实时语音与视觉外部数据的组织方式也必须跟着改变。 系统需要的不再只是静态文本而是能被实时调用、能跨模态组织、能进入连续会话的数据输入层。Dataify 把搜索、网页、视频等公开数据做成结构化、多模态采集能力的平台会在这波趋势里变得更有意义。 它不是 Live API 的替代品但它可以成为这类实时 AI 系统背后的数据入口。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2553361.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

SpringBoot-17-MyBatis动态SQL标签之常用标签

文章目录 1 代码1.1 实体User.java1.2 接口UserMapper.java1.3 映射UserMapper.xml1.3.1 标签if1.3.2 标签if和where1.3.3 标签choose和when和otherwise1.4 UserController.java2 常用动态SQL标签2.1 标签set2.1.1 UserMapper.java2.1.2 UserMapper.xml2.1.3 UserController.ja…

wordpress后台更新后 前端没变化的解决方法

使用siteground主机的wordpress网站,会出现更新了网站内容和修改了php模板文件、js文件、css文件、图片文件后,网站没有变化的情况。 不熟悉siteground主机的新手,遇到这个问题,就很抓狂,明明是哪都没操作错误&#x…

网络编程(Modbus进阶)

思维导图 Modbus RTU(先学一点理论) 概念 Modbus RTU 是工业自动化领域 最广泛应用的串行通信协议,由 Modicon 公司(现施耐德电气)于 1979 年推出。它以 高效率、强健性、易实现的特点成为工业控制系统的通信标准。 包…

UE5 学习系列(二)用户操作界面及介绍

这篇博客是 UE5 学习系列博客的第二篇,在第一篇的基础上展开这篇内容。博客参考的 B 站视频资料和第一篇的链接如下: 【Note】:如果你已经完成安装等操作,可以只执行第一篇博客中 2. 新建一个空白游戏项目 章节操作,重…

IDEA运行Tomcat出现乱码问题解决汇总

最近正值期末周,有很多同学在写期末Java web作业时,运行tomcat出现乱码问题,经过多次解决与研究,我做了如下整理: 原因: IDEA本身编码与tomcat的编码与Windows编码不同导致,Windows 系统控制台…

利用最小二乘法找圆心和半径

#include <iostream> #include <vector> #include <cmath> #include <Eigen/Dense> // 需安装Eigen库用于矩阵运算 // 定义点结构 struct Point { double x, y; Point(double x_, double y_) : x(x_), y(y_) {} }; // 最小二乘法求圆心和半径 …

使用docker在3台服务器上搭建基于redis 6.x的一主两从三台均是哨兵模式

一、环境及版本说明 如果服务器已经安装了docker,则忽略此步骤,如果没有安装,则可以按照一下方式安装: 1. 在线安装(有互联网环境): 请看我这篇文章 传送阵>> 点我查看 2. 离线安装(内网环境):请看我这篇文章 传送阵>> 点我查看 说明&#xff1a;假设每台服务器已…

XML Group端口详解

在XML数据映射过程中&#xff0c;经常需要对数据进行分组聚合操作。例如&#xff0c;当处理包含多个物料明细的XML文件时&#xff0c;可能需要将相同物料号的明细归为一组&#xff0c;或对相同物料号的数量进行求和计算。传统实现方式通常需要编写脚本代码&#xff0c;增加了开…

LBE-LEX系列工业语音播放器|预警播报器|喇叭蜂鸣器的上位机配置操作说明

LBE-LEX系列工业语音播放器|预警播报器|喇叭蜂鸣器专为工业环境精心打造&#xff0c;完美适配AGV和无人叉车。同时&#xff0c;集成以太网与语音合成技术&#xff0c;为各类高级系统&#xff08;如MES、调度系统、库位管理、立库等&#xff09;提供高效便捷的语音交互体验。 L…

(LeetCode 每日一题) 3442. 奇偶频次间的最大差值 I (哈希、字符串)

题目&#xff1a;3442. 奇偶频次间的最大差值 I 思路 &#xff1a;哈希&#xff0c;时间复杂度0(n)。 用哈希表来记录每个字符串中字符的分布情况&#xff0c;哈希表这里用数组即可实现。 C版本&#xff1a; class Solution { public:int maxDifference(string s) {int a[26]…

【大模型RAG】拍照搜题技术架构速览:三层管道、两级检索、兜底大模型

摘要 拍照搜题系统采用“三层管道&#xff08;多模态 OCR → 语义检索 → 答案渲染&#xff09;、两级检索&#xff08;倒排 BM25 向量 HNSW&#xff09;并以大语言模型兜底”的整体框架&#xff1a; 多模态 OCR 层 将题目图片经过超分、去噪、倾斜校正后&#xff0c;分别用…

【Axure高保真原型】引导弹窗

今天和大家中分享引导弹窗的原型模板&#xff0c;载入页面后&#xff0c;会显示引导弹窗&#xff0c;适用于引导用户使用页面&#xff0c;点击完成后&#xff0c;会显示下一个引导弹窗&#xff0c;直至最后一个引导弹窗完成后进入首页。具体效果可以点击下方视频观看或打开下方…

接口测试中缓存处理策略

在接口测试中&#xff0c;缓存处理策略是一个关键环节&#xff0c;直接影响测试结果的准确性和可靠性。合理的缓存处理策略能够确保测试环境的一致性&#xff0c;避免因缓存数据导致的测试偏差。以下是接口测试中常见的缓存处理策略及其详细说明&#xff1a; 一、缓存处理的核…

龙虎榜——20250610

上证指数放量收阴线&#xff0c;个股多数下跌&#xff0c;盘中受消息影响大幅波动。 深证指数放量收阴线形成顶分型&#xff0c;指数短线有调整的需求&#xff0c;大概需要一两天。 2025年6月10日龙虎榜行业方向分析 1. 金融科技 代表标的&#xff1a;御银股份、雄帝科技 驱动…

观成科技:隐蔽隧道工具Ligolo-ng加密流量分析

1.工具介绍 Ligolo-ng是一款由go编写的高效隧道工具&#xff0c;该工具基于TUN接口实现其功能&#xff0c;利用反向TCP/TLS连接建立一条隐蔽的通信信道&#xff0c;支持使用Let’s Encrypt自动生成证书。Ligolo-ng的通信隐蔽性体现在其支持多种连接方式&#xff0c;适应复杂网…

铭豹扩展坞 USB转网口 突然无法识别解决方法

当 USB 转网口扩展坞在一台笔记本上无法识别,但在其他电脑上正常工作时,问题通常出在笔记本自身或其与扩展坞的兼容性上。以下是系统化的定位思路和排查步骤,帮助你快速找到故障原因: 背景: 一个M-pard(铭豹)扩展坞的网卡突然无法识别了,扩展出来的三个USB接口正常。…

未来机器人的大脑:如何用神经网络模拟器实现更智能的决策?

编辑&#xff1a;陈萍萍的公主一点人工一点智能 未来机器人的大脑&#xff1a;如何用神经网络模拟器实现更智能的决策&#xff1f;RWM通过双自回归机制有效解决了复合误差、部分可观测性和随机动力学等关键挑战&#xff0c;在不依赖领域特定归纳偏见的条件下实现了卓越的预测准…

Linux应用开发之网络套接字编程(实例篇)

服务端与客户端单连接 服务端代码 #include <sys/socket.h> #include <sys/types.h> #include <netinet/in.h> #include <stdio.h> #include <stdlib.h> #include <string.h> #include <arpa/inet.h> #include <pthread.h> …

华为云AI开发平台ModelArts

华为云ModelArts&#xff1a;重塑AI开发流程的“智能引擎”与“创新加速器”&#xff01; 在人工智能浪潮席卷全球的2025年&#xff0c;企业拥抱AI的意愿空前高涨&#xff0c;但技术门槛高、流程复杂、资源投入巨大的现实&#xff0c;却让许多创新构想止步于实验室。数据科学家…

深度学习在微纳光子学中的应用

深度学习在微纳光子学中的主要应用方向 深度学习与微纳光子学的结合主要集中在以下几个方向&#xff1a; 逆向设计 通过神经网络快速预测微纳结构的光学响应&#xff0c;替代传统耗时的数值模拟方法。例如设计超表面、光子晶体等结构。 特征提取与优化 从复杂的光学数据中自…