EgoScale:利用多样化的自我为中心人类数据来扩展灵巧操作

news2026/3/18 16:41:28
26年2月来自NV、UC Berkeley和U Maryland的论文“EgoScale: Scaling Dexterous Manipulation with Diverse Egocentric Human Data”。人类行为是学习物理智能最具可扩展性的数据来​​源之一但如何有效地利用这些数据进行灵巧操作训练仍不明确。虽然以往的研究已在受限环境下展示人机迁移但大规模人类数据是否能够支持细粒度、高自由度的灵巧操作训练尚不清楚。EgoScale是一个基于大规模自我为中心人类数据构建的人-机灵巧操作迁移框架。用超过 20,854 小时动作标注的自我为中心人类视频训练一个视觉-语言-动作 (VLA) 模型——比以往的研究规模大 20 倍以上——并发现人类数据规模与验证损失之间的对数线性关系。该验证损失与下游真实机器人的性能高度相关表明大规模人类数据是一个可预测的监督来源。除了规模之外还提出一种简单的两-阶段迁移方法首先进行大规模人类预训练然后进行轻量级的人-机协同训练。这使得机器人能够在极少监督下实现强大的长距离灵巧操作和一次性任务适应。最终的策略在使用22-自由度灵巧机械手时相比无预训练基线平均成功率提高54%并且能够有效地迁移到自由度较低的机械手上这表明大规模的人体运动提供一种可重用的、与具体形态无关的运动先验。随着机器人硬件不断改进朝着更接近人类的运动学和灵巧性方向发展一个自然而然的问题随之而来人类数据能否作为灵巧机器人操作的主要训练信号近期研究表明通过协调不同载体上的观察或动作可以将人类数据迁移到机器人[12, 42, 25, 24, 30]。然而现有成果在两个方面仍存在局限性。首先大多数方法依赖于相对较小的人类数据集通常只有几十到几百个小时。其次许多方法侧重于机械臂或低自由度的手部而这些设备缺乏精细的手指关节活动。因此人类数据能否有效地支持大规模的复杂灵巧操作仍不明确。基于人类数据的机器人学习人类演示已被广泛用于扩展机器人学习早期研究主要利用人类视频进行表征学习或意图推断[17, 36, 15, 14, 45]。后续方法利用人类数据指导规划或高层控制同时依赖机器人演示进行底层执行[34, 43, 44, 18, 38, 39]。更新的方法利用以自我为中心的感知和3D手部跟踪技术的进步将人类视频视为密集动作监督。EgoMimic[12]、Qiu[25]和DexWild[30]通过显式对齐在人类和机器人演示上共同训练统一的模仿策略而EgoVLA[42]则在人类手部运动上预训练VLA模型并通过逆运动学和重定向将其迁移到机器人。同期研究[13]表明在基于大规模多样化跨具身数据预训练的VLA模型能够实现人机迁移。机器人学习中的规模化特性受语言和视觉领域中观察的规模化规律启发近期的研究开始探索类似的原则是否也适用于机器人学习。经验表明大规模机器人数据集和基础型策略表明增加数据多样性和覆盖范围能够提高跨任务和环境的鲁棒性和泛化能力[11, 46, 20, 33, 31, 4]。Hu[9]的研究表明策略泛化能力与环境和物体多样性呈近似幂律关系但进一步的演示很快达到饱和这凸显多样性比原始数据量更为重要。这与先前强调通过组合多样性进行高效数据收集的研究结果一致[7, 37]。与先前主要扩展机器人采集数据的研究相比扩展多样化的自然场景下人类自我为中心的数据能够系统性地提升灵巧操作能力从而将人类视频确立为一种高效且可扩展的监督数据源。学习灵巧操作灵巧操作技术已从基于分析和控制的抓取方法这些方法模拟力闭合、接触稳定性以及手部运动学[21, 22, 26, 27, 23, 6]发展到基于学习的方法这些方法从数据中获取丰富的接触行为[1, 16, 40]。后续研究引入了结构化表示例如抓取affordance、接触图和手-物体交互场以更好地捕捉灵巧操作的几何和物理特性[3, 5, 10, 41, 32]。更新的方法旨在学习具有统一感知和控制的可泛化多指操作策略[28, 35]。然而由于高维动作空间、机器人数据采集成本以及当前灵巧手硬件的局限性扩展灵巧操作仍然面临挑战。EgoScale框架人-机灵巧操作迁移本质上是一个规模效应现象EgoScale是一个基于大规模自我为中心人类数据构建的可扩展人机灵巧操作迁移框架其揭示了一个清晰的规模规律人类手腕和手部动作预测的验证损失与数据量呈对数线性关系。这使我们能够推断随着人类数据规模的扩大验证损失持续降低学习的表征泛化能力也越来越强。至关重要的是该损失与机器人在长时程、复杂操作任务上的真实性能高度相关。除了规模效应之外用以相对腕部运动和重定向的高自由度手部关节动作表示的人类操作行为监督模型这种对齐的动作空间促使模型提取直接用于操作的信息而不是学习与任务无关的视觉特征。预训练之后通过协同训练引入少量对齐的人-机中期训练数据。这些中期训练数据包括在匹配的桌面场景中执行类似操作任务的人类和机器人这些场景具有相似的视觉视角。这种对齐为将预训练表征与机器人的感知和控制空间联系起来提供监督。本文目标是从大规模以人类为中心的视频中学习可直接用于灵巧机器人控制的表征。这一设定面临两大核心挑战。首先人类演示数据噪声较大且缺乏相应的机器人动作。其次人类和机器人在运动学和控制界面方面存在显著差异。本文方法如图所示通过两项设计选择来应对这些挑战。首先用从以人类为中心的视频中提取的腕部运动和手部关节的显式监督数据对人类数据进行预训练迫使模型学习基于物理实际的动作表征。然后在训练中期引入少量对齐的人机数据这使得这些表征能够应用于可执行的机器人控制而无需大规模的配对演示。这种两阶段设计将数据规模与人体模型对齐解耦从而能够有效地将大型人类数据集迁移到灵巧机器人操作。人类动作表征原始传感器数据流。每个人体演示都包含从头戴式摄像头捕获以自我为中心的RGB观测数据以及从现成的感知流程中获得的估计摄像头运动和人手姿态。将这些原始传感器信号转换为统一的动作表示适用于大规模预训练和下游机器人执行。令F_表示世界坐标系Ft_表示时间的摄像头坐标系。估计的摄像头姿态表示为T_←。人手姿态由21个关键点建模每个关键点在摄像头坐标系中表示为刚体变换H_,其中 1对应于手腕。世界坐标系中的手腕姿态由Wt_ T_←H_,1给出。腕部手臂运动。为了获得不受全局相机运动影响的运动指令用连续时间步之间的相对腕部运动来表示手臂运动。给定动作块中的时间步 t∆Wt (W0_)−1Wt_。这种相对末端执行器公式消除对绝对相机位姿的依赖并以物理意义明确的方式捕捉局部手臂运动。相同的表示方法在人类演示和机器人执行中共享作为跨具身学习的主要手臂级动作抽象。手部关节。对于手指级控制用基于优化的程序将 21 个人类手部关键点重映射到灵巧机器人手部关节空间该程序强制执行关节限制和运动学约束。默认选择 Sharpa hand [29] 的 22 自由度手部动作空间该空间在预训练期间保留人类手指的关节活动性同时与目标机器人的控制界面保持一致。尽管这种表示方法是使用高自由度的手部模型定义的但学习的模型可以有效地迁移到低自由度手部模型。人类数据来源和处理第一阶段大规模以自我为中心的人类预训练数据。用包含总计 20,854 小时视频大规模以自我为中心的人类活动数据集对模型进行预训练。其中大部分是来自各种真实世界环境例如家庭、工业、零售和教育场所的自然场景以自我为中心的录像涵盖 9,869 个场景、6,015 个任务和 43,237 个物体并提供对长尾long-tailed操作行为的广泛覆盖。所有录像均使用以自我为中心 RGB 相机以 30 帧/秒的帧率拍摄。用现成的 SLAM 和手部姿态估计流程来恢复相机运动和人手轨迹。尽管由于数据采集不受限制这些估计值存在噪声但数据的规模和多样性为学习可迁移的动作表征提供有效的监督随着数据量的增加下游性能将持续提升。为了补充这种大规模但噪声较大的监督还整合 829 小时的 EgoDex 数据集 [8]该数据集使用 Apple Vision Pro 采集并具备精确的手腕和手部追踪功能。EgoDex 涵盖 194 个涉及日常物品的桌面操作任务并提供更高精度的运动学信号有助于锚定预训练同时保持可扩展性。第二阶段人机对齐的中期训练数据。为了进一步弥合人类演示和机器人执行之间的具身认知差距引入一个包含人类和远程操作机器人数据的较小数据集。该数据集对于将预训练表征锚定到机器人的感知和动作空间至关重要。该数据集包含 344 个桌面操作任务每个任务均由约 30 条人类轨迹和 5 条机器人轨迹记录总计约 50 小时的人类数据和 4 小时的机器人数据。如图 a 所示人类演示数据与机器人演示数据采用相同的相机配置视角匹配且内部参数经过校准确保不同领域之间的视觉观察结果具有直接可比性。人手运动的捕捉采用与机器人远程操作相同的运动捕捉技术Vive 追踪器提供腕部姿态3D 位置和方向而 Manus 手套则记录完整的手部姿态包括 25 个关节变换。所有运动信号均与视频流同步。与第一阶段使用的大规模但无约束的数据相比该数据集规模显著较小但明确地与人体本体进行对齐。它专注于与机器人工作空间和运动学相匹配的桌面任务使得预训练期间学习的抽象人类动作能够转化为可执行的机器人控制。第一阶段和第二阶段共同实现规模和对齐的解耦第一阶段提供多样性和语义基础而第二阶段则为后续部署提供精确的人机对应关系。模型架构如上图 b 所示模型采用类似于 GR00T N1 [19] 基于流的 VLA 架构。在每个时间步 t模型以观测值 o_t (I_t, L_t) 为条件该观测值包含一幅图像和一条语言指令并被编码为视觉-语言嵌入 Θ_t。然后模型使用流匹配目标函数预测未来动作片段。对于机器人数据模型以机器人本体感觉状态 q_t 为条件而人类演示则不提供此类信号。在缺乏本体感觉的情况下将 q_t 替换为一个可学习的占位符token从而在不改变架构的情况下实现统一的模型构建。为了适应具有不同状态和手部动作空间的多种机器人形态遵循 GR00T N1 [19] 的规范在输入和输出接口处使用轻量级的、基于个体特征的多层感知器MLP适配器。具体而言这些适配器编码特定于身体的本体感觉状态并解码手部动作而相对腕部运动预测、视觉-语言骨干网络和 DiT 动作专家则完全共享。实际上这种机制仅用于少数额外的身体模型例如具有三指手的 G1。训练方案用三阶段训练流程。在第一阶段人类预训练用 256 个 GB200 GPU以 8192 的全局批大小和 5 × 10⁻⁵ 的学习率在 2 万小时自我为中心的人类数据上进行 10 万步训练完全解冻 VLA 模型的每个参数以吸收大规模数据。然后在第二阶段中期训练阶段用已对齐的人-机游戏数据集进行 5 万步训练批大小为 2048学习率为 3 × 10⁻⁵。在此阶段冻结视觉语言骨干网络仅更新视觉编码器和 DiT 动作专家以锚定机器人感知和控制的表征。在第三阶段后训练阶段用特定任务的机器人演示进行 1 万步微调批大小为 512学习率为 3 × 10⁻⁵。在后训练阶段如果用中期训练则冻结视觉编码器否则解冻视觉编码器以便在需要时适应新的实现方式。机器人系统与控制实际实验在配备 22 自由度 Sharpa 灵巧机械手的 Galaxea R1Pro 人形机器人上进行。双臂轮式人形机器人系统 Galaxea R1Pro。固定机器人的底座和躯干专注于双手操作在相对末端执行器空间中控制两个7自由度机械臂其中动作指定位置和方向的增量变化与人类演示中使用的腕部姿态表示相匹配从而实现人机直接对齐。22自由度灵巧手。为机器人配备具有22个自由度和关节空间控制的Sharpa Wave灵巧手其中动作直接指定目标关节角度从而实现精确的关节运动并保留重定位的人手运动的精细结构。感知系统。用三个RGB摄像头一个头戴式摄像头提供与人类视频一致的自我为中心第一人称视角两个腕部摄像头分别安装在每个手腕的内侧朝向手掌用于捕捉近距离的手部与物体交互并提供精细灵巧操作所必需的详细视觉反馈。实验配置任务。为了评估策略性能设计五个高灵巧性操作任务如图所示。除“卷衬衫”任务外每个任务均提供 100 次远程操控机器人演示。“卷衬衫”是一项可变形操作任务对控制精度要求较低因此仅提供 20 次演示。任务 I衬衫卷衬衫。机器人协调双手交替折叠和卷起一件 T 恤然后将其放入篮子中。任务 II卡片卡片分类。机器人用手指摩擦并从一叠紧密堆叠的卡片中分离出一张卡片然后根据颜色将其精确地插入正确的卡槽中。任务 III钳子灵巧工具使用用钳子搬运水果。机器人首先从工具箱中取出一把钳子然后用它夹起一个水果并将其放置在目标位置。任务 IV瓶子拧开瓶盖。机器人抓取并持续旋转一个小瓶盖将其从瓶子上取下。采集四种不同尺寸瓶子的演示数据每种瓶子采集了25条轨迹。任务五注射器注射器液体转移。这是最具挑战性的任务要求机器人拿起注射器从 A 管抽取液体将其注入 B 管然后将注射器丢弃到垃圾桶中。该任务涉及长时程、多步骤推理、精确的液体抽取和注入空间对准以及灵巧地操作注射器活塞。评估指标。为了评估策略性能用两个随机训练种子训练每种方法。然后对于每个训练好的策略检查点进行 10 次试验以评估性能但任务III除外该任务中对四个瓶子实例分别进行 4 次试验共计 16 次评估试验。为了确保评估运行的一致性采用基于图像叠加的初始化程序其中机器人评估器会获得目标初始场景配置的视觉叠加层以减少初始条件的变化。对于每个任务记录绝对任务成功率和细粒度的任务完成分数。如图所示Galaxea R1 Pro 和 Unitree G1 平台上的机器人系统配置可视化图。Galaxea R1 Pro 配备 22 自由度 Sharpa 灵巧机械手而 Unitree G1 则配备 7 自由度三指机械手。两款机器人均配备两台用于腕部观察的 OAK-1-Wide 摄像头和一台用于提供以自我为中心的视觉观测的 OAK-D-Wide 头戴式摄像头。重定向方法本文用逐帧优化的方法将21个人类手部关键点每只手25个关键点分别表示3D位置和方向重新映射到Sharpa Hand [29]的22自由度关节空间中。机器人手部采用基于URDF的正向运动学模型将关节角度映射到20个机器人关键点位姿位置和四元数。对于每只手和每个时间步求解一个关于22个关节角度的非线性规划问题仅受限于URDF提供的关节限制并最小化不同目标的加权组合。该优化过程在CasADi中实现并使用IPOPT算法求解该算法从前一帧的解进行热启动。最后使用一阶指数滤波器对得到的关节角度进行平滑处理以减少时间抖动。该设计在保持手指关节活动和捏握/握拳语义的同时强制执行关节限制和运动学一致性并产生用于预训练和与目标机器人交互的 22 自由度动作空间。跨平台迁移至宇树 G1Unitree G1 机器人在运动学和手部驱动方面与 Galaxea R1 Pro 平台存在显著差异。共享腕部动作。在所有实施例中用 (3) 中的相对末端执行器姿态来表示手臂运动该姿态由帧间腕部变换定义。这种表示方法在人类演示和机器人执行之间共享并且不受绝对工作空间、相机位置和手臂运动学差异的影响。手部动作适配。人类预训练是在一个 22 自由度的灵巧手部关节空间中进行的该空间是通过重定向的人类手部运动获得的。为了支持具有不同形态的机器人例如配备7自由度三指手的Unitree G1借鉴GR00T-N1和N1.5 [19] 的设计在DiT动作模块的输入和输出接口处引入轻量级的、基于形态的MLP适配器。具体而言形态特定的编码器将机器人本体感觉状态和带噪声的动作输入映射到共享的潜动作空间而形态特定的解码器则将DiT输出映射回相应的关节动作空间。视觉语言骨干网络和DiT动作专家模型在所有形态之间完全共享。形态特定的中期训练。为了将人类预训练的表征与G1控制空间相匹配在对齐的中期训练阶段加入G1机器人的实验数据。在此阶段仅更新视觉编码器、DiT动作专家模型以及状态-动作编码器和解码器而视觉语言骨干网络保持冻结状态。这种设计使得模型能够在适应 G1 的感知和驱动接口的同时保留源自人类的操作结构。讨论。重要的是G1 并非从零开始训练。相反训练过程中会将已学习的、源自人类的操作表征与新的实体模型进行匹配。这种方法比仅直接使用 G1 数据进行训练的性能显著提高这表明大规模的人类预训练提供一种可重用且与实体模型无关的运动先验可以有效地应用于具有不同运动学和手部设计的机器人。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2423485.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

SpringBoot-17-MyBatis动态SQL标签之常用标签

文章目录 1 代码1.1 实体User.java1.2 接口UserMapper.java1.3 映射UserMapper.xml1.3.1 标签if1.3.2 标签if和where1.3.3 标签choose和when和otherwise1.4 UserController.java2 常用动态SQL标签2.1 标签set2.1.1 UserMapper.java2.1.2 UserMapper.xml2.1.3 UserController.ja…

wordpress后台更新后 前端没变化的解决方法

使用siteground主机的wordpress网站,会出现更新了网站内容和修改了php模板文件、js文件、css文件、图片文件后,网站没有变化的情况。 不熟悉siteground主机的新手,遇到这个问题,就很抓狂,明明是哪都没操作错误&#x…

网络编程(Modbus进阶)

思维导图 Modbus RTU(先学一点理论) 概念 Modbus RTU 是工业自动化领域 最广泛应用的串行通信协议,由 Modicon 公司(现施耐德电气)于 1979 年推出。它以 高效率、强健性、易实现的特点成为工业控制系统的通信标准。 包…

UE5 学习系列(二)用户操作界面及介绍

这篇博客是 UE5 学习系列博客的第二篇,在第一篇的基础上展开这篇内容。博客参考的 B 站视频资料和第一篇的链接如下: 【Note】:如果你已经完成安装等操作,可以只执行第一篇博客中 2. 新建一个空白游戏项目 章节操作,重…

IDEA运行Tomcat出现乱码问题解决汇总

最近正值期末周,有很多同学在写期末Java web作业时,运行tomcat出现乱码问题,经过多次解决与研究,我做了如下整理: 原因: IDEA本身编码与tomcat的编码与Windows编码不同导致,Windows 系统控制台…

利用最小二乘法找圆心和半径

#include <iostream> #include <vector> #include <cmath> #include <Eigen/Dense> // 需安装Eigen库用于矩阵运算 // 定义点结构 struct Point { double x, y; Point(double x_, double y_) : x(x_), y(y_) {} }; // 最小二乘法求圆心和半径 …

使用docker在3台服务器上搭建基于redis 6.x的一主两从三台均是哨兵模式

一、环境及版本说明 如果服务器已经安装了docker,则忽略此步骤,如果没有安装,则可以按照一下方式安装: 1. 在线安装(有互联网环境): 请看我这篇文章 传送阵>> 点我查看 2. 离线安装(内网环境):请看我这篇文章 传送阵>> 点我查看 说明&#xff1a;假设每台服务器已…

XML Group端口详解

在XML数据映射过程中&#xff0c;经常需要对数据进行分组聚合操作。例如&#xff0c;当处理包含多个物料明细的XML文件时&#xff0c;可能需要将相同物料号的明细归为一组&#xff0c;或对相同物料号的数量进行求和计算。传统实现方式通常需要编写脚本代码&#xff0c;增加了开…

LBE-LEX系列工业语音播放器|预警播报器|喇叭蜂鸣器的上位机配置操作说明

LBE-LEX系列工业语音播放器|预警播报器|喇叭蜂鸣器专为工业环境精心打造&#xff0c;完美适配AGV和无人叉车。同时&#xff0c;集成以太网与语音合成技术&#xff0c;为各类高级系统&#xff08;如MES、调度系统、库位管理、立库等&#xff09;提供高效便捷的语音交互体验。 L…

(LeetCode 每日一题) 3442. 奇偶频次间的最大差值 I (哈希、字符串)

题目&#xff1a;3442. 奇偶频次间的最大差值 I 思路 &#xff1a;哈希&#xff0c;时间复杂度0(n)。 用哈希表来记录每个字符串中字符的分布情况&#xff0c;哈希表这里用数组即可实现。 C版本&#xff1a; class Solution { public:int maxDifference(string s) {int a[26]…

【大模型RAG】拍照搜题技术架构速览:三层管道、两级检索、兜底大模型

摘要 拍照搜题系统采用“三层管道&#xff08;多模态 OCR → 语义检索 → 答案渲染&#xff09;、两级检索&#xff08;倒排 BM25 向量 HNSW&#xff09;并以大语言模型兜底”的整体框架&#xff1a; 多模态 OCR 层 将题目图片经过超分、去噪、倾斜校正后&#xff0c;分别用…

【Axure高保真原型】引导弹窗

今天和大家中分享引导弹窗的原型模板&#xff0c;载入页面后&#xff0c;会显示引导弹窗&#xff0c;适用于引导用户使用页面&#xff0c;点击完成后&#xff0c;会显示下一个引导弹窗&#xff0c;直至最后一个引导弹窗完成后进入首页。具体效果可以点击下方视频观看或打开下方…

接口测试中缓存处理策略

在接口测试中&#xff0c;缓存处理策略是一个关键环节&#xff0c;直接影响测试结果的准确性和可靠性。合理的缓存处理策略能够确保测试环境的一致性&#xff0c;避免因缓存数据导致的测试偏差。以下是接口测试中常见的缓存处理策略及其详细说明&#xff1a; 一、缓存处理的核…

龙虎榜——20250610

上证指数放量收阴线&#xff0c;个股多数下跌&#xff0c;盘中受消息影响大幅波动。 深证指数放量收阴线形成顶分型&#xff0c;指数短线有调整的需求&#xff0c;大概需要一两天。 2025年6月10日龙虎榜行业方向分析 1. 金融科技 代表标的&#xff1a;御银股份、雄帝科技 驱动…

观成科技:隐蔽隧道工具Ligolo-ng加密流量分析

1.工具介绍 Ligolo-ng是一款由go编写的高效隧道工具&#xff0c;该工具基于TUN接口实现其功能&#xff0c;利用反向TCP/TLS连接建立一条隐蔽的通信信道&#xff0c;支持使用Let’s Encrypt自动生成证书。Ligolo-ng的通信隐蔽性体现在其支持多种连接方式&#xff0c;适应复杂网…

铭豹扩展坞 USB转网口 突然无法识别解决方法

当 USB 转网口扩展坞在一台笔记本上无法识别,但在其他电脑上正常工作时,问题通常出在笔记本自身或其与扩展坞的兼容性上。以下是系统化的定位思路和排查步骤,帮助你快速找到故障原因: 背景: 一个M-pard(铭豹)扩展坞的网卡突然无法识别了,扩展出来的三个USB接口正常。…

未来机器人的大脑:如何用神经网络模拟器实现更智能的决策?

编辑&#xff1a;陈萍萍的公主一点人工一点智能 未来机器人的大脑&#xff1a;如何用神经网络模拟器实现更智能的决策&#xff1f;RWM通过双自回归机制有效解决了复合误差、部分可观测性和随机动力学等关键挑战&#xff0c;在不依赖领域特定归纳偏见的条件下实现了卓越的预测准…

Linux应用开发之网络套接字编程(实例篇)

服务端与客户端单连接 服务端代码 #include <sys/socket.h> #include <sys/types.h> #include <netinet/in.h> #include <stdio.h> #include <stdlib.h> #include <string.h> #include <arpa/inet.h> #include <pthread.h> …

华为云AI开发平台ModelArts

华为云ModelArts&#xff1a;重塑AI开发流程的“智能引擎”与“创新加速器”&#xff01; 在人工智能浪潮席卷全球的2025年&#xff0c;企业拥抱AI的意愿空前高涨&#xff0c;但技术门槛高、流程复杂、资源投入巨大的现实&#xff0c;却让许多创新构想止步于实验室。数据科学家…

深度学习在微纳光子学中的应用

深度学习在微纳光子学中的主要应用方向 深度学习与微纳光子学的结合主要集中在以下几个方向&#xff1a; 逆向设计 通过神经网络快速预测微纳结构的光学响应&#xff0c;替代传统耗时的数值模拟方法。例如设计超表面、光子晶体等结构。 特征提取与优化 从复杂的光学数据中自…