AI先行者第一辑:AI for Science 要坚持高压强投入

news2025/7/22 5:46:08

‍‍

d48ce2c12464e3bb801004993b820690.gif

中国在AI for Science的基础还非常的薄弱,且非短期内可以提升,需要有一个长期性的计划,也需要有足够的金钱投入和人才队伍建设。

本篇作者褚学森,中国船舶科学研究中心、深海技术科学太湖实验室 研究员;新兴技术研究室AI方向牵头人;AICA首席AI架构师培养计划第四期学员。在今天的「AI先行者」分享中,他将和大家聊聊自己对于AI for Science的理解和感悟。

中国船舶科学研究中心、深海技术科学太湖实验室,是赫赫有名的“蛟龙号”、“奋斗者号”的研发单位。我从大学毕业加入至今已快20年,目前在新兴技术研究室担任AI方向牵头人。结合近几年在AI for Science科研前沿领域的探索,分享一些个人的观察和思考,希望帮助中国AI产业应用走得更快些。

0736e20abef2853191d1a5209a4531a7.png

中国AI发展不能“偏科”

我在2021年参加了深度学习技术及应用国家工程研究中心联合百度举办的AICA首席AI架构师第四期的培训,可谓眼界大开。课程覆盖面广,授课老师都是一线大拿,唯一的遗憾是授课的时间比较短,对我们深入了解和学习还是不够,希望将来有更深度、更长时间的学习。

我们搞船舶的,具体说是用超级计算机搞仿真模拟,在AICA学员中会感到有一点点“寂寞”,有类似感觉的,可能还有搞石油的、搞海洋监测的。

因为我看到90%的学员都是集中在CV(计算机视觉)和NLP(自然语言处理)方向,而像我们这样的研究所,比较集中在AI for Science和AI for Product两大类。前者,是通过AI提升科研技术手段创新,如提升试验手段、实验能力、仿真能力等;后者是通过AI实现产品智能化,如智能船舶、无人船自动驾驶、辅助决策,这些方面我们都已经有了一些积累。

我必须坦率地说,如果百度在通用AI的实践上代表中国的最高水平的话, 那反映出一个现状就是,中国在AI for Science的基础还非常的薄弱,且非短期内可以提升,需要有一个长期性的计划,也需要有足够的金钱投入和人才队伍建设。

fe08c7640145f869826f43107c77db9a.png

520a970cc19b2662a7767d00ebe703c3.png生成式大模型

一半海水一半火焰

我当时AICA培训结业的时候,ChatGPT这波还没有起来,现在非常热,我也专门讲一下我的一些感受。

对于普通人来说,ChatGPT似乎是一夜之间冒出来的,改变了游戏规则。但事实上不是的,它依托的深度学习和大模型的技术底座一直有在发展,只是因为正好这一次和chat模式结合,使得普通人能够用自然语言去体验AI的能力和魅力,它就一夜成名了。这让我不由感概,很多大事看似由一个细节或偶然推动的,但背后有其必然。

3900e4f124be1301bc0d385309f5d441.png

飞桨科学计算

对于生成式大模型的能力,我第一时间体验了。如果要打个比喻,它的出现有点像当年智能手机颠覆功能手机,是很多要素综合的结果,例如从按键变成触摸屏、从3G进入4G、开放的操作系统、大量自由开发者应用涌现等等。

但这些因素中谁是主因呢?我觉得是“智能操作系统”,智能操作系统提供了手机应用可随意扩展和万众参与开发的技术底座,改变了手机生态,ChatGPT带来的也是操作系统级的变化,它打开了普通人与智能大模型的交互大门,也证实了通用人工智能的可行性。

我对ChatGPT的体验主要是“文科”方面的。我也体验了很多大模型,特别是百度的文心一言,可以说是国内最好的。我认为,如果有人专攻和科研结合的生成式能力,比如论文的检索、查询、提炼、写作辅助,再比如工作协同、图片生成等领域,应该是比较快的能产生一些成果的,所以它很热。

但也有冷的一面,我必须强调的是,目前我学习和在工作中应用AI已经快5年的时间了,我的一个比较朴素的判断是,无论是以前的大模型,还是现在这一波生成式浪潮,短期内还不会出现特别适应于我们船舶行业的通用深度学习算法和模型。

因为通用版的AI工具还无法处理特定的工程问题,不同的应用模式,需要不同的机器学习算法和针对特定问题的进一步细化,比如要做流体力学的方向,尽管有了一些尝试性案例,但我觉得它们还过于简单,要真正应用到工程,必须有真正深入我们这个行业的人一起才能做出来的。所以最后,我们这个AI组,还是要做很多通用化之外的行业二次开发,不然就解决不了具体的困难。

当然,短期内不能,不代表以后不能。我相信随着我们对AI领域的持续深耕,也会有持续的突破。

其实,我们已经开始走在这条路上了,比如有一个重点方向——“船舶知识大脑”,就是基于知识图谱和大模型。通过学习我们也了解到,百度的文心大模型 和其背后的知识图谱、知识增强等技术密不可分。我们相信继续深入了解百度“文心+飞桨”的产业实践,对提升我们在知识领域的能力会是非常有借鉴作用的,我们也希望持续和百度在这方面保持合作和探索上的协作。

cf617eb38abf50326df40ce18464acc1.png要继续马拉松式的投入

我已经工作20年了,但还在攻读清华大学的计算机工程博士学位,因为虽然我们的行业如计算流体很多年前就开始应用计算机,后面用了很多年的超算,但行业内主流方法还是比较古老的。如果说的具体一点,它是在上个世纪70年代的时候发展起来的,针对的是当时数据少、算力也很薄弱的状态,用有限的条件得到一个比较宏观的最优解,这样的算法不是专门针对当前大数据、高算力情形设计,无法有效拓展。

但是,现在的算法、算力和方法论体系都有了巨大进步,我们不能再用上个世纪的体系,这可能也是单位将AI作为一个方向建设,并且让我来牵头的缘故。

在我看来,AI for Science非常有前途,它不是一个应用或一个算法,它是从科学的最底层规律出发,让bottom up的纯数据驱动方式,逐渐转向与物理模型相融合的阶段。

说的再通俗一点,我从事的是AI for CFD方面的攻关,属于科学智能的范畴。就是用AI去学习科学原理,然后得到模型,进而去解决实际的问题。比如,AlphaFold2对蛋白质折叠结构的预测,为这个困扰生物学界 50 余年的难题提供了革命性手段。

从这个角度去看,AI for Science在国际上已经如火如荼的搞起来了,国际上较领先的是DeepMind和Nvidia等。但坦率来说他们目前也还处于人才培育阶段,少部分有代表性的国际成功案例,没到适用大规模商业应用程度,还是以不惜代价的资金投入做出来的。

但尽管如此,人家并没有因为短期效益不明显而减少支持,ChatGPT出来之前,也没人说得清OpenAI坚持的大模型是否值得投入。这也提醒我们,尖端科研的过程就是你追我赶,现在我们不占有优势,如果没有持续投入的决心,就会落后。

举个例子,戈登贝尔奖是高性能计算领域的诺贝尔奖,2016 年、2017年都是我国拿到的戈登贝尔奖,2018年是两个美国团队拿到的奖,他们的成就都是基于当时世界排名第一的Summit系统上,那里面很多应用都已经是面向人工智能的;后来尤其像DeepMind,每年都会出类似AI爆品的东西,整个科学界对AI 活跃度就带上来了,这值得我们关注。

AI的顶级研发非常非常的花钱,我们需要集中力量办大事。当百度2021年开始设计飞桨科学计算套件PaddleScience(赛桨),布局AI for Science生态,我们第一时间参与了相关共建开发工作,支撑完成了基于PINNs方法的方腔流、圆柱绕流等应用案例,为PaddleScience的1.0版发布奠定了基础。合作过程双方都是自愿投入,后来我们和百度一起申请一个国家级别的基金,结果过会的时候就被pass掉了。否掉的原因不是说项目不好,而是评审者认为,你和企业合作,企业就会有投入啊,为什么还要来跟那么多嗷嗷待哺的项目抢基金。

这是一个很典型的现象,我们国家用在AI底层研发、AI for Science、包括工业软件方面投入了很多经费,但是各个口子都在做,有点雨露均沾的味道,彼此之间又有很大的隔阂,没有真正做到力往一处使,真正发挥举国体制的优势。当然,二十大提出了创新总方针,很多问题会在以后被重视起来,但我觉得我们要消融来自社会各界的研究机构、高科技公司、高校之间的“隐形”的墙,真正做到力出一孔,这恐怕是一个长期的问题。以百度这样的高科技公司主导开源模式,共建生态,不失为一个有效途径。

8e3b665f9d874e2a643c767ef56451fe.png中国造船工业如何应对“卡脖子”

应对各类“卡脖子”是我们国家近年科技发展的焦点,我们船舶行业也要应对可能的“卡脖子”问题。工业软件就是其中一种。

你可能认为怎么会?毕竟,2022年1-10月,我国造船业在国际市场的份额继续稳居世界第一,在全球18种主要船型分类中,我国有10种船型新接订单量位居世界第一。目前,全球建造难度最高的液化天然气船,我国承接的数量已提升至全球的近三成,创历史最高水平。

但你可能不知道,从事我们这个行业,必须使用工业软件,CFD软件是其中一种,CFD英语全称 (Computational Fluid Dynamics),即计算流体动力学,它是流体力学、计算数学和计算机科学结合的产物,是一门具有强大生命力的交叉科学。CFD软件通常指商业化的CFD程序,具有良好的人机交互界面,能够让使用者无需精通CFD相关理论就能够解决实际问题。这些软件从基本物理定理出发,在很大程度上替代了耗资巨大的流体动力学实验设备,在科学研究和工程技术中产生巨大的影响,是目前国际上一个强有力的研究领域。

而目前几乎所有主流的CFD软件都是在欧美国家手里,包括英国的CFX和美国的Fluent, 后来CFX和Fluent都被ANSYS公司收购,成为其ANSYS系列产品下的流体模块。

类似于“我不用你的芯片设计软件,就无法又快又好的设计出芯片”这样的问题,完全可能在我们这个行业再发生一次。

1652ff09e2206598b91bb1dacd068972.png

而我们除了迎头赶上,也要弯道超车,现在,有AI的加入,给CFD的弯道超车提供了可能。人工智能在很多方面有优势,比如通过在更快的周转时间内为每个仿真创建更多设计,从而降低计算、设计程序和运营成本。

又比如,通过在CFD过程中自动调参和提供知识库工作流帮助来提高模拟的准确性,以及创建生态系统以无缝方式模拟、预测和优化产品,提高产品性能和效率等等。

人工智能与CFD的结合说起来很深,我只择要说一点。目前这个领域有纯数据驱动和结合先验知识两类。纯数据驱动方法是由已有的CV等其他领域方法迁移过来,这类方法最大难处在于大量的数据样本获取和训练。而融合传统的方法及其他先验知识到神经网络训练中,可以有效降低对数据的需求,这是我们现在跟百度飞桨一起合作,在攻关的方向,但难度非常大。

这让我很感概,还是力量不够集中。百度作为一个通用型AI企业,已经进入AI世界的领导者象限,这是很值得骄傲的事情。但百度再强,也没法替所有的行业分门别类的去搞专用算法。在我看来,百度是一个引领者的角色,但我们行业也要和百度互相奔赴,我们要输出我们的know-how做百度的“带路党”,我们也需要百度的工程师真正在我们领域待一两年,我们还需要充裕的资金和开放的环境, 如果这些都具备,我觉得以中国人的智慧,是能够作出一点不同凡响的事情来的。

结语

说了这么多,才深切的感到,越是本身技术壁垒高的行业,通用型AI企业的赋能难度就越大。这个问题会困扰整个AI行业很多年,而在我看来,唯一的破解之道,就是培养跨界人才。

我记得一个故事,说有人采访爱因斯坦,提了一个问题,说为什么牛顿经典力学现在还是主流。爱因斯坦回答说,只有等那些从小就把相对论当基础常识来学习的人成长起来了,门户之见也就自然消失了。

在这里我们也可以期待,完全从基础教育开始就学习AI的这批人成长起来,会给这个世界带来什么样的变化。

相关链接

点击下方链接或阅读原文,即刻报名了解百度AICA首席AI架构师培养计划第八期。

百度 AICA 首席 AI 架构师培养计划第八期

e3116888965f2ed07243e942fac70f80.png

163f93778d8cc897706e6b9de2063dce.jpeg

9b1721edd4ca154ee6fe79ede49975dd.jpeg

773cba381fb7514e604e1c31ac42977b.png

b8c2a76f07239acf25376b138824635b.gif

关注【飞桨PaddlePaddle】公众号

获取更多技术内容~

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1157149.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

代码随想录算法训练营第四十天丨 动态规划part03

343. 整数拆分 思路 看到这道题目,都会想拆成两个呢,还是三个呢,还是四个.... 来看一下如何使用动规来解决。 动态规划 动规五部曲,分析如下: 确定dp数组(dp table)以及下标的含义 dp[i]…

DNS 域名解析系统

文章目录 前言什么是 DNS 域名解析系统为什么需要 DNS 域名解析DNS 是如何发展的hosts 文件维护域名和IP的映射关系DNS 系统(服务器)DNS 镜像系统 前言 前面为大家分享了关于计算机网络中应用层——自定义协议、传输层——UDP、TCP 协议、网络层——IP协…

怎样用ps把人物皮肤磨皮,人物皮肤磨皮怎么办

品牌型号:联想GeekPro 2020 系统: Windows 10 64位专业版 软件版本: portraiture 3.5.6 皮肤瑕疵是人像拍摄中比较容易出现的问题,对于皮肤瑕疵后期一般会使用磨皮的方法处理。那么,怎样用ps把人物皮肤磨皮?ps磨皮的工具丰富多样&#xff…

如何在不同的系统中查找IP地址

知道如何找到你的IP地址是我们大多数人在日常生活中很少使用的技能,但当你需要的时候,这是一种你会感激的技能——尤其是如果你运行的是最好的Wi-Fi路由器之一。 当你从事家庭网络项目时,知道你的IP地址很重要,一旦你知道了基本知…

倾斜摄影三维模型数据几何坐标重建方法分析

倾斜摄影三维模型数据几何坐标重建方法分析 利用几何坐标变换等技术实现倾斜摄影三维模型数据的坐标重建,可以采用以下方法: 1、数据准备:首先,需要获取倾斜摄影影像数据。这些影像应包含多个视角下的拍摄图像,并覆盖…

docker--基本操作

第 1 章 Docker基础 1.1 docker简介 在这一部分我们主要讲两个方面: docker是什么、docker特点 1.1.1 docker是什么 docker是什么? docker的中文解释是码头工人。 官方解释: Docker是一个开源的容器引擎,它基于LCX容器技术&…

最新广告联盟系统源码/实时监控移动广告联盟系统/多元化合作推广方式+支持各种广告效果

源码简介: 最新广告联盟系统源码,作为实时监控移动广告联盟,它有着多元化合作推广方式,并支持各种广告效果。它是最新版本、功能强大的广告联盟系统。 诚丰广告联盟系统的单台服务器每天能够承受至少2000万个PV流量,并…

前端(二十六)——常见的HTTP异常状态码以及正反向代理配置

👵博主:小猫娃来啦 👵文章核心:前端常见的HTTP异常状态码以及正反向代理配置 文章目录 前端常见的HTTP异常状态码404 - 未找到资源403 - 禁止访问304 - 未修改500 - 服务器内部错误 正反向代理配置重要性本地正向代理配置服务器配…

GhostNet(CVPR 2020)学习笔记 (附代码)

论文地址:​​​​​​https://arxiv.org/abs/1911.11907v2 代码地址:https://github.com/huawei-noah/Efficient-AI-Backbones/blob/master/ghostnet_pytorch/ghostnet.py 1.是什么? Ghost module是一种模型压缩的方法,它可以…

韦东山D1S板子——利用xfel工具初始化内置64MB内存,并直接下载程序到内存运行

1、前言 (1)最近使用韦东山老师的D1S板子学习RISC-V架构知识,我是结合《RISC-V体系结构编程与实践》这本书的进行学习,其中韦东山老师对书中的代码做了部分移植,到MMU模块就没有在移植书中代码; &#xff0…

从小白到大牛:Linux嵌入式系统开发的完整指南

Linux嵌入式系统开发一直是一个激动人心的领域,吸引着越来越多的开发者。无论你是初学者还是已经有一些经验的开发者,本文将为你提供从小白到大牛的完整指南,帮助你掌握Linux嵌入式系统开发的关键概念和技能。我们将深入探讨Linux内核、设备驱…

从开发者的角度看K8S中的复合容器模式

就应用设计最佳实践和原则而言,构建复杂的基于容器的架构与编程没有太大区别。本文的目标是使用众所周知的编程原理从开发人员的角度展示三种流行的可扩展性架构模式。 让我们从单一职责原则开始。根据 R. Martin 的说法,“一个类应该只有一个改变的理由…

高性能渲染——详解Html Canvas的优势与性能

本文由葡萄城技术团队原创并首发。转载请注明出处:葡萄城官网,葡萄城为开发者提供专业的开发工具、解决方案和服务,赋能开发者。 一、什么是Canvas 想必学习前端的同学们对Canvas 都不陌生,它是 HTML5 新增的“画布”元素&#x…

污水一体处理设备工艺有哪些

污水一体处理设备工艺主要包括以下几种: AO工艺:AO工艺是增加好氧池缺氧池形成硝化-反硝化系统,处理污水中氮含量效率提升。SBR工艺:SBR工艺是按间歇曝气方式运行的活性污泥处理技术,厌氧、好氧、缺氧处于交替状态&am…

选择适合制造业的企业邮箱平台

自2010年成立以来,J公司已从一家小型有限责任公司发展成为全球领先的工业内窥镜研发、生产和销售企业。公司的产品制造采用国际先进技术和一流生产工艺,专业为客户提供定制解决方案,产品已广泛应用于锅检特检、机械制造、发电、石油、燃气、化…

AWS认证考试的那些事

1 为啥会有这个认证 你既然点进来了这个也就不重要了,重要的是怎么拿到他,以SAA-C03为例,从开始到结束我们一起来进行准备 2 考试卷 目前AWS的考试是要交钱的,正常情况下拿到5折劵很容易,比如你之前考过AWS的认证会给…

蓝牙 - LE的Connection Parameters设定

BLE链接参数设定 两个BLE设备建立链接后,可以更改链接参数。Central和Peripheral设备均可发送更新链接参数请求。这个在很多时候是有必要的,因为广播扫描的建立链接过程,和链接保持的过程,对链接参数的要求是不同的。比如设置连接…

LInux之在同一Tomcat下使用不同的端口号访问不同的项目

🎉🎉欢迎来到我的CSDN主页!🎉🎉 🏅我是君易--鑨,一个在CSDN分享笔记的博主。📚📚 🌟推荐给大家我的博客专栏《LInux实战开发》。🎯🎯 …

深入探索 C++ 多态 ② - 继承关系

前言 上一章 简述了虚函数的调用链路,本章主要探索 C 各种继承关系的类对象的多态特性。 深入探索 C 多态 ① - 虚函数调用链路深入探索 C 多态 ② - 继承关系深入探索 C 多态 ③ - 虚析构 1. 概述 封装,继承,多态是 C 的三大特性&#xf…

群晖 Docker版qbittorrent 下载显示错误 解决方法

这些天在折腾AIO玩,PVE虚拟机底层,核显直通,群晖安装,免不了踩些坑。 今天写篇博客,讲述一下群晖 Docker版qbittorrent 下载显示错误的解决方法,顺便记录一下配置,以便日后折腾可以参考。 直接…