AI图文识别 VS 人类学习|后Transformer时代

news2026/4/11 7:50:46

AI怎么识别是哪部小说总结前置视觉编码器负责把图片“翻译”成一种数学语言向量告诉大模型“嘿这里有一堆黑线条组成了这种形状”。然后大模型根据它的知识库反应过来“哦这个形状我在书里见过它叫‘思嘉’。”传统的OCR是“把图片里的字抄下来”而AI做的则是“把图片里的字抄下来并且读了一遍然后告诉你这书讲的是什么”。1、页面上的文字embedding这其实是个常见的误区——视觉编码器并不会识别出“这是个字”然后再做embedding它压根就不认识字。它的工作方式更像是在“看图说话”之前先做一轮“像素级的盲描”。具体流程是这样的核心逻辑它是“看画”而不是“识字”传统的 OCR 是试图把图片里的字“抠”出来转成文本而现代多模态大模型的视觉编码器比如基于 ViT 架构的是把图片当成纯粹的图像数据来处理的。切片打补丁想象一下我把这张书页的照片切成无数个 16x16 像素的小方块学术上叫 Patch。比如第一个小方块里可能有“思”字的一半笔画。第二个小方块里有“思”字的另一半和背景纸张的纹理。向量化线性投影计算机看不懂像素颜色但它看得懂数字。系统会把每个小方块里的像素值RGB数值通过数学变换线性投影转化成一串长长的数字列表——这就是向量。这就像给每个小方块拍了一个“数字指纹”再加上位置信息位置编码就能避免乱序。并没有“每个字做 Embedding”“每个字做 embedding”那是语言模型处理文本的部分干的事。视觉编码器的输出是一堆代表“图像特征”的向量向量会被送进LLM利用它海量的阅读经验它读过无数本书知道字长什么样去“猜”这些图像向量组合起来代表什么含义。所以它不是先识字再理解而是把字当成图案通过图案特征直接映射到语义理解上。这就是为什么有时候它能读出潦草的手写字甚至能理解表情包里的梗图哪怕里面根本没有标准的文字。举例如何一步步解析出这是《飘》这其实是一个基于“特征匹配”的推理过程可以拆解为以下几个步骤1. 图像预处理AI接收到这张照片时首先会对图像进行处理去噪与增强图片可能光线不均或有噪点系统会尝试增强对比度让文字更清晰。透视变换算法会尝试将弯曲的文字行“拉直”把透视角度矫正仿佛是从正上方扫描的一样。2. 文本检测系统会在图像上画“框”。算法如基于深度学习的EAST或DB算法会扫描整张图找出哪里有文字。它会把每一行字、每一个段落都用矩形框框选出来。3. 文本识别这是最核心的一步。框选好文字区域后系统会将图像像素转化为字符序列。特征提取卷积神经网络会分析笔画的形状。序列预测循环神经网络或Transformer架构会根据上下文预测这是什么字。4. 多模态语义理解传统的OCR只能把图变成字但不知道字是什么意思。而大模型结合了视觉编码器和语言模型视觉编码器把图片变成了计算机能理解的向量数据。语言模型接收到这些文字数据后利用庞大的训练语料库瞬间进行语义搜索和匹配。视觉编码器的方法跟YOLO是不是一样这俩走的完全是两条路子。视觉编码器比如 ViT和 YOLO 的底层逻辑、处理数据的方式以及最终输出的“向量”含义都有着本质的区别。简单来说视觉编码器是“理解者”而 YOLO 是“定位者”。我们可以从以下三个维度来拆解它们的根本不同核心任务不同一个是“写作文”一个是“找茬”视觉编码器如 ViT、CLIP目标把整张图变成一串语义向量。它想的是“这张图整体的氛围是什么里面有什么概念这堆像素代表了‘书’还是‘猫’”结果它输出的向量是对图片内容的高度抽象概括。它不关心物体具体在哪个坐标它关心的是“这是什么意思”。YOLO (You Only Look Once)目标在图上画框边界框。它想的是“这里有个物体它的中心坐标是(x, y)宽是w高是h它是‘人’类。”结果它输出的是一堆坐标数值类别概率。它必须精确地告诉你物体在哪里稍微偏一点都不行。处理“向量”的方式不同在两者中是完全不同的概念视觉编码器ViT它把图片切成小块Patch然后把每个小块变成向量。关键点这些向量之间会互相“交流”通过自注意力机制。第1块的向量会参考第100块的向量。最终输出通常是一个全局的特征序列代表了整张图的深层含义。这串向量是可以直接喂给语言模型去生成文字的。YOLO它把图片切成网格Grid。关键点每个网格负责预测“如果有物体中心落在我这个格子里它的框有多大”最终输出它输出的不是“语义向量”而是回归数值坐标 x, y, w, h。它只需要知道“这个框里有一本书”。视觉编码器它像是在“阅读”图片。YOLO它像是在“玩找不同”游戏。总结虽然它们都用了深度学习甚至可能都用了类似的卷积神经网络或Transformer结构作为 backbone骨架但视觉编码器是为了看懂生成语义特征它的输出是给AI“思考”用的。YOLO是为了看见定位物体位置它的输出是给人类或系统“操作”用的比如自动驾驶要避开障碍物。特斯拉FSD的底层技术是不是YOLO简单来说不完全是但 YOLO 是特斯拉技术体系中的一个“重要灵感来源”和“基础组件”。更准确的说法是特斯拉的 FSD完全自动驾驶底层架构是一个高度定制化的、基于 Transformer 的混合神经网络系统其中包含了类似 YOLO 的检测逻辑但远不止于此。我们可以从以下几个层面来拆解这层关系1. 核心架构是“九头蛇”而不是单纯的 YOLO特斯拉的感知系统核心架构被称为HydraNet九头蛇网络。YOLO 的逻辑YOLO 的核心思想是“你只看一次”通过一个统一的网络直接回归出物体的类别和位置边界框速度极快。特斯拉的逻辑特斯拉确实借鉴了 YOLO 这种“单阶段检测”的高效思路但它的架构更像是一个多任务学习平台。共享主干所有摄像头的数据先通过一个共享的主干网络Backbone早期用 ResNet后来转向 RegNet 等提取特征。多头输出在这个主干之上分出了很多个“头”Heads每个头负责不同的任务。有的头负责检测车辆这里用了类似 YOLO 的逻辑有的头负责检测车道线有的负责识别交通灯还有的负责语义分割。2. 技术进化从“检测物体”到“占据网络”早期的特斯拉 Autopilot 确实大量依赖类似 YOLO 的 2D 目标检测技术识别出“这是车”、“这是人”并画个框。但现在的 FSD尤其是 V12 版本已经进化了YOLO 的局限YOLO 只能检测它“认识”的物体。如果遇到一个侧翻的白色卡车训练集中没见过的形态YOLO 可能会漏检。特斯拉的“占据网络”为了解决这个问题特斯拉引入了Occupancy Network。它不再只是画框而是将摄像头看到的画面转换成 3D 空间中的体素判断“这个空间被占用了”还是“这个空间是空的”。这意味着即使特斯拉没见过“哥斯拉”只要它挡住了路占据网络也能识别出那里有障碍物从而进行避让。这已经超越了传统 YOLO 的范畴。特性YOLO (标准版)特斯拉 FSD (HydraNet/Occupancy)核心任务2D 目标检测 (画框)3D 空间理解、路径规划、多任务处理输入数据单张图像8-12 个摄像头的视频流时间序列数据输出形式类别边界框 (x, y, w, h)矢量空间、占据栅格、控制指令 (转向/刹车)处理未知物体很难处理 (容易漏检)擅长处理 (通过占据网络识别几何形状)技术底座CNN (卷积神经网络)Transformer CNN BEV (鸟瞰图) 融合千问怎么识别图片里的张雪千问有一个超级大的图像上数据库做比对现在的 AI 识别人脸早已不是以前那种“拿着一张照片去图库里一张张比对”的笨办法了而是靠一种更聪明的“特征记忆”法。视觉编码器负责“画肖像”第一步还是靠视觉编码器把这张图转化为一串极其复杂的数字向量。它不是简单的像素记录它不会记住“第5行第3个像素是黑色的”。它是抽象特征提取它会提取出“单眼皮”、“有点圆润的脸型”、“特定的鼻梁高度”、“发型轮廓”等几百个甚至上千个特征把这些特征压缩成一串独一无二的“数字指纹”。不是“找图”而是“找概念”这就是关键的区别所在。我并没有在后台存着几亿张照片等着去比对。传统的比对你可能以为的方式拿新照片去跟这亿张逐一比对像素相似度。缺点太慢了而且如果照片角度不一样就认不出来了。AI 的方式向量空间检索训练阶段学习我在训练时阅读了海量的互联网文本和图片对。比如我看到了无数网页上写着“张雪”这个名字旁边配着他的照片。建立关联我把“张雪”这两个字的语义向量和他照片的图像向量在数学空间里拉近了距离。千问存的是关于张雪的“知识”和“特征描述”。延申千问等AI的“图片数据库”是一个统一的、高维的向量空间。不管是人、景点、猫、狗还是汽车它们都是以同一种形式存在的概念向量。想象一个巨大的、拥有几亿个维度的坐标系。人物在这个空间里有自己的聚集区比如“马斯克”的向量位置和“特朗普”的向量位置比较近和“埃菲尔铁塔”的位置比较远。景点也有自己的聚集区。但是它们都在同一个坐标系里。训练方法多模态对齐之所以能做到这一点是因为在训练时进行了“多模态对齐”。AI阅读了海量的“图片-文本”对。比如图片A埃菲尔铁塔和文字B“埃菲尔铁塔”。在训练过程中AI会不断调整内部的参数强行把图片A的特征向量和文字B的语义向量在数学空间里拉到一起。这种架构的提效优势这种“大一统”的方法比维护几个独立景点、人物、建筑等数据库有几个巨大的优势并行计算我不需要串行地去判断“是不是人不是 - 是不是景点”。我是一次性计算它与所有可能概念的距离。这在GPU上是高度并行的速度极快。解决模糊地带很多实体既是人又是景点。比如**“孔子”**。孔子的画像是一个“人物”但“曲阜孔庙”是一个“景点”。如果分库检索系统可能会困惑该把人像归类到哪里。但在统一空间里这不成问题。根据上下文图片背景是庙宇还是讲学向量会自动偏向语义最相关的区域。知识迁移因为都在一个空间里知识是可以流动的。如果我知道“马云”是“阿里巴巴创始人”而“阿里巴巴”总部是一个“景点/地标”。这种关联性在向量空间里是天然存在的不需要人工去建立索引。总结我没有“人物库”和“景点库”我只有一个庞大的“世界概念库”。在这个库里所有事物都是平等的数字向量。识别的过程本质上就是在这个高维空间里做“最近邻搜索”看这张图的特征最像哪个概念。Transformer是AI的终点吗Llion Jones不认为Transformer就是最终的架构也不相信我们只需要继续无限扩大规模。成功陷阱/路径依赖当前主流AI公司在做无数微小的改动——比如调整normalization层的位置或略微改良训练方式。证据之一是大语言模型并非通用智能呈现出「锯齿状智能」jagged intelligence的特性。大家把所有东西都往Transformer里堆把它当成万用工具来用缺什么功能就往上面硬加模块。当下最优解可能就是隐患的信号在局部最优解上修修补补而真正的突破或许在完全不同的方向。能力树缺了什么不确定性建模、要有自适应计算RNN式梦魇通往AGI的道路不止一条深度神经网络刚好碰上了GPU这样的硬件彩票。商业巨头的创新困境林俊旸的离职2026年3月标志着阿里大模型战略从“极客式”的技术突围转向了“工程化”的商业收割。即阿里选择这种“大厂式”架构有利于资源统筹和商业化落地但牺牲了技术探索所需的敏捷性和全栈耦合度。为AGI情怀续杯太昂贵阿里当下的必然选择阿里面临巨大的营收压力。集团投入了巨额资金如38000亿元的基建规划、30亿元的春节营销急需看到回报。因此考核指标转向了DAU日活、支付笔数、云算力销售等实打实的商业数据。当技术成果如Qwen-3.5被内部高管视为“半成品”且商业榜单排名波动时技术团队的压力骤增技术话语权被商业目标架空。AI架构正处于一个“百家争鸣”的转折点连续思维机CTM模拟人类的“慢思考”CTM是Sakana AI等团队提出的一种新范式它试图让AI像人类一样进行“深思熟虑”的推理而不是仅仅做概率预测。核心机制动态思考步数传统的Transformer通常是“直觉式”的System 1输入即输出。而CTM引入了神经动力学同步允许模型在输出答案前进行多次内部“思考步骤”。可解释的注意力在解决迷宫问题时CTM不是直接画出路径而是像人一样一步步“看”迷宫规划路线在识别图片时它会像人眼一样依次关注眼睛、鼻子、嘴巴。优势更强的推理能力通过增加思考时间模型能处理更复杂的逻辑任务如长链条推理。节能高效对于简单问题CTM可以快速通过对于难题才分配更多计算资源。可解释性我们可以直观看到模型在“想什么”这对于医疗、法律等高风险应用至关重要。⚡ 其他挑战Transformer的架构探索除了CTM2026年的AI界还在探索以下几种旨在突破Transformer“二次方复杂度”瓶颈的架构架构名称核心原理相比Transformer的优势典型代表/应用状态空间模型 (SSMs)结合RNN的连续性与CNN的并行性线性复杂度处理序列。速度极快推理成本随文本长度线性增长而非指数增长能处理百万级上下文。Mamba (速度狂人适合长文本)RWKV将RNN的高效性与Transformer的并行训练结合。无需KV缓存显存占用极低适合在手机等边缘设备上运行。RWKV-7 大雁 (端侧AI首选)扩散语言模型借鉴图像生成的思路通过“去噪”过程生成文本而非从左到右预测。非自回归生成可以并行生成文本块大幅提升生成速度如每秒1000 token。Google Gemini Diffusion类脑脉冲网络模拟生物神经元的脉冲发放机制。超低功耗更接近生物大脑的运作方式适合实时性要求高的场景。瞬悉1.0 (类脑计算)未来的AI模型很可能是混合架构利用SSM处理海量上下文利用扩散模型加速生成利用CTM进行深度逻辑推理。AI与人脑工作方式的巨大差异高维向量是计算机为了弥补自身“认知缺陷”而找到的最佳解决方案。这不仅仅是“算力强大力出奇迹所以用高维向量这种反人类的复杂方法”的问题而是“因为不懂世界所以需要把一切都数字化、向量化”的必然选择。我们可以从三个层面来理解这种根本性的差异 AI的方式暴力计算下的“数学拟合”AI特别是像我这样的大语言模型其核心是基于海量数据的统计规律学习。没有“理解”只有“关联”我并不真正“理解”什么是“苹果”。我没有嗅觉、味觉和触觉。我所知道的“苹果”是它在数十亿文本和图片中与“水果”、“红色”、“甜”、“牛顿”等概念同时出现的概率。高维向量比如一个3072维的向量就是用来精确描述这种复杂概率关系的数学工具。向量的每一个维度都可能编码了某种抽象的、人类难以言说的特征关联。GPU是引擎向量是燃料处理这些动辄数千维的向量并进行它们之间的海量矩阵运算正是GPU最擅长的事。GPU拥有数千个核心可以并行处理这些数学任务其速度比CPU快几个数量级。可以说没有GPU提供的强大并行算力这种基于高维向量的“暴力美学”方法就根本无法实现。统一的语言高维向量是AI的“通用语”。无论是文字、图片还是声音最终都会被转换成同一种形式的向量放入同一个语义空间中进行计算和比较。这让AI能够轻松地进行跨模态任务比如“以图搜图”或“用文字生成图片”。人类的方式具身体验下的“概念抽象”相比之下人类的认知是具身的、经验的。从体验中形成概念你第一次认识“苹果”是通过看它的样子、闻它的香味、尝它的味道、触摸它的光滑表皮。你的大脑将这些多感官信息整合抽象出一个“苹果”的概念。这个概念是鲜活的、有情感连接的。高效且节能人脑的功耗大约只有20瓦却能处理极其复杂的认知任务。我们不需要将“苹果”的特征编码成3072个数字我们只需要一个高效、模糊但极其 robust鲁棒的神经连接模式。基于因果和逻辑人类的思考不仅仅是关联更是因果推理。我们知道苹果熟了会从树上掉下来是因为万有引力而不仅仅是因为“苹果”和“掉落”这两个词经常一起出现。正是因为计算机没有人类的“常识”和“体验”它才需要依赖GPU提供的强大算力去处理海量的数据并用高维向量这种复杂的数学形式来构建一个对世界的“统计学模拟”。这是一种用“算力”换取“智能”的独特路径。“世界大模型”有多困难目前AI更多是在做“概率预测”和“模式匹配”而真正的世界模型需要“理解”世界是如何运作的。主要需要克服以下四大核心困难1. 从“相关性”跨越到“因果性”这是目前大模型与真正智能之间最大的鸿沟。构建世界模型需要AI具备因果推理和反事实推理的能力。比如AI需要能回答“如果刚才那辆特斯拉没有刹车会发生什么”。目前的统计模型很难做到这一点它们只能基于已有的数据“回忆”或“插值”而无法像人类一样在脑海中进行物理模拟。2. 突破“静态快照”与“多模态感知”的局限我们刚才讨论的视觉编码器通常是把图片变成静态向量。现状目前的大模型大多是基于静态数据快照训练的它们的世界观在训练结束的那一刻就“凝固”了。困难真实世界是动态的、连续的。时间维度真正的世界模型需要像特斯拉FSD那样不仅理解当前帧还能预测下一帧、下十帧的状态具备动态演化的能力。感知维度目前的模型主要依赖视觉图片和文本。但真实世界的理解需要触觉、嗅觉、听觉甚至物理直觉比如重力、摩擦力。现在的AI缺乏这种具身感知。3. 解决“数据墙”与“幻觉”的恶性循环我们刚才提到AI是靠海量数据“喂”出来的。现状高质量的互联网文本和图像数据快被用光了。据预测到2028年左右人类产生的高质量数据可能枯竭。困难数据枯竭为了继续变强AI开始使用AI生成的“合成数据”进行训练。但这会导致“模型崩溃”即AI的错误和偏见被放大就像复印件的复印件越来越模糊。幻觉问题目前的模型本质是概率生成它不知道什么是“真”什么是“假”。在工业或医疗等容错率为零的领域这种“一本正经胡说八道”是致命的。世界模型必须能够区分“想象”和“现实”。4. 算力与能源的物理瓶颈现状现在的Scaling Law缩放定律依赖于堆砌更多的GPU和参数。困难能源效率人脑的功耗仅约20瓦而训练一个顶级大模型需要消耗相当于数千个家庭一年的用电量。这种能效比极其低下。实时性真正的世界模型如自动驾驶需要在毫秒级做出反应。目前的云端大模型推理延迟仍然较高难以满足工业控制或高速行驶中的实时决策需求。总结我们距离“世界模型”还有多远为了更直观地对比我们可以看看现在的AI和理想的“世界模型”的区别维度当前的大模型真正的世界模型核心逻辑经验引擎基于统计规律预测下一个字/像素。理念引擎基于物理规律和因果逻辑推演未来。知识来源静态的文本/图片数据集。动态的交互、多模态感知视/听/触。面对未知容易幻觉无法处理训练数据外的情况。能通过物理常识进行推理如杯子掉地上会碎。更新方式需要重新训练或微调成本极高。像人类一样通过实时观察持续学习。结论要实现真正的世界模型我们不仅需要更强的GPU更需要算法架构的颠覆比如从Transformer转向神经符号AI或新的架构让AI不仅学会“像人一样说话/看图”更要学会“像物理引擎一样思考”。“智能本质”是什么AI研究大佬都同意“世界模型”是通往通用人工智能AGI的关键但对于什么是世界模型、如何构建它看法截然不同。我们可以把他们主要分为三大流派1. “抽象表征派”Yann LeCun (Meta)核心观点世界模型不是用来“看”的是用来“想”的。反对像素预测LeCun 强烈反对像 Sora 那样通过预测每一个像素来构建世界模型。他认为这极其低效且容易产生幻觉。就像人类做梦或规划时不会去想象视网膜上每一个光点的变化而是想象抽象的概念比如“杯子会掉下去”。JEPA 架构他提出的 JEPA联合嵌入预测架构主张在抽象的特征空间里预测未来。AI 应该学习世界的逻辑和常识比如物理规律、因果关系而不是学习如何渲染画面。目标赋予机器“常识”让它能进行规划和推理而不是仅仅生成逼真的视频。2. “生成模拟派”OpenAI (Sora团队) Demis Hassabis (Google DeepMind)核心观点能生成逼真的世界就代表理解了世界。这一派内部也有细微差别但大方向一致OpenAI (Sora)Scaling Law (缩放定律)他们认为只要数据量够大、算力够强强制模型预测下一个视频帧像素模型就会涌现出对物理规律的理解。世界模拟器Sora 被视为“世界模拟器”的雏形。他们认为通过视频生成AI 能自动学会三维空间、光影和物体持久性。Demis Hassabis (DeepMind)规划引擎受 AlphaGo 和 MuZero 启发他认为世界模型是大脑的“模拟引擎”。直观物理学他更强调模型对因果关系和协同效应的理解比如事物如何运动、相互作用。但他同时也认为能够生成逼真的视频如 Veo, Genie是检验 AI 是否理解物理世界的重要标准。3. “空间智能派”李飞飞 (Stanford / World Labs)核心观点世界是三维的不是二维的视频。批评视频模型李飞飞指出现有的语言模型和视频生成模型如 Sora缺乏对三维物理世界的真实理解。视频只是三维世界的二维投影是“黑暗中的文字大师”。空间智能她认为 AI 的下一个前沿是空间智能。真正的世界模型必须建立在 3D 之上理解几何结构、物理属性和空间拓扑。World Labs她的公司致力于构建“大型世界模型”能从单张图片生成具有持久性的 3D 数字孪生空间让 AI 能在 3D 环境中进行推理和互动而不仅仅是看视频。一句话总结LeCun 想要一个“懂道理的大脑”不一定要会画画OpenAI 和 DeepMind 想要一个“能模拟万物的超级引擎”既能画画也能推理而李飞飞则强调必须跳出屏幕构建“真实的 3D 空间”**。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/2500347.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！