机器翻译大揭秘:电脑是如何学会“说人话”的?
想获取更多技术干货欢迎关注我的微信公众号【小布的学习手记】第一时间获取最新文章和学习资源版权声明本文同步发布于个人博客。欢迎交流与转载但请务必注明出处。你是否想过当你按下翻译键的那一瞬间电脑内部到底发生了什么为什么它能把一句地道的中文变成流畅的英文哪怕这两种语言的语法结构天差地别今天我们就抛开那些晦涩的术语用大白话聊聊机器翻译Machine Translation到底是怎么一回事。第一步给电脑“备菜”——数据预处理想象一下你要教一个完全不懂中文的外国小朋友学英语。你不能直接扔给他一本《新华字典》你得先给他准备专门的教材。电脑就是这个“外国小朋友”而“教材”就是我们的数据。但原始的数据比如网页、书籍通常很乱电脑看不懂所以我们需要先进行“备菜”洗菜清洗数据原始文本里有很多乱七八糟的符号、大写小写混杂。我们要把它们统一变成小写去掉没用的噪点把标点符号和单词分开比如在句号前加个空格让句子变得干干净净。切菜分词电脑不能一口吞下一整句话。我们需要把句子切开变成一个个独立的单词或符号。贴标签建立词表这是最关键的一步。电脑是个“数呆子”它只认识数字不认识 “Apple”。所以我们要编一本字典给每个单词发一个“身份证号”apple → 101cat → 205未知的生僻词 → 0装盘子填充与截断电脑处理数据喜欢“整齐划一”。它一次要看一批句子比如一次看2个但如果一个句子长、一个句子短电脑就没法叠在一起处理。太长就砍截断只取前面一部分。太短就补填充后面空着的地方用一个特殊的符号比如pad填满。经过这一套流程人类原本千变万化的语言就变成了整齐划一的数字矩阵电脑终于可以“吃”了。第二步它是怎么学会“语法”的你可能会问“中文和英文语法完全不同啊比如形容词的位置电脑怎么知道怎么调整”其实电脑并不是像我们上学那样去背“主谓宾”、“定状补”这些语法书。它学习语法的方式更像是一个“耳濡目染”的小孩。靠“海量对照”悟规律我们给电脑看了成千上万本“中英对照”的故事书平行语料。它看到1000次“我吃苹果”对应 “I eat apples”。它看到1000次“他看书”对应 “He reads books”。它不需要知道这叫“第三人称单数”它只需要通过统计规律发现在这个位置大概率要给动词加个 ‘s’。神奇的“注意力机制”中文说“那个穿红衣服的人”英文却说 “The personin red”修饰语跑到了后面。电脑是怎么处理的这就不得不提现代翻译模型的核心——注意力机制。当电脑要生成英文的 “in red” 时它的“眼睛”会回过头去死死盯着中文句子里的“穿红衣服的”这几个字。它会在内部建立一个连接知道“虽然位置变了但这两个部分是一回事”。它就像一个灵活的搬运工不需要懂语法只需要知道要把这块积木搬到那个位置去。靠“试错”不断修正在刚开始训练时电脑也是乱翻的比如把 “I love you” 翻成 “I you love”。但是系统会立刻拿它的翻译结果去和标准的“参考答案”做对比。算损失发现错了错得离谱反向传播系统会调整内部几亿个参数就像调节收音机的旋钮告诉模型“下次别把 ‘love’ 放最后放中间”经过亿万次的“挨打立正”它就学会了符合英文习惯的语序。总结机器翻译并不是什么魔法。它不需要学习“英语语法课”它学习的是**“概率”和“位置关系”**。这就好比你即使不懂乐理但如果你听了一万遍《小星星》你也能哼出调子来。电脑就是通过看海量的“中英对照”硬生生把两种语言之间复杂的“变形规则”给背了下来并总结成了一套数学公式。下一次当你使用翻译软件时不妨想一想在那一瞬间有无数个数字正在为你搭建沟通的桥梁。
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2489334.html
如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!