多语言AI图像生成器NeoBabel开源发布
虽然文本到图像的生成技术正在迅速发展但这些AI模型大多以英语为中心。这加剧了非英语使用者的数字不平等。阿姆斯特丹大学理学院的研究人员创建了NeoBabel一个能够支持六种不同语言的AI图像生成器。通过将其研究的所有要素开源任何人都可以在该模型的基础上进行构建并帮助推动包容性AI研究。当你使用AI生成图像时如果你的提示词是英语结果通常更好。这是因为许多AI模型的核心是英语如果你使用另一种语言你的提示词会在图像创建前被翻译成英语。然而世界上大多数人并非以英语为母语这使他们处于不利地位。与此同时文本到文本的生成器可以流利地使用超过200种语言。这就是为什么阿姆斯特丹大学信息学研究所的研究人员与一家专门从事文本生成的公司Cohere实验室展开合作。研究团队将图像生成系统集成到这些文本生成器中创建了一个先进的多语言图像生成器。该图像生成器名为NeoBabel目前支持六种语言英语、法语、荷兰语、中文、印地语和波斯语。完全开源大多数图像生成模型由几家美国大公司构建这些公司很少透露其模型的全部细节。Cees Snoek计算机科学正教授及NeoBabel研究团队成员表示“通常大部分工作都是闭源的因此我们无法确切了解模型的工作原理。我们不知道数据中是否存在偏见系统是如何创建的以及如何改进。这有悖于我们的学术原则。”相比之下在发表关于NeoBabel的论文的同时研究团队公开了他们的所有代码和数据。论文第一作者、博士生Mohammad Derakhshani说“就个人而言我想构建一个用于科学探索的工具为此你需要完整的研究流程。我们公开了整个流程这样任何对该领域感兴趣的人都能获得所需的所有信息。”一张桌子和一只熊NeoBabel在英语上的表现与图像模型相当但在其他五种语言上轻松超越它们。竞争模型首先将提示词翻译成英语而NeoBabel则直接从多种语言生成图像。Snoek解释道“翻译会丢失语言和文化的细微差别因为许多词语在英语中没有好的对应词。”下面展示了一个此类误译的例子其中提示词要求生成一张桌子和一只熊的图像。提示词用荷兰语要求生成一张桌子和一只熊的图像。在荷兰语中熊是“beer”这使大多数图像生成器感到困惑。研究人员还改进了用于训练AI模型的数据标签。他们使用多语言语言模型将图像标签翻译成多种语言并使这些标签更具描述性。Snoek说“这使我们能够同时用所有这些语言训练我们的模型。对于每种语言它都学习单词和像素之间的联系。”通过改进数据AI模型也比其他竞争模型更小——用技术术语来说它的参数更少。此外研究人员将公开可用的图像-标签对数据集从4000万扩展到了1.24亿。Derakhshani说“这个数据量通常不公开。尽管我们计算能力有限我们还是大规模扩展了数据集。”迈向视频NeoBabel开辟了广泛的应用前景包括一个多语言创意画布。在这个数字画布上多个用户可以“绘制”同一幅图像各自使用自己的语言。Derakhshani解释说“如果我只说波斯语而你只说荷兰语我们可以共同创作一幅图像而无需使用英语。你可能会用荷兰语生成第一个版本然后我可以标记一个区域并用波斯语描述修改内容。模型会根据描述相应地调整图像。”据Snoek称NeoBabel的下一步是生成具有文化特定性的图像。然而这需要特定文化的数据以及更强的计算能力。“如果拥有更强大的计算基础设施我们可以完成更多工作”Snoek说。“这些AI模型不一定非得来自大型工业实验室。创造力就在这里但我们缺乏展示它的资源。”因此研究人员正在寻求合作伙伴。从长远来看他们希望将NeoBabel扩展到视频创作领域。Snoek说“我的梦想是它也能生成视频。希尔弗瑟姆有一个大型电视档案馆‘Beeld en Geluid’。如果能与他们合作生成荷兰文化视频那就太棒了。”了解更多NeoBabel GitHub页面论文《NeoBabel用于视觉生成的多语言开放塔楼》作者Mohammad Mahdi Derakhshani、Dheeraj Varghese、Marzieh Fadaee、Cees G. M. SnoekFINISHED更多精彩内容 请关注我的个人公众号 公众号办公AI智能小助手或者 我的个人博客 https://blog.qife122.com/对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号网络安全技术点滴分享
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2442054.html
如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!