对话式AI与信息抽取技术探索

news2026/4/6 21:30:08

“帮助人们可靠地获取信息……这是我的动力”某机构学者Heng Ji领导UIUC的Blender实验室她的使命是将真正有价值的信息与噪声区分开来。作者Sean O’Neill2023年8月2日阅读时长6分钟曾经我们可以自信地抓住周围的信息线索将它们编织成有用的知识因为质量较高的线索往往更突出。如今当我们被信息海啸裹挟时很难知道该获取什么、该信任哪些信息。某机构学者Heng Ji伊利诺伊大学厄巴纳-香槟分校UIUC的计算机科学教授毕生致力于帮助我们区分信号与噪声。某机构学者Heng Ji领导Blender实验室致力于构建一个未来计算机能够辨别精确、简洁且可靠的知识。“这是一个挑战但如果我们不解决它这将成为一个严重的社会问题”Ji说她也是某机构-UIUC交互式对话体验人工智能中心AICE的主任。“帮助人们可靠地获取信息以便他们做出正确的选择这是我的动力。”为此Ji领导UIUC的Blender实验室致力于构建一个信息可及的未来计算机能够从信息海啸中辨别出精确、简洁、可靠的知识。不仅如此她表示我们还将能够通过自然语言与计算机对话来获取这些可靠知识。“我们想知道谁对谁做了什么、在哪里、何时实体、事件和行动主张与反主张它们之间的相互联系然后理解这一切”Ji说。Ji应对这一挑战的关键方法是自然语言处理NLP以及她在信息抽取IE方面的开创性工作。态势报告信息抽取的根源可以追溯到信息理解会议MUC这是美国国防高级研究计划局在20世纪80年代末启动的一系列活动。该计划由Ralph Grishman共同领导他后来成为Ji的博士导师。如今Ji正将信息抽取带回其本源她的团队在三月份展示了一项名为SmartBook的技术该项目得到了美国国防高级研究计划局DARPA和美国国家科学基金会的支持。在灾难时期如全球大流行病或持续冲突中如俄罗斯入侵乌克兰良好的决策需要收集关于地面现实的全面情报。在冲突中这种情报被称为态势报告sitreps。分析师和人道主义工作者必须每天收集并消化大量最新文件然后将其与广泛的本地和文化知识以及灾难的更广泛动态相结合。只有这样分析师才能创建有用的态势报告供军事领导人或政治家用于制定战略决策。这是一个难以自动化的过程。2022年Ji遇到了非营利组织Data Friendly Space该组织每两周制作一次乌克兰危机的态势分析报告。“我想通过自动化他们的态势报告初稿来帮助这个团队这样他们就可以把时间花在自己真正擅长的事情上——利用他们的专业知识来完善该初稿添加具有战略重要性的信息并提出建议。”Ji和她的合作者由美国陆军研究实验室的Clare Voss领导提出的方案是SmartBook框架。以乌克兰危机为案例研究SmartBook消化来自互联网的大量新闻数据自动提取包括事件、地点、人物、武器和军事行动在内的信息并将所有这些整合起来生成态势报告。这些报告以时间线结构呈现将重大事件作为章节相关的战略问题作为章节标题并在相应摘要下附上信息来源链接。一切都是自动化的。图1SmartBook中关于俄乌冲突态势报告的嵌套信息示例。跟随粉色部分查看一个为期两周的时间线如何被分章节为一系列关键事件每个事件又分支为与战略问题相关的章节标题。每个战略问题又链接到相关的主张每个主张都有事实证据和相关的知识元素实体和事件支持。虽然SmartBook使用大语言模型LLMs根据从新闻来源提取的主张生成摘要图1右下角但它只是SmartBook框架中的众多组件之一。例如仅靠ChatGPT无法生成结构化的态势报告尤其是因为它没有基于最新信息进行训练。而且大语言模型容易产生幻觉生成的信息或“答案”不基于源新闻数据导致输出可能不准确、误导或完全虚构。当一位专家分析师被要求编辑SmartBook生成的态势报告时他们在文档中添加了更多细节但只删除了约2%的内容。“这表明SmartBook可以作为分析师扩展生成态势报告的良好起点”Ji说。这个早期版本的SmartBook依赖于英文新闻报道但Ji的团队目前正在增加信息源和语言的多样性以生成更全面的图景。药物发现Ji的另一个热情是将她的技能应用于支持药物发现。Ji设想了一个未来医生可以写几个句子描述治疗特定患者的定制药物然后收到具有所需特性的药物精确结构进而可以按需测试和合成。目前单一新药的开发可能需要十多年时间成本超过十亿美元。Ji和她的团队开发了一种新颖的学习框架能够联合表示分子和语言并实现两者之间的转换。“我接受的是计算语言学家的训练所以我倾向于将一切视为外语包括分子、图像或视频”她说。该框架名为MolT5——一个自监督学习框架用于在大量未标记的自然语言文本和分子字符串表示分子结构的符号系统上预训练模型。给定一个分子字符串Ji和她的团队报告称MolT5将提供包含该分子药物、原子和化学特性的文本描述。反过来向MolT5提供所需分子特性的描述它将生成最符合该描述的分子字符串。其思路是MolT5或其后续版本将允许化学家利用人工智能技术通过自然语言描述发现新药物。人机交互今年三月Ji通过成为AICE的创始主任加强了某机构与UIUC之间的关系。AICE旨在开发新的对话式人工智能系统这些系统能够自动学习、推理、更新自身知识并以更多模态进行交互。“如果你的数字助手也能阅读你喜欢的书籍、观看你喜欢的电影它们就能与你进行更有知识、更丰富、更有趣的对话”Ji说。“这将使与它们的互动更加自然——更加人性化。”AICE的另一个重点是提高对话式人工智能系统的真实性、公平性和透明度。现代信息海啸真的能被驯服吗“创造力和真实性之间有一个权衡”Ji说“但我相信我们可以设计新颖的算法来实现这两个目标。”对话式人工智能热潮Ji的整个职业生涯都在从事自然语言处理工作对于正在考虑将其作为研究领域的学生特别是考虑到大语言模型的繁荣她会告诉他们什么“首先保持乐观这个大语言模型浪潮令人兴奋尽管它给很多学生带来了冲击尤其是那些已经处于论文中期阶段的学生”Ji说。“虽然大语言模型似乎关闭了一些研究途径但它们开辟了重要的新途径例如结构化预测、跨文档推理、大语言模型的理论理解、事实错误纠正等等。”Ji还提到中国谚语“树挪死人挪活”并建议将学术和行业研究相结合。自三月份以来Ji本人作为某机构学者与Alexa组织合作。“我选择了某机构因为它提供了解决实际问题的机会”她说。例如Ji正在与某机构的大语言模型团队合作开发系统以减少和防止幻觉。“通过某机构我希望我所贡献的想法能成为下一代人工智能系统的一部分让众多客户感受到其益处。这是一种与学术界截然不同的衡量成功的方式令人耳目一新。”研究领域对话式人工智能标签自然语言处理、大语言模型、学术合作、伊利诺伊大学厄巴纳-香槟分校FINISHED更多精彩内容请关注我的个人公众号公众号办公AI智能小助手或者我的个人博客 https://blog.qife122.com/对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号网络安全技术点滴分享

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/2486354.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！