人工模仿智能在专业领域中的挣扎

news2026/5/21 23:51:08

原文towardsdatascience.com/the-struggle-of-artificially-imitated-intelligence-in-specialist-domains-6e63a4e0ebfc?sourcecollection_archive---------4-----------------------#2024-05-08为什么通向真正智能的道路要经过本体论和知识图谱https://medium.com/konstantin.vasilev.phd?sourcepost_page---byline--6e63a4e0ebfc--------------------------------https://towardsdatascience.com/?sourcepost_page---byline--6e63a4e0ebfc-------------------------------- Konstantin Vasilev·发布于 Towards Data Science ·阅读时间 15 分钟·2024 年 5 月 8 日–关注我的人可能还记得一年前我以“脾气暴躁的风险经理”这一化名发过一篇类似的 AI rant 。现在我回来了比以前更加暴躁带来了具体的例子但也有解决方案的想法https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/e7f6e3d27957d8ee3f07ad6a49f780f1.png来源作者拼贴介绍大型语言模型LLMs如 ChatGPT在用自然语言讨论一般话题方面展现出令人印象深刻的能力。然而它们在医学、金融和法律等专业领域中表现得非常吃力。这是因为缺乏真正的理解更多侧重于模仿而非智力。大型语言模型LLMs正处于 hype炒作的巅峰。由于它们能够用自然语言回答和讨论泛泛的话题因此被认为是“智能”的。然而一旦你深入到医学、金融、法律等专业/复杂领域就容易发现逻辑不一致、明显错误以及所谓的“幻觉”。简而言之大型语言模型表现得就像一个拥有非常丰富词汇的学生试图假装他们已经为考试做了准备并知道所有的答案但实际上他们并不懂他们只是因为手头有大量的信息而假装聪明但他们使用这些信息进行推理的能力非常有限。我甚至愿意进一步说所谓的人工智能AI实际上常常是人工模仿智能AII。在像医学或金融这样专业的领域尤其如此因为在这些领域中的错误可能会导致人类伤害和财务损失。让我举一个我过去 10 年所从事的领域——金融风险的真实例子。它被认为是“专业”的一个有力证据是必须提供大量背景信息以便普通人理解这个话题银行必须遵守监管资本要求。资本可以看作是一个吸收财务损失的缓冲区。资本持有要求确保银行有足够的能力吸收损失从而降低破产和金融危机的可能性。第一部分设定要求的规则是基于风险比例原则→银行承担的业务越风险越大→更高的风险权重→更高的资本要求→更大的损失缓冲区→稳定的银行第四部分中风险程度通常以银行与其合作的公司信用评级的形式进行衡量。信用评级来自不同的评级机构并且格式各异。为了标准化评级监管机构已经制定了从每种评级格式到标准化信用质量步骤CQS的映射规则范围从 1 到 6。那么第四部分中确定风险权重的监管规则是基于 CQS 的。第八部分中针对欧洲银行的规则设定在资本要求监管条例CRR中。上面 9 个陈述中的话题看起来很复杂确实是如此存在许多附加的复杂情况和案例但我故意避开了这些因为它们甚至不必要用来说明 AII 与这些话题的斗争。此外复杂性并不是来自单个的 9 条规则本身而是来自它们的组合许多概念的定义是基于其他几个概念从而产生了一个语义网络/图谱连接着这些概念和规则。现在让我们只关注第四部分的核心概念和规则可以总结如下评级 → CQS → 风险权重 → 资本要求。如果我们还看一下一个例子CRR 第 122 条我们可以看到一个映射表CQS → 风险权重该表应当用于公司暴露的情况。https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/431f996bf908c5eae9e04dd8c578e027.png资本要求监管条例CRR 122这个映射规则非常简单普通人通过一点背景信息就能轻松理解。它也为许多银行专家所熟知他们中的大多数并不记住确切的规则而是仅仅知道上面 9 个陈述中的信息并知道在哪里查找以便看到确切的映射。人工模仿智能现在让我们提出一个问题看看 AII 能否处理它以下是我问 ChatGPT 3.5 的问题根据 CRR针对信用质量步骤为 5 的企业风险权重是多少这是答案在《资本要求条例》CRR中企业实体的风险暴露的风险权重取决于其信用质量步骤。在信用质量步骤的背景下信用质量步骤为 5 通常代表最高的信用质量表明违约风险非常低。在 CRR 中概述的标准化方法中企业的风险暴露根据其信用评级或信用质量步骤分配风险权重。针对企业的风险暴露的风险权重范围从 20%到 150%取决于信用质量步骤以及该暴露是短期还是长期。**由于信用质量步骤为 5 表示非常低的风险分配给这种风险暴露的风险权重将是最低之一。在这种情况下对于信用质量步骤为 5 的企业风险权重可能为 20%**或类似表示银行持有这种暴露的资本需求较低。你能找出用粗体标出的事实错误吗第一个非常大的错误是AII 完全误解并颠倒了CQS → 风险权重的关系CQS 为 5 的高信用质量并不代表低风险而恰恰相反它代表的是最高风险之一这实际上是回答这个问题时可能犯的最大错误即使在第 1 个错误之后我仍然希望 AII 能够查阅文章中的表格并得出结论当 CQS 低于 5 时风险权重为 150%。但不AII 自信地声称风险权重为 20%因为风险很低……尽管不应得但我仍然给予 AII 怀疑的余地通过询问同样的问题并明确指出具体的 CRR 条款122。厚颜无耻但自信满满AII 此时回应称风险权重应该是 100%仍然声称 CQS 为 5 的信用质量较好→另一个明显的错误。我感到自己的工作是安全的而且金融行业仍然需要我因此我开始考虑解决方案讽刺的是这些解决方案可能会在未来让我的工作变得不安全……为什么是本体论和知识图谱引入本体论本体论是某一特定领域的知识表示形式。可以通过以下方式思考本体论将不同的知识表示方法从最简单到最复杂进行排序数据字典包含字段名称和元数据属性的表格分类法通过关系的嵌套形式添加数据类型和子类型的表格例如鸽子是鸟类的一种本体论Ontology具有多种关系类型的多维分类法例如鸟类吃种子“分类法与面向对象编程的邪恶结合” (Kurt Cagle, 2017)为什么要在数据中引入如此复杂的关系结构以下是一些好处稍后将通过示例加以说明统一的表现形式结构、数据和逻辑。在上述示例中鸟类是一个类它是一个具有通用属性的模板结构。在本体论中我们还可以定义许多实际的鸟类实例并为它们赋予各自的属性数据。最后我们还可以添加逻辑例如如果一只鸟吃超过 5 粒种子则它不再饿。这实际上是通过将一些逻辑作为数据本身的一部分使数据“变得智能”从而使其成为可重用的知识。它还使信息既能被人类阅读也能被机器读取这在机器学习中尤其有用。可解释性与溯源Explainability and Lineage本体论最常见的实现方式是通过资源描述框架RDF以图形形式表现。这些图形随后可以进行查询以评估现有规则和实例或添加新的规则和实例。此外通过图形的节点和边可以追溯思维链条解释查询结果避免机器学习中的黑箱问题。推理与推断Reasoning and Inference当新增信息时语义推理器可以评估该信息对图形的影响。此外新的知识还可以通过“假如”问题从现有知识中推导出来。一致性Consistency任何冲突的规则或偏离通用类属性的实例会被推理器自动识别为错误并且不能成为图形的一部分。这非常有价值因为它强制执行特定领域内知识的一致性消除任何主观解释。互操作性与可扩展性Interoperability and Scalability可重用的知识可以专注于特定的专业领域或连接不同的领域例如金融领域的财务本体FIBO数学领域的OntoMathPRO医学领域的OGMS。此外用户还可以下载一个通用的行业本体并以实例和自定义规则的形式通过私有企业数据扩展它。本体论可以被认为是 AI 最早和最纯粹的形式之一远在大型机器学习模型成为主流之前完全基于通过结构化使数据智能化的理念。在这里AI 指的是真正的智能——本体论能够解释给定规则评估结果的原因是因为它对事物的运作方式有语义理解这一概念最早在 2000 年代初期作为语义网思想而流行代表着从链接应用的互联网Web 2.0和链接页面的互联网Web 1.0到链接数据的互联网Web 3.0的演变。知识图谱KGs是存储数据的一种更为通用的图形格式术语它不一定遵循本体论和语义原则而后者通常以 KG 的形式呈现。如今随着大型语言模型LLMs的崛起KGs 常被视为解决其在专业领域弱点的良好候选者这反过来又复兴了本体论及其 KG 表示的概念。这导致了非常有趣的范式趋同本体论旨在通过结构化数据使数据变得智能从而生成智能。LLMs 旨在通过将数据保持非结构化的同时使模型变得非常大且结构化从而生成智能ChatGPT 具有约 1750 亿个参数显然目标是相同的数据是否成为模型的一部分或者模型是否成为数据的一部分实际上只是参考框架的问题最终不可避免地导致一种信息奇点的形式。为什么要在银行业中使用本体论专业化如上所述LLMs 在金融等专业领域面临挑战。尤其在错误代价高昂的领域这一问题尤为严重。此外在专家较少的专业领域自动化所带来的附加值往往远高于通用领域的自动化例如替代银行专家与支持人员。审计追踪当财务项目在财务报表中被评估和汇总时监管机构和审计师期望能够从所有细粒度的输入和规则到最终的汇总结果之间保持持续的审计追踪。可解释性专业人士依赖于对银行运营机制的深入理解以及风险驱动因素对其投资组合和商业决策的影响。此外监管机构明确要求通过定期的“如果”演练如压力测试来获得这种理解。这也是机器学习在核心银行领域采用不佳的原因之一——即所谓的“黑箱问题”。客观性和标准化缺乏解释性和主观性确保了行业中的公平竞争和规章制度的有效性进而保障了金融稳定性。现在想象一个完美的世界其中如 CRR 这样的法规以本体论的形式提供而非自由文本。每家银行都可以导入本体标准并用自己的私有数据和投资组合特征扩展它进而评估所有的监管规则。此外单独的企业战略也可以与监管约束相结合从而实现自动化的财务规划和优化决策。最后大规模规则和数据图的复杂复合影响可以被解开以解释最终结果并提供对之前不明显关系的洞察。以下示例旨在通过最小的努力实现最大的效果来说明这些想法示例在寻找解决所示 LLM 弱点的过程中我设计了以下示例创建一个以知识图谱形式呈现的本体。定义实体的结构添加单个实例/数据以及控制它们交互的逻辑遵循 CRR 法规。使用知识图谱来评估风险权重。请 KG 解释它是如何得出这个结果的。为了创建简单的本体我使用了CogniPy库其主要优点包括使用受控自然语言CNL来编写和查询本体意味着无需了解特定的图查询语言。可视化的实体化知识图谱。具有解释结果能力的推理器。结构首先让我们从定义本体的结构开始。这类似于在面向对象编程中定义不同属性和约束的类。在第一个 CNL 语句中我们定义了公司类及其属性。Every company has-idone(some integer value)andhas-cqs one(some integer value)andhas-turnover(some double value).需要注意的几点是类名使用小写字母company。不同的关系和属性使用连字符命名法定义而数据类型则定义在括号中。渐渐地这看起来越来越像是一种基于普通英语的完全成熟的编程语言。接下来我们展示另一种通过通用类语句标识公司唯一性的方法基于其 ID。Every X thatisa companyis-unique-ifX has-idequal-to something.数据现在让我们添加一些数据或公司类的实例实例名以大写字母开头。Lamersoftisa companyandhas-idequal-to123andhas-cqs equal-to5andhas-turnover equal-to51000000.在这里我们添加了一个特定公司 Lamersoft 的数据点并为其属性赋值。当然我们不限于一个数据点我们可以在同一本体中拥有成千上万或数百万个数据点它们可以与结构或逻辑组件一起或单独导入。现在我们已将数据添加到结构中可以第一次查询本体获取所有公司返回与查询匹配的实例的 DataFrameonto.select_instances_of(a thing that is a company)https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/459dc93ed116228cec57669b95e9505c.png包含查询结果的 DataFrame我们还可以绘制我们的知识图谱展示 Lamersoft 实例与一般公司类之间的关系onto.draw_graph(layouthierarchical)https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/d49486c8659c942f3ef52d7ca14970eb.png本体图逻辑最后让我们添加一些简单的规则实现 CRR 风险权重的公司相关规定。If a company has-turnover greater-than50000000then the companyisa corporate.If a corporate has-cqs equal-to5then the corporate has-risk-weight equal-to1.50.第一条规则定义了什么是公司通常是年营业额超过 5000 万的公司。第二条规则实现了部分 CRR 映射表CQS → 风险权重这对于大语言模型LLM来说是非常难以理解的。在添加规则后我们已经完成了本体的构建可以重新绘制知识图谱https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/de5bb6782706d8277b078d70e65dc6f1.png已评估规则的本体图值得注意的是知识图谱在我们将逻辑添加到结构和数据后自动做出了两个重要的推论Lamersoft 由于其营业额属性和公司分类规则被识别为公司。Lamersoft 的风险权重已经根据其 CQS 属性和 CRR 规则进行了评估。这一切都源于本体中所有信息的魔法般自动一致性无冲突。如果我们添加任何与现有信息相矛盾的规则或实例推理器将报错并且知识图谱将无法生成。现在我们还可以与推理器进行互动询问为何做出某一评估或者是什么样的思维链和审计追踪导致了该评估printWhy(onto,Lamersoft is a corporate?){by:[{expr:Lamersoft is a company.},{expr:Lamersoft has-turnover equal-to 51000000.}],concluded:Lamersoft is a corporate.,rule:If a company has-turnover greater-than 50000000 then the company is a corporate.}无论输出格式如何我们仍然可以清晰地看到通过两个表达式来定义 Lamersoft 作为公司及其特定的营业额得出的结论是它符合特定营业额条件因此被认定为公司。不幸的是当前的库实现似乎不支持对风险权重结果的解释这为未来的想法部分提供了思考。尽管如此我认为这个例子是成功的因为它成功地将结构、数据和逻辑统一到一个单一的可扩展本体中且仅用了最少的努力和资源使用的是自然英语。此外它还能够对规则进行评估并用完整的审计追踪来解释它们。有人可能会说好的我们到底实现了什么呢这不过是另一种更接近自然英语的编程语言人们可以用 Python 类、实例和断言来做同样的事情。这个说法是对的任何编程语言本质上都是人机之间的通信协议。同时我们也可以清楚地看到编程语法正在逐步向人类语言靠拢的趋势从专注于实现实际业务概念和互动的领域驱动设计DDD到集成开发环境IDE中的 LLM 插件用自然语言生成代码。这已经成为一种明确的趋势程序员作为业务和技术之间中介的角色正在发生变化。如果前者可以直接从业务问题的自然语言规范中生成后者则可以通过解释者生成逻辑的自然语言定义那么我们还需要代码和业务文档吗结论想象一个世界其中所有银行监管要求由监管机构集中提供而不是以文本形式而是以本体论或智能数据的形式包含所有结构和逻辑。各个银行可以导入中央本体论并用自己的数据进行扩展从而自动评估所有规则和要求。这将消除任何主观性和解释的空间并确保结果的完整审计追踪。除了监管之外企业还可以开发自己的本体论编码、自动化并重用他们专家的知识或不同的计算方法和治理流程。在企业层面这样的本体论可以增加价值强制执行一个共同的词汇表和规则理解减少因解释和分歧所浪费的精力这些精力可以转向以本体论形式构建更多的知识。相同的概念也可以应用于任何专业领域其中单纯的文本关联是不够的LLMs 在这方面仍然存在困难。进行有效机器学习训练的大数据尚不可得。高素质的专家可以得到真正人工智能的帮助从而减少成本和错误的风险。如果如今数据被视为与黄金一样有价值那么我相信真正的“钻石”是结构化数据我们可以称之为知识。这种以本体论和知识图谱形式呈现的知识也可以像数据现在为营销目的而交易一样在公司之间进行交易。谁知道也许这会发展成一种按节点付费的商业模式其中智能数据形式的专业知识可以作为产品或服务出售。那么我们可以将智能定义为我们积累知识并查询这些知识以获得可操作见解的能力。这可以发展成专门的人工智能通过接入本体论来获得某一领域的专业知识从而减少错误推断hallucinations。LLMs大型语言模型已经开始对公司利润产生影响 —— Klarna 预计通过 ChatGPT 处理大部分客户服务对话将提升 4000 万美元的利润从而减少了人工客服的成本。然而注意 LLM 的具体应用领域这并不是金融公司如 Klarna中更为专业的领域如金融/产品规划或资产和负债管理。这是一般的客户支持服务许多公司中这是入门级职位已经使用了许多标准化的响应或程序。这是最容易应用人工智能的领域但也是增值可能不最大的位置。此外由于缺乏真正的智能LLM 的错误推断风险依然存在。尤其在金融服务行业LLM 提供的任何“金融建议”都可能带来法律和监管的后果。未来的想法LLMs 已经在所谓的检索增强生成RAG中利用了知识图谱。然而这些图谱是通用概念可能包含任何数据结构并不一定代表本体而 LLMs 使用本体的情况相对较少探索。这给了我以下下一篇文章的构思使用通俗的英语查询本体避免依赖特定的 CNL 语法——这可以通过 NLP 模型实现模型生成查询以访问存储本体的知识图谱——与 KGs 对话。使用更强大的方式生成本体——CogniPy库对于快速演示非常有用但对于扩展使用应当使用更成熟的本体导向编程框架如Owlready2。第一点使得普通用户无需了解任何编程知识即可从本体中获取信息而第二点则意味着需要软件开发人员来定义和写入本体这有其优缺点。然而如果我们想要完成 AI 闭环那么专家应该能够使用自然语言定义本体而无需开发人员。这将更难实现但类似的例子已经存在LLM 与 KG 接口实体解析。实现上述所有三点的概念验证可以称之为真正的 AI它应该能够在智能数据结构中开发知识该结构既可供人类阅读也可供机器读取并通过自然语言查询以获得可操作的洞察同时具有完全的透明度和审计追踪。请关注我的第二部分

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/2632998.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！