spaCy v3.5新增模糊匹配与CLI命令
Introducing spaCy v3.5 · Explosion发布时间2023年1月30日3分钟阅读分类博客 / spaCy / 基于规则的匹配 / 实体链接spaCy自然语言处理库发布v3.5版本。该版本引入了三个新的CLI命令、增加了模糊匹配功能、改进了实体链接功能并包含一系列语言更新和错误修复。新CLI命令apply将一个流水线应用到一或多个.txt、.jsonl或.spacy文件benchmark speed通过预热和置信区间分析流水线的处理速度find-threshold测试spancat、textcat_multilabel等组件的阈值范围以找到最优值这些命令的使用示例详见CLI文档和v3.5使用说明。模糊匹配新增FUZZY操作符允许基于莱文斯坦编辑距离进行模糊匹配pattern[{LOWER:{FUZZY:definitely}}]FUZZY和REGEX操作符现在也支持用于列表的IN和NOT_INpattern[{TEXT:{REGEX:{NOT_IN:[^awe(some)?$,^wonder(ful)?]}}}]实体链接实体链接器的知识库已重构以简化定制。KnowledgeBase现在是一个抽象类默认实现为新的InMemoryLookupKB类。更多改进、更新和错误修复详见v3.5使用说明 / v3.5.0发布说明。spaCy宇宙与项目新增内容自v3.4以来spaCy宇宙和spaCy项目中添加了许多新插件、扩展、流水线和教程BERTopic利用BERT和c-TF-IDF创建易于解释的主题concepCy多语言知识图谱greCy用于spaCy的训练好的古希腊语模型English Interpretation Sentence Pattern英语到日语的精准翻译spaCy - Partial Tagger用于部分标注数据集的序列标注器spacy-cleaner使用spaCy轻松清洗文本spaCy-PyThaiNLP增加泰语支持Speedster pipeline acceleration使用Speedster加速命名实体识别WikiNERZshot零样本和少样本命名实体与关系识别此外spaCy团队为两个较新的组件添加了演示项目experimental/coref使用OntoNotes训练共指消解模型pipelines/spancat_demo最小化的spancat演示项目资源spaCy v3.5: 新特性概览发布说明详细概述spaCy模型目录下载训练好的流水线spaCy宇宙项目、插件和扩展spaCy项目模板端到端NLP工作流视频教程YouTube上的深度spaCy内容FINISHED更多精彩内容 请关注我的个人公众号 公众号办公AI智能小助手或者 我的个人博客 https://blog.qife122.com/对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号网络安全技术点滴分享
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2531918.html
如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!