[发明专利]用于在有限的知识领域中构建知识图的技术在审
申请号: | 201980053458.4 | 申请日: | 2019-08-16 |
公开(公告)号: | CN112567394A | 公开(公告)日: | 2021-03-26 |
发明(设计)人: | G·辛拉朱;P·V·安马纳布罗卢 | 申请(专利权)人: | 甲骨文国际公司 |
主分类号: | G06N5/02 | 分类号: | G06N5/02;G06N5/04;G06N20/00;G06N3/00;G06N3/08 |
代理公司: | 中国贸促会专利商标事务所有限公司 11038 | 代理人: | 邹丹 |
地址: | 美国加*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 有限 知识 域中 构建 技术 | ||
本文公开的技术一般而言涉及构造定制知识图。在一个实施例中,基于某些规则从用户数据集中提取实体以及实体之间的关系以生成种子图。然后使用有限状态机遍历大型知识图,以识别要添加到种子图的候选实体和/或关系。优先级函数用于从候选实体和/或关系中选择实体和/或关系。然后将所选择的实体和/或关系添加到种子图,以生成定制知识图。
相关申请的交叉引用
本申请要求于2018年8月16日提交的题为“Techniques For Building AKnowledge Graph In Limited Knowledge Domains”的美国临时专利申请号62/765,005和于2019年8月15日提交的题为“TECHNIQUES FOR BUILDING A KNOWLEDGE GRAPH INLIMITED KNOWLEDGE DOMAINS”的美国专利申请No.16/542,017的优先权权益,这些申请的包括任何附录的全部公开内容为了所有目的通过引用并入本文。
背景技术
知识图通过明确描述实体之间的关系以结构化的方式组织信息。知识图通常使用有向图来表示知识库,该有向图在节点或顶点(表示实体)之间具有带标记的边(表示关系)。知识图可以用于例如搜索、问题回答、对话接口(例如,聊天机器人)、推荐系统等。有一些大规模而全面的知识图可用。但是,用于特定应用或环境的自然语言理解(NLU)服务(诸如,为不同用户构建对话接口(例如,聊天机器人))通常在特定领域内表现更好。为特定知识领域创建准确的知识图是一项具有挑战性的任务,部分原因是自然语言的微妙和歧义性以及特定领域中由于用户数据集中样本数量通常很小而导致知识有限。
发明内容
本公开一般而言涉及构建定制的知识图,并且更特别地涉及用于基于小的用户数据集和大规模参考(例如,外部)知识图为特定知识领域(例如,为特定客户端或特定机器人)构造定制的知识图的技术。定制的知识图可以用于例如基于知识图嵌入技术来改善聊天机器人中的意图分类。本文描述了各种发明实施例,包括方法、系统、存储由一个或多个处理器可执行的程序、代码或指令的非暂态计算机可读存储介质等。
在某些实施例中,公开了用于为应用生成定制的知识图的计算机实现的方法。该方法可以包括:接收应用的用户数据集;从用户数据集中提取实体;基于用户数据集识别实体之间的链接;以及创建表示实体和实体之间的链接的种子图。该方法还可以包括:识别种子图中弱连接的组件,并且对于种子图中每个弱连接的组件,将弱连接的组件中的实体映射到参考知识图中的顶点;从参考知识图中被映射的顶点开始并基于有限状态机遍历参考知识图,以识别参考知识图中多达第一阈值数量的实体;以及将识别出的实体的资源描述框架(RDF)保存为缓冲区中的条目。该方法还可以包括:计算缓冲区中的条目的优先级分数;从缓冲区中的条目中选择具有最高优先级分数的第一组条目;以及将由第一组条目识别的实体和链接添加到种子图以生成定制知识图的版本。
在一些实施例中,用户数据集可以包括多个用户话语。提取实体并识别实体之间的链接可以包括例如对用户数据集执行词性(part-of-speech)标记、命名实体辨识和/或构成(constituency)解析。将弱连接的组件中的实体映射到参考知识图中的顶点可以包括使用例如Dexter 2将实体映射到参考知识图中的顶点。
在一些实施例中,有限状态机可以包括消歧状态、实体状态、禁止状态和结束状态。遍历参考知识图可以包括:当参考知识图中的下一个顶点为消歧顶点时,进入消歧状态;当参考知识图中的下一个顶点为禁止顶点时,并且如果有限状态机的当前状态不是禁止状态,那么进入禁止状态;当参考知识图中的下一顶点为实体顶点时,进入实体状态,并将参考知识图中的下一顶点的RDF保存为缓冲区中的条目;以及当缓冲区中的条目的数量大于第二阈值数量时,进入结束状态。禁止顶点可以包括例如日期、时间值、到另一个参考知识图的链接、网页或重复或重定向的实体。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于甲骨文国际公司,未经甲骨文国际公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201980053458.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:用于检测化学物质的集成的传感器模块
- 下一篇:油性固态化妆品