[发明专利]用于从多模态源自动产生和更新知识图谱的设备和方法在审
申请号: | 202180003244.3 | 申请日: | 2021-09-01 |
公开(公告)号: | CN114270339A | 公开(公告)日: | 2022-04-01 |
发明(设计)人: | 芦运照;林伟安;陈文财 | 申请(专利权)人: | 香港应用科技研究院有限公司 |
主分类号: | G06F16/36 | 分类号: | G06F16/36;G06F16/31;G06F16/35;G06F16/65;G06F40/205;G06F40/237;G06N3/04;G10L15/26 |
代理公司: | 深圳宜保知识产权代理事务所(普通合伙) 44588 | 代理人: | 王琴;曹玉存 |
地址: | 中国香港新界沙田香港*** | 国省代码: | 香港;81 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 多模态 源自 产生 更新 知识 图谱 设备 方法 | ||
1.一种用于从一个或多个多模态源自动产生和更新知识图谱的设备,其特征在于,所述设备包括:
说话人分类模块,其被配置成用于:将输入音频流划分为音频片段;将所述音频片段的讲者分类为代理人或客户;以及基于说话人分类而将所述音频片段分类;
音频转录模块,其被配置成用于基于声学模型将所述经分类的音频片段转录成转录本;
语音解析模块,其被配置成用于:
从所述转录本提取目标实体和关系模式元;以及
用来自领域特定语言模型的多种预定义标签标记与所提取的目标实体对应的所述转录本的字词;
会话解析模块,其被配置成用于:
利用所述转录本的带标记的字词更新动态信息字集VD;
基于来自所述转录本的所提取的关系模式元更新静态信息字集VS;
从所述领域特定语言模型检索一个或多个语句模式;以及
基于所述动态信息字集VD、所述静态信息字集VS和所述一个或多个语句模式而产生成对的问题和解答;以及
知识图谱载体,其被配置成用于通过以下操作来更新知识图谱:
接收所提取的目标实体和关系模式元;
将所提取的目标实体表示为所述知识图谱中的节点;以及
将所提取的关系模式元表示为所述知识图谱中的节点之间的边标签。
2.根据权利要求1所述的设备,其特征在于,
所述语音解析模块被进一步配置成用于:从文章提取目标实体和关系模式元;以及用来自领域特定语言模型的多种预定义标签标记与所提取的目标实体对应的所述文章的字词;以及
所述会话解析模块被进一步配置成用于:利用所述文章的带标记的字词更新所述动态信息字集VD;以及基于来自所述文章的所提取的关系模式元而更新所述静态信息字集VS。
3.根据权利要求1所述的设备,其特征在于,所述输入音频流为视频流的音轨。
4.根据权利要求1所述的设备,其特征在于,所述领域特定语言模型通过以下操作产生:
利用词汇词典来归纳术语表和语料库以形成通用语言模型;以及
基于启发式加权而插入具有预定义的领域特定知识的所述通用语言模型,以产生所述领域特定语言模型。
5.根据权利要求1所述的设备,其特征在于,
所述会话解析模块为利用基于区域的注意力算法训练以用于遍及所述转录本中的语句提取所述目标实体的机器学习模块;
所述基于区域的注意力算法通过限定具有语句内信息和语句间信息的区域;且基于所限定的区域优化目标函数来制定。
6.根据权利要求5所述的设备,其特征在于,所述语句内信息通过由以下公式给出的语句内注意力算法来更新:
Ria=BLSTMt(X),
其中BLSTMt()为用于语句内注意力的双向长短期记忆函数,且X为表示带标记的转录本中的一组字词的输入字词向量;且Ria为语句内注意力输出向量。
7.根据权利要求5所述的设备,其特征在于,所述语句间信息通过由以下公式给出的语句间注意力算法来更新:
Vir=BLSTMl(∑LΠTατγτ),
其中BLSTMl()为用于语句间注意力的双向长短期记忆函数,ατ为参数向量,且γτ为语句内注意力输出向量,且Vir为语句间注意力输出向量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于香港应用科技研究院有限公司,未经香港应用科技研究院有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202180003244.3/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种存储器CMOS电路
- 下一篇:用于在形成半导体设备中形成电介质层的方法