[发明专利]知识表示学习模型的生成方法及装置在审
申请号: | 202110898771.7 | 申请日: | 2021-08-05 |
公开(公告)号: | CN113743617A | 公开(公告)日: | 2021-12-03 |
发明(设计)人: | 卜晨阳;李小彬;李磊;吴信东 | 申请(专利权)人: | 合肥工业大学 |
主分类号: | G06N20/00 | 分类号: | G06N20/00;G06K9/62;G06N3/00 |
代理公司: | 北京康信知识产权代理有限责任公司 11240 | 代理人: | 褚敏 |
地址: | 230009 *** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 知识 表示 学习 模型 生成 方法 装置 | ||
1.一种知识表示学习模型的生成方法,其特征在于,包括:
从三元组集合中选取第一预设数量的三元组作为训练数据集,其中,所述三元组是知识表示学习模型的知识库的基本组成单元,包括:头实体、尾实体以及所述头实体和所述尾实体之间存在的关系实体;
分别确定所述训练数据集包括的所述头实体、所述尾实体以及所述关系实体的标号,并将所述标号存储至标号列表;
确定和所述标号列表匹配度最高的历史标号列表,并利用所述匹配度最高的历史标号列表中的标号对应的实体对所述标号列表中的标号对应的实体进行初始化,得到初始化后的所述训练数据集,其中,所述历史标号列表用于存储历史解集合中的最优解包含的所述头实体、所述尾实体、及所述关系实体的标号;
对初始化后的所述训练数据集进行训练,直至所述知识表示学习模型训练完成。
2.根据权利要求1所述的方法,其特征在于,确定和所述标号列表匹配度最高的历史标号列表之前,所述方法还包括:
分别为所述标号列表中的每个标号设置一个标志位,其中,所述标志位包括真和假两个值,所述标志位为真表征所述标号对应的实体已经完成初始化,所述述标志位为假表征所述标号对应的实体未完成初始化。
3.根据权利要求2所述的方法,其特征在于,确定和所述标号列表匹配度最高的历史标号列表,包括:
遍历所述历史标号列表中的每一代历史标号列表;
分别计算所述每一代历史标号列表和所述标号列表的匹配度,得到多个匹配度;
将所述多个匹配度中的最大匹配度对应的历史标号列表作为和所述标号列表匹配度最高的历史标号列表。
4.根据权利要求3所述的方法,其特征在于,分别计算所述每一代历史标号列表和所述标号列表的匹配度,包括:
确定所述标号列表中标志位为假的实体标号出现在所述每一代历史标号列表中的第一数量,以及所述标号列表中标志位为假的关系标号出现在所述每一代历史标号列表中的第二数量;
将所述第一数量和所述第二数量的和作为所述每一代历史标号列表和所述标号列表的匹配度。
5.根据权利要求4所述的方法,其特征在于,利用所述匹配度最高的历史标号列表中的标号对应的实体对所述标号列表中的标号对应的实体进行初始化,包括:
将所述标号列表中的目标标号的标志位设置为真,并将所述目标标号存储至选择标号列表,其中,所述目标标号是所述标号列表中出现在所述匹配度最高的历史标号列表中的标号;
从所述匹配度最高的历史标号列表中选择与所述选择标号列表中的目标标号对应的标号的实体,存入实体候选列表;
对所述实体候选列表中的每个实体进行扰动处理,得到所述每个实体对应的第二预设数量的实体副本;
将所述每个实体以及与所述每个实体对应的实体副本加入所述实体候选列表。
6.根据权利要求1所述的方法,其特征在于,所述方法还包括:
如果不存在与所述标号列表匹配度的所述历史标号列表,从所述三元组集合中选取与所述标号列表中的标号对应的实体相同的实体;
利用从所述三元组集合中选取的实体对所述标号列表中的标号对应的实体进行初始化。
7.根据权利要求1所述的方法,其特征在于,对初始化后的所述训练数据集进行训练,包括:
将所述训练数据集划分为多个子训练数据集;
分别对所述多个子训练数据集中的各个子训练数据集进行训练。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于合肥工业大学,未经合肥工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110898771.7/1.html,转载请声明来源钻瓜专利网。