[发明专利]面向游戏问答系统的知识图谱更新方法、系统及装置在审
| 申请号: | 201910726592.8 | 申请日: | 2019-08-07 |
| 公开(公告)号: | CN110532399A | 公开(公告)日: | 2019-12-03 |
| 发明(设计)人: | 徐波 | 申请(专利权)人: | 广州多益网络股份有限公司;广东利为网络科技有限公司;多益网络有限公司 |
| 主分类号: | G06F16/36 | 分类号: | G06F16/36;G06F16/332;G06F16/33;G06F17/27;G06K9/62 |
| 代理公司: | 11411 北京联瑞联丰知识产权代理事务所(普通合伙) | 代理人: | 赵娜<国际申请>=<国际公布>=<进入国 |
| 地址: | 510530 广东省广州*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 特征词 图谱 同义词 词向量 匹配度 游戏 实体类别 实体类型 问答数据 问答系统 先验知识 训练数据 知识实体 自动更新 泛化性 分词器 无监督 相似度 日志 更新 标注 词语 过滤 筛选 融合 分类 社区 | ||
1.一种面向游戏问答系统的知识图谱更新方法,其特征在于:包括以下步骤:
S1,收集游戏问答日志和社区问答数据;
S2,从上述语料中筛选出和游戏相关的特征词;
S3,将特征词加入分词器,获得适用于游戏领域文本的分词器,并训练得到词向量;
S4,依据预设定的相似度阈值使用词向量找出各个特征词与其相似度大于阈值的词语作为该特征词的同类词;
S5,计算各个特征词在知识图谱的平均匹配度和分布,过滤非实体词并确定实体词的实体类别;知识图谱包括游戏知识图谱和现实知识图谱;
S6,判断上述实体词是否互为同义词,若是,对实体词进行融合;
S7,在知识图谱的平均匹配度大于阈值的实体词及其同义词更新到对应的知识图谱。
2.根据权利要求1所述的面向游戏问答系统的知识图谱更新方法,其特征在于:收集游戏问答日志和社区问答数据具体指的是获取游戏问答系统中的游戏问答日志和论坛、贴吧的问答数据。
3.根据权利要求1所述的面向游戏问答系统的知识图谱更新方法,其特征在于:步骤S2中筛选特征词具体包括以下步骤:
S201,使用互信息的方法根据设定好的阈值θ1筛选出第一候选特征词集;
S202,使用常用词词典将第一候选特征词集中的通用词语去除,进而过滤得到和游戏相关的第二候选特征词集S={s1,s2...sn};n为正整数。
4.根据权利要求3所述的面向游戏问答系统的知识图谱更新方法,其特征在于:步骤S5具体包括以下步骤:
S501,设特征词s1的同类词集为{t11,t12...t15},且特征词s1与同类词t11,t12...t15的词向量相似度为sim={w1,w2...w5};
S502,将同类词与知识图谱进行匹配,匹配到游戏知识图谱的实体记为1,匹配到现实知识图谱的实体记为2,否则记为0,以match(t)表示,若匹配到游戏知识图谱的实体,记录其实体类别;
特征词s1的平均匹配度N为特征词s1的同类词数量;
S503,根据特征词匹配结果match(t)中标记0、1、2的数量多少确定其为非实体词或游戏知识图谱实体词或现实知识图谱实体词;若为实体词,将占多数的匹配的实体类别设为该特征词的实体类别。
5.根据权利要求4所述的面向游戏问答系统的知识图谱更新方法,其特征在于:步骤S6中判断实体词是否互为同义词具体包括以下步骤:
对其中一个实体词使用同义词生成器生成候选同义词集,判断另一个实体词是否在候选同义词集中;
若存在,计算两个实体词在原语料中出现的上下文相似度,相似度高则认为是同义词。
6.根据权利要求5所述的面向游戏问答系统的知识图谱更新方法,其特征在于:步骤S7中,若匹配度未达到阈值的实体词及其同义词抛弃或进行人工审核后判断是否更新到知识图谱。
7.一种面向游戏问答系统的知识图谱更新系统,其特征在于:包括
特征词抽取单元,用于从游戏问答日志和论坛、贴吧的问答数据中筛选出和游戏相关的特征词;
分词器,用于对特征词进行分词,并训练得到词向量;
同类词判定单元,用于依据预设定的相似度阈值使用词向量找出各个特征词与其相似度大于阈值的词语作为该特征词的同类词;
实体词筛选单元,用于计算各个特征词在知识图谱的平均匹配度和分布,过滤非实体词并确定实体词的实体类别;
实体词融合单元,用于对互为同义词的实体词进行融合;
知识图谱更新单元,用于将平均匹配度大于阈值的实体词及其同义词更新到对应的知识图谱。
8.一种装置,其特征在于:包括存储器和处理器,所述处理器执行所述存储器中的程序,实现权利要求1-6任一项所述的面向游戏问答系统的知识图谱更新方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州多益网络股份有限公司;广东利为网络科技有限公司;多益网络有限公司,未经广州多益网络股份有限公司;广东利为网络科技有限公司;多益网络有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910726592.8/1.html,转载请声明来源钻瓜专利网。





