[发明专利]实体热门度的计算方法及装置、应用方法及装置有效
申请号: | 201710029383.9 | 申请日: | 2017-01-16 |
公开(公告)号: | CN106844603B | 公开(公告)日: | 2021-05-11 |
发明(设计)人: | 简仁贤;陈思聪;产文;贾陆华;叶俊杰;董彦均;袁皓;曹军;乔巍;靳颖超 | 申请(专利权)人: | 竹间智能科技(上海)有限公司 |
主分类号: | G06F16/951 | 分类号: | G06F16/951;G06F16/332 |
代理公司: | 北京酷爱智慧知识产权代理有限公司 11514 | 代理人: | 任媛 |
地址: | 200233 上海市浦东新区自由贸*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 实体 热门 计算方法 装置 应用 方法 | ||
1.一种知识图谱中实体热门度的计算方法,其特征在于,该计算方法通过对知识图谱中实体热门度的计算,将其应用在人机对话过程中,使知识类的问答给分能有效得到定量化,包括:
抓取知识图谱中实体的百科页面,对所述实体的百科页面的基础属性进行统计,获取基础属性的统计结果;所述基础属性包括属性数量、链接数量、页面篇幅、出品日期/上映时间、百科页面浏览次数统计、百科页面最近更新统计、日常用语的实体出现频率中的一种或多种;所述属性数量的多少、链接数量的多少、页面篇幅的长短及百科页面浏览次数的多少均与实体热门度的大小呈正相关;且,在其他基本信息统计相同时,出品日期/上映时间离当前时间越接近,其实体热门度越高,日常用语的实体出现频率越高,其实体热门度越低;
根据所述基础属性的统计结果,设置各基础属性的初始热门度;
对各基础属性的初始热门度进行归一化处理,获取各基础属性的归一化热门度;
获取各基础属性的加权系数;
根据各基础属性的加权系数,对各基础属性的归一化热门度进行加权求和,获取实体热门度;
定期更新实体热门度;
利用PageRank类似的衍生算法对知识图谱中的所有实体的热门度进行再一次的数值修正和排序;
其中,所述定期更新实体热门度具体为:
对各基础属性的初始热门度进行更新;
根据更新后的各基础属性的初始热门度,对各基础属性的归一化热门度进行更新;
根据更新后的各基础属性的归一化热门度,对实体热门度进行更新;或者,
根据搜索网站的热搜榜单、排名及排名变化,获取热搜数据;
对社区网站的短评与长评按时间序列进行计数,获取社区数据;
对人机对话记录中的实体按时间序列进行计数,获取对话数据;
将所述热搜数据、所述社区数据、所述对话数据作为标定数据集,根据所述标定数据集,对各基础属性的加权系数进行更新;
根据更新后的各基础属性的加权系数,对实体热门度进行更新;其中,获取各基础属性的加权系数具体为:抽取多个实体作为样本,并将样本人工标注成热门样本或冷门样本,针对被标注的热门样本和冷门样本,利用机器学习中的逻辑回归算法,训练出各基础属性的加权系数。
2.根据权利要求1所述的知识图谱中实体热门度的计算方法,其特征在于,还包括:
对知识图谱中相邻实体的实体热门度进行修正。
3.一种知识图谱中实体热门度在人机对话中的应用方法,其特征在于,包括:
根据用户输入的信息,获取知识类回答和闲聊类回答;所述知识类回答中包括实体;
权利要求1或2所述的知识图谱中实体热门度的计算方法计算实体热门度;
根据实体热门度,获取知识类回答分数;
获取闲聊类回答分数;
根据所述知识类回答分数、所述闲聊类回答分数,对知识类回答和闲聊类回答进行排序,获取排序结果;
根据所述排序结果,对用户进行回应;其中,根据实体热门度,获取知识类回答分数,包括:
(i)用户的一句话就是一个实体词条或者此实体词条的同义词,此类会根据上下文做判定:
(i.a)如果上一轮的历史人机对话记录为机器人发问,此轮用户是在回答,此时分数在热门度的基础上调低;
(i.b)如果上一轮的历史人机对话记录判定此时用户是在发起一个话题,此时分数在热门度基础上调高;
(i.c)如果上一轮的历史人机对话记录没有足够信心判断,就根据实体词条的热门度给分,由于冷门词条的热门度低,因此此时知识类回答分数也低。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于竹间智能科技(上海)有限公司,未经竹间智能科技(上海)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710029383.9/1.html,转载请声明来源钻瓜专利网。
- 上一篇:采用旋转对齐方式且带有滚动接触面的容器盖
- 下一篇:一种核工业用容器闭合装置