[发明专利]一种基于用户日志动态更新知识图谱的方法有效
申请号: | 201910893691.5 | 申请日: | 2019-09-20 |
公开(公告)号: | CN110674313B | 公开(公告)日: | 2022-12-13 |
发明(设计)人: | 唐娟 | 申请(专利权)人: | 四川长虹电器股份有限公司 |
主分类号: | G06F16/36 | 分类号: | G06F16/36;G06F16/23;G06F16/951 |
代理公司: | 四川省成都市天策商标专利事务所(有限合伙) 51213 | 代理人: | 王荔 |
地址: | 621000 四*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 用户 日志 动态 更新 知识 图谱 方法 | ||
1.一种基于用户日志动态更新知识图谱的方法,其特征在于,包括:
步骤A:从智能电视语义日志中获取本次更新周期内用户的请求日志数据;
步骤B:遍历用户的请求日志,基于命名实体识别模型从用户的请求语句中提取出实体名和实体类型;并按照请求类别和实体类别分别统计访问量,并记作实体集E1,
则E1={(e1,t1,n11),(e1,t2,n12),(e2,t3,n23),…,(ei,tj,nij),…(en,tm,nnm)},其中三元组(ei,tj,nij)表示实体名为ei且实体类别为tj的实体的用户访问量nij;
步骤C:根据实体访问量和现有的影视知识图谱,得到热门实体、冷门实体和缺失实体;
步骤D:从预设垂直网站爬取所述热门实体和缺失实体的信息并进行数据预处理;
步骤E:将得到的热门实体与现有影视知识图谱中实体作实体匹配,并对匹配实体进行更新;
步骤F:将得到的缺失实体新增至知识图谱,以及清理冷门实体;
所述步骤C具体为:
设定热门阈值THRsp和冷门阈值THRunsp,令现有知识图谱中的实体集:
E2={(e1,t1),(e1,t2),(e2,t3),…,(ei,tj),…,(eh,tk)},其中二元组(ei,tj)表示实体名为ei且实体类别为tj的实体;
遍历所得到的实体集E1中的三元组(en,tm,nnm),判断:
若nij≥THRsp且(ei,tj)∈E2,则记该实体为热门实体;
若nij≤THRunsp且(ei,tj)∈E2,则记该实体为冷门实体;
若nij>THRunsp且则记该实体为缺失实体;
所述步骤D具体为:
步骤D1:将缺失实体标记为待爬取,判断热门实体的实体类型,并根据预设规则将其标记为待爬取或者不爬取;
步骤D2:对标记为待爬取的实体,从垂直网站爬取实体信息;
步骤D3:将爬取的数据格式化,用于与知识图谱中已有数据匹配;
所述步骤E具体为:
设定实体相似度阈值THRstm;
计算实体属性值相似度的加权平均值作为实体的相似度,所述属性值包括用于区分不同实体的一个或者多个属性;
遍历获取的热门实体,计算其与现有知识图谱中实体的相似度;
选择相似度≥THRstm且相似度最大的实体作为该热门实体的匹配实体,并对匹配实体的属性值进行更新。
2.根据权利要求1所述的一种基于用户日志动态更新知识图谱的方法,其特征在于,所述步骤F中将缺失实体新增至知识图谱的步骤为:
将缺失实体与现有知识图谱中的实体进行匹配,如不存在匹配实体,曾将缺失实体新增至知识图谱,若已存在匹配实体,且实体的访问量≥THRsp,则对已有实体进行更新。
3.根据权利要求1所述的一种基于用户日志动态更新知识图谱的方法,其特征在于,所述步骤F中清理冷门实体的步骤为:对冷门实体增加标志其冷门的标记字段,若连续多次更新知识图谱时该实体均为冷门实体,则将该冷门实体从影视知识图谱中删除。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于四川长虹电器股份有限公司,未经四川长虹电器股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910893691.5/1.html,转载请声明来源钻瓜专利网。
- 上一篇:构建知识图谱方法、装置、介质及电子设备
- 下一篇:语句识别方法及装置