[发明专利]基于搜索引擎的多源人物属性融合方法有效
申请号: | 202010867732.6 | 申请日: | 2020-08-26 |
公开(公告)号: | CN111814027B | 公开(公告)日: | 2023-03-21 |
发明(设计)人: | 于富财;叶浩维;胡光岷 | 申请(专利权)人: | 电子科技大学 |
主分类号: | G06F16/953 | 分类号: | G06F16/953;G06F16/36;G06F40/242;G06F40/30 |
代理公司: | 成都虹盛汇泉专利代理有限公司 51268 | 代理人: | 王伟 |
地址: | 611731 四川省成*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 搜索引擎 人物属性 融合 方法 | ||
本发明公开一种基于搜索引擎的多源人物属性融合方法,应用于多源人物属性融合,针对现有技术中存在的缺乏判定多源属性集是否属于同一个目标人物,并尽量消除同名和噪声的有效解决方案,本发明将基于搜索引擎的词汇相似度计算的思想应用到人物属性融合领域,引入了搜索引擎的额外信息,巧妙地解决了人物属性融合中属性表达形式多变且难以预料,属性集信息不相交和仅计算文本相似度信息不足的问题;并且根据人物知名度不同,设置了自适应参数,从而调整置信度离散程度;最后综合上述两种置信度计算方法,提出了加权的人物属性对综合置信度计算方法。
技术领域
本发明属于大数据处理领域,特别涉及一种人物属性提取技术。
背景技术
随着互联网应用的迅猛发展,通过网络能够获取的数据量也呈指数级井喷式地增长,如何从这些海量数据中快速、准确地分析出真正有用的信息,显得尤为关键和紧迫。
人物属性,又叫人物特征。人物属性包含描述一个人从出生到死亡的所有信息,如:出生地,出生时间,所在国家,从事工作,信仰宗教,死亡地点,死亡时间等。人物属性提取就是要在网络中识别出人物的这些属性,人物属性提取有着很重要的实际应用,比如人名消歧、人物知识库的构建、人物搜索引擎等等。而现今大部分研究主要集中在网络特定领域的信息提取,仅仅针对人物属性提取的研究较少。
人物属性提取一般包括多源人物属性提取和人物属性融合两个重要过程。属性提取是指从不同的信息源解析并获得人物的属性集,这里的信息源主要指搜索人名得到的不同网页;属性融合则是对这些不同来源的属性集进行分析,判断这些属性集是否属于我们搜索的目标人物,最后将属于目标人物的属性集整合到一起,并输出结果。人物融合主要用来解决不同来源的人物属性的同名人物消歧问题,噪声问题等。
如表1所示,假如我们搜索人物张三,从不同来源获得以下属性集:
表1目标人物张三的不同来源属性集示例
如表1所示,我们假设从不同来源提取出了张三的四个属性集。可以做出如下推测:
(1)从字面上看,可以推测1、4这两个属性集大概率属于我们的目标人物张三,因为1、4中有相同的生日和大学属性。
(2)属性集3可能属于另一个同名张三,这就是同名消歧问题。
(3)我们也不能确定1和2是同一个张三,2也有可能是另一个人,因为搜索张三,可能会出现张三相关的其他人物网页,从而影响提取结果,这就是噪声问题。
融合一般包括两个重要步骤:属性对齐和实体对齐。属性对齐是用来确定属性集之间否具有类似或相同的属性,主要方法有基于字符串距离的方法、基于字典匹配的方法、基于语义相似的方法等。例如:上表中属性集1的属性“教育背景”和属性集4的属性“大学”是对应的,寻找这种对应关系就是属性对其的过程。实体对齐是判断现实世界中多个实体是否指向同一个实体的过程。即需要判断不同来源的人物属性集是否指向同一个客观人物实体,实体对齐需要我们通过计算人物、属性值之间的相似关系或者引入一些其他技术手段来实现。
网络是一个天然的海量的文本语料库,比如谷歌能够提取相对的页面计数,这个计数接近真实的社会词汇和短语的使用频数,目前语言学研究领域也开始支持该方法[1]。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于电子科技大学,未经电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010867732.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种清热利湿方及其制备方法和应用
- 下一篇:一种用于水蛭的过水养殖装置