[发明专利]新实体挖掘方法、装置、计算机设备及存储介质在审
| 申请号: | 201910348868.3 | 申请日: | 2019-04-28 |
| 公开(公告)号: | CN110162640A | 公开(公告)日: | 2019-08-23 |
| 发明(设计)人: | 张强;张扬;冯知凡;任可欣 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
| 主分类号: | G06F16/36 | 分类号: | G06F16/36;G06F16/951;G06F17/27 |
| 代理公司: | 北京鸿德海业知识产权代理事务所(普通合伙) 11412 | 代理人: | 田宏宾 |
| 地址: | 100085 北京市*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 目标文本 新实体 计算机设备 存储介质 描述信息 图谱 获取目标 结果确定 实体识别 挖掘 文本 覆盖率 应用 | ||
本发明公开了新实体挖掘方法、装置、计算机设备及存储介质,其中方法可包括:获取目标文本,对目标文本进行实体描述信息识别;若根据识别结果确定出目标文本中包含对于实体的描述信息,则对目标文本进行实体识别;将识别出的实体中的新实体收录到知识图谱中。应用本发明所述方案,可提升知识图谱的实体收录覆盖率等。
【技术领域】
本发明涉及知识图谱技术,特别涉及新实体挖掘方法、装置、计算机设备及存储介质。
【背景技术】
知识图谱旨在描述真实世界中存在的各种实体或概念及其关系,其构成一张巨大的语义网络图。知识图谱支撑了很多行业中的具体应用,如信息检索、自然语言理解、问答系统、推荐系统、电子商务、金融风控等。
传统的知识图谱收录主要借助于百科类网站及垂类网站的结构化数据源,相应地,对于新实体的发现和收录主要依赖于百科类网站及垂站网站的数据源的网页的更新。
但互联网上经常会出现一些新的人物、歌曲、小说等实体,这些实体在互联网上快速蹿红,而上述数据源网页的更新往往需要数天甚至数周时间,从而造成新实体不能被及时收录到知识图谱中,进而降低了知识图谱的实体收录覆盖率等。
【发明内容】
有鉴于此,本发明提供了新实体挖掘方法、装置、计算机设备及存储介质。
具体技术方案如下:
一种新实体挖掘方法,包括:
获取目标文本,对所述目标文本进行实体描述信息识别;
若根据识别结果确定所述目标文本中包含对于实体的描述信息,则对所述目标文本进行实体识别;
将识别出的实体中的新实体收录到知识图谱中。
根据本发明一优选实施例,所述获取目标文本包括:
从目标网站上抓取非结构化数据网页;
将抓取到的网页中的内容作为所述目标文本。
根据本发明一优选实施例,所述对所述目标文本进行实体描述信息识别包括:
利用预定规则对所述目标文本进行实体描述信息识别,确定出所述目标文本中是否包含对于实体的描述信息;
或者,利用预先训练得到的信息识别模型识别出所述目标文本中是否包含对于实体的描述信息。
根据本发明一优选实施例,所述对所述目标文本进行实体识别包括:利用预先训练得到的实体识别模型识别出所述目标文本中的实体。
根据本发明一优选实施例,所述将识别出的实体中的新实体收录到知识图谱中包括:
从识别出的实体中确定出至少一个主实体;
针对每个主实体,分别确定所述主实体是否为新实体,若是,则将所述主实体收录到知识图谱中。
根据本发明一优选实施例,所述从识别出的实体中确定出至少一个主实体包括:
针对识别出的每个实体,分别利用预先训练得到的主实体识别模型确定出所述实体是否为主实体;
或者,针对识别出的每个实体,分别利用预定规则确定出所述实体是否为主实体。
根据本发明一优选实施例,所述分别确定所述主实体是否为新实体包括:
获取所述主实体的属性信息;
根据所述主实体的属性信息对所述主实体进行消歧与关联,确定出所述主实体是否为新实体。
根据本发明一优选实施例,所述获取所述主实体的属性信息包括:从所述目标文本中记载的所述主实体的描述信息中抽取出所述主实体的属性信息。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910348868.3/2.html,转载请声明来源钻瓜专利网。





