[发明专利]实体标注数据集构建方法、装置及设备有效
申请号: | 201810706128.8 | 申请日: | 2018-06-28 |
公开(公告)号: | CN108959255B | 公开(公告)日: | 2019-09-10 |
发明(设计)人: | 王述;冯知凡;汪琦;陆超;张扬;朱勇 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F16/9535 |
代理公司: | 北京同立钧成知识产权代理有限公司 11205 | 代理人: | 董建姣;刘芳 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 短文本 实体标注 数据集 集合 实体集合 装置及设备 构建 链接 接收用户 网页数据 预设时段 完善性 歧义 浏览 保证 | ||
本发明实施例提供一种实体标注数据集构建方法、装置及设备,该方法包括:获取实体集合,实体集合中包括多个具有歧义的实体及每个实体对应的实体别名;在用户在预设时段内浏览的网页数据中获取实体集合对应的短文本集合,短文本集合中包括每个实体对应的短文本和每个实体别名对应的短文本;获取短文本集合中每一个短文本中的实体;接收用户输入的每个短文本中的实体对应的实体链接,并根据短文本集合、短文本集合中每个短文本中的实体、及每个短文本中的实体对应的实体链接,生成实体标注数据集。在保证实体标注数据集的质量的前提下,提高了实体标注数据集的生成效率、及完善性。
技术领域
本发明实施例涉及信息处理技术领域,尤其涉及一种实体标注数据集构建方法、装置及设备。
背景技术
在搜索引擎、问答系统、广告系统等人工智能领域中,在用户进行搜索时,在用户输入的查询文本中提取多个实体,并根据提取得到的多个实体和预设的实体标注数据集,向用户推荐精确的服务。
为了保证向用户推荐服务的精确性,需要依赖完善的实体标注数据集。实体标注数据集中包括多组数据,每组数据中包括一个短文本、该短文本中的实体、每个实体的实体标识。在现有技术中,通常由人工构建实体标注数据集,例如,人工选取特定领域的多个文本预料,人工标注出该多个文本预料中实体、及实体的实体标识。然而,人工构建实体标注数据集的效率太低,很难构建完善的实体标注数据集,导致现有的实体标注数据集的完善性较差。
发明内容
本发明实施例提供一种实体标注数据集构建方法、装置及设备,在保证实体标注数据集的质量的前提下,提高了实体标注数据集的生成效率、及完善性。
第一方面,本发明实施例提供一种实体标注数据集构建方法,包括:
获取实体集合,所述实体集合中包括多个具有歧义的实体及每个实体对应的实体别名;
在用户在预设时段内浏览的网页数据中获取所述实体集合对应的短文本集合,所述短文本集合中包括每个实体对应的短文本和每个实体别名对应的短文本,所述实体对应的短文本中包括所述实体,所述实体别名对应的短文本中包括所述实体别名;
获取所述短文本集合中每一个短文本中的实体;
接收用户输入的每个短文本中的实体对应的实体链接,并根据所述短文本集合、短文本集合中每个短文本中的实体、及每个短文本中的实体对应的实体链接,生成实体标注数据集。
在一种可能的实施方式中,所述在用户在预设时段内浏览的网页数据中获取所述实体集合对应的短文本集合,包括:
获取用户在预设时段内、以所述实体集合中的实体或实体别名为检索关键字检索到的网页集合;
在所述网页集合中的每个网页中提取短文本,得到多个短文本;
获取所述多个短文本的质量值;
将所述多个短文本中质量值大于预设阈值的短文本确定为所述短文本集合中的短文本。
在另一种可能的实施方式中,所述获取用户在预设时段内、以所述实体集合中的实体或实体别名为检索关键字检索到的网页集合,包括:
获取用户在所述预设时段内、以所述实体集合中的实体或实体别名为检索关键字检索到的网页的第一网址集合;
在所述第一网址集合中删除网页首页对应的网址,得到第二网址集合;
将所述第二网址集合对应的网页确定为所述网页集合。
在另一种可能的实施方式中,所述在所述网页集合中的每个网页中提取短文本,得到多个短文本,包括:
在所述网页集合中的每个网页中获取标题数据,得到包括多个标题数据的标题数据集合;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810706128.8/2.html,转载请声明来源钻瓜专利网。