[发明专利]实体标注数据集构建方法、装置及设备有效
申请号: | 201810706128.8 | 申请日: | 2018-06-28 |
公开(公告)号: | CN108959255B | 公开(公告)日: | 2019-09-10 |
发明(设计)人: | 王述;冯知凡;汪琦;陆超;张扬;朱勇 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F16/9535 |
代理公司: | 北京同立钧成知识产权代理有限公司 11205 | 代理人: | 董建姣;刘芳 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 短文本 实体标注 数据集 集合 实体集合 装置及设备 构建 链接 接收用户 网页数据 预设时段 完善性 歧义 浏览 保证 | ||
1.一种实体标注数据集构建方法,其特征在于,包括:
获取实体集合,所述实体集合中包括多个具有歧义的实体及每个实体对应的实体别名;
在用户在预设时段内浏览的网页数据中获取所述实体集合对应的短文本集合,所述短文本集合中包括每个实体对应的短文本和每个实体别名对应的短文本,所述实体对应的短文本中包括所述实体,所述实体别名对应的短文本中包括所述实体别名;
获取所述短文本集合中每一个短文本中的实体;
接收用户输入的每个短文本中的实体对应的实体链接,并根据所述短文本集合、短文本集合中每个短文本中的实体、及每个短文本中的实体对应的实体链接,生成实体标注数据集。
2.根据权利要求1所述的方法,其特征在于,所述在用户在预设时段内浏览的网页数据中获取所述实体集合对应的短文本集合,包括:
获取用户在预设时段内、以所述实体集合中的实体或实体别名为检索关键字检索到的网页集合;
在所述网页集合中的每个网页中提取短文本,得到多个短文本;
获取所述多个短文本的质量值;
将所述多个短文本中质量值大于预设阈值的短文本确定为所述短文本集合中的短文本。
3.根据权利要求2所述的方法,其特征在于,所述获取用户在预设时段内、以所述实体集合中的实体或实体别名为检索关键字检索到的网页集合,包括:
获取用户在所述预设时段内、以所述实体集合中的实体或实体别名为检索关键字检索到的网页的第一网址集合;
在所述第一网址集合中删除网页首页对应的网址,得到第二网址集合;
将所述第二网址集合对应的网页确定为所述网页集合。
4.根据权利要求2所述的方法,其特征在于,所述在所述网页集合中的每个网页中提取短文本,得到多个短文本,包括:
在所述网页集合中的每个网页中获取标题数据,得到包括多个标题数据的标题数据集合;
将所述标题数据集合中、除预设类型的标题数据之外的标题数据确定为所述多个短文本,所述预设类型包括网址类型、IP地址类型、纯数字类型、纯英文类型、纯符号类型、百科类型中的至少一种。
5.根据权利要求2所述的方法,其特征在于,所述获取所述多个短文本的质量值,包括:
通过预设模型对所述多个短文本进行实体标注;
获取所述预设模型对所述多个短文本进行实体标注的准确率;
根据所述预设模型对所述多个短文本进行实体标注的准确率,确定所述多个短文本的质量值。
6.根据权利要求1-5任一项所述的方法,其特征在于,针对所述短文本集合中的任意一个第一短文本,获取所述第一短文本中的实体,包括:
通过预设识别算法对所述第一短文本进行实体识别,得到多个第一实体;
接收用户对所述第一实体输入的修订操作,所述修订操作用于确认所述第一实体或者修改所述第一实体;
根据所述第一实体和所述修订操作,确定所述第一短文本中的实体。
7.根据权利要求1-5任一项所述的方法,其特征在于,所述根据所述短文本集合、短文本集合中每个短文本中的实体、及每个短文本中的实体对应的实体链接,生成实体标注数据集,包括:
获取所述实体链接对应的实体标识;
根据所述短文本集合、短文本集合中每个短文本中的实体、及每个短文本中的实体对应的实体标识,生成实体标注数据集。
8.根据权利要求1-5任一项所述的方法,其特征在于,所述获取实体集合,包括:
获取预设数据库中的每个实体的实体标识;
将所述预设数据库中实体标识的个数大于1的实体确定为所述实体集合中的实体。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810706128.8/1.html,转载请声明来源钻瓜专利网。