[发明专利]实体标注数据集构建方法、装置及设备有效
申请号: | 201810706128.8 | 申请日: | 2018-06-28 |
公开(公告)号: | CN108959255B | 公开(公告)日: | 2019-09-10 |
发明(设计)人: | 王述;冯知凡;汪琦;陆超;张扬;朱勇 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F16/9535 |
代理公司: | 北京同立钧成知识产权代理有限公司 11205 | 代理人: | 董建姣;刘芳 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明实施例提供一种实体标注数据集构建方法、装置及设备,该方法包括:获取实体集合,实体集合中包括多个具有歧义的实体及每个实体对应的实体别名;在用户在预设时段内浏览的网页数据中获取实体集合对应的短文本集合,短文本集合中包括每个实体对应的短文本和每个实体别名对应的短文本;获取短文本集合中每一个短文本中的实体;接收用户输入的每个短文本中的实体对应的实体链接,并根据短文本集合、短文本集合中每个短文本中的实体、及每个短文本中的实体对应的实体链接,生成实体标注数据集。在保证实体标注数据集的质量的前提下,提高了实体标注数据集的生成效率、及完善性。 | ||
搜索关键词: | 短文本 实体标注 数据集 集合 实体集合 装置及设备 构建 链接 接收用户 网页数据 预设时段 完善性 歧义 浏览 保证 | ||
【主权项】:
1.一种实体标注数据集构建方法,其特征在于,包括:获取实体集合,所述实体集合中包括多个具有歧义的实体及每个实体对应的实体别名;在用户在预设时段内浏览的网页数据中获取所述实体集合对应的短文本集合,所述短文本集合中包括每个实体对应的短文本和每个实体别名对应的短文本,所述实体对应的短文本中包括所述实体,所述实体别名对应的短文本中包括所述实体别名;获取所述短文本集合中每一个短文本中的实体;接收用户输入的每个短文本中的实体对应的实体链接,并根据所述短文本集合、短文本集合中每个短文本中的实体、及每个短文本中的实体对应的实体链接,生成实体标注数据集;所述在用户在预设时段内浏览的网页数据中获取所述实体集合对应的短文本集合,包括:获取用户在预设时段内、以所述实体集合中的实体或实体别名为检索关键字检索到的网页集合;在所述网页集合中的每个网页中提取短文本,得到多个短文本;获取所述多个短文本进行实体标注的质量值;将所述多个短文本中质量值大于预设阈值的短文本确定为所述短文本集合中的短文本。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201810706128.8/,转载请声明来源钻瓜专利网。