[发明专利]语料标注集的生成方法及装置、电子设备、存储介质有效
| 申请号: | 201811048957.8 | 申请日: | 2018-09-10 |
| 公开(公告)号: | CN110209764B | 公开(公告)日: | 2023-04-07 |
| 发明(设计)人: | 陆笛 | 申请(专利权)人: | 腾讯科技(北京)有限公司 |
| 主分类号: | G06F16/33 | 分类号: | G06F16/33;G10L15/26 |
| 代理公司: | 深圳市联鼎知识产权代理有限公司 44232 | 代理人: | 刘抗美 |
| 地址: | 100800 北京市海淀区海淀*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | 本发明揭示了一种语料标注集的生成方法及装置、电子设备、计算机可读存储介质。本发明提供的技术方案,通过从查询日志中获得待标注语料集,获取多方对该语料集中查询语句的标注结果,筛选出标注结果相似的查询语句,进而由这些查询语句及其对应的标注结果构成语料标注集。由于语料标注集的查询语句属于多方标注结果相似的查询语句,所以语料标注集中查询语句的标注结果存在分歧的可能性较小,标注结果的准确性较高,进而将该准确性较高的语料标注集作为训练集进行意图识别模型等数据分析模型的训练,可以提高数据分析模型的准确性。 | ||
| 搜索关键词: | 语料 标注 生成 方法 装置 电子设备 存储 介质 | ||
【主权项】:
1.一种语料标注集的生成方法,其特征在于,包括:获取查询日志;所述查询日志包括查询语句;从所述查询日志中进行待标注查询语句的提取,获得待标注语料集;获取多方对所述待标注语料集中查询语句的标注结果;根据多方对同一查询语句的标注结果,从所述待标注语料集中筛选出标注结果相似的查询语句;由所述标注结果相似的查询语句与对应的标注结果,生成语料标注集。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(北京)有限公司,未经腾讯科技(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201811048957.8/,转载请声明来源钻瓜专利网。





