[发明专利]语料标注集的生成方法及装置、电子设备、存储介质有效
| 申请号: | 201811048957.8 | 申请日: | 2018-09-10 |
| 公开(公告)号: | CN110209764B | 公开(公告)日: | 2023-04-07 |
| 发明(设计)人: | 陆笛 | 申请(专利权)人: | 腾讯科技(北京)有限公司 |
| 主分类号: | G06F16/33 | 分类号: | G06F16/33;G10L15/26 |
| 代理公司: | 深圳市联鼎知识产权代理有限公司 44232 | 代理人: | 刘抗美 |
| 地址: | 100800 北京市海淀区海淀*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 语料 标注 生成 方法 装置 电子设备 存储 介质 | ||
本发明揭示了一种语料标注集的生成方法及装置、电子设备、计算机可读存储介质。本发明提供的技术方案,通过从查询日志中获得待标注语料集,获取多方对该语料集中查询语句的标注结果,筛选出标注结果相似的查询语句,进而由这些查询语句及其对应的标注结果构成语料标注集。由于语料标注集的查询语句属于多方标注结果相似的查询语句,所以语料标注集中查询语句的标注结果存在分歧的可能性较小,标注结果的准确性较高,进而将该准确性较高的语料标注集作为训练集进行意图识别模型等数据分析模型的训练,可以提高数据分析模型的准确性。
技术领域
本发明涉及计算机技术领域,特别涉及一种语料标注集的生成方法及装置、电子设备、计算机可读存储介质。
背景技术
在语音交互领域,主要是通过各种数据分析模型对用户输入的查询语句进行在线分析,识别用户意图,为用户提供精准的答复。而数据分析模型是通过对已标注的大量查询语句(简称训练集)进行训练得到的。所以,训练集中查询语句标注结果的准确性,直接影响了数据分析模型的准确,决定了语音交互功能的智能化水平。
目前,主要通过标注人员对查询语句进行人工标注。例如,标注出查询语句的查询意图(包括闲聊意图、音乐点播意图、天气查询意图等等)。所以标注人员的认知水平决定了查询语句的标注准确性。
由于标注人员的认知水平可能与常人的认知程度不同,或者对某个查询语句的认知存在偏差,因此很容易使训练集所包含的查询语句标注不准确,进而造成训练得到的数据分析模型误差较大,无法为用户提供精准的答复。
发明内容
为了解决相关技术中存在的由于标注人员的认知存在偏差,导致训练集中查询语句的标注结果不准确的问题,本发明提供了一种语料标注集的生成方法。
一方面,本发明提供了一种语料标注集的生成方法,包括:
获取查询日志;所述查询日志包括查询语句;
从所述查询日志中进行待标注查询语句的提取,获得待标注语料集;
获取多方对所述待标注语料集中查询语句的标注结果;
根据多方对同一查询语句的标注结果,从所述待标注语料集中筛选出标注结果相似的查询语句;
由所述标注结果相似的查询语句与对应的标注结果,生成语料标注集。
另一方面,本发明提供了另一种语料标注集的生成装置,其特征在于,包括:
日志获取模块,用于获取查询日志;所述查询日志包括查询语句;
语料集获得模块,用于从所述查询日志中进行待标注查询语句的提取,获得待标注语料集;
结果获取模块,用于获取多方对所述待标注语料集中查询语句的标注结果;
语句筛选模块,用于根据多方对同一查询语句的标注结果,从所述待标注语料集中筛选出标注结果相似的查询语句;
标注集生成模块,用于由所述标注结果相似的查询语句与对应的标注结果,生成语料标注集。
进一步的,本发明提供了一种电子设备,所述电子设备包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为执行上述语料标注集的生成方法。
进一步的,本发明提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序可由处理器执行完成上述语料标注集的生成方法。
本发明的实施例提供的技术方案可以包括以下有益效果:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(北京)有限公司,未经腾讯科技(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811048957.8/2.html,转载请声明来源钻瓜专利网。





