[发明专利]语料分类方法及装置有效

申请号：	201611027175.7	申请日：	2016-11-17
公开（公告）号：	CN106782516B	公开（公告）日：	2020-02-07
发明（设计）人：	张勇	申请（专利权）人：	北京云知声信息技术有限公司
主分类号：	G10L15/08	分类号：	G10L15/08;G10L15/06;G10L15/14;G10L19/035
代理公司：	11477 北京尚伦律师事务所	代理人：	张俊国
地址：	100191 北京市海***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	语料分类方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明是关于一种语料分类方法及装置，其中，方法包括：从语料数据库中提取出包含性别特证词的第一语料；将所述第一语料进行性别分类；根据接收到的分类标记命令，对所述语料数据库中的第二语料进行性别分类标记，其中，所述第二语料不同于所述第一语料；利用标记后的所述第二语料和libshortext)算法进行训练，得到性别分类模型；使用所述性别分类模型对所述语料数据库中除所述第一语料和所述第二语料之外的第三预料进行性别分类，以得到所述语料数据库对应的性别分类结果。通过该技术方案，可以在在保证语料分类的准确率的基础上，提高语料分类的效率，减少用户操作，从而提升用户的使用体验。

技术领域

本发明涉及语音分类技术领域，尤其涉及一种语料分类方法及装置。

背景技术

目前，如果需要对语料库中的语料进行分类，需要人工进行标注，这样，在语料库中的语料较多时，用户操作时间则会很久，用户体验不佳。

发明内容

本发明实施例提供一种语料分类方法及装置，用以实现在保证语料分类的准确率的基础上，提高语料分类的效率，减少用户操作，从而提升用户的使用体验。

根据本发明实施例的第一方面，提供一种语料分类方法，包括：

从语料数据库中提取出包含性别特证词的第一语料；

将所述第一语料进行性别分类；

根据接收到的分类标记命令，对所述语料数据库中的第二语料进行性别分类标记，其中，所述第二语料不同于所述第一语料；

利用标记后的所述第二语料和libshortext(支持向量机短分类)算法进行训练，得到性别分类模型；

使用所述性别分类模型对所述语料数据库中除所述第一语料和所述第二语料之外的第三预料进行性别分类，以得到所述语料数据库对应的性别分类结果。