[发明专利]文本断句方法及训练方法、装置、电子设备、存储介质在审
申请号: | 202111527234.8 | 申请日: | 2021-12-14 |
公开(公告)号: | CN114239554A | 公开(公告)日: | 2022-03-25 |
发明(设计)人: | 余勇宏 | 申请(专利权)人: | 上海流利说信息技术有限公司 |
主分类号: | G06F40/221 | 分类号: | G06F40/221;G06N3/04;G06N3/08 |
代理公司: | 上海知锦知识产权代理事务所(特殊普通合伙) 31327 | 代理人: | 潘彦君 |
地址: | 200090 上海市杨浦区长阳路*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 断句 方法 训练 装置 电子设备 存储 介质 | ||
文本断句方法及训练方法、装置、电子设备、存储介质,所述文本断句的训练方法包括:分别获取包含断句信息的第一训练语料和未包含断句信息的第二训练语料;对所述第二训练语料添加断句信息,得到第三训练语料;分别对所述第一训练语料和所述第三训练语料添加与断句信息相关的标注信息;将所述第一训练语料输入至预设的神经网络模型,对所述预设的神经网络模型进行预训练,得到初始文本断句模型;将所述第三训练语料输入至所述初始文本断句模型,对所述初始文本断句模型进行微调,得到文本断句模型。采用上述方案,能够提高断句的准确率。
技术领域
本说明书实施例涉及计算机自然语言处理技术领域,尤其涉及一种文本断句方法及训练方法、装置、电子设备、存储介质。
背景技术
目前,使用语音进行通信交互变得越来越普遍,而通过语音识别技术得到的输出文本通常没有断句信息(例如,标点符号),导致识别到的输出文本的可读性差。
随着深度学习技术的不断发展,可以采用经过训练学习的神经网络模型预测语音识别得到的文本的断句信息,例如,通过条件随机场(Conditional Random Field,CRF)模型预测经语音识别得到的文本的断句信息。然而,采用条件随机场模型,断句准确率低。
发明内容
有鉴于此,本说明书实施例提供一种文本断句方法及训练方法、装置、电子设备、存储介质,能够提高断句的准确率。
首先,本说明书实施例提供一种文本断句的训练方法,包括:
分别获取包含断句信息的第一训练语料和未包含断句信息的第二训练语料;
对所述第二训练语料添加断句信息,得到第三训练语料;
分别对所述第一训练语料和所述第三训练语料添加与断句信息相关的标注信息;
将所述第一训练语料输入至预设的神经网络模型,对所述预设的神经网络模型进行预训练,得到初始文本断句模型;
将所述第三训练语料输入至所述初始文本断句模型,对所述初始文本断句模型进行微调,得到文本断句模型。
可选地,所述断句信息包括标点符号信息;
所述对所述第一训练语料和所述第三训练语料添加与断句信息相关的标注信息,包括:分别对所述第一训练语料和所述第三训练语料进行分词,得到各语料对应的词单元;
根据所述各语料对应的词单元预设位置的标点符号信息,为所述各语料对应的词单元添加标注信息。
可选地,所述根据所述各语料对应的词单元预设位置的标点符号信息,为所述各语料对应的词单元添加标注信息之前,还包括:
对所述第一训练语料和所述第三训练语料中各语料对应的词单元进行数据清洗。
可选地,所述根据所述各语料对应的词单元预设位置的标点符号信息,为所述各语料对应的词单元添加标注信息之前,还包括:
根据预设的标点符号集合,识别所述各语料对应的词单元预设位置的标点符号信息;
在所述预设的标点符号集合中识别到所述各语料对应的词单元预设位置的标点符号时,将所述各语料对应的词单元预设位置的标点符号转换为预设标点符号。
可选地,所述各语料对应的词单元预设位置的标点符号包括句子结束符,所述句子结束符包括以下至少一种:感叹号、问号、省略号;
所述预设标点符号包括句号。
可选地,所述对所述第二训练语料添加断句信息,得到第三训练语料,包括:获取的所述第二训练语料为语音训练语料时,对所述语音训练语料进语音识别,得到对应的语音数据文本;
对所述语音数据文本添加断句信息,得到所述第三训练语料。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海流利说信息技术有限公司,未经上海流利说信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111527234.8/2.html,转载请声明来源钻瓜专利网。