[发明专利]标点符号的添加方法、装置和计算机设备有效
申请号: | 201710911956.0 | 申请日: | 2017-09-29 |
公开(公告)号: | CN107767870B | 公开(公告)日: | 2021-03-23 |
发明(设计)人: | 李剑风 | 申请(专利权)人: | 百度在线网络技术(北京)有限公司 |
主分类号: | G10L15/26 | 分类号: | G10L15/26;G06F40/284;G06F40/289;G06F40/30;G06N3/02 |
代理公司: | 北京清亦华知识产权代理事务所(普通合伙) 11201 | 代理人: | 宋合成 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 标点符号 添加 方法 装置 计算机 设备 | ||
本申请提出一种标点符号的添加方法、装置和计算机设备,其中,上述标点符号的添加方法包括:对待识别文本中的每个汉字进行编码,根据所述汉字的编码、所述汉字的分词词性和分词边界生成所述汉字的特征向量;将所述汉字的特征向量输入双向的长短时记忆模型,通过所述双向的长短时记忆模型生成所述汉字的输入特征;将所述汉字的输入特征输入深层神经网络模型,获得所述汉字后每种标点符号的添加结果对应的概率;根据概率最高的添加结果在所述汉字后添加标点符号。本申请可以实现利用待识别文本中汉字的双方向的上下文信息,为待识别文本添加标点符号,提高标点符号添加的准确性,提高用户体验。
技术领域
本申请涉及语音识别技术领域,尤其涉及一种标点符号的添加方法、装置和计算机设备。
背景技术
目前语音识别结果的准确率已经达到较高水平,但标点符号在语音中是不发音的,单纯根据语音信息加入标点符号的效果较差,使用文本信息为语音识别结果自动添加标点可以显著提高语音识别的用户体验。
现有的添加标点符号的方法,一般使用语音信息进行规则匹配,根据语音中的停顿等信息设置规则添加标点符号,但通常只能加入逗号等分隔符进行分句。
但是,由于标点不发音,只能通过静音长度判断是否需要加入分隔符,效果较差,用户体验不高。
发明内容
本申请旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本申请的第一个目的在于提出一种标点符号的添加方法,以实现利用待识别文本中汉字的双方向的上下文信息,为待识别文本添加标点符号,提高标点符号添加的准确性,提高用户体验。
本申请的第二个目的在于提出一种标点符号的添加装置。
本申请的第三个目的在于提出一种计算机设备。
本申请的第四个目的在于提出一种非临时性计算机可读存储介质。
为达上述目的,本申请第一方面实施例提出一种标点符号的添加方法,包括:对待识别文本中的每个汉字进行编码,根据所述汉字的编码、所述汉字的分词词性和分词边界生成所述汉字的特征向量;将所述汉字的特征向量输入双向的长短时记忆模型,通过所述双向的长短时记忆模型将所述汉字的特征向量与所述双向的长短时记忆模型获取的所述汉字的双方向的上下文信息结合,生成所述汉字的输入特征;将所述汉字的输入特征输入深层神经网络模型,获得所述汉字后每种标点符号的添加结果对应的概率,所述汉字后每种标点符号的添加结果对应的概率包括:所述汉字后不加标点符号的概率,以及所述汉字后加每种标点符号的概率;根据概率最高的添加结果在所述汉字后添加标点符号。
本申请实施例的标点符号的添加方法,对待识别文本中的每个汉字进行编码,根据上述汉字的编码、上述汉字的分词词性和分词边界生成上述汉字的特征向量,然后将上述汉字的特征向量输入双向的长短时记忆(Long Short-Term Memory;以下简称:LSTM)模型,通过上述双向的LSTM模型将上述汉字的特征向量与上述双向的LSTM模型获取的上述汉字的双方向的上下文信息结合,生成上述汉字的输入特征,将上述汉字的输入特征输入深层神经网络模型,获得上述汉字后每种标点符号的添加结果对应的概率,最后根据概率最高的添加结果在上述汉字后添加标点符号,从而可以实现利用待识别文本中汉字的双方向的上下文信息,为待识别文本添加标点符号,提高标点符号添加的准确性,提高用户体验。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于百度在线网络技术(北京)有限公司,未经百度在线网络技术(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710911956.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:龙头主体(TJ‑8009‑01)
- 下一篇:花洒主体(SF9009‑01)