[发明专利]一种数据处理方法、装置和用于数据处理的装置在审

申请号：	201810084098.1	申请日：	2018-01-29
公开（公告）号：	CN110110292A	公开（公告）日：	2019-08-09
发明（设计）人：	姚光超	申请（专利权）人：	北京搜狗科技发展有限公司;搜狗（杭州）智能科技有限公司
主分类号：	G06F17/22	分类号：	G06F17/22;G06F17/27;G10L15/06;G10L15/22
代理公司：	北京润泽恒知识产权代理有限公司 11319	代理人：	莎日娜
地址：	100084 北京市海淀区中关***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	数据处理目标结构目标数据类型多元文法结构数据内存空间数据对应语音识别减小存储占用
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明实施例提供了一种数据处理方法、装置和用于数据处理的装置。其中的方法具体包括：从多元文法模型的结构数据中确定第一目标结构数据；确定所述第一目标结构数据对应的目标数据类型；按照所述目标数据类型，对所述第一目标结构数据进行存储。本发明实施例可以极大地减小多元文法模型占用的内存空间，进而可以提高语音识别的速度。

技术领域

本发明涉及语音识别技术领域，尤其涉及一种数据处理方法、装置和用于数据处理的装置。

背景技术

语音识别，是指将人类语音中的词汇内容转换为计算机可读的输入，例如将语音信号转换为文本等。随着语音识别技术的不断发展，语音识别技术的应用场景也更加广泛，例如上述应用场景可以包括：语音拨号、语音导航、室内设备控制、语音文档检索、简单的听写数据录入等。

n-gram(n元文法)模型是语音识别中常用的一种语言模型，其中，n通常为大于1的正整数，且通常n越大则语言模型的性能越高，语音识别的结果也越准确。

离线语音识别是指将语音识别所需要的语言模型等相关资源存储在客户端，由客户端在不联网的情况下完成语音识别的技术。然而，语言模型的数据量通常较大，将语言模型存储在客户端，会占用客户端大量的内存空间；上述内存空间的占用不仅会影响离线语音识别的运行速度，还会影响客户端中其它应用的运行。

发明内容

本发明实施例提供一种数据处理方法、装置和用于数据处理的装置，以解决现有技术中离线语音识别内存占用过大的问题。

为了解决上述问题，本发明实施例公开了一种数据处理方法，包括：

从多元文法模型的结构数据中确定第一目标结构数据；

确定所述第一目标结构数据对应的目标数据类型；

按照所述目标数据类型，对所述第一目标结构数据进行存储。