[发明专利]语言模型的构建方法和装置在审

申请号：	201610423002.0	申请日：	2016-06-14
公开（公告）号：	CN107506345A	公开（公告）日：	2017-12-22
发明（设计）人：	方昕;刘俊华;吴明辉;魏思;胡国平;胡郁;刘庆峰	申请（专利权）人：	科大讯飞股份有限公司
主分类号：	G06F17/27	分类号：	G06F17/27
代理公司：	北京清亦华知识产权代理事务所(普通合伙)11201	代理人：	张大威
地址：	230088 安徽省***	国省代码：	安徽;34
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	语言模型构建方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明涉及自然语言处理技术领域，尤其涉及一种语言模型的构建方法和装置。

背景技术

随着自然语言理解技术的不断发展，语言模型在越来越多的领域发挥着重要的作用，例如语音识别，手写识别，机器翻译等领域；优秀的语言模型对提高这些领域的效果起着举足轻重的作用，因此也得到了学者们越来越多的的研究和关注。通常的语言模型的构建方法包括：N-gram语言模型构建，和循环神经网络(Recurrent Neural Network，RNN)语言模型构建。通常来讲，训练数据的数据量越大，训练生成的语言模型的效果越好。

黏着语是语言的一种语法类型，包括词干和词缀，词干和词缀统称为子词。有些黏着语使用范围比较小，比如维语、蒙古语这些黏着语的使用人数都比较少。

相关技术中，在构造黏着语的语言模型时，通常是收集包括整词的数据，对这些数据进行切词后，将整词对应的词向量或子词对应的词向量作为模型训练的输入。

对于维语、蒙古语等使用范围较小的语言，其能够收集的数据非常有限，而黏着语一般词典都较为庞大，从而由于训练数据的数据量很小，会影响语言模型的效果。

发明内容

本发明旨在至少在一定程度上解决相关技术中的技术问题之一。

为此，本发明的一个目的在于提出一种语言模型的构建方法，该方法可以提高构建的语言模型的效果。

本发明的另一个目的在于提出一种语言模型的构建装置。

为达到上述目的，本发明第一方面实施例提出的语言模型的构建方法，包括：确定建模单元；获取所述建模单元的词向量，以及除所述词向量之外的其他特征向量；根据所述词向量和所述其他特征向量，生成所述建模单元对应的语言模型。

本发明第一方面实施例提出的语言模型的构建方法，通过获取建模单元的词向量之外，还获取了其他特征向量，可以充分利用能够收集到的数据的多种信息，提高构建的语言模型的效果。

为达到上述目的，本发明第二方面实施例提出的语言模型的构建装置，包括：确定模块，用于确定建模单元；获取模块，用于获取所述建模单元的词向量，以及除所述词向量之外的其他特征向量；生成模块，用于根据所述词向量和所述其他特征向量，生成所述建模单元对应的语言模型。

本发明第二方面实施例提出的语言模型的构建装置，通过获取建模单元的词向量之外，还获取了其他特征向量，可以充分利用能够收集到的数据的多种信息，提高构建的语言模型的效果。

本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1是本发明一个实施例提出的语言模型的构建方法的流程示意图；

图2是本发明实施例中根据一种建模单元生成语言模型的示意图；

图3是本发明实施例中根据另一种建模单元生成语言模型的示意图；

图4是本发明实施例中根据另一种建模单元生成语言模型的示意图；

图5是本发明一个实施例提出的语言模型的构建装置的结构示意图；

图6是本发明另一个实施例提出的语言模型的构建装置的结构示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的模块或具有相同或类似功能的模块。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。相反，本发明的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。

如上所示，仅以收集到的数据的词向量本身作为输入进行模型训练会存在效果不理想的问题。

为了在能够收集的数据有限的基础上，提高训练得到的语言模型的效果，本申请将不仅会获取到整词或子词这些建模单元对应的词向量，还会获取到词向量之外的其他特征向量，以充分利用能够收集到的数据的信息。

进一步的，本申请中将不仅会选择整词或子词作为建模单元，还可以选择其他的建模单元。具体的，对于黏着语的语言模型的构建，由于黏着语的语义信息大部分由词干表示，则还可以选择词干作为建模单元。

具体内容可以参见后续的实施例。

图1是本发明一个实施例提出的语言模型的构建方法的流程示意图。

参见图1，本实施例的流程包括：

S11：确定建模单元。

其中，可以从收集的数据中确定建模单元。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于科大讯飞股份有限公司，未经科大讯飞股份有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201610423002.0/2.html，转载请声明来源钻瓜专利网。