[发明专利]语言模型构建方法、系统、计算机设备及可读存储介质在审

申请号：	201910917739.1	申请日：	2019-09-26
公开（公告）号：	CN110750976A	公开（公告）日：	2020-02-04
发明（设计）人：	石志娟;徐媛	申请（专利权）人：	平安科技(深圳)有限公司
主分类号：	G06F40/205	分类号：	G06F40/205;G06F16/35
代理公司：	11015 北京英特普罗知识产权代理有限公司	代理人：	王勇
地址：	518000 广东省深圳市福田区福***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明实施例提供了一种语言模型构建方法，所述方法包括：获取数据样本，并对所述数据样本中的句子进行分类挖掘，将挖掘得到的句子作为数据挖掘的结果；对挖掘出的句子进行句子频率与句子位置统计，根据句子频率与句子位置计算每个句子的重要程度，并根据每个句子的重要程度对挖掘出的句子进行排序；根据排序结果从所述挖掘出的句子中选取分类训练样本，所述分类训练样本用于训练与构建语言模型。本发明实施例由于提高了句子排序准确性，继而提高了分类训练样本的样本质量，通过高质量的分类训练样本训练语言模型，可以有效提升语言模型识别结果的准确度。
搜索关键词：	句子训练样本语言模型挖掘分类排序样本语言模型构建获取数据排序结果数据挖掘数据样本位置计算位置统计准确度构建
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种语言模型构建方法，其特征在于，所述方法包括：/n获取数据样本，并对所述数据样本中的句子进行分类挖掘，将挖掘得到的句子作为数据挖掘的结果；/n对挖掘出的句子进行句子频率与句子位置统计，根据句子频率与句子位置计算每个句子的重要程度，并根据每个句子的重要程度对挖掘出的句子进行排序；/n根据排序结果从所述挖掘出的句子中选取分类训练样本；/n根据所述分类训练样本构建文本分类器；/n通过所述文本分类器对所述数据样本进行分类，根据分类结果获取分类词表和分类语料；/n根据所述分类词表对所述分类语料进行挖掘，得到高频语言模板；及/n对所述高频语言模板进行训练，得到分类模板语言模型，并对所述分类语料进行训练，得到分类语言模型，对所述分类词表进行训练，得到分类词表语言模型。/n

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司，未经平安科技(深圳)有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201910917739.1/，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]语言模型构建方法、系统、计算机设备及可读存储介质在审

专利文献下载