[发明专利]一种基于词频的skip语言模型的训练方法有效

申请号：	201610522055.8	申请日：	2016-06-30
公开（公告）号：	CN106257441B	公开（公告）日：	2019-03-15
发明（设计）人：	秦科;刘贵松;段贵多;罗光春	申请（专利权）人：	电子科技大学
主分类号：	G06F17/27	分类号：	G06F17/27
代理公司：	成都弘毅天承知识产权代理有限公司 51230	代理人：	徐金琼
地址：	611731 四川省成***	国省代码：	四川;51
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明公开了一种基于词频的skip语言模型的训练方法，涉及机器翻译技术领域，解决现有技术中由于语料缺乏引起统计语言模型的OOV的问题。本发明为收集中文句子；中文句子分词；生成学习集corpus；统计学习集corpus中的词汇和词频，生成中文词汇表wt；统计语料中短语和短语出现的次数，生成1‑n元中文短语表pt0；设定选择性跳过标准k，根据中文词汇表wt中的词频统计结果进行k的判断，出现次数k不大于i的所有词汇数量之和占全部词汇数量的60％以上时，取k＝i；根据k对中文句子进行选择性跳过处理，生成skip短语表pt1；将skip短语表pt1和中文短语表pt0合并，生成新的1‑n元中文短语表pt2；根据中文短语表pt2进行语言模型的训练，得到skip‑ngram语言模型。本发明用于得到语言模型概率表。
搜索关键词：	一种基于词频 skip 语言模型训练方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种基于词频的skip语言模型的训练方法，其特征在于，包括以下步骤：S1.收集语料，收集用于语言模型训练的中文句子，形成语料库；S2.中文句子分词：将语料库中每个中文句子切分成一个一个单独的词语，词语之间用空格分隔；S3.生成学习集corpus：将语料库中所有的中文句子生成训练需要的标准输入格式；S4.统计学习集corpus中的词汇和词频，生成中文词汇表wt，即遍历所有语料库中的中文句子，列举其中出现的所有词汇和标点，统计这些词汇和标点的出现数量，形成中文词汇表wt；S5.统计中文词汇表wt中短语和短语出现的次数，生成1‑n元中文短语表pt0，即按照n‑gram方式，根据选择n值的不同，列举所有n元短语并统计每个短语出现的次数，生成中文短语表pt0；S6.设定选择性跳过标准k，根据中文词汇表wt中的词频统计结果进行k的判断，当词汇的出现次数k不大于i的所有词汇数量之和占全部词汇数量的60％以上时，取k＝i；S7.根据步骤S6中k对中文句子进行选择性跳过处理，生成skip短语表pt1；S8.将skip短语表pt1和中文短语表pt0合并，生成新的1‑n元中文短语表pt2；S9.根据步骤S8中生成的中文短语表pt2进行语言模型的训练，得到skip‑ngram语言模型。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于电子科技大学，未经电子科技大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201610522055.8/，转载请声明来源钻瓜专利网。

上一篇：语义信息生成方法和语义信息生成装置
下一篇：计算机辅助翻译方法

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于词频的skip语言模型的训练方法有效

专利文献下载