[发明专利]自然语言分词构造方法及系统、自然语言分类方法及系统有效
申请号: | 201710852703.0 | 申请日: | 2017-09-19 |
公开(公告)号: | CN107491440B | 公开(公告)日: | 2021-07-16 |
发明(设计)人: | 罗欢;权圣 | 申请(专利权)人: | 马上消费金融股份有限公司 |
主分类号: | G06F40/284 | 分类号: | G06F40/284;G06F40/289;G06F16/33;G06F16/35 |
代理公司: | 北京银龙知识产权代理有限公司 11243 | 代理人: | 许静 |
地址: | 401121 重庆市渝北区*** | 国省代码: | 重庆;50 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 自然语言 分词 构造 方法 系统 分类 | ||
1.一种自然语言分词构造方法,其特征在于,包括:
获取自然语言的Ngram分词;
将所述Ngram分词按照位置序列顺序和窗口进行组合,得到组合分词,其中,每一Ngram分词与在后的每m个Ngram分词分别进行组合,且每一组合分词中两相邻Ngram分词在原位置序列顺序中所间隔的Ngram分词个数小于所述窗口,所述窗口大小为n,n≥2。
2.根据权利要求1所述的方法,其特征在于,所述将所述Ngram分词按照位置序列顺序和窗口进行组合的过程,包括:
将所述Ngram分词按照位置序列顺序和窗口进行二组合。
3.根据权利要求1所述的方法,其特征在于,所述将所述Ngram分词按照位置序列顺序和窗口进行组合的过程,包括:
将所述Ngram分词按照位置序列顺序和窗口进行三组合。
4.一种自然语言分类方法,其特征在于,包括:
获取自然语言的样本;
利用如权利要求1至3任一项所述的分词构造方法提取所述样本的组合分词;
利用所述组合分词对所述样本进行分类。
5.根据权利要求4所述的方法,其特征在于,所述利用所述组合分词对所述样本进行分类的过程,包括:
将所述组合分词输入至训练后模型中对所述样本进行分类;
其中,所述训练后模型为利用训练样本对基于逻辑回归算法构建的待训练模型进行训练后得到的模型,所述训练样本包括组合分词以及相应的分类信息。
6.一种自然语言分词构造系统,其特征在于,包括:
分词获取模块,用于获取自然语言的Ngram分词;
分词组合模块,用于将所述Ngram分词按照位置序列顺序和窗口进行组合,得到组合分词,其中,每一Ngram分词与在后的每m个Ngram分词分别进行组合,且每一组合分词中两相邻Ngram分词在原位置序列顺序中所间隔的Ngram分词个数小于所述窗口,所述窗口大小为n,n≥2。
7.一种自然语言分类系统,其特征在于,包括:
样本获取模块,用于获取自然语言的样本;
样本组合模块,用于利用如权利要求6所述的分词构造系统提取所述样本的组合分词;
样本分类模块,用于利用所述组合分词对所述样本进行分类。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于马上消费金融股份有限公司,未经马上消费金融股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710852703.0/1.html,转载请声明来源钻瓜专利网。