[发明专利]一种基于马尔可夫链的语料库文本分类方法有效
申请号: | 201910547151.1 | 申请日: | 2019-06-24 |
公开(公告)号: | CN110489544A | 公开(公告)日: | 2019-11-22 |
发明(设计)人: | 肖清林 | 申请(专利权)人: | 厦门美域中央信息科技有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F17/27 |
代理公司: | 11589 北京劲创知识产权代理事务所(普通合伙) | 代理人: | 王志敏<国际申请>=<国际公布>=<进入 |
地址: | 361008 福建省厦门市软件园*** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 一种基于马尔可夫链的语料库文本分类方法,包括以下具体步骤:提取语料库中的原始数据,并对语料库中的文本进行分词;将分词结果输入分类模型;对分词结果中的每一个字进行拆分,并依次输入字向量模型;获得该分词属于各个词性的第一概率;将获取的分词结果输入隐马尔科夫模型,获取该分词属于各个词性的第二概率;通过第一概率与第二概率进行计算确定该分词结果的词性;查询用户访问该语料库的原始数据,获取用户使用该语料库中分词的词性;查询用户的当前使用的分词词性和所有未使用的分词词性;并根据所有用户对该用户的当前未使用的分词词性进行计算;根据相关度由高到低对语料库文本进行排序。 | ||
搜索关键词: | 词性 分词 语料库 分词结果 概率 原始数据 未使用 文本 隐马尔科夫模型 马尔可夫链 输入分类 文本分类 向量模型 用户访问 用户使用 查询 输入字 相关度 排序 | ||
【主权项】:
1.一种基于马尔可夫链的语料库文本分类方法,其特征在于,包括以下具体步骤:/nS1、提取语料库中的原始数据,并对语料库中的文本进行分词;获得分词结果;/nS2、将分词结果输入分类模型;用于对分词结果进行分类确定词性;/nS3、对分词结果中的每一个字进行拆分,并依次输入字向量模型;字向量模型用于获取分词结果中每个字所对应的向量;/nS4、计算分词结果中每一个字所对应向量的余弦值;获取分词结果中每个字所对应向量余弦值的乘积;获得该分词属于各个词性的第一概率;/nS5、将获取的分词结果输入隐马尔科夫模型,获取该分词属于各个词性的第二概率;/nS6、通过第一概率与第二概率进行计算确定该分词结果的词性;/nS7、查询用户访问该语料库的原始数据,获取用户使用该语料库中分词的词性,并基于朴素贝叶斯算法,计算用户对该分词词性的喜欢的概率和不喜欢的概率;使用过的分词词性喜欢的概率和不喜欢的概率之和记为初始状态概率;初始状态概率使用向量形式表示;/nS8、查询用户的当前使用的分词词性和所有未使用的分词词性;并根据所有用户对该用户的当前未使用的分词词性进行计算,获得用户对每一个未使用分词词性的喜欢的概率和不喜欢的概率;未使用过的分词词性喜欢的概率和不喜欢的概率之和记为当前用户的转移概率,所获得的结果使用向量表示;/nS9、根据用户的初始状态向量和转移概率向量的余弦值计算相关度;/nS10、根据相关度由高到低对语料库文本进行排序。/n
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于厦门美域中央信息科技有限公司,未经厦门美域中央信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201910547151.1/,转载请声明来源钻瓜专利网。