[发明专利]一种基于马尔可夫链的语料库文本分类方法有效
申请号: | 201910547151.1 | 申请日: | 2019-06-24 |
公开(公告)号: | CN110489544A | 公开(公告)日: | 2019-11-22 |
发明(设计)人: | 肖清林 | 申请(专利权)人: | 厦门美域中央信息科技有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F17/27 |
代理公司: | 11589 北京劲创知识产权代理事务所(普通合伙) | 代理人: | 王志敏<国际申请>=<国际公布>=<进入 |
地址: | 361008 福建省厦门市软件园*** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 词性 分词 语料库 分词结果 概率 原始数据 未使用 文本 隐马尔科夫模型 马尔可夫链 输入分类 文本分类 向量模型 用户访问 用户使用 查询 输入字 相关度 排序 | ||
一种基于马尔可夫链的语料库文本分类方法,包括以下具体步骤:提取语料库中的原始数据,并对语料库中的文本进行分词;将分词结果输入分类模型;对分词结果中的每一个字进行拆分,并依次输入字向量模型;获得该分词属于各个词性的第一概率;将获取的分词结果输入隐马尔科夫模型,获取该分词属于各个词性的第二概率;通过第一概率与第二概率进行计算确定该分词结果的词性;查询用户访问该语料库的原始数据,获取用户使用该语料库中分词的词性;查询用户的当前使用的分词词性和所有未使用的分词词性;并根据所有用户对该用户的当前未使用的分词词性进行计算;根据相关度由高到低对语料库文本进行排序。
技术领域
本发明涉及语料库文本分类技术领域,尤其涉及一种基于马尔可夫链的语料库文本分类方法。
背景技术
语料库指经科学取样和加工的大规模电子文本库。借助计算机分析工具,研究者可开展相关的语言理论及应用研究;语料库是语料库语言学研究的基础资源,也是经验主义语言研究方法的主要资源。应用于词典编纂,语言教学,传统语言研究,自然语言处理中基于统计或实例的研究等方面;在信息技术领域中,对于语料库的分类尤为重要,现有技术中往往按照词性进行分类,无法根据需要向用户推荐相关联的语料,使用颇为不便。
为解决上述问题,本申请中提出一种基于马尔可夫链的语料库文本分类方法。
发明内容
(一)发明目的
为解决背景技术中存在的在信息技术领域中,对于语料库的分类尤为重要,现有技术中往往按照词性进行分类,无法根据需要向用户推荐相关联的语料,使用颇为不便的技术问题,本发明提出一种基于马尔可夫链的语料库文本分类方法,本发明中在用户使用语料库时,计算语料库中词语的词性,并根据用户的初始状态向量和转移概率向量计算相关度,并将相关度高的语料文本进行推送,便于用户使用。
(二)技术方案
为解决上述问题,本发明提供了一种基于马尔可夫链的语料库文本分类方法,包括以下具体步骤:
S1、提取语料库中的原始数据,并对语料库中的文本进行分词;获得分词结果;
S2、将分词结果输入分类模型;用于对分词结果进行分类确定词性;
S3、对分词结果中的每一个字进行拆分,并依次输入字向量模型;字向量模型用于获取分词结果中每个字所对应的向量;
S4、计算分词结果中每一个字所对应向量的余弦值;获取分词结果中每个字所对应向量余弦值的乘积;获得该分词属于各个词性的第一概率;
S5、将获取的分词结果输入隐马尔科夫模型,获取该分词属于各个词性的第二概率;
S6、通过第一概率与第二概率进行计算确定该分词结果的词性;
S7、查询用户访问该语料库的原始数据,获取用户使用该语料库中分词的词性,并基于朴素贝叶斯算法,计算用户对该分词词性的喜欢的概率和不喜欢的概率;使用过的分词词性喜欢的概率和不喜欢的概率之和记为初始状态概率;初始状态概率使用向量形式表示;
S8、查询用户的当前使用的分词词性和所有未使用的分词词性;并根据所有用户对该用户的当前未使用的分词词性进行计算,获得用户对每一个未使用分词词性的喜欢的概率和不喜欢的概率;未使用过的分词词性喜欢的概率和不喜欢的概率之和记为当前用户的转移概率,所获得的结果使用向量表示;
S9、根据用户的初始状态向量和转移概率向量的余弦值计算相关度;
S10、根据相关度由高到低对语料库文本进行排序。
优选的,分词结果中包含中文词语序列和英文词语序列。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于厦门美域中央信息科技有限公司,未经厦门美域中央信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910547151.1/2.html,转载请声明来源钻瓜专利网。