[发明专利]一种基于词频显著度水平的英文文本类别识别方法及系统有效
申请号: | 202010735101.9 | 申请日: | 2020-07-28 |
公开(公告)号: | CN111859915B | 公开(公告)日: | 2023-10-24 |
发明(设计)人: | 蒋东辰;李萍;李群;牛颖 | 申请(专利权)人: | 北京林业大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/216;G06F40/289;G06F40/30 |
代理公司: | 北京科迪生专利代理有限责任公司 11251 | 代理人: | 张乾桢 |
地址: | 100083 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 词频 显著 水平 英文 文本 类别 识别 方法 系统 | ||
1.一种基于词频显著度水平的英文文本类别识别方法,其特征在于,包括如下步骤:
步骤1、示例文本词频统计:将各示例文本中的概念实词做标准化处理,统计各个类别中各概念实词的词频信息,为后续文本类别的特征提取提供数据支持;
步骤2、文本类别特征提取:基于各类别示例文本的词频统计信息,根据给定的显著性水平α,采用假设检验的方法确定各个主题类别的特征词,得到特征词集合;
步骤3、零出现特征词识别:在特征词集合中,找出在目标文本中没有出现,但却构成部分类别负特征的单词;
步骤4、目标文本词频统计:统计目标文本中所有特征词的词频信息;
步骤5、目标文本类别识别:根据目标文本和特征词集合中单词的词频信息、零出现特征词集合,以及给定的类别距离计算方法,确定目标文本的类别归属。
2.根据权利要求1所述的一种基于词频显著度水平的英文文本类别识别方法,其特征在于,所述步骤1包括:
将句首单词的首字母大写转为小写,将名词复数转换为单数形式,将动词各种时态形式转换为原形,将形容词和副词的比较级和最高级转换为原形;之后,再针对各个类别,分别统计各类别中概念实词原形的词频信息。
3.根据权利要求1所述的一种基于词频显著度水平的英文文本类别识别方法,其特征在于,所述步骤1具体包括:
对每一具体的主题类别Ki,1=i=M,M为主题类别的数量,使用KCi[W]存储概念实词W在Ki类别中所有示例文本中的出现次数,用KFi[W]存储W在Ki类别中所有示例文本中的出现频率,用Counti存储Ki类别中所有示例文本中所有单词的总出现次数;示例文本词频统计的具体步骤方法如下:
步骤1.1对每一个类别Ki,令Counti=0;对每一个概念实词W,令KCi[W]=0;对类别Ki中的每一篇示例文本T,从该文本第一个位置的单词w开始,执行如下操作:
步骤1.2如果w位于句首且仅有首字母大写,则将w的首字母由大写改为小写,转步骤1.3;否则,转步骤1.3;
步骤1.3在名词复数表Plural中查询:如果w是某个名词的复数形式,将w替换为该名词的单数原形,转步骤1.10;否则,转步骤1.4;
步骤1.4在动词单三表SingleThree中查询:如果w是某个动词的单三形式,将w替换为该动词的原形,转步骤1.10;否则,转步骤1.5;
步骤1.5在动词过去式表PastTense中查询:如果w是某个动词的过去式形式,将w替换为该动词的原形,转步骤1.10;否则,转步骤1.6;
步骤1.6在动词过去分词表PastParticiple中查询:如果w是某个动词的过去分词形式,将w替换为该动词的原形,转步骤1.10;否则,转步骤1.7;
步骤1.7在动词现在分词表PresentParticiple中查询:如果w是某个动词的现在分词形式,将w替换为该动词的原形,转步骤1.10;否则,转步骤1.8;
步骤1.8在形容词-副词比较级表Comparative中查询:如果w是某个形容词或副词的比较级形式,将w替换为该形容词或副词的原形,转步骤1.10;否则,转步骤1.9;
步骤1.9在形容词-副词最高级单表Superlative中查询:如果w是某个形容词或副词的最高级形式,将w替换为该形容词或副词的原形,转步骤1.10;否则,转步骤1.10;
步骤1.10将Counti加1;在概念实词原形表NWord中查询:如果w是某个概念实词原形,则,将KCi[w]加1,转步骤1.11;否则,转步骤1.11;
步骤1.11如果w当前所在位置不是文档的最后一个单词位置,用w记录其后面一个位置的单词,转步骤1.2;否则,转步骤1.12;
步骤1.12对每一个类别Ki及文档中的每一个概念实词W,计算KFi[W]=KCi[W]/Counti。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京林业大学,未经北京林业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010735101.9/1.html,转载请声明来源钻瓜专利网。