[发明专利]一种基于词频显著度水平的英文文本类别识别方法及系统有效
申请号: | 202010735101.9 | 申请日: | 2020-07-28 |
公开(公告)号: | CN111859915B | 公开(公告)日: | 2023-10-24 |
发明(设计)人: | 蒋东辰;李萍;李群;牛颖 | 申请(专利权)人: | 北京林业大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/216;G06F40/289;G06F40/30 |
代理公司: | 北京科迪生专利代理有限责任公司 11251 | 代理人: | 张乾桢 |
地址: | 100083 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 词频 显著 水平 英文 文本 类别 识别 方法 系统 | ||
本发明提出一种基于词频显著度水平的英文文本类别识别方法及系统,所述方法包括如下步骤:步骤1、示例文本词频统计:将各文本中的概念实词做标准化处理,统计各个类别中各概念实词的词频信息,为后续文本类别的特征提取提供数据支持;步骤2、文本类别特征提取:基于各类别示例文本的词频统计信息,根据给定的显著性水平α,采用假设检验的方法确定各个主题类别的特征词,得到特征词集合;步骤3、零出现特征词识别:在特征词集合中,找出在目标文本中没有出现,但却构成某些类别负特征的单词;步骤4、目标文本词频统计:统计目标文本中所有特征词的词频信息;步骤5、目标文本类别识别:根据目标文本和特征词集合中单词的词频信息、零出现特征词集合,以及给定的类别距离计算方法,确定目标文本的类别归属。
技术领域
本发明属于英语文字信息处理领域,特别涉及一种基于词频显著性水平的英文文本类别识别系统及方法。
背景技术
互联网技术的发展对英语教学产生了重要的影响。一方面,随着互联网的普及,各种形式的英语资源在网络媒介上大量出现,这为英语学习、教学提供了丰富生动的语料;另一方面,网络技术的进步使得网络带宽不断提升、价格不断降低,这促使英语在线教学进入快速发展阶段,对语料的需求不断增加。
在英语教学过程中,学生需要对各种题材、主题的英文文本有一定量的学习积累,才能建立系统全面的英语认知体系。当代英语教学要求教学材料尽可能选择真实、地道的语言素材。面对互联网上的海量英语语料资源,传统上以人工筛选教学语料的方式已无法充分发挥互联网的资源优势。如何从丰富的网络语料中有效提取适合学生学习的英文文本,这已成为英语教学中一个亟待解决的问题。
面对互联网的海量语料资源和传统人工筛选方式的不足,需要一种有效的自动方法实现对海量英文文本的主题、题材的自动筛选和识别。一旦适合主题、题材的备选素材确定后,词汇、语法等超纲内容的修改就可以通过同义词替换、文本改写等方法实现。由于筛选后最终使用的文本数量规模有限,这之后的更改和调整工作就可以通过英语编辑或教师人工完成。因此,自动识别英文文本的主题是筛选适合学生学习英文文本的关键。
文档主题自动识别的核心是如何从示例文本中抽取出能够体现主题类别的特征。当前主要研究多以词频统计或机器学习等方法确定主题类别特征。这些方法有效,但也存在一些问题:基于词频统计的主题识别方法获得的特征规模通常较大,在目标文本类别判定过程中会产生多个特征之间的相互干扰。基于机器学习的方法往往对训练文本的规模有较高要求;此外,还需根据具体主题划分的类别对训练模型的参数进行针对性的调整。这对于缺乏计算机专业研究背景的英语工作人员来说是不现实的。
现有的英文文本主题类别识别方法大致可以分为三类:基于词频统计的文本分类、基于机器学习的文本分类、混合式的文本分类。
基于词频统计的文本分类方法先基于文本单词的频率、TF-IDF指标等统计量构建文本的类别特征,再通过分类算法实现对目标文本归属的判别。常用的统计量包括:单词在文本中出现的频率、单词是否出现(出现标为1,否则标为0),以及刻画单词对文本重要程度的TF-IDF指标;以一种统计量为基础,研究者再采用最近距离法、贝叶斯分类法等具体分类方法实现对目标文本主题类别的判定。由于文本的单词数量众多,文本特征表示往往需要几万甚至是几十万维度。高维度特征在一定程度上增加了存储和计算的负担;同时,众多维度的特征有时会产生相互干扰,导致目标文本类别的误判。
基于机器学习的文本分类方法将训练文本以单词序列的形式输入机器学习模型,通过不断的反馈、调整,逐步确定模型参数,最终获得针对某一具体分类问题的识别模型。在该类方法中,常用的学习模型包括多种卷积神经网络(CNN)、循环神经网络(RNN),也可将已有解决其他自然语言处理问题的神经网络作为前置或后置层构建神经网络模型。如果模型参数选择恰当,这类方法准确度高。但其存在的问题是:对训练集的数据量要求非常高,训练集标注成本高;同时,要使得机器学习模型训练获得良好的收敛效果,往往要求针对性的调整模型的参数,这对于不具备计算机相关专业研究背景的英语教育工作人员来说并不现实。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京林业大学,未经北京林业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010735101.9/2.html,转载请声明来源钻瓜专利网。