[发明专利]一种文本自动分类方法及系统在审
| 申请号: | 202210411343.1 | 申请日: | 2022-04-19 |
| 公开(公告)号: | CN114741512A | 公开(公告)日: | 2022-07-12 |
| 发明(设计)人: | 李晔;沈自强;白全民;王金颖 | 申请(专利权)人: | 山东省科技发展战略研究所 |
| 主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/33;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 济南圣达知识产权代理有限公司 37221 | 代理人: | 闫圣娟 |
| 地址: | 250014 山*** | 国省代码: | 山东;37 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 文本 自动 分类 方法 系统 | ||
1.一种文本自动分类方法,其特征是:包括以下步骤:
获取待分类的文本数据,设置文本数据的分类准则并按照分类准则对文本数据进行标注;
读取待分类的文本数据,对文本数据正文信息进行预处理;
提取文本数据正文句子,计算正文句子的特征贡献值并提取关键子句,基于特征贡献值进行关键子句重排序;
将关键子句与文本数据标题进行融合作为特征文本数据,组成数据集并划分为训练集和验证集;
读取特征文本数据,将文本数据转化为特征向量,并记录到TFRecord格式文件中;
设置训练参数,读取TFRecord格式文件并将其转化为标准的模型输入,输入修正后的BERT模型中进行训练,输出分类结果。
2.如权利要求1所述的一种文本自动分类方法,其特征在于,获取待分类的文本数据后,在文本主题工具视角下定义文本分类准则,对文本记载的文字进行划分标题种类,采用二级编码的方式对划分的文本种类进行分类标注。
3.如权利要求1所述的一种文本自动分类方法,其特征在于,对文本数据正文信息进行预处理的方式为:
对文本正文信息进行读取,对文本正文信息进行分词、分句、去除停用词以及统计词频。
4.如权利要求1所述的一种文本自动分类方法,其特征在于,特征贡献值的计算公式为:
Featurescore=WS+TS-HS;
WS为句权重、TS为主题强度、HS为句信息量。
5.如权利要求4所述的一种文本自动分类方法,其特征在于,计算任意两个句子的相似度:
Si,Sj分别表示两个句子,Wk表示句子中的词,分子部分的意思是同时出现在两个句子中的同一个词的个数,分母是对句子中词的个数求对数之和。
6.如权利要求5所述的一种文本自动分类方法,其特征在于,循环计算任意两个句子之间的相似度,进而对各个句子的权重值进行迭代计算得到每个句子的句权重WS,即:
公式中,WS(Si)是句子Si的权重值,d表示阻尼系数(0≤d≤1),表示某一句子随机指向到另一句子的概率,一般取值为0.85。对于特定句子Si,In(Si)为指向句子Si的句子集,Out(Sj)为句子Sj向外指向的句子集,wji表示Si,Sj的相似度,WS(Sj)表示上一次迭代后句子Sj的权重值。
7.如权利要求4所述的一种文本自动分类方法,其特征在于,主题强度的计算方式为:
将每个句子中的词语Wk与种子词表中的关键词Tj进行相似度计算,
Wk与Tj是词向量,种子词表为人工设置的每个类别下的关键词,则TS计算公式为:
n为种子词表词语个数、m为句子词语个数。
8.如权利要求4所述的一种文本自动分类方法,其特征在于,计算每个句子中的词语在正文中出现的概率P(wk),则HS计算公式为:
HS(Si)=-∑kP(wk)logP(wk)。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山东省科技发展战略研究所,未经山东省科技发展战略研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210411343.1/1.html,转载请声明来源钻瓜专利网。





