[发明专利]一种文本自动分类方法及系统在审

申请号：	202210411343.1	申请日：	2022-04-19
公开（公告）号：	CN114741512A	公开（公告）日：	2022-07-12
发明（设计）人：	李晔;沈自强;白全民;王金颖	申请（专利权）人：	山东省科技发展战略研究所
主分类号：	G06F16/35	分类号：	G06F16/35;G06F16/33;G06K9/62;G06N3/04;G06N3/08
代理公司：	济南圣达知识产权代理有限公司 37221	代理人：	闫圣娟
地址：	250014 山***	国省代码：	山东;37
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种文本自动分类方法系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种文本自动分类方法，其特征是：包括以下步骤：

获取待分类的文本数据，设置文本数据的分类准则并按照分类准则对文本数据进行标注；

读取待分类的文本数据，对文本数据正文信息进行预处理；

提取文本数据正文句子，计算正文句子的特征贡献值并提取关键子句，基于特征贡献值进行关键子句重排序；

将关键子句与文本数据标题进行融合作为特征文本数据，组成数据集并划分为训练集和验证集；

读取特征文本数据，将文本数据转化为特征向量，并记录到TFRecord格式文件中；

设置训练参数，读取TFRecord格式文件并将其转化为标准的模型输入，输入修正后的BERT模型中进行训练，输出分类结果。

2.如权利要求1所述的一种文本自动分类方法，其特征在于，获取待分类的文本数据后，在文本主题工具视角下定义文本分类准则，对文本记载的文字进行划分标题种类，采用二级编码的方式对划分的文本种类进行分类标注。

3.如权利要求1所述的一种文本自动分类方法，其特征在于，对文本数据正文信息进行预处理的方式为：

对文本正文信息进行读取，对文本正文信息进行分词、分句、去除停用词以及统计词频。

4.如权利要求1所述的一种文本自动分类方法，其特征在于，特征贡献值的计算公式为：

Feature_score＝WS+TS-HS；

WS为句权重、TS为主题强度、HS为句信息量。

5.如权利要求4所述的一种文本自动分类方法，其特征在于，计算任意两个句子的相似度：

S_i，S_j分别表示两个句子，W_k表示句子中的词，分子部分的意思是同时出现在两个句子中的同一个词的个数，分母是对句子中词的个数求对数之和。

6.如权利要求5所述的一种文本自动分类方法，其特征在于，循环计算任意两个句子之间的相似度，进而对各个句子的权重值进行迭代计算得到每个句子的句权重WS，即：

公式中，WS(S_i)是句子S_i的权重值，d表示阻尼系数(0≤d≤1)，表示某一句子随机指向到另一句子的概率，一般取值为0.85。对于特定句子S_i，In(S_i)为指向句子S_i的句子集，Out(S_j)为句子S_j向外指向的句子集，w_ji表示S_i，S_j的相似度，WS(S_j)表示上一次迭代后句子S_j的权重值。