[发明专利]一种文本自动分类方法及系统在审

专利信息
申请号: 202210411343.1 申请日: 2022-04-19
公开(公告)号: CN114741512A 公开(公告)日: 2022-07-12
发明(设计)人: 李晔;沈自强;白全民;王金颖 申请(专利权)人: 山东省科技发展战略研究所
主分类号: G06F16/35 分类号: G06F16/35;G06F16/33;G06K9/62;G06N3/04;G06N3/08
代理公司: 济南圣达知识产权代理有限公司 37221 代理人: 闫圣娟
地址: 250014 山*** 国省代码: 山东;37
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 文本 自动 分类 方法 系统
【权利要求书】:

1.一种文本自动分类方法,其特征是:包括以下步骤:

获取待分类的文本数据,设置文本数据的分类准则并按照分类准则对文本数据进行标注;

读取待分类的文本数据,对文本数据正文信息进行预处理;

提取文本数据正文句子,计算正文句子的特征贡献值并提取关键子句,基于特征贡献值进行关键子句重排序;

将关键子句与文本数据标题进行融合作为特征文本数据,组成数据集并划分为训练集和验证集;

读取特征文本数据,将文本数据转化为特征向量,并记录到TFRecord格式文件中;

设置训练参数,读取TFRecord格式文件并将其转化为标准的模型输入,输入修正后的BERT模型中进行训练,输出分类结果。

2.如权利要求1所述的一种文本自动分类方法,其特征在于,获取待分类的文本数据后,在文本主题工具视角下定义文本分类准则,对文本记载的文字进行划分标题种类,采用二级编码的方式对划分的文本种类进行分类标注。

3.如权利要求1所述的一种文本自动分类方法,其特征在于,对文本数据正文信息进行预处理的方式为:

对文本正文信息进行读取,对文本正文信息进行分词、分句、去除停用词以及统计词频。

4.如权利要求1所述的一种文本自动分类方法,其特征在于,特征贡献值的计算公式为:

Featurescore=WS+TS-HS;

WS为句权重、TS为主题强度、HS为句信息量。

5.如权利要求4所述的一种文本自动分类方法,其特征在于,计算任意两个句子的相似度:

Si,Sj分别表示两个句子,Wk表示句子中的词,分子部分的意思是同时出现在两个句子中的同一个词的个数,分母是对句子中词的个数求对数之和。

6.如权利要求5所述的一种文本自动分类方法,其特征在于,循环计算任意两个句子之间的相似度,进而对各个句子的权重值进行迭代计算得到每个句子的句权重WS,即:

公式中,WS(Si)是句子Si的权重值,d表示阻尼系数(0≤d≤1),表示某一句子随机指向到另一句子的概率,一般取值为0.85。对于特定句子Si,In(Si)为指向句子Si的句子集,Out(Sj)为句子Sj向外指向的句子集,wji表示Si,Sj的相似度,WS(Sj)表示上一次迭代后句子Sj的权重值。

7.如权利要求4所述的一种文本自动分类方法,其特征在于,主题强度的计算方式为:

将每个句子中的词语Wk与种子词表中的关键词Tj进行相似度计算,

Wk与Tj是词向量,种子词表为人工设置的每个类别下的关键词,则TS计算公式为:

n为种子词表词语个数、m为句子词语个数。

8.如权利要求4所述的一种文本自动分类方法,其特征在于,计算每个句子中的词语在正文中出现的概率P(wk),则HS计算公式为:

HS(Si)=-∑kP(wk)logP(wk)。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山东省科技发展战略研究所,未经山东省科技发展战略研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202210411343.1/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top