[发明专利]一种基于中文仿生文献摘要的句子分类方法及系统在审

专利信息
申请号: 202210535985.2 申请日: 2022-05-17
公开(公告)号: CN114860937A 公开(公告)日: 2022-08-05
发明(设计)人: 谢夏;杨子硕;陈丽君;胡月明 申请(专利权)人: 海南大学
主分类号: G06F16/35 分类号: G06F16/35;G06F40/211;G06F40/289
代理公司: 武汉华之喻知识产权代理有限公司 42267 代理人: 李君;廖盈春
地址: 570100 海南省海*** 国省代码: 海南;46
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 中文 仿生 文献 摘要 句子 分类 方法 系统
【说明书】:

发明提供了一种基于中文仿生文献摘要的句子分类方法及系统,属于文本分类领域,方法为:对句子数据库中未进行人工标注句子类别的句子分别采用词频分析方法和输入初始Bert模型中进行分类;将第一分类结果集和第二分类结果集中分类结果一致的句子存入分类数据库;在第一分类结果集中剔除分类数据库中的句子,采用本次迭代后的Bert模型对第一分类结果集再次分类,更新第一分类结果集;采用较上次迭代更小的分词粒度的词频分析方法对第二分类结果集再次分类,更新第二分类结果集;依次类推,实现句子分类。本发明减少实体抽取和关系抽取中的人工标注,可减少人力和时间的成本。

技术领域

本发明属于自然语言处理领域,更具体地,涉及一种基于中文仿生文献摘要的句子分类方法及系统。

背景技术

仿生技术是一种利用生物知识解决机械领域技术难题的方法。然而,目前关于生物方面的知识缺少结构化的整合,生物专家和机械专家需要详细了解双方领域的专业知识,才能够更好地设计仿生技术。

知识图谱作为一种新的信息化技术,可以有效地通过关系网络将散乱的生物知识进行连接,形成结构化网络图谱,为仿生技术的研究提供了帮助。知识图谱的构建离不开实体抽取和关系抽取。人工标注是实体和关系抽取模型训练数据的重要来源,但是由于科研论文内容复杂并且存在许多与标注无关的噪声数据,直接标注会消耗大量的人力和时间成本。

发明内容

针对现有技术的缺陷,本发明的目的在于提供一种基于中文仿生文献中句子的文本分类方法及系统,旨在解决现有的为仿生技术提供指导的知识图谱在构建过程中离不开实体抽取和关系抽取,人工标注是实体抽取和关系抽取模型训练数据的重要方法,但是由于科研论文内容复杂并且存在许多与标注无关的噪声数据,直接标注会消耗大量的人力和时间成本的问题。

为实现上述目的,本发明提供了一种基于中文仿生文献摘要的句子分类方法,包括以下步骤:

S1:对中文仿生科技文献摘要去噪处理后进行句子划分和分词处理,获取句子数据库和词语向量库;

S2:以多领域科技文献摘要的要素作为句子类别,采用标注句子类别的多领域科技文献摘要数据集训练Bert模型,得到初始Bert模型;

S3:提取句子数据库中部分句子进行人工标注句子类别,采用词频分析方法,在词语向量库中获取判断句子分类的关键词语;

S4:基于判断句子分类的关键词语和句子类别,对句子数据库中未进行人工标注句子类别的句子分别采用词频分析方法和输入初始Bert模型中进行分类,获取第一分类结果集Dataset1和第二分类结果集Dataset2;

S5:将Dataset1和Dataset2中分类结果一致的句子存入分类数据库Dataset3;

S6:将当前迭代作为上次迭代,其中,每次迭代完成对Bert模型的一次训练,且词频分析方法采用较上次迭代更小的分词粒度;

S7:在Dataset1中剔除Dataset3中的句子,若Dataset1为上次迭代前的Bert模型获取,则采用较上次迭代更小的分词粒度的词频分析方法对Dataset1再次分类并更新,且采用上次迭代后的Bert模型对Dataset2再次分类并更新;反之,采用上次迭代后的Bert模型对Dataset1再次分类并更新,且采用较上次迭代更小的分词粒度的词频分析方法对Dataset2再次分类并更新;

S8:转至S6,直至Bert模型达到最好训练效果时停止句子分类,Dataset3作为最终的分类结果。

进一步优选地,基于中文仿生文献摘要的句子分类方法,在S8后还包括:

S9:使用可解释性工具Captum对训练完成的Bert模型进行解释性分析,使用Captum Insights对分析结果进行可视化,高亮出每个句子中判别句子分类的关键信息。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于海南大学,未经海南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202210535985.2/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top