[发明专利]基于文章摘要句子的数据扩充方法以及PICOS抽取分类方法在审
| 申请号: | 202211116531.8 | 申请日: | 2022-09-14 |
| 公开(公告)号: | CN115758230A | 公开(公告)日: | 2023-03-07 |
| 发明(设计)人: | 柴龙涛;金霞;刘伟 | 申请(专利权)人: | 杭州火石数智科技有限公司 |
| 主分类号: | G06F18/241 | 分类号: | G06F18/241;G06F18/214;G06N3/04;G06N3/08;G06F40/211 |
| 代理公司: | 青岛锦佳专利代理事务所(普通合伙) 37283 | 代理人: | 朱玉建 |
| 地址: | 310000 浙江省杭州市滨江*** | 国省代码: | 浙江;33 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 文章 摘要 句子 数据 扩充 方法 以及 picos 抽取 分类 | ||
本发明公开了一种基于文章摘要句子的数据扩充方法以及PICOS抽取分类方法。其中,数据扩充方法的过程如下:对多篇医学文章摘要进行分句,然后对分句后的每条句子进行类别标注,并标注好每条句子在该句子所属医学文章摘要中的顺序信息;将每条句子所属医学文章摘要编号以及该条句子的句子文本、句子位置以及句子类别共同组成一个数据样本;对同一医学文章摘要且为同一类别的句子进行随机拼接生成新句子;拼接后的新句子的句子位置采用拼接前首条句子的句子位置信息;将拼接后的新句子所属医学文章摘要编号以及该新句子的句子文本、句子位置以及句子类别共同组成一个新的数据样本。本发明有效地解决了PICOS抽取分类过程中模型数据获取困难的问题。
技术领域
本发明属于循证医学中PICOS抽取分类技术领域,特别涉及一种基于文章摘要句子的数据扩充方法以及PICOS抽取分类方法。
背景技术
目前大部分的医学文献都是按照PICOS的思路和原则来编写文献。针对医学文章摘要PICOS分类任务,可考虑应用人工智能中深度学习解决大规模文本分类问题,通过预训练-微调-下游任务的方式去实现文本分类,去掉繁杂的人工特征工程,端到端的解决问题。
然而,在做文章摘要句子分类时,存在数据量少的问题,需要对文章摘要句子进行标注,然而目前人工标注方式困难且繁杂,需要专业的医学工作者通读摘要后才能进行标注。
发明内容
本发明的目的之一在于提出一种基于文章摘要句子的数据扩充方法,通过自动数据扩充的方式,以解决目前数据标注困难、数据量少的技术问题。
本发明为了实现上述目的,采用如下技术方案:
一种基于文章摘要句子的数据扩充方法,包括如下步骤:
步骤1.数据样本构建;
首先对多篇医学文章摘要进行分句,然后对分句后的每条句子进行类别标注,并标注好每条句子在该句子所属医学文章摘要中的句子位置即顺序信息;
将每条句子所属医学文章摘要编号以及该条句子的句子文本、句子位置以及句子类别共同组成一个数据样本;
步骤2.数据样本扩充;
对属于同一医学文章摘要且为同一类别的句子进行随机拼接生成新句子;
其中,拼接后的新句子的句子位置采用拼接前首条句子的句子位置信息,拼接后的新句子的句子类别与拼接前各条句子的句子类别均相同,拼接后的新句子所属医学文章摘要编号与拼接前各条句子所属医学文章摘要编号均相同;
将拼接后的每条新句子所属医学文章摘要编号以及该条新句子的句子文本、句子位置以及句子类别共同组成一个新的数据样本。
本发明的目的之二在于提出一种基于文章摘要句子的PICOS抽取分类方法,该方法基于上述数据扩充方法扩充的数据,以提升模型对长句子识别的准确率。
本发明为了实现上述目的,采用如下技术方案:
一种基于文章摘要句子的PICOS抽取分类方法,包括如下步骤:
步骤1.搭建PICOS抽取分类模型;
搭建的PICOS抽取分类模型包括预训练模型、拼接模块以及分类模块;
其中,数据样本在PICOS抽取分类模型中的处理过程如下:
将数据样本中的句子文本通过预训练模型进行文本嵌入,得到句子向量;将数据样本中的句子位置通过预训练模型进行文本嵌入,得到句子顺序信息向量;
将数据样本的句子向量和句子顺序信息向量送入拼接模块,通过拼接得到新的句子向量信息,然后将新的句子向量信息送入分类模块,输出句子类别;
步骤2.训练PICOS抽取分类模型;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州火石数智科技有限公司,未经杭州火石数智科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211116531.8/2.html,转载请声明来源钻瓜专利网。





