[发明专利]基于文章摘要句子的数据扩充方法以及PICOS抽取分类方法在审
| 申请号: | 202211116531.8 | 申请日: | 2022-09-14 |
| 公开(公告)号: | CN115758230A | 公开(公告)日: | 2023-03-07 |
| 发明(设计)人: | 柴龙涛;金霞;刘伟 | 申请(专利权)人: | 杭州火石数智科技有限公司 |
| 主分类号: | G06F18/241 | 分类号: | G06F18/241;G06F18/214;G06N3/04;G06N3/08;G06F40/211 |
| 代理公司: | 青岛锦佳专利代理事务所(普通合伙) 37283 | 代理人: | 朱玉建 |
| 地址: | 310000 浙江省杭州市滨江*** | 国省代码: | 浙江;33 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 文章 摘要 句子 数据 扩充 方法 以及 picos 抽取 分类 | ||
1.一种基于文章摘要句子的数据扩充方法,其特征在于,包括如下步骤:
步骤1.数据样本构建;
首先对多篇医学文章摘要进行分句,然后对分句后的每条句子进行类别标注,并标注好每条句子在该句子所属医学文章摘要中的句子位置即顺序信息;
将每条句子所属医学文章摘要编号以及该条句子的句子文本、句子位置以及句子类别共同组成一个数据样本;
步骤2.数据样本扩充;
对属于同一医学文章摘要且为同一类别的句子进行随机拼接生成新句子;
其中,拼接后的新句子的句子位置采用拼接前首条句子的句子位置信息,拼接后的新句子的句子类别与拼接前各条句子的句子类别均相同,拼接后的新句子所属医学文章摘要编号与拼接前各条句子所属医学文章摘要编号均相同;
将拼接后的每条新句子所属医学文章摘要编号以及该条新句子的句子文本、句子位置以及句子类别共同组成一个新的数据样本。
2.根据权利要求1所述的基于文章摘要句子的数据扩充方法,其特征在于,
所述句子类别有六类,分别是P、I、C、O、S和其他六类。
3.根据权利要求1所述的基于文章摘要句子的数据扩充方法,其特征在于,
所述步骤1中,所有数据样本均存储在Excel文件中;
所述步骤2中,通过pandas工具处理excel文件实现自动化数据扩充:
具体为:首先使用pandas.groupby从数据样本中筛选出属于同一医学文章摘要且为同一类别的各条句子,然后将筛选出的各条句子均放入列表中;
遍历列表对属于同一医学文章摘要且为同一类别的各条句子进行随机拼接生成新句子。
4.根据权利要求1所述的基于文章摘要句子的数据扩充方法,其特征在于,
所述步骤1中,将医学文章摘要按照标点符号进行分句。
5.根据权利要求1所述的基于文章摘要句子的数据扩充方法,其特征在于,
所述步骤1中,在对医学文章摘要分句之前,还包括数据获取以及预处理的步骤,即:
收集医学文章摘要,并对医学文章摘要进行数据清洗。
7.一种基于文章摘要句子的PICOS抽取分类方法,其特征在于,
包括如下步骤:
步骤1.搭建PICOS抽取分类模型;
搭建的PICOS抽取分类模型包括预训练模型、拼接模块以及分类模块;
数据样本在PICOS抽取分类模型中的处理过程如下:
将数据样本中的句子文本通过预训练模型进行文本嵌入,得到句子向量;将数据样本中的句子位置通过预训练模型进行文本嵌入,得到句子顺序信息向量;
将数据样本的句子向量和句子顺序信息向量送入拼接模块,通过拼接得到新的句子向量信息,然后将新的句子向量信息送入分类模块,输出句子类别;
步骤2.训练PICOS抽取分类模型;
利用训练数据集中的训练数据训练PICOS抽取分类模型;
其中,训练数据集中的训练数据来源于上述权利要求1至6任一项所述的基于文章摘要句子的数据扩充方法得到的数据样本;
通过最小化分类模块的损失值得到PICOS抽取分类模型的模型参数,完成模型训练;
步骤3.对医学文章摘要信息进行PICOS抽取分类;
利用训练好的PICOS抽取分类模型待分类的对医学文章摘要信息进行PICOS抽取分类。
8.根据权利要求7所述的基于文章摘要句子的PICOS抽取分类方法,其特征在于,
所述预训练模型采用BERT预训练模型;所述拼接模块采用torch.cat模块;所述分类模块包括LayerNorm层、两层神经网络层以及一层softmax分类层。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州火石数智科技有限公司,未经杭州火石数智科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211116531.8/1.html,转载请声明来源钻瓜专利网。





