[发明专利]基于LightGBM集成多个BERT模型的随机对照试验识别方法在审

申请号：	202110363597.6	申请日：	2021-04-02
公开（公告）号：	CN112836772A	公开（公告）日：	2021-05-25
发明（设计）人：	孙鑫;秦璇;李玲;刘佳利;王雨宁;刘艳梅;齐亚娜;邹康;邓可;马玉;刘梅	申请（专利权）人：	四川大学华西医院
主分类号：	G06K9/62	分类号：	G06K9/62;G06F40/30
代理公司：	成都高远知识产权代理事务所(普通合伙) 51222	代理人：	李安霞;谢一平
地址：	610000 四***	国省代码：	四川;51
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于 lightgbm 集成 bert 模型随机对照试验识别方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.基于LightGBM集成多个BERT模型的随机对照试验识别方法，其特征在于，包括以下步骤：

步骤s1：将预先准备的初始RCT数据分割为训练集、开发集以及测试集，所述初始RCT数据包括文本以及初始分类标签；

步骤s2：将训练集、开发集以及测试集中的文本均分别转化为位置向量、文本向量以及字向量；

步骤s3：使用训练集中的文本转化后的位置向量、文本向量、字向量和初始分类标签分别训练4个BERT模型；

步骤s4：使用开发集中的文本转化后的位置向量、文本向量、字向量和初始分类标签来调整4个BERT模型的超参数；

步骤s5：使用训练好的4个BERT模型对训练集文本和开发集文本进行分类，分为RCT类和非RCT类；

步骤s6：训练LightGBM模型；

步骤s7：使用4个BERT模型对测试集数据进行分类，得到分类结果，LightGBM模型综合4个BERT模型的分类结果得到测试集的最终分类结果。

2.根据权利要求1所述的基于LightGBM集成多个BERT模型的随机对照试验识别方法，其特征在于：所述文本包括题目和摘要，所述初始分类标签包括RCT类和非RCT类。

3.根据权利要求1所述的基于LightGBM集成多个BERT模型的随机对照试验识别方法，其特征在于：

在步骤s1中，所述分割包括以下步骤：

步骤s101：将初始RCT数据均分为5份不相交的数据集；

步骤s102：依次选择s101中的5份的其中1份作为测试集，将其余4份作为训练数据，由此得到5组数据，每组数据中，包含1个训练数据和1个测试集，测试集与训练数据的样本数比例为1:4；

步骤s103：针对5组数据，将每一组中的训练数据以3:1的比例随机分为训练集和开发集，由此每组数据由一个训练集，一个开发集和一个测试集组成，其中训练集、开发集以及测试集包含的样本数比例为3:1:1。

4.根据权利要求1所述的基于LightGBM集成多个BERT模型的随机对照试验识别方法，其特征在于：所述4个BERT模型分别为BIO-BBUPC、BIO-BBUP、SCI-BBU以及BBU，所述4个BERT模型作为基分类器。

5.根据权利要求1所述的基于LightGBM集成多个BERT模型的随机对照试验识别方法，其特征在于：在步骤s5中，训练集中的每一个文本和开发集中的每一个文本经过一个BERT模型分类均得到一个2维向量作为分类结果，训练集的一个文本和开发集的一个文本经过4个BERT模型的分类均得到一个8维向量。

6.根据权利要求5所述的基于LightGBM集成多个BERT模型的随机对照试验识别方法，其特征在于：在步骤s6中，使用训练集文本和开发集文本转化后的8维向量数据和训练集初始分类标签来训练LightGBM模型，并采用五折交叉验证，逐步调整LightGBM模型超参数。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于四川大学华西医院，未经四川大学华西医院许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202110363597.6/1.html，转载请声明来源钻瓜专利网。

专利分类

专利文献下载