[发明专利]一种基于文本语义分析需求与输出成果之间匹配度的方法在审
| 申请号: | 202010220922.9 | 申请日: | 2020-03-26 |
| 公开(公告)号: | CN111309871A | 公开(公告)日: | 2020-06-19 |
| 发明(设计)人: | 李洁茹;刘同新;徐剑;张若兴 | 申请(专利权)人: | 普华讯光(北京)科技有限公司 |
| 主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/36;G06N3/04 |
| 代理公司: | 北京润捷智诚知识产权代理事务所(普通合伙) 11831 | 代理人: | 孙巍 |
| 地址: | 100070 北京市丰台区南四*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 文本 语义 分析 需求 输出 成果 之间 匹配 方法 | ||
1.一种基于文本语义分析需求与输出成果之间匹配度的方法,其特征在于,包括以下步骤:
步骤1.数据集标注:使用基于项目需求描述、成果描述及项目标题的文本信息,对比总结两个项目的关联匹配程度并进行四分类标注,构造用于项目匹配度计算建模的标注数据集;
步骤2.技术文档预处理:构造Bert模型输入文本,鉴于Bert模型输入序列长度及计算资源的限制,此处基于项目名称使用Rough-L算法以句为单位对项目的需求及成果描述文本进行核心信息提取,每一个项目的输入文本由A|B两部分构成,A为项目名称,B为项目核心信息部分;
步骤3.单参数模型训练及预测:基于知识蒸馏、交叉验证及集成学习的思想对Bert模型进行部分改进,并基于标注好的数据进行模型建模、调优及分类标签预测,完成从原始数据到单模型关联度预测结果输出的任务;
步骤4.多参数模型预测结果集成:根据改进模型中涉及到的“温度”调节参数T及交叉验证折数K的不同取值组合训练多个模型,并根据表现效果筛选质量较好的5个模型进行多模型概率集成获取最终预测结果。
2.根据权利要求1所述的一种基于文本语义分析需求与输出成果之间匹配度的方法,其特征在于:所述步骤1首先使用电网领域已有项目成果的技术文档及每年新发布的科技项目申报指南作为初始数据来源,根据项目所属子领域及涉及到的关键技术类型,通过对两部分文本数据的标题及核心内容进行人工筛选总结,判定成果与需求的匹配关系并进行无相关、弱相关、较强相关和强相关四分类标注,构造双向匹配度标注数据集。
3.根据权利要求1所述的一种基于文本语义分析需求与输出成果之间匹配度的方法,其特征在于:所述步骤2针对原始文档数据,基于其文档标题或项目名称使用Rough-L算法以句为单位对文档内容进行核心信息提取,扩充训练集的语义含义及信息覆盖度,并以此为辅助确定包含“成果标题”、“成果核心信息”、“需求标题”、“需求核心信息”四部分内容的双输入Sentence-1和Sentence-2数据集格式,每一个Sentence由A|B两部分构成,A为项目名称,B为项目成果描述或需求描述的核心信息部分。
4.根据权利要求1所述的一种基于文本语义分析需求与输出成果之间匹配度的方法,其特征在于:所述步骤3基于知识蒸馏、交叉验证及集成学习的思想对Bert模型进行部分改进,同时在Bert模型末端加入GRU网络层,以交叉验证输出的K个cls向量为输入捕获Sentence-1与Sentence-2之间的关联信息。首先依据知识蒸馏中用到的保存不同类别之间相似性大小的做法在Softmax层中增加温度参数T,进一步改进传统Softmax函数中包含类别间信息量较小的问题,使预测数据属于某一类别的概率根据项目匹配度而呈现逐步变化的效果;然后依据交叉验证及集成学习的思想将训练单一模型的任务变为训练5个交叉验证子模型任务,以此来降低模型对于单一测试数据的过拟合情况;预测阶段根据上述改进后的Softmax函数对每一类别的输出概率进行5个子模型的集成预测,输出最终的预测结果。
5.根据权利要求1所述的一种基于文本语义分析需求与输出成果之间匹配度的方法,其特征在于:所述步骤4根据上述介绍的不同的“温度”调节参数T及交叉验证折数K分别训练多个模型,从不同粒度上对项目匹配度进行类别预测,然后针对这些模型进行筛选,选用其中预测效果最佳的5个模型进行概率集成,即对每个模型输出的类别预测概率进行等权平均,再根据平均后的概率值判定预测数据最终属于无相关、弱相关、较强相关和强相关中的四分类其中一类。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于普华讯光(北京)科技有限公司,未经普华讯光(北京)科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010220922.9/1.html,转载请声明来源钻瓜专利网。





