[发明专利]一种基于问答模型的第三方组件文档细粒度自动化提取方法及系统在审
申请号: | 202210331439.7 | 申请日: | 2022-03-30 |
公开(公告)号: | CN114841124A | 公开(公告)日: | 2022-08-02 |
发明(设计)人: | 纪守领;赵彬彬;王琴应;张旭鸿;邓水光;王文海;祝羽艳;杨星 | 申请(专利权)人: | 浙江大学 |
主分类号: | G06F40/14 | 分类号: | G06F40/14;G06F40/279;G06F40/205;G06N3/04;G06N3/08;G06F16/33;G06F16/332;G06K9/62 |
代理公司: | 杭州求是专利事务所有限公司 33200 | 代理人: | 郑海峰 |
地址: | 310058 浙江*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 问答 模型 第三 组件 文档 细粒度 自动化 提取 方法 系统 | ||
1.一种基于问答模型的第三方组件文档细粒度自动化提取方法,其特征在于,包括如下步骤:
步骤1:收集多个不同第三方组件的文档,对文档进行预处理,构建文档仓库;使用注意力模型对文档仓库中的待测试文档进行语句精炼,获取第三方组件的粗粒度使用规则;
步骤2:根据第三方组件的误用种类,设计问答模型的相应问题;从文档仓库中的待测试文档中挑选部分文档,根据设计的问题标记出答案;
步骤3:将标记好的待测试文档分为训练集和验证集,利用训练集对自然语言处理模型进行训练,直至验证集的测试准确率满足预设要求;利用训练好的自然语言处理模型对文档仓库中的剩余未标记答案文档的粗粒度使用规则进行细粒度挖掘。
2.根据权利要求1所述的基于问答模型的第三方组件文档细粒度自动化提取方法,其特征在于,对第三方组件的文档进行预处理时,过滤掉叙述不清或者文档缺失严重的第三方组件。
3.根据权利要求1所述的基于问答模型的第三方组件文档细粒度自动化提取方法,其特征在于,所述的注意力模型的工作方法为:保留文档中具有强调语气词的语句,过滤掉与使用规则无关的内容。
4.根据权利要求3所述的基于问答模型的第三方组件文档细粒度自动化提取方法,其特征在于,所述的强调语气词为can、could、may、might、must、need、ought to、dare、dared、shall、should、will、would中的至少一种。
5.根据权利要求1所述的基于问答模型的第三方组件文档细粒度自动化提取方法,其特征在于,所述的第三方组件的误用种类包括过时函数误用、返回值误用、调用顺序误用和参数误用。
6.根据权利要求5所述的基于问答模型的第三方组件文档细粒度自动化提取方法,其特征在于,所述的问答模型的相应问题包括:a.函数是否过时;b.函数是否有返回值;c.函数哪些情况有返回值;d.函数的返回值在上述情况下分别是什么;e.是否有其他函数需要提前调用;f.是否有其他函数需要被之后调用;g.参数类型是什么;每个问题设有可选答案。
7.根据权利要求1所述的基于问答模型的第三方组件文档细粒度自动化提取方法,其特征在于,步骤3中所述的自然语言处理模型采用RoBERTa模型;在训练过程中,将文档的粗粒度使用规则作为模型的输入,输出每一种问题对应的每一个答案的置信度,将最高置信度对应的答案作为结果,为每一个文档生成问答树。
8.一种基于问答模型的第三方组件文档细粒度自动化提取系统,用于实现权利要求1所述的方法,其特征在于,所述的提取系统包括:
第三方组件文档预处理模块,其用于收集多个不同第三方组件的文档,对文档进行预处理,构建文档仓库;使用注意力模型对文档仓库中的待测试文档进行语句精炼,获取第三方组件的粗粒度使用规则;
文档问答树构建模块,其用于根据第三方组件的误用种类,设计问答模型的相应问题;从文档仓库中的待测试文档中挑选部分文档,根据设计的问题标记出答案;
基于问答的第三方组件使用规则提取模块,其用于将标记好的待测试文档分为训练集和验证集,利用训练集对自然语言处理模型进行训练,直至验证集的测试准确率满足预设要求;利用训练好的自然语言处理模型对文档仓库中的剩余未标记答案文档的粗粒度使用规则进行细粒度挖掘。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210331439.7/1.html,转载请声明来源钻瓜专利网。
- 上一篇:抽拉式自动化终端室
- 下一篇:装配式建筑构件灌浆清洗装置