[发明专利]一种基于问答模型的第三方组件文档细粒度自动化提取方法及系统在审
申请号: | 202210331439.7 | 申请日: | 2022-03-30 |
公开(公告)号: | CN114841124A | 公开(公告)日: | 2022-08-02 |
发明(设计)人: | 纪守领;赵彬彬;王琴应;张旭鸿;邓水光;王文海;祝羽艳;杨星 | 申请(专利权)人: | 浙江大学 |
主分类号: | G06F40/14 | 分类号: | G06F40/14;G06F40/279;G06F40/205;G06N3/04;G06N3/08;G06F16/33;G06F16/332;G06K9/62 |
代理公司: | 杭州求是专利事务所有限公司 33200 | 代理人: | 郑海峰 |
地址: | 310058 浙江*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 问答 模型 第三 组件 文档 细粒度 自动化 提取 方法 系统 | ||
本发明公开了一种基于问答模型的第三方组件文档细粒度自动化提取方法及系统,属于第三方组件测试技术领域。系统包括:第三方组件文档预处理模块,对第三方组件文档进行初步过滤,获取粗粒度的第三方组件使用规则;文档问答树构建模块,深度分析第三方组件误用类型,为每一类误用类型设计查询问题,根据问题对待测文档进行人工标记;基于问答的第三方组件使用规则提取模块,采用基于RoBERTa模型的自然语言处理模型对文档进行问答式信息提取,获得与第三方组件相关的细粒度使用规则。本发明的系统解决了无统一格式的第三方组件文档粗粒度提炼问题,能够对第三方组件文档中的使用规则进行细粒度自动化提取。
技术领域
本发明涉及第三方组件测试技术领域,尤其涉及一种基于问答模型的第三方组件文档细粒度自动化提取方法及系统。
背景技术
随着开源社区的不断推进,各类第三方组件迎来蓬勃发展,目前已经广泛应用到各行各业软件的开发当中。然而,最近的研究和实际事件表明在使用第三方组件给软件开发人员带来便利的同时,第三方组件在使用过程中产生的安全问题令人担忧。由于缺乏有效的方法来对开发人员在使用第三方组件的过程中进行严格规范,基于各类第三方组件开发的软件可能存在严重的安全威胁。例如,部分第三方组件的函数要求在被调用后需要释放,开发人员可能忽略或遗漏类似使用规则,从而造成严重的安全威胁。此类威胁轻则影响用户隐私,重则影响国家关键设备的安全。
为了检测开发人员在使用第三方组件中是否严格按照使用规则来调用第三方组件,研究人员提出了各种检测系统用于挖掘此类第三方组件误用情况。这些检测系统有一个共同点,即都需要准确获取第三方组件的使用规则。目前研究人员主要通过人工获取、正则表达式匹配以及语法依赖树等方法从第三方组件文档中获取相应使用规则。然而,通过人工阅读第三方组件来获取使用规则的方式费时费力。一个第三方组件往往含有上百个函数,每一个函数有多条使用规则,因此一个第三方组件可包含多达上千条使用规则。其次通过正则表达式匹配方法获得的使用规则往往会产生大量的漏报,无法全面获取第三方组件的使用规则,从而影响后续对第三方组件误用情况检测的准确率。另外,通过语法依赖树方法来挖掘规则需要经过大量文档预处理工作,对于结构松散的第三方组件文档效果欠佳,很难应用于大规模检测。
设计一个有效的第三方组件文档细粒度自动化提取方法存在以下挑战:(1)适配不同格式的第三方组件文档。目前,第三方组件文档的撰写没有统一的格式,任意两个第三方组件文档之间都可能存在显著的差异。仅用正则表达式匹配的方法无法适用到不同类别的第三方组件文档。(2)全面获取第三方组件使用规则。由于第三方组件文档中含有大量干扰语句,例如对函数的功能描述,大大影响了全面获取第三方组件使用规则的难度,从而造成大量的误报错报。其次,部分第三方组件的使用规则描述含糊不清,即使通过人工判断有时也无法判定是否为真实的使用规则。
由于第三方组件的文档没有统一格式,其使用规则也千差万别,目前还没有自动化细粒度获取第三方组件使用规则的有效方法,设计一种能够从第三方组件文档中细粒度自动化提取相应使用规则对于后续检测因第三方组件误用情况造成的漏洞是重要和必要的。
发明内容
针对第三方组件使用规则细粒度自动化提取工作存在的不足,本发明提供了一种基于问答模型的第三方组件文档细粒度自动化提取方法及系统,该方法能够对第三方组件中每个函数的使用规则进行精确提取。
本发明的具体技术方案如下:
本发明的第一个目的在于提供一种基于问答模型的第三方组件文档细粒度自动化提取方法,包括如下步骤:
步骤1:收集多个不同第三方组件的文档,对文档进行预处理,构建文档仓库;使用注意力模型对文档仓库中的待测试文档进行语句精炼,获取第三方组件的粗粒度使用规则;
步骤2:根据第三方组件的误用种类,设计问答模型的相应问题;从文档仓库中的待测试文档中挑选部分文档,根据设计的问题标记出答案;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210331439.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:抽拉式自动化终端室
- 下一篇:装配式建筑构件灌浆清洗装置