[发明专利]一种基于图像文本融合分析的移动应用众包测试报告排序的方法在审

申请号：	202111471921.2	申请日：	2021-11-30
公开（公告）号：	CN114780373A	公开（公告）日：	2022-07-22
发明（设计）人：	房春荣;王旭;曹振飞;虞圣呈;李彤宇;陈振宇	申请（专利权）人：	南京大学
主分类号：	G06F11/36	分类号：	G06F11/36;G06F40/289;G06K9/62;G06V30/412;G06V10/74
代理公司：	暂无信息	代理人：	暂无信息
地址：	210093 江苏省南京市***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于图像文本融合分析移动应用测试报告排序方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于图像文本融合分析的移动应用众包测试报告排序的方法，其特征在于通过自动化地提取众包测试报告的图像和文本特征，根据报告间的相似性度量进行众包测试报告排序，为人工审查测试报告负担过大的问题提供新的解决方案。该报告排序方法的步骤如下：

1)测试报告文本特征提取，主要提取信息包括复现步骤、缺陷描述两类信息，复现步骤将进一步分析以提取“操作-对象”序列，缺陷描述将进一步分析提取问题控件描述，具体包含如下步骤：

1.1)文本内容分类：对测试报告文本内容进行分词、去除停用词、向量化，进而将其分为复现步骤和缺陷描述两个类别；

1.2)问题控件描述识别：对缺陷描述进行分段，并对每个分割的文本片段进行词法分析提取目标名词性字段作为问题控件描述；

1.3)“操作-对象”序列提取：对复现步骤进行分段，并对每个分割的文本片段进行词法分析，收集所有片段中的动词和对应的宾语拼接成“操作-对象”序列；

2)测试报告图像特征提取，主要提取信息包括问题控件图片、上下文控件两类信息，主要包含以下步骤：

2.1)问题控件图片提取：根据问题控件描述信息，如果截屏图片中的某一控件包含该文本内容，则将该控件与问题控件描述进行匹配，识别该控件为问题控件图片；如果截屏图片中所有的控件都不包含相应的文本内容，则分析控件的意图，将意图文本与问题控件描述进行匹配，寻找问题控件图片；

2.2)上下文控件图片提取：除了问题控件图片，截屏图片中分析得到的其他剩余控件都被归类为上下文控件，识别上下文控件的控件类型，并对每一类控件进行计数，组成上下文控件类型数值向量；

3)测试报告特征聚合：将步骤1和步骤2中得到的所有的特征融合为两类特征，一类为缺陷特征，是指在众包测试报告中直接反映或描述缺陷的特性；一类为上下文特征，由在缺陷发生时能够提供环境的描述的特征组成，具体解释如下：

3.1)缺陷特征由步骤1.1中得到的缺陷描述和步骤2.1中得到的问题控件图片组成；

3.2)上下文特征由步骤1.3中得到的“操作-对象序列”和步骤2.2中得到的上下文控件图片组成；

4)测试报告相似度计算：测试报告相似度由缺陷相似度和上下文特征相似度加权计算得出，即测试报告相似度＝γ*缺陷相似度+(1-γ)*上下文相似度；

4.1)缺陷相似度计算：缺陷相似度计算由缺陷描述相似度和问题控件图片相似度两部分加权组成；缺陷相似度＝α*问题控件图片相似度+(1-α)*缺陷描述相似度；

4.2)上下文相似度计算：上下文相似度由复现步骤相似度和上下文控件相似度两部分加权组成；上下文相似度＝β*上下文控件相似度+(1-β)*复现步骤相似度；

5)测试报告排序：根据步骤4计算得到报告相似度相异矩阵，识别重复报告并根据报告揭示新的缺陷的能力进行报告排序；

5.1)创建一份空白报告；根据步骤4的相似度计算方法计算所有测试报告与空白报告之间的相似度，选择与空白报告相似度最低的测试报告作为排序序列中的第一份报告；

5.2)比较所有报告与排序序列中的所有报告的平均相似度，并选择平均相似度最低的报告插入排序序列中；

5.3)循环步骤5.2直到所有报告已经被成功排序。

2.根据权利要求1所述的基于图像文本融合分析的移动应用众包测试报告排序的方法，其特征在于：

1)文本内容分类中，采用的分词工具为jieba分词，词向量采用Word2Vec构建，每个词向量为128维，分类采用预训练的TextCNN模型。

2)在问题控件描述识别和“操作-对象”序列提取步骤中，文本分段方法均采用基于HMM的文本分割算法。

3)在问题控件图片提取步骤中，图片中的文本采用OCR技术提取。

4)在上下文控件图片提取步骤中，控件类型采用预训练的基于CNN的控件分类模型来实现。

5)在缺陷相似度计算过程中，问题控件图片相似度通过SIFT算法提取特征点集进行计算，缺陷描述文本相似度通过词向量的欧式距离进行度量，并进行标准化。

6)在上下文相似度计算中，上下文控件相似度由上下文控件类型数值向量之间的欧式距离定义，并进行标准化；复现步骤相似度通过DTW算法“操作-对象”序列计算相似度，并进行标准化。

3.根据权利要求2所述的基于图像文本融合分析的移动应用众包测试报告排序的方法，其特征在于：

1)文本内容分类中所用的测试报告文本分类模型所用的数据集是来自本发明的一个大规模的测试报告文本分类数据集。

2)问题控件图片提取中定位问题控件描述文本所用的关键词列表是来自本发明的一个大规模的测试报告关键字词汇表。

3)上下文控件图片提取中所使用的控件分类模型所用的数据集是来自本发明的一个大规模的控件图像数据集。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于南京大学，未经南京大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202111471921.2/1.html，转载请声明来源钻瓜专利网。

专利分类

专利文献下载