[发明专利]一种文本质量指标获取方法及装置有效

申请号：	201711484243.7	申请日：	2017-12-29
公开（公告）号：	CN108182175B	公开（公告）日：	2021-01-05
发明（设计）人：	王琪;何东杰;杨洁	申请（专利权）人：	中国银联股份有限公司
主分类号：	G06F40/205	分类号：	G06F40/205;G06F40/289
代理公司：	北京同达信恒知识产权代理有限公司 11291	代理人：	黄志华
地址：	200135 ***	国省代码：	上海;31
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种文本质量指标获取方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种文本质量指标获取方法及装置，该方法包括获取文本的名称和关键词，生成文本数据源，使用预设的神经网络语言模型对文本数据源中的词条进行训练，得到多个词语的词向量，确定出多个语句的句子向量，对多个语句的句子向量进行去重，分为P类质量指标，保存P类质量指标的句子向量对应的内容，并基于随机森林确定P类质量指标的重要程度值，根据P类质量指标的句子向量对应的内容和P类质量指标的重要程度值，获取需要评测的质量指标的明细和重要性排序。通过将开源软件的语句量化为向量，得到质量指标集合，提高了后续排序的准确率，基于随机森林得到质量指标的重要程度值，使得获取的质量指标结果更加准确和细化。

技术领域

本发明实施例涉及语句分析技术领域，尤其涉及一种文本质量指标获取方法及装置。

背景技术

开源软件的广泛应用已经成为一种趋势。金融行业出于技术成熟度和安全合规方面的考虑，对开源软件的应用保持审慎的态度。所以在使用一个开源软件之前应对软件进行完备科学的评估，通常通过建立评测模型对开源软件进行评测，基于模型评测诸如kakfa，rabbitmq，rootwrap等开源软件，在此过程中，我们发现了如下问题：首先，由于缺乏自动化的过程和工具，部分步骤通过人工抓取，每个评测指标及相应内容选取非常耗时并相对主观。其次，开源软件评测指标数量大，不同软件对于不同指标评测的敏感度不尽相同，有效地选取评测指标才能有效地评估软件。

现有的软件自动分类方法通常利用包含网页，日志等内容的文本来表征对象，通过数据挖掘技术对软件文本进行自动分类，将软件文本集合按照主题进行聚类，聚类的结果是每个文本自动归属于某个主题，从而间接实现对词条等对象的自动分类。现有方案下的数据源只是简单利用关键词进行聚类，不包含语义以及和上下文的关联，这样孤立的分类对更加抽象或者是表征含义更丰富的对象进行分类效果很差，同时很难对更长的量如句子进行识别分类。

发明内容

本发明实施例提供一种文本质量指标获取方法及装置，用以实现自动化获取文本的质量指标，提高了准确性。

本发明实施例提供的一种文本质量指标获取方法，包括：

获取文本的名称和关键词，并根据所述文本的名称和关键词，在搜索引擎中提取词条，生成文本数据源；

使用预设的神经网络语言模型对所述文本数据源中的词条进行训练，得到多个词语的词向量；

根据所述多个词语的词向量和所述文本的多个语句，确定出所述多个语句的句子向量；

对所述多个语句的句子向量进行去重，分为P类质量指标，保存所述P类质量指标的句子向量对应的内容，并基于随机森林确定所述P类质量指标的重要程度值，P为正整数；

根据所述P类质量指标的句子向量对应的内容和所述P类质量指标的重要程度值，获取需要评测的质量指标的明细和重要性排序。

可选的，所述使用预设的神经网络语言模型对所述文本数据源中的词条进行训练，得到多个词语的词向量，包括：

使用预设的神经网络语言模型对所述文本数据源中的词条进行训练，通过词条语句中当前词语的前后文词语预测所述当前词语的词向量；

对每个词条进行遍历，得到多个词语的词向量。

可选的，所述根据所述多个词语的词向量和所述文本的多个语句，确定出所述多个语句的句子向量，包括：