[发明专利]一种文本质量指标获取方法及装置有效

专利信息
申请号: 201711484243.7 申请日: 2017-12-29
公开(公告)号: CN108182175B 公开(公告)日: 2021-01-05
发明(设计)人: 王琪;何东杰;杨洁 申请(专利权)人: 中国银联股份有限公司
主分类号: G06F40/205 分类号: G06F40/205;G06F40/289
代理公司: 北京同达信恒知识产权代理有限公司 11291 代理人: 黄志华
地址: 200135 *** 国省代码: 上海;31
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 文本 质量指标 获取 方法 装置
【权利要求书】:

1.一种文本质量指标获取方法,其特征在于,包括:

获取文本的名称和关键词,并根据所述文本的名称和关键词,在搜索引擎中提取词条,生成文本数据源;

使用连续词袋模型CBOW对所述文本数据源中的词条进行训练,得到多个词语的词向量;

根据所述多个词语的词向量和所述文本的多个语句,确定出所述多个语句的句子向量;

对所述多个语句的句子向量进行去重,分为P类质量指标,保存所述P类质量指标的句子向量对应的内容,并基于随机森林确定所述P类质量指标的重要程度值,P为正整数;

根据所述P类质量指标的句子向量对应的内容和所述P类质量指标的重要程度值,获取需要评测的质量指标的明细和重要性排序;所述需要评测的质量指标的明细为所述需要评测的质量指标的句子向量对应的内容;

所述根据所述多个词语的词向量和所述文本的多个语句,确定出所述多个语句的句子向量,包括:

将所述文本的多个语句进行分词;

使用所述多个词语的词向量对分词后的语句进行遍历,将所述多个语句中的词语转换为词向量,确定出多个语句的句子向量;

所述基于随机森林确定所述P类质量指标的重要程度值,包括:

根据所述P类质量指标,确定每次形成决策树利用的样本个数和构建森林的树的棵数;

根据所述样本个数和构建森林的树的棵数构建决策树;

遍历所有的决策树中质量指标的特征,在一次循环中,所述特征出现一次计数值加1,得到所述特征在森林中出现的次数;

根据每个特征在森林中出现的次数,得到各类质量指标的重要程度值。

2.如权利要求1所述的方法,其特征在于,所述使用连续词袋模型CBOW对所述文本数据源中的词条进行训练,得到多个词语的词向量,包括:

使用CBOW对所述文本数据源中的词条进行训练,通过词条语句中当前词语的前后文词语预测所述当前词语的词向量;

对每个词条进行遍历,得到多个词语的词向量。

3.如权利要求1所述的方法,其特征在于,所述对所述多个语句的句子向量进行去重,分为P类质量指标,包括:

将所述多个语句的句子向量进行补齐;

针对所述多个句子向量中任意一个句子向量,遍历其他的句子向量,计算向量之间的欧式距离;

将欧式距离小于第一阈值的两个句子向量确定为同一类质量指标,将欧式距离小于第二阈值的两个句子向量确定为相同的句子向量,进行去重,得到P类质量指标。

4.一种文本质量指标获取装置,其特征在于,包括:

生成单元,用于获取文本的名称和关键词,并根据所述文本的名称和关键词,在搜索引擎中提取词条,生成文本数据源;

确定单元,用于使用连续词袋模型CBOW对所述文本数据源中的词条进行训练,得到多个词语的词向量;以及根据所述多个词语的词向量和所述文本的多个语句,确定出所述多个语句的句子向量;

去重单元,用于对所述多个语句的句子向量进行去重,分为P类质量指标,保存所述P类质量指标的句子向量对应的内容,并基于随机森林确定所述P类质量指标的重要程度值,P为正整数;

处理单元,用于根据所述P类质量指标的句子向量对应的内容和所述P类质量指标的重要程度值,获取需要评测的质量指标的明细和重要性排序;所述需要评测的质量指标的明细为所述需要评测的质量指标的句子向量对应的内容;

所述确定单元具体用于:

将所述文本的多个语句进行分词;使用所述多个词语的词向量对分词后的语句进行遍历,将所述多个语句中的词语转换为词向量,确定出多个语句的句子向量;

所述去重单元具体用于:

根据所述P类质量指标,确定每次形成决策树利用的样本个数和构建森林的树的棵数;根据所述样本个数和构建森林的树的棵数构建决策树;遍历所有的决策树中质量指标的特征,在一次循环中,所述特征出现一次计数值加1,得到所述特征在森林中出现的次数;根据每个特征在森林中出现的次数,得到各类质量指标的重要程度值。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国银联股份有限公司,未经中国银联股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201711484243.7/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top