[发明专利]文章领域相关度评估方法、装置、计算机设备和存储介质在审
申请号: | 202211113340.6 | 申请日: | 2022-09-14 |
公开(公告)号: | CN115510810A | 公开(公告)日: | 2022-12-23 |
发明(设计)人: | 段炼;周忠诚;黄九鸣;张圣栋 | 申请(专利权)人: | 湖南星汉数智科技有限公司 |
主分类号: | G06F40/117 | 分类号: | G06F40/117;G06F40/151;G06F40/216;G06F40/284 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 410000 湖南省长沙市高新开发区青山*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文章 领域 相关 评估 方法 装置 计算机 设备 存储 介质 | ||
1.一种文章领域相关度评估方法,其特征在于,包括:
获取待评估文章的字词序列,分别对所述字词序列中的各个字词进行标签标记,得到所述字词序列的标签序列;
根据预设转换规则将所述标签序列转换为权重数值序列,若存在两个及以上的标签序列,则将各所述权重数值序列归约为一个最终的权重数值序列;
对预设区间等量划分后,分别计算所述权重数值序列在每等份内的权重分布概率,得到权重分布概率序列;
基于预设权重对所述权重分布概率序列进行权重抑制后计算对应的熵值,得到所述待评估文章的特征值;
根据所述特征值确定所述待评估文章与领域的相关度。
2.根据权利要求1所述的方法,其特征在于,所述分别对所述字词序列中的字词进行标签标记,得到所述字词序列的标签序列,包括以下任一种或多种:
第一种:分别对所述字词序列中的字词进行实体识别,得到各所述字词的实体标签,根据各所述字词的实体标签得到所述字词序列的实体标签序列;
第二种:分别对所述字词序列中的字词进行属性关系抽取,得到各所述字词的属性关系标签,根据各所述字词的属性关系标签得到属性关系标签序列;
第三种:基于预设关键词及标签类型,分别对所述字词序列中的字词进行映射转换,确定各所述字词的自定义标签;根据各所述自定义标签得到所述字词序列的自定义标签序列。
3.根据权利要求1所述的方法,其特征在于,所述将各所述权重数值序列归约为一个最终的权重数值序列,包括:
利用聚合函数将各所述权重数值序列中相同位置的权重数值分别进行聚合,确定各个位置对应的聚合权重;
根据所述聚合权重构建得到最终的权重数值序列。
4.根据权利要求1所述的方法,其特征在于,所述对预设区间等量划分后,分别计算所述权重数值序列在每等份内的权重分布概率,得到权重分布概率序列,包括:
根据所述权重数值序列的长度确定预设区间并进行区间的等量划分;
从每等份内确定一个点作为自变量取值代入至所述权重数值序列中各权重数值对应的概率分布函数,计算得到各权重数值的分布概率;
将所述分布概率与对应的权重数值相乘后,对属于同一点的分布概率进行聚合,得到所述权重数值序列在每等份内的权重分布概率;
根据每等份内的权重分布概率得到权重分布概率序列。
5.根据权利要求1所述的方法,其特征在于,所述基于预设权重对所述权重分布概率序列进行权重抑制后计算对应的熵值,得到所述待评估文章的特征值,包括:
获取预设权重阈值和预设权重替换值,将所述权重分布概率序列中的元素值分别与所述预设权重阈值进行比较;
若所述元素值小于所述预设权重阈值,则将所述元素值替换为所述预设权重替换值,得到权重抑制序列;
计算所述权重抑制序列的熵值作为所述待评估文章的特征值。
6.根据权利要求5所述的方法,其特征在于,所述权重抑制序列的熵值的计算公式如下:
其中,S为熵值,R为所述权重抑制序列的长度,r=1,2,……,R,ur为权重抑制序列中位置为r的元素值,log为对数函数。
7.根据权利要求1所述的方法,其特征在于,所述根据所述特征值确定所述待评估文章与领域的相关度,包括:
将所述特征值代入类对数函数计算,输出所述待评估文章与领域的相关度;所述类对数函数是在所述特征值的取值区间内,一阶导数为正数二阶导数为负数的函数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于湖南星汉数智科技有限公司,未经湖南星汉数智科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211113340.6/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种污水处理工艺
- 下一篇:文档图像版面分析方法、装置、计算机设备和存储介质