[发明专利]文章领域相关度评估方法、装置、计算机设备和存储介质在审
申请号: | 202211113350.X | 申请日: | 2022-09-14 |
公开(公告)号: | CN115510846A | 公开(公告)日: | 2022-12-23 |
发明(设计)人: | 段炼;周忠诚;黄九鸣;张圣栋 | 申请(专利权)人: | 湖南星汉数智科技有限公司 |
主分类号: | G06F40/216 | 分类号: | G06F40/216;G06F40/284;G06F40/117 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 410000 湖南省长沙市高新开发区青山*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文章 领域 相关 评估 方法 装置 计算机 设备 存储 介质 | ||
本发明涉及自然语言处理技术领域,提供了一种文章领域相关度评估方法、装置、计算机设备和存储介质,包括:获取待评估文章的字词序列,分别对字词序列中的各个字词进行标签标记,得到字词序列的标签序列;根据预设转换规则将标签序列转换为权重数值序列,并对字词序列进行块划分,从权重数值序列中分别获取各块对应的块权重数值序列;分别归约块权重数值序列内的权重数值,得到块代表权重;基于块代表权重传染更新块权重数值序列内的权重数值,得到块传染权重数值序列;合并各块传染权重数值序列得到合并权重数值序列,根据合并权重数值序列确定待评估文章的特征值;根据特征值计算待评估文章与领域的相关度。采用本方法能够提高评估准确性。
技术领域
本发明属于自然语言处理技术领域,尤其涉及一种文章领域相关度评估方法、装置、计算机设备和存储介质。
背景技术
文章领域相关度评估是指评估出一篇文章所表达的内容与某个目标领域的相关程度的过程。传统有两种方法对文章领域相关度进行评估,一是基于字词的统计模型,其主要利用统计学语言模型生成特征后通过相似度确定文章的领域相关度。二是基于神经网络的方法,其主要采用基于神经网络的语言模型对文章进行向量表征后,利用回归模型或者二分类模型进行相关度判断。
然而,基于字词统计学的模型文章字词的语言能力有限,难以挖掘字词的深层语义信息,而基于神经网络的方式虽然能够捕获深层语义信息的,但是神经网络模型因计算复杂且参数量大等问题常常对文章的长度有限制,不宜直接处理长文章,从而降低了评估的准确性。
发明内容
基于此,有必要针对上述技术问题,提供一种能够提高评估准确性的文章领域相关度评估方法、装置、计算机设备和存储介质。
本发明提供一种文章领域相关度评估方法,包括:
获取待评估文章的字词序列,分别对所述字词序列中的各个字词进行标签标记,得到所述字词序列的标签序列;
根据预设转换规则将所述标签序列转换为权重数值序列;
对所述字词序列进行块划分,从所述权重数值序列中获取各块对应的块权重数值序列,分别归约各所述块权重数值序列内的权重数值,得到块代表权重;
基于所述块代表权重传染更新所述块权重数值序列内的权重数值,得到块传染权重数值序列;
合并各所述块传染权重数值序列得到合并权重数值序列,根据合并权重数值序列确定所述待评估文章的特征值;
根据所述特征值计算所述待评估文章与领域的相关度。
在其中一个实施例中,所述对所述字词序列进行块划分,从所述权重数值序列中获取各块对应的块权重数值序列,分别归约各所述块权重数值序列内的权重数值,得到块代表权重,包括:
按句对所述字词序列进行块划分,从所述权重数值序列中获取各块对应的块权重数值序列;
分别归约各所述块权重数值序列内的权重数值,得到各块对应的块代表权重。
在其中一个实施例中,所述基于所述块代表权重传染更新所述块权重数值序列内的权重数值,得到块传染权重数值序列,包括:
从所述块权重数值序列内确定与所述块代表权重不相等的权重数值;
将所述不相等的权重数值均替换为块代表权重,得到块传染权重数值序列。
在其中一个实施例中,所述根据合并权重数值序列确定所述待评估文章的特征值,包括:
对所述合并权重数值序列内的权重数值进行求和,得到求和权重数值;
将所述求和权重数值与所述待评估文章的长度的比值作为特征值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于湖南星汉数智科技有限公司,未经湖南星汉数智科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211113350.X/2.html,转载请声明来源钻瓜专利网。