[发明专利]一种项目文本的相似度检测方法及装置有效
申请号: | 202110403617.8 | 申请日: | 2021-04-15 |
公开(公告)号: | CN113076734B | 公开(公告)日: | 2023-01-20 |
发明(设计)人: | 方正云;杨政;尹春林;李萍;刘柱揆;潘侃;朱华;苏蒙 | 申请(专利权)人: | 云南电网有限责任公司电力科学研究院 |
主分类号: | G06F40/194 | 分类号: | G06F40/194;G06F40/30;G06Q10/10 |
代理公司: | 北京弘权知识产权代理有限公司 11363 | 代理人: | 逯长明;许伟群 |
地址: | 650217 云南省昆*** | 国省代码: | 云南;53 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 项目 文本 相似 检测 方法 装置 | ||
1.一种项目文本的相似度检测方法,其特征在于,包括:
提取待检测项目文本的任一待测章节,以及提取对比项目文本中所述任一待测章节对应的对比章节;
计算所述待测章节中任一待测语句与所述对比章节中全部对比语句的余弦相似度,以及对应余弦相似度的欧氏距离相似度,所述对应余弦相似度的欧氏距离相似度是指其待测语句与余弦相似度的待测语句为同一语句,且其对比语句与余弦相似度的对比语句为同一语句;
若余弦相似度的值大于或等于预设阈值,则将所述余弦相似度作为所述待测语句的第一相似度,若余弦相似度的值小于预设阈值,则将所述余弦相似度与对应的欧氏距离相似度的均值作为所述待测语句的第一相似度,获得所述待测语句的多个第一相似度;
根据所述待测语句的多个第一相似度的大小,获得所述待测语句的第二相似度,所述第二相似度为多个第一相似度中数值最大的第一相似度;
根据所述待测章节中全部待测语句的第二相似度以及全部待测语句对应的第一预设权重,获得所述待测章节的第三相似度,所述第一预设权重用于表示所述待测语句的重要程度;根据待检测项目文本的全部待测章节的第三相似度以及待测章节对应的第二预设权重,获得待检测项目文本与对比项目文本的文本相似度,所述第二预设权重用于表示所述待测章节的重要程度;
其中,所述根据所述待测章节中全部待测语句的第二相似度以及全部待测语句对应的第一预设权重,获得所述待测章节的第三相似度的过程,包括第一种方式和第二种方式;
其中,所述第一种方式为:所述第三相似度由第三相似度模型获得,所述第三相似度模型为:
NAi维向量由待测章节Ai中全部待测语句的第二相似度构成,Bi为Ai的对比章节,向量由待测章节Ai中全部待测语句的第一预设权重构成,数值sim(Ai,Bi)由与内积得到,所述sim(Ai,Bi)为待测章节Ai的第三相似度,NAi为待测章节Ai的语句数,Aij为待测章节Ai中第j句语句,sim(Aij,Bi)为待测章节Ai中第j句语句的第二相似度;
其中,所述第二种方式为:通过所述待测章节中任一待测语句相较于对比章节的第二相似度,取待测章节Ai中全部待测语句第二相似度的均值,作为待测章节Ai相较于对比章节Bi的第三相似度,数值记为sim(Ai,Bi),
NAi为待测章节Ai中全部待测语句的数目,sim(Aij,Bi)为待测章节Ai中第j句语句的第二相似度。
2.根据权利要求1所述的一种项目文本的相似度检测方法,其特征在于,在所述计算所述待测章节中任一待测语句与所述对比章节中全部对比语句的余弦相似度,以及对应余弦相似度的欧氏距离相似度的步骤之前,还包括利用RoBERTa-WWM预训练模型对所述待测章节中任一待测语句进行向量化,以及对所述对比章节中任一对比语句进行向量化。
3.根据权利要求1所述的一种项目文本的相似度检测方法,其特征在于,所述预设阈值为0.95。
4.根据权利要求1所述的一种项目文本的相似度检测方法,其特征在于,所述全部待测语句对应的第一预设权重基于TextRank算法得到,所述TextRank算法用于将待测语句的重要程度转化为权重。
5.根据权利要求1所述的一种项目文本的相似度检测方法,其特征在于,所述第一预设权重为所述待测章节中全部待测语句数目的倒数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于云南电网有限责任公司电力科学研究院,未经云南电网有限责任公司电力科学研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110403617.8/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种机械加工打磨装置
- 下一篇:一种齿轮磨削去毛刺装置