[发明专利]一种项目文本的相似度检测方法及装置有效
申请号: | 202110403617.8 | 申请日: | 2021-04-15 |
公开(公告)号: | CN113076734B | 公开(公告)日: | 2023-01-20 |
发明(设计)人: | 方正云;杨政;尹春林;李萍;刘柱揆;潘侃;朱华;苏蒙 | 申请(专利权)人: | 云南电网有限责任公司电力科学研究院 |
主分类号: | G06F40/194 | 分类号: | G06F40/194;G06F40/30;G06Q10/10 |
代理公司: | 北京弘权知识产权代理有限公司 11363 | 代理人: | 逯长明;许伟群 |
地址: | 650217 云南省昆*** | 国省代码: | 云南;53 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 项目 文本 相似 检测 方法 装置 | ||
本申请涉及数据库技术领域,提供一种项目文本的相似度检测方法及装置,包括,提取待检测项目文本的待测章节和对比项目文本的对比章节,通过待测语句与对比语句的余弦相似度和欧氏距离相似度,定义新的相似度模型,获得待测语句多个第一相似度,根据待测语句的多个第一相似度,获得所述待测语句的第二相似度,根据所述待测章节中全部待测语句的第二相似度以及全部待测语句对应的第一预设权重,获得所述待测章节的第三相似度,根据待检测项目文本全部待测章节的第三相似度以及待测章节对应的第二预设权重,获得待检测项目文本与对比项目文本的文本相似度,得到的文本相似度融合了语义层面的相似度,可以提高项目文本的相似度检测效率。
技术领域
本申请涉及数据库技术领域,特别是涉及电力行业项目文本的相似度检测方法及装置。
背景技术
科技项目审查是科技计划管理的重要工作,是推动科技事业持续健康发展、促进科技资源优化配置、提高科技管理水平的重要手段。在审查阶段,利用科技项目库中的现有项目文本作为对比项目文本,对待测项目文本进行相似度检测是必要的一步,例如电力行业项目文本包括项目摘要、目的和意义、项目研究的背景、研究内容与实施方案、预期目标和成果形式五个章节,在将待测项目文本与对比项目文本进行相似度检测时,是将两个项目文本相对应的章节进行相似度检测,例如,待测项目文本的项目摘要章节为待测章节,则将对比项目文本的项目摘要章节作为对比章节,通过判断待测章节与对比章节的相似度,判断待检测章节的是否与对比章节雷同。
目前的科技项目文本相似度检测方法主要分为两大类:基于字符串编辑距离比较的方法和基于TF-IDF(Term Frequency-Inverse Document Frequency,词频—逆文件频率)的方法,基于字符串编辑距离比较的方法只是在科研项目语句字符串层面进行相似度比较,并没有考虑每个句子语义层面的特征;基于TF-IDF的方法,是采用关键词来进行科研项目文本的相似度比较,此类方法只考虑了项目文本中几个关键词的特征,并没有考虑项目文本的整体框架特征以及项目文本中每句话的语义特征。因此,基于字符串编辑距离比较的方法和基于TF-IDF的方法在针对文本不同但是语义相同的表述语句时,均无法有效的检测两者的语义相似度,在进行项目文本相似度检测时均需要人工审核进行辅助。
可见现有技术在检测预研项目文本时,难以在语义层面进行相似度的检测,而为完成不同项目文本的相似度检测,通常需要人工审核的介入,从而增加了评审专家的工作量,提高了人工成本,降低了审核效率。
发明内容
本申请提供了一种项目文本的相似度检测方法及装置,以提供一种可以有效检测待测项目文本与对比项目文本语义相似度的项目文本的相似度检测方法及装置。
本申请第一方面提供了一种项目文本的相似度检测方法,包括:
提取待检测项目文本的任一待测章节,以及提取对比项目文本中所述任一待测章节对应的对比章节;
计算所述待测章节中任一待测语句与所述对比章节中全部对比语句的余弦相似度,以及对应余弦相似度的欧氏距离相似度,所述对应余弦相似度的欧氏距离相似度是指其待测语句与余弦相似度的待测语句为同一语句,且其对比语句与余弦相似度的对比语句为同一语句;
若余弦相似度的值大于或等于预设阈值,则将所述余弦相似度作为所述待测语句的第一相似度,若余弦相似度的值小于预设阈值,则将所述余弦相似度与对应的欧氏距离相似度的均值作为所述待测语句的第一相似度,获得所述待测语句的多个第一相似度;
根据所述待测语句的多个第一相似度的大小,获得所述待测语句的第二相似度,所述第二相似度为多个第一相似度中数值最大的第一相似度;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于云南电网有限责任公司电力科学研究院,未经云南电网有限责任公司电力科学研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110403617.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种机械加工打磨装置
- 下一篇:一种齿轮磨削去毛刺装置