[发明专利]一种确定相似文本的数据处理系统有效
申请号: | 202210935521.0 | 申请日: | 2022-08-05 |
公开(公告)号: | CN115017269B | 公开(公告)日: | 2022-10-25 |
发明(设计)人: | 刘羽;傅晓航;林方;常鸿宇 | 申请(专利权)人: | 中科雨辰科技有限公司 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/335 |
代理公司: | 北京锺维联合知识产权代理有限公司 11579 | 代理人: | 安娜 |
地址: | 100093 北京*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 确定 相似 文本 数据处理系统 | ||
本发明涉及一种确定相似文本的数据处理系统,系统包括:数据库、处理器和存储有计算机程序的存储器,其中,数据库中包括预设实体向量集合和初始文本列表,当计算机程序被处理器执行时,实现以下步骤:获取目标文本对应的第一文本编码向量和第一实体编码向量列表,获取关键文本对应的第二文本编码向量和第二实体编码向量列表,分别对第一实体编码向量列表和第二实体编码向量列表进行处理获取第一目标编码向量列表和第二目标编码向量列表,获取目标文本对应的相似度,确定目标文本与关键文本列表中的文本是否为相似文本。本发明提供了一种确定文本相似度的新方法,能够避免因语义重复造成不清楚的问题,使得获取的文本相似度的准确度较高。
技术领域
本发明涉及文本处理技术领域,特别是涉及一种确定相似文本的数据处理系统。
背景技术
随着互联网的普及和发展,大量信息以各种形式出现在互联网上,例如新闻文章,研究出版物,微博等,需要处理的数据日益增加,如何将文本中的信息进行处理和比较已经成为了目前的主流研究方向,如何确定相关联的不同文本之间的相似度已经成为热点问题,有效计算文本之间的相似度从而确定相似文本,能够减少相关部门的工作量,并且能够更加有针对性为阅读者提供更好的阅读服务。
目前,现有技术中,获取文本相似度的方法为:基于统计的方法对文本中的句子含义和段落含义进行识别,基于语义的方法比较文本中的词语,进而确认词语和句子之间的相似度,进而综合比较文本的相似度,以上所述获取文本相似度的方法存在的问题:
一方面,因同一语义表达方式多样化,只能解决文本词汇层面的匹配问题,在进行文本处理过程中,无法避免词义重复或者不清楚的问题,无法有效对文本中的语义进行处理,降低了文本的有效性;
另一方面,因语言的复杂性,使得获取到的相似度只局限于文字表面,导致获取的文本相似度的准确度较低。
发明内容
针对上述技术问题,本发明采用的技术方案为:一种确定相似文本的数据处理系统,系统包括:数据库、处理器和存储有计算机程序的存储器,其中,数据库中包括预设实体向量集合和初始文本列表,当计算机程序被处理器执行时,实现以下步骤:
S100,从初始文本列表中获取目标文本和目标文本对应的关键文本列表A={A1,……,Aj,……,An},Aj为目标文本对应的第j个关键文本,j=1……n,n为目标文本对应的关键文本数量。
S200,根据预设实体向量集合,获取目标文本对应的第一文本编码向量B和目标文本对应的第一实体编码向量列表C={C1,……,Cr,……,Cs},Cr为目标文本对应的第r类实体类型的第一实体编码向量,r=1……s,s为目标文本的实体类型数量。
S300,根据预设实体向量集合,获取Aj对应的第二文本编码向量B0j和Aj对应的第二实体编码向量列表C0j={C0j1,……,C0jg,……,C0jz},C0jg为Aj对应的第g类实体类型的第二实体编码向量,g=1……z,z为Aj的实体类型数量。
S400,当C中不存在C0jg对应的实体类型时,对C进行处理,获取到目标文本对应的第一目标编码向量列表D={B,D1,……,Dt,……,Dk},Dt为目标文本对应的第t个初始实体类型的第一目标编码向量,t=1……k,k为目标文本对应的初始实体类型的数量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中科雨辰科技有限公司,未经中科雨辰科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210935521.0/2.html,转载请声明来源钻瓜专利网。