[发明专利]文本数据管理方法、装置、电子设备及非易失性存储介质在审
申请号: | 202211318585.2 | 申请日: | 2022-10-26 |
公开(公告)号: | CN115495583A | 公开(公告)日: | 2022-12-20 |
发明(设计)人: | 陈知生;陈迎昕 | 申请(专利权)人: | 中国电信股份有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/216 |
代理公司: | 北京康信知识产权代理有限责任公司 11240 | 代理人: | 董文倩 |
地址: | 100033*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 数据管理 方法 装置 电子设备 非易失性 存储 介质 | ||
本申请公开了一种文本数据管理方法、装置、电子设备及非易失性存储介质。其中,该方法包括:依据第一处理规则,清除待处理文本数据中的干扰数据,得到第一目标文本数据;依据第二处理规则,清除第一目标文本数据中的干扰数据,得到第二目标文本数据;确定第二目标文本数据和第三目标文本数据的相似度信息;在第二目标文本数据和第三目标文本数据的相似度信息符合第一预设相似度要求的情况下,确定第二目标文本数据和第三目标文本数据对应同一目标词条。本申请解决了由于相关技术中在确定文本数据相似度时没有考虑文本数据所属的技术领域和文本格式造成的无法准确确定不同文本数据之间的相似度的技术问题。
技术领域
本申请涉及数据处理领域,具体而言,涉及一种文本数据管理方法、装置、电子设备及非易失性存储介质。
背景技术
在文本数据管理场景中,通常需要通过比对待处理文本数据与数据库中已有的文本数据的相似度从而对待处理文本数据完成归类。但是相关技术中在确定待处理文本数据与已有文本数据之间的相似度时,通常不会考虑到不同文本数据所属的技术领域造成的影响,也不会考虑不同文本数据的格式不同时所带来的影响,因此无法准确确定不同文本数据之间的相似度。
针对上述的问题,目前尚未提出有效的解决方案。
发明内容
本申请实施例提供了一种文本数据管理方法、装置、电子设备及非易失性存储介质,以至少解决由于相关技术中在确定文本数据相似度时没有考虑文本数据所属的技术领域和文本格式造成的无法准确确定不同文本数据之间的相似度的技术问题。
根据本申请实施例的一个方面,提供了一种文本数据管理方法,包括:依据第一处理规则,清除待处理文本数据中的干扰数据,得到第一目标文本数据,其中,第一处理规则为目标对象设定的处理规则;依据第二处理规则,清除第一目标文本数据中的干扰数据,得到第二目标文本数据,其中,第二处理规则为服务器推送的处理规则;确定第二目标文本数据和第三目标文本数据的相似度信息,其中,第三目标文本数据为存储在目标文本数据库中的文本数据;在第二目标文本数据和第三目标文本数据的相似度信息符合第一预设相似度要求的情况下,确定第二目标文本数据和第三目标文本数据对应同一目标词条。
可选地,确定第二目标文本数据和第三目标文本数据的相似度信息包括:将第二目标文本数据划分为多个第一子文本数据;从第一子文本数据中确定被第三目标文本数据包含的第二子文本数据;依据第二子文本数据的数量与第一子文本数据的数量的比值,确定相似度信息。
可选地,第一预设相似度要求包括比值大于第一预设比值,并且第二子文本数据的数量大于第一预设数量。
可选地,在不存在与第二目标文本数据的相似度信息符合预设要求的第三目标文本数据的情况下,文本数据管理方法还包括:创建与第二目标文本数据对应的目标词条,其中,目标词条用于检索第二目标文本数据。
可选地,依据第一处理规则,清除待处理文本数据中的干扰数据的步骤之前,文本数据管理方法还包括:获取目标对象输入的处理规则文本数据;对处理规则文本数据进行语义识别,生成第一处理规则;以及,获取目标对象输入的正则表达式,并依据正则表达式生成第一处理规则。
可选地,干扰数据包括以下至少之一:序号,标点符号,注释符号。
可选地,文本数据管理方法还包括:获取查询文本数据,其中,查询文本数据用于表征查询意图信息;依据第一处理规则和第二处理规则,清理查询文本数据中的干扰数据,从而得到第四目标文本数据;从目标数据库中确定与第四目标文本数据之间的相似度信息符合第二预设相似度要求的第五目标文本数据;推送第五目标文本数据,以及第五目标数据对应的目标词条。
可选地,文本数据管理方法还包括:向目标服务器发送第一处理规则;获取目标服务器依据第一处理规则确定的第二处理规则,其中,第二处理规则为使用频率大于第一预设频率阈值的第一处理规则。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国电信股份有限公司,未经中国电信股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211318585.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种频率稳定度测量方法和系统
- 下一篇:一种新能源电力储存机箱用换热控温组件