[发明专利]一种数据处理的方法、装置及电子设备在审
申请号: | 202010567698.0 | 申请日: | 2020-06-19 |
公开(公告)号: | CN113822051A | 公开(公告)日: | 2021-12-21 |
发明(设计)人: | 徐剑军;张绚;李奇 | 申请(专利权)人: | 北京彩智科技有限公司 |
主分类号: | G06F40/247 | 分类号: | G06F40/247;G06F40/289 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 柳欣 |
地址: | 100700 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 数据处理 方法 装置 电子设备 | ||
本发明提供了一种数据处理的方法、装置及电子设备,其中,该方法包括:获取标准词组,确定标准词组的原始同义词组;将原始同义词组作为当前轮对象执行预处理过程,生成与标准词组同义的替代同义词组;将替代子词组作为新的当前轮对象,重复执行预处理过程,并生成标准词组的替代同义词组;将标准词组的原始同义词组和替代同义词组作为标准词组的同义词组,并根据多个标准词组的同义词组生成同义词库。通过本发明实施例提供的数据处理的方法、装置及电子设备,同义词库能够包含比较全面的同义词组,基于同义词库可以更加准确地理解用户输入的词组或文本,从而可以更加准确地进行自然语言理解处理,能够更加准确地理解用户意图。
技术领域
本发明涉及数据处理技术领域,具体而言,涉及一种数据处理的方法、装置、电子设备及计算机可读存储介质。
背景技术
自然语言是非常灵活的语言,同一个意思可以用多种方式来表达。在自然语言处理(NLP,Natural Language Processing)领域,一般通过建立同义词库来统一同一个意思的不同表达方式。
在实现本发明的过程中,发明人发现现有的方案中至少存在如下问题:
在某些领域,如政务领域、法律领域等,其存在标准的专业术语,而日常生活中人们会用相似的表达方式来描述该专业术语,导致现有的同义词库在表现词组的同义词时表达力不够强。例如,在政务领域,“办理”是规范的专业术语,其可以表达为“如何办理”、“怎么办理”、“怎么办”等,即可以认为“办理”与“如何办理”、“怎么办理”、“怎么办”等表达的意思相近。而通常的同义词库中“办理”对应的同义词为“处理”、“处置”等,而这些词在政务领域则具有严格的其他的意义,不能与“办理”互为近义词。
同时,即使建立专门用于这些领域的同义词库,由于这些领域的表达方式更为复杂,也难以用简单的同义词比较全面地覆盖所有的表达方式,从而导致在对该领域的文本进行自然语言处理时不能较好地进行理解,容易导致理解偏差甚至错误。
发明内容
为解决现有存在的技术问题,本发明实施例提供一种数据处理的方法、装置、电子设备及计算机可读存储介质。
第一方面,本发明实施例提供了一种数据处理的方法,包括:
获取标准词组,确定所述标准词组的原始同义词组;
将所述原始同义词组作为当前轮对象执行预处理过程,生成与所述标准词组同义的替代同义词组;其中,所述预处理过程包括:在所述当前轮对象能被分词时,将所述当前轮对象的分词作为所述当前轮对象的当前轮子对象,并确定与所述当前轮子对象同义的替代子词组,将所述替代子词组与所述当前轮对象中的其他当前轮子对象、或与其他当前轮子对象同义的替代子词组进行组合,形成与所述当前轮对象同义的当前轮替代词组,并根据所述当前轮替代词组生成所述标准词组的替代同义词组;
将所述替代子词组作为新的当前轮对象,重复执行所述预处理过程,并生成所述标准词组的替代同义词组,直至所述当前轮对象不能被分词,或者直至不存在与所述当前轮对象的当前轮子对象统一的替代子词组;
将所述标准词组的所述原始同义词组和所述替代同义词组作为所述标准词组的同义词组,并根据多个所述标准词组的同义词组生成同义词库。
第二方面,本发明实施例还提供了一种数据处理的装置,包括:
获取模块,用于获取标准词组,确定所述标准词组的原始同义词组;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京彩智科技有限公司,未经北京彩智科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010567698.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:发酵酱油的减盐工艺方法
- 下一篇:图像处理方法、装置、电子设备和存储介质