[发明专利]新词发现方法及装置、电子设备及存储介质在审
| 申请号: | 202110227279.7 | 申请日: | 2021-03-01 |
| 公开(公告)号: | CN113705212A | 公开(公告)日: | 2021-11-26 |
| 发明(设计)人: | 陈诚;陈守志;董井然;张杰;曾令英;梁浩强;孙雨豪 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
| 主分类号: | G06F40/279 | 分类号: | G06F40/279 |
| 代理公司: | 深圳市隆天联鼎知识产权代理有限公司 44232 | 代理人: | 叶虹 |
| 地址: | 518057 广东省深圳*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 新词 发现 方法 装置 电子设备 存储 介质 | ||
本公开提供一种新词发现方法及装置、电子设备、计算机可读存储介质;涉及计算机技术领域。所述新词发现方法包括:获取多个文本数据,且各所述文本数据均具有类型标签;对所述多个文本数据进行新词提取,以得到一个或多个新词;在各所述类型标签中确定目标类型标签,并计算所述新词与所述目标类型标签之间的相关度指标;依据所述相关度指标,在所述新词中确定出与所述目标类型标签关联的目标新词。本公开通过引入相关性指标,可以在确保新词发现的准确率的同时,提高新词发现的结果与目标类型的相关性。
技术领域
本公开涉及计算机技术领域,具体而言,涉及一种新词发现方法、新词发现装置、电子设备以及计算机可读存储介质。
背景技术
社会经济文化及科学技术的发展与变迁会对语言产生潜移默化的影响,其中,最直观的影响便是新词的出现。新词的来源涵盖生产生活的方方面面,例如,可以是网络新词、可以是生产运营过程催生的新词,还可以是某一行业或某一领域的新词,而如何在文本处理和信息挖掘领域中快速和有效地识别新词也越发重要。在相关技术中,由于只考虑新词判定维度的衡量指标,因此存在新词发现的结果与目标任务无关等问题。
需要说明的是,在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。
发明内容
本公开的目的在于提供一种新词发现方法、新词发现装置、电子设备以及计算机可读存储介质,进而至少在一定程度上克服由于相关技术的限制和缺陷而导致的新词发现的结果与目标任务无关的问题。
根据本公开的第一方面,提供一种新词发现方法,包括:
获取多个文本数据,且各所述文本数据均具有类型标签;
对所述多个文本数据进行新词提取,以得到一个或多个新词;
在各所述类型标签中确定目标类型标签,并计算所述新词与所述目标类型标签之间的相关度指标;
依据所述相关度指标,在所述新词中确定出与所述目标类型标签关联的目标新词。
根据本公开的第二方面,提供一种新词发现装置,包括:
文本获取模块,用于获取多个文本数据,且各所述文本数据均具有类型标签;
新词提取模块,用于对所述多个文本数据中进行新词提取,以得到一个或多个新词;
相关度计算模块,用于在各所述类型标签确定目标类型标签,并计算所述新词与所述目标类型标签之间的相关度指标;
目标新词发现模块,用于依据所述相关度指标,在所述新词中确定出与所述目标类型标签关联的目标新词。
在本公开的一种示例性实施例中,所述新词提取模块通过执行以下方法对所述多个文本数据中进行新词提取,以得到一个或多个新词:
将各所述文本数据划分为多个句子,并从各所述句子中提取多个候选词;
计算各所述候选词的邻字丰富度指标及内部凝固度指标;
当所述邻字丰富度指标和所述内部凝固度指标分别大于对应的预设丰富度阈值及预设凝固度阈值时,将所述候选词作为所述新词。
在本公开的一种示例性实施例中,所述新词提取模块通过执行以下步骤从各所述句子中提取多个候选词:
分别以多个不同的字符长度从各所述句子中提取多个所述候选词。
在本公开的一种示例性实施例中,所述新词提取模块通过执行以下方法计算各所述候选词的邻字丰富度指标及内部凝固度指标:
从所述文本数据中获取所述候选词的左右邻字集合,并对应计算所述候选词与所述左右邻字集合间的信息熵,得到所述邻字丰富度指标;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110227279.7/2.html,转载请声明来源钻瓜专利网。





