[发明专利]新词的发现方法和装置在审

申请号：	201910809204.2	申请日：	2019-08-29
公开（公告）号：	CN110516250A	公开（公告）日：	2019-11-29
发明（设计）人：	朱翔宇;赵子元;颜强	申请（专利权）人：	腾讯科技(深圳)有限公司
主分类号：	G06F17/27	分类号：	G06F17/27
代理公司：	44285 深圳市深佳知识产权代理事务所(普通合伙)	代理人：	骆苏华<国际申请>=<国际公布>=<进入
地址：	518000 广东省深圳***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	文本基本单元文本集合程度指标特征向量新词发现词汇库相似度标注关联方法和装置技术效率申请发现
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本申请提供一种新词的发现方法和装置，从文本集合中获取待处理文本后，利用词汇库将待处理文本划分为多个基本单元，然后根据文本集合，计算待处理文本中每两个基本单元之间的关联程度指标，根据待处理文本中每两个基本单元之间的关联程度指标，生成待处理文本中每一个基本单元的特征向量，进而利用各个基本单元的特征向量，计算得到每两个相邻的基本单元之间的相似度；根据待处理文本中每两个相邻的基本单元之间的相似度拆分待处理文本，得到多个子文本，最后将多个子文本作为新词加入所述词汇库。本申请提供的新词发现方法能够直接从无标注的文本集合中发现新词，从而解决基于人为标注的文本实现的现有的新词发现技术效率较低的问题。

技术领域

本发明涉及数据挖掘技术领域，特别涉及一种新词的发现方法和装置。

背景技术

目前，随着互联网的迅猛发展和普及，网络中涌现出大量的不存在与传统词典中的新词，包括一些过去从未出现过的，由互联网用户创造的具有特殊含义的网络新词，以及由新出现的人物、地点和机构的名称构成的专有名词等。另一方面，在人机交互的过程中，计算机往往需要基于一个词汇库来分析输入的文本。

因此，为了提高人机交互的效率和准确性，有必要持续的从网络上的不断产生的文本中提取出新词以扩充原有的词汇库。

目前的新词发现方法，一般需要人为的在文本中标注出新词，用这些标注好的文本训练一个神经网络模型，最后再用训练好的神经网络模型去发现新词。然而，要训练一个神经网络模型需要人为标注大量的文本，导致这种现有的新词发现方法的效率较低。

发明内容

基于上述现有技术的缺点，本发明提供一种新词的发现方法和装置，以解决现有的基于预先标注的文本的新词发现方法效率低下的问题。

为实现上述目的，本发明实施例提供如下技术方案：

本申请第一方面提供一种新词发现方法，包括：

从文本集合中获取待处理文本；

利用预设的词汇库，将所述待处理文本划分为多个基本单元；其中，每个所述基本单元均包括至少一个连续的汉字；