[发明专利]新词的发现方法和装置在审

申请号：	201910809204.2	申请日：	2019-08-29
公开（公告）号：	CN110516250A	公开（公告）日：	2019-11-29
发明（设计）人：	朱翔宇;赵子元;颜强	申请（专利权）人：	腾讯科技(深圳)有限公司
主分类号：	G06F17/27	分类号：	G06F17/27
代理公司：	44285 深圳市深佳知识产权代理事务所(普通合伙)	代理人：	骆苏华<国际申请>=<国际公布>=<进入
地址：	518000 广东省深圳***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：	本申请提供一种新词的发现方法和装置，从文本集合中获取待处理文本后，利用词汇库将待处理文本划分为多个基本单元，然后根据文本集合，计算待处理文本中每两个基本单元之间的关联程度指标，根据待处理文本中每两个基本单元之间的关联程度指标，生成待处理文本中每一个基本单元的特征向量，进而利用各个基本单元的特征向量，计算得到每两个相邻的基本单元之间的相似度；根据待处理文本中每两个相邻的基本单元之间的相似度拆分待处理文本，得到多个子文本，最后将多个子文本作为新词加入所述词汇库。本申请提供的新词发现方法能够直接从无标注的文本集合中发现新词，从而解决基于人为标注的文本实现的现有的新词发现技术效率较低的问题。
搜索关键词：	文本基本单元文本集合程度指标特征向量新词发现词汇库相似度标注关联方法和装置技术效率申请发现
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种新词的发现方法，其特征在于，包括：/n从文本集合中获取待处理文本；/n利用预设的词汇库，将所述待处理文本划分为多个基本单元；其中，每个所述基本单元均包括至少一个连续的汉字；/n根据所述文本集合，计算所述待处理文本中每两个基本单元之间的关联程度指标；/n生成所述待处理文本的每一个基本单元的特征向量；其中，任意一个所述基本单元的特征向量，根据所述基本单元与其他基本单元之间的关联程度指标生成；所述其他基本单元指代除所述基本单元以外的每一个基本单元；/n针对所述待处理文本中的每两个相邻的基本单元，根据所述两个相邻的基本单元的特征向量，计算得到所述两个相邻的基本单元之间的相似度；/n根据所述待处理文本中每两个相邻的基本单元之间的相似度，拆分所述待处理文本，得到多个子文本；其中，每一个所述子文本均包括至少两个连续的所述基本单元；/n将所述多个子文本作为新词加入所述词汇库。/n

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司，未经腾讯科技(深圳)有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201910809204.2/，转载请声明来源钻瓜专利网。

上一篇：一种情感倾向信息获得方法及装置
下一篇：一种电商实体识别模型的构建方法、构建装置、设备和介质

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]新词的发现方法和装置在审

专利文献下载