[发明专利]一种基于监督词向量的文本缩写识别方法及系统有效
申请号: | 201811642859.7 | 申请日: | 2018-12-29 |
公开(公告)号: | CN109614493B | 公开(公告)日: | 2023-02-03 |
发明(设计)人: | 覃勋辉;杜若;向海;侯聪;刘科 | 申请(专利权)人: | 重庆邂智科技有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35 |
代理公司: | 重庆强大凯创专利代理事务所(普通合伙) 50217 | 代理人: | 赵玉乾 |
地址: | 401120 重庆市渝北区金开*** | 国省代码: | 重庆;50 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明申请涉及中文缩略语识别领域,具体公开了一种基于监督词向量的文本缩写识别方法,包括以下步骤:一,开放大语料训练监督词向量模型;二,标记现有缩略语词典的原语词性;形成原语词性序列;三,给定文本的词性计算;四,选出给定文本的候选原语和候选缩略语;五,将候选原语和候选缩略语分别输入到监督词向量模型的同义词关系分类器中进行判别。本申请还公开了一种基于监督词向量的文本缩写识别系统。本申请能够在准确识别中文缩写语及其原语。 | ||
搜索关键词: | 一种 基于 监督 向量 文本 缩写 识别 方法 系统 | ||
【主权项】:
1.一种基于监督词向量的文本缩写识别方法,其特征在于:包括以下步骤:步骤一,训练得到监督词向量模型;所述监督词向量模型,包括词向量模型和同义词关系分类器;步骤二,标记现有缩略语词典的原语词性,形成原语词性序列;步骤三,对给定文本进行词性计算;步骤四,选出给定文本的候选原语和候选缩略语;步骤五,将候选原语和候选缩略语分别输入到监督词向量模型的同义词关系分类器中进行相似度计算;步骤六,获得原语和缩略语。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆邂智科技有限公司,未经重庆邂智科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201811642859.7/,转载请声明来源钻瓜专利网。