[发明专利]基于语义模型神经网络识别新词汇的方法、装置有效
申请号: | 202110192199.2 | 申请日: | 2021-02-20 |
公开(公告)号: | CN112905742B | 公开(公告)日: | 2022-07-29 |
发明(设计)人: | 陈晨 | 申请(专利权)人: | 厦门吉比特网络技术股份有限公司 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/36;G06F40/242;G06F40/247;G06F40/284;G06F40/30;G06N3/04;G06N3/08 |
代理公司: | 厦门市新华专利商标代理有限公司 35203 | 代理人: | 罗恒兰 |
地址: | 361004 福建省*** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 语义 模型 神经网络 识别 新词汇 方法 装置 | ||
本发明涉及一种基于语义模型神经网络识别新词汇的方法、装置、系统、存储介质,其保留语义模型的在线判断状态,不中断其现有任务,同时,实时更新并训练出词向量模型,更新词向量字典,然后从词向量字典中探寻与新词汇最为接近的同义词,映射成同义词的索引,再将转化后的言论输入给语义模型进行判断。因为索引的是同义词,所以新词汇的词向量在空间维度上与旧词汇是最为接近的,语义模型训练过旧词汇的处理,也就能够识别新词汇映射为旧词汇后构成的新语句,从而进行正确的判断了。本发明在无需重新训练线上正在运行的神经网络的前提下,可以对从未接触过的新语句作出正确的语义判断。
技术领域
本发明涉及计算机语言处理领域,具体涉及一种基于语义模型神经网络识别新词汇的方法、装置、系统、存储介质。
背景技术
自然语言处理中,最细粒度的是词语,词语组成言论,言论再组成段落、篇章、文档。词的词性,是人类的抽象总结,所以需要把他们转换成数值形式,——嵌入到一个数学空间里,用多个维度的数值来代表这个词,即:词向量。
在计算机处理自然语言时,需要对自然语言词汇创建字典索引和词向量(可以认为一种表示词性的维度)。然后将词向量模型作为语义模型神经网络的嵌入层,用于支撑语义模型神经网络对由词汇构成的言论进行语义的理解。
自然语言处理的神经网络共有两个,分别为词向量模型以及语义模型。如图1所示,前者对词汇在多维度上的词性进行判断,后者对词汇放在不同句型位置下构成的语句进行解析,了解其真正表达的语义。
但是,当神经网络需要处理全新的词汇时,由于神经网络从未训练过这个新词汇,所以语义模型的嵌入层根本无法对这个词汇进行数字化的转化和表达,所以必须重新训练词向量模型和整个神经网络,极为耗时耗力。
由于模型在实际运行的过程中,需要根据新的语料实时进行修正。但是,目前市面上的所有自然语言处理都不支持神经网络的实时更新,因为词向量模型是作为嵌入层嵌入到神经网络中的,而嵌入层不可被修改。
如图2所示,如果言论中包含新词汇时,神经网络在第一个词向量模型就无法转化新词汇,当这个词汇传递了关键的、不能被忽略的表达时,语义模型缺失针对这个词汇的新索引,从而导致无法正确判断整句话的语义。
例如,玩家以前发涉及“私服”这个词的言论,会被神经网络识别并处理。但是随着玩家发现神经网络的处理规律,会将这个词变化为“伺服”。由于神经网络从未训练过“伺服”这个词,所以在分词后的字典里根本不存在这个词,也不存在这个词对应的词向量的,从而导致神经网络无法对这个新词做出正确的判断。
有鉴于此,本申请人针对上述存在的问题进行深入构思,遂产生本案。
发明内容
本发明的目的在于提供一种基于语义模型神经网络识别新词汇的方法、装置、系统、存储介质,其能够在不重新训练词向量模型的前提下,能实时识别出包含从未训练过的新词汇的整句话的正确语义。
为实现上述目的,本发明采用的技术方案是:
一种基于语义模型神经网络识别新词汇的方法,所述神经网络包括词向量模型和语义模型;
输入言论;
若词向量模型无法识别出新词汇的词向量,词向量模型进行增量更新,生成新的词向量字典;根据新的词向量字典获取新词汇的词向量,并在新的词向量字典中找到最接近的同义词,并转化成同义词的索引;
若词向量模型能够识别出新词汇的词向量,但无法转化索引,则根据新词汇的词向量在词向量字典中找到最接近的同义词,并转化同义词的索引;
将转化为索引的言论输入语义模型进行语义判断。
一种基于语义模型神经网络识别新词汇的装置,其包括词向量模型和语义模型;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于厦门吉比特网络技术股份有限公司,未经厦门吉比特网络技术股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110192199.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:工作流实现方法、装置、平台、电子设备以及存储介质
- 下一篇:太赫兹系统及方法