[发明专利]一种基于词嵌入向量的文本检索方法及系统在审
申请号: | 202110406552.2 | 申请日: | 2021-04-15 |
公开(公告)号: | CN113343704A | 公开(公告)日: | 2021-09-03 |
发明(设计)人: | 郑元杰;庄承阳;姜岩芸;刘弘;黄文慧 | 申请(专利权)人: | 山东师范大学 |
主分类号: | G06F40/30 | 分类号: | G06F40/30;G06F40/216 |
代理公司: | 济南圣达知识产权代理有限公司 37221 | 代理人: | 祖之强 |
地址: | 250014 山*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 嵌入 向量 文本 检索 方法 系统 | ||
本公开提供了一种基于词嵌入向量的文本检索方法及系统,获取文本中的待聚类的词语,得到词语的初始笔画嵌入向量、初始子字符嵌入向量、初始字符嵌入向量和初始词语嵌入向量;将初始笔画嵌入向量与笔画n‑gram向量融合,得到融合后的笔画嵌入向量;根据初始子字符嵌入向量和融合后的笔画嵌入向量,得到子字符嵌入向量;根据子字符嵌入向量和初始字符嵌入向量,得到字符嵌入向量;根据字符嵌入向量和初始词嵌入向量,得到各个词语的词嵌入向量;根据各个词语的词嵌入向量的夹角余弦值的差异进行文本中词语的聚类;本公开使用笔画特征信息、子字符特征信息、字符特征信息、词语特征信息,提高了词嵌入向量的质量,提高了词语聚类结果的准确性。
技术领域
本公开涉及文本数据处理技术领域,特别涉及一种基于词嵌入向量的文本检索方法及系统。
背景技术
本部分的陈述仅仅是提供了与本公开相关的背景技术,并不必然构成现有技术。
词嵌入,又称为分布式词表示,最早把单词作为基本原语来处理,并把每个单词映射到一个连续向量空间,得到词的实值低维向量表示。相比较于传统的独热编码方式的单词表示方法,词嵌入更容易捕捉到自然语言单词间的语义联系和句法结构。因此,从大型语料库的上下文文本信息中学习词嵌入向量以及提高词嵌入向量的质量是非常有必要的。
把单词视为基本单元,并将单词映射到向量空间来学习词嵌入已成为一种重要的方法。词向量作为语言模型的输入单词特征,在自然语言处理任务中有着广泛的应用,比如情感分析、命名实体识别、命名实体消歧、机器翻译、文本分类和文本语义相似性分析。
词嵌入向量作为单词特征,能够从多个角度去考虑词的信息,不仅蕴含着词语与词语在向量空间上的距离信息,还包含着丰富的语义信息。但是,传统的训练词嵌入向量的方法需要消耗巨大的计算资源,无法高效的处理以亿计的大规模文本语料库。为了在有限时间内,高效、准确的从大规模语料库中获取词嵌入向量,有研究人员提出了简单有效的Skip-Gram模型和连续词袋(CBOW)模型。同时,针对以上模型,又推出了一系列后续改进,如负采样等技术,加快了词嵌入语言模型的训练速度。
以往的词嵌入方法通常把英文单词作为最小的处理单元,有研究人员证实了词嵌入向量表示的方法在英文语言系统中的重要性。不仅如此,词嵌入技术还被应用在学习中文词嵌入向量上。与英文不同的是,中文词语可能由一个或多个字符组成,并且,每一个字符包含着丰富的语义信息。比如说,词语“眼睛”由汉字“眼”和汉字“睛”两个字符组成。根据中文词语和中文字符内部包含着丰富的语义信息的特点,有研究人员提出了一种通过学习字符嵌入向量来提高词嵌入向量的质量的联合学习词嵌入方法。但是,如果只考虑构成词语的汉字信息,就会忽略字符内部的语义信息,因为字符之间缺少语义联系。更进一步,构成词的字符往往由偏旁和非偏旁组成,这些组件内部也包含着大量的语义信息。比如说,词语“打渔”由汉字“打”和汉字“渔”两个字符组成。字符“打”的部首是“扌”,字符“渔”的部首是“氵”、子字符为“丁”“鱼”。于是,词语“打渔”的语义信息就可以通过“打”、“鱼”、“扌”、“氵”和“鱼”联系起来。同时,利用字符的笔画级信息,构建stroke n-gram向量,来捕捉词语的结构和语义信息。
发明人发现,笔画信息、子字符信息、字符信息并没有充分的用于学习中文词嵌入向量过程。目前已有的中文词嵌入语言模型并未充分使用词语的内部组件的特征信息,而且忽略了组成词语的逻辑结构,即词语、字符、子字符、笔画的层次结构,使得最终得到词语聚类结果存在较大的误差,进而使得词语相似度检索方面的精度较低。
发明内容
为了解决现有技术的不足,本公开提供了一种基于词嵌入向量的文本检索方法及系统,弥补了已有的中文词嵌入语言模型未考虑词语的逻辑结构的不足,使用笔画特征信息、子字符特征信息、字符特征信息、词语特征信息,提高了词嵌入向量的质量,进而提高了文本中相似词语检索结果的准确性。
为了实现上述目的,本公开采用如下技术方案:
本公开第一方面提供了一种基于词嵌入向量的文本检索方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山东师范大学,未经山东师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110406552.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种蜂窝陶瓷刻蚀负载型催化剂及其制备方法和应用
- 下一篇:帧内预测方法和装置