[发明专利]一种基于可随机访问的点互信息的词表示学习方法在审

专利信息
申请号: 202211623207.5 申请日: 2022-12-16
公开(公告)号: CN115952807A 公开(公告)日: 2023-04-11
发明(设计)人: 陈怡疆;林海;苏畅 申请(专利权)人: 厦门大学
主分类号: G06F40/44 分类号: G06F40/44;G06F40/284;G06F40/30;G06F40/49
代理公司: 厦门南强之路专利事务所(普通合伙) 35200 代理人: 马应森
地址: 361005 *** 国省代码: 福建;35
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 随机 访问 互信 词表 学习方法
【说明书】:

一种基于可随机访问的点互信息的词表示学习方法,涉及自然语言处理。A.准备大规模无标注文本语料库;B.扫描所述语料库并统计词对得到词共现矩阵;C.用基于GloVe模型的大规模矩阵随机访问方法实现对词共现矩阵的随机访问,得到该矩阵的元素的近似值;D.用随机访问得到的词共现矩阵的元素的近似值计算点互信息;E.基于点互信息计算注意力权重,将注意力权重应用于Skip‑gram或GloVe模型词表示学习得到目标词表示。提出点互信息注意力权重算子,提出适合Skip‑gram和GloVe模型的注意力机制,针对计算点互信息时使用的共现矩阵过大无法完整载入内存,提出随机访问方法。获得更高质量的词表示。

技术领域

发明涉及自然语言处理,具体是涉及一种基于可随机访问的点互信息的词表示学习方法。

背景技术

词表示在基于深度学习的自然语言处理系统中是极其重要的,因为各项自然语言处理任务,比如问答系统、机器翻译、文本摘要、情感分类、命名实体识别等,都需要将词表示作为输入,词表示的质量高低将直接影响到这些任务的结果。为了探寻单词之间的内在关系,Harris(Harris Z S.Distributional structure[J].Word,1954,10(2-3):146-162.)首次提出分布式假说(Distributional Hypothesis),该假说认为,具有相似上下文的词,语义也是相似的。Firth(Firth J R.A synopsis oflinguistic theory,1930-1955[J].Studies in Linguistic Analysis,1957.)进一步地对Harris的分布式假说进行阐述与相关说明,认为单词的语义信息是由其上下文决定的。在此之后,Hinton(Hinton GE.Learning distributed representations ofconcepts[C]//Proceedings of theEighth Annual Conference of the Cognitive Science Society.1986,],1:12.)提出分布式表示(Distributed Representation)的想法,把词汇表中的所有单词映射到一个连续、低维的向量空间,也就是所说的词表示。

现有的词表示方法通常使用固定大小的滑动窗口来遍历语料库,选取窗口内除中心词以外的所有单词作为上下文,且将上下文中的各个单词同等对待。这一策略存在着以下不足:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于厦门大学,未经厦门大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202211623207.5/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top