[发明专利]一种基于深度学习的非监督命名实体语义消歧方法在审
申请号: | 201410488048.1 | 申请日: | 2014-09-22 |
公开(公告)号: | CN104268200A | 公开(公告)日: | 2015-01-07 |
发明(设计)人: | 余雷;邓攀;闫碧莹;袁伟;李玉成;万安格 | 申请(专利权)人: | 中科嘉速(北京)并行软件有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
代理公司: | 北京永创新实专利事务所 11121 | 代理人: | 祗志洁 |
地址: | 100190 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 深度 学习 监督 命名 实体 语义 方法 | ||
技术领域
本发明属于互联网信息技术领域,涉及命名实体消歧,具体是一种非监督的基于语义的方法对命名实体进行语义消歧的技术。
背景技术
随着互联网行业的快速发展,人们的生活越来越离不开互联网,人们利用互联网搜索引擎搜索关注的信息,搜索商品信息,利用电商网站搜索想要购买的物品,搜索方面的需求量逐渐增大,在情感分析领域,获取用户中的评论数据,词语的含义不仅影响分词和命名实体的准确性,还影响情感分析的准确性。但是互联网的快速发展和中文本身的特点给这些操作带来了困难,由于中文存在很多近义词和多义词,对这些词的识别率造成了很大的影响,因此对具有多义词的词语进行歧义消除是亟需解决的问题。
一般的论文研究主要基于知识库、Wordnet语义网络和基于统计进行研究,基于知识的语义消歧包括基于规则和基于词典的方法,基于知识库的消歧方法主要依赖语言学家的语言知识构造知识库,通过分析多义词所在上下文,选取其中满足某一项规则的义项。基于Wordnet语义网络主要是根据Wordnet中词和词在网络中的关系进行分析。基于统计的方法则需要以大型语料库作为知识源,从标注或者未标注的数据中学习消歧特征。这些方法中需要的知识和语料库获取过程不仅长而且可信度比较低,也不具有领域通用性,在特定领域下,效果就变得很差,不能有效实现命名实体语义消歧的目的。
发明内容
本发明针对现有的命名实体语义消歧方法无法满足特定领域的需求而且需要大量的知识库的现状,提供了一种基于深度学习的非监督命名实体语义消歧方法,旨在实现以比较高的可解释度和精确度来进行命名实体消歧。
本发明提供的基于深度学习的非监督命名实体语义消歧方法,针对某一特定领域,包括如下步骤:
步骤1:构建爬虫程序,在垂直网站上抓取领域内的评论数据;
步骤2:对评论数据进行预处理,包括:去重处理,根据数据长度进行清洗,去除垃圾广告,去除评论数据中的网址,去除自动评论数据;将预处理后的评论数据用于下面步骤;
步骤3:对评论数据进行中文分词,去除停用词,获取词集合;
步骤4:对词集合中的词建立索引,利用主题模型对词进行主题聚类,生成包含主题信息的文档主题词分布;
步骤5:对词集合中的所有词,使用基于深度学习的词聚类方法word2vec进行关键词聚类,提取和关键词语义接近的前X个关键词;
步骤6:使用条件随机场模型识别评论数据中的命名实体;
步骤7:根据步骤4主题聚类的聚类结果,构建不同主题下的词集合,计算文档和词集合的相似度,取相似度最高的前Y个主题,作分析和比较,得出文档中命名实体的语境含义,从而消除语义岐义,X和Y均为正整数。
相对于现有技术,本发明的非监督命名实体语义消歧方法,其优点和积极效果在于:
(1)利用Bloom filter技术对抓取的海量评论数据去重,数据处理效率高;基于给定的规则集对评论数据进行清洗,有效精简数据;
(2)利用基于深度学习的word2vec技术提取词语的近义词集,对海量数据处理的效率高、准确度高;
(3)利用条件随机场模型进行命名实体识别,可有效识别命名实体;利用非监督的主题聚类模型对命名实体进行语义主题聚类,采用基于上下文窗口技术进行命名实体语义理解,实现了以比较高的可解释度和精确度来进行命名实体消歧。
附图说明
图1是本发明的非监督命名实体语义消歧方法的整体流程图;
图2是本发明的非监督命名实体语义消歧方法中抓取评论数据的流程图;
图3是本发明的非监督命名实体语义消歧方法步骤2~4的流程示意图;
图4是本发明的非监督命名实体语义消歧方法命名实体语义消歧模块流程图;
图5是本发明方法中步骤4中利用LDA主题模型获取字分布概率的示意图;
图6是给定词“佛教”在词上的分布概率示意图。
具体实施方式
下面将结合附图和实施例对本发明作进一步的详细说明。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中科嘉速(北京)并行软件有限公司,未经中科嘉速(北京)并行软件有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410488048.1/2.html,转载请声明来源钻瓜专利网。