[发明专利]一种基于深度学习的非监督命名实体语义消歧方法在审

申请号：	201410488048.1	申请日：	2014-09-22
公开（公告）号：	CN104268200A	公开（公告）日：	2015-01-07
发明（设计）人：	余雷;邓攀;闫碧莹;袁伟;李玉成;万安格	申请（专利权）人：	中科嘉速(北京)并行软件有限公司
主分类号：	G06F17/30	分类号：	G06F17/30;G06F17/27
代理公司：	北京永创新实专利事务所 11121	代理人：	祗志洁
地址：	100190 ***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明提供了一种基于深度学习的非监督命名实体语义消歧方法，针对某一特定领域，在垂直网站上抓取评论数据并进行预处理；对评论数据中文分词；利用主题模型对词进行主题聚类，生成包含主题信息的文档主题词分布；对词集合中的所有词，使用基于深度学习的词聚类方法word2vec进行关键词聚类，提取和关键词语义接近的词；使用条件随机场该模型识别评论数据中的命名实体；根据步骤4主题聚类的聚类结果，构建不同主题下的词集合，计算文档和词集合的相似度，选取文档主题，得出文档中命名实体的语境含义，从而消除语义岐义。本发明实现了以比较高的可解释度和精确度来进行命名实体消歧，满足了特定领域且需要大量的知识库的要求。
搜索关键词：	一种基于深度学习监督命名实体语义方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

一种基于深度学习的非监督命名实体语义消歧方法，针对某一特定领域，其特征在于，进行如下步骤：步骤1：构建爬虫程序，在垂直网站上抓取领域内的评论数据；步骤2：对评论数据进行预处理，包括：去重处理，根据数据长度进行清洗，去除垃圾广告，去除评论数据中的网址，去除自动评论数据；将预处理后的评论数据用于下面步骤；步骤3：对评论数据进行中文分词，去除停用词，获取词集合；步骤4：对词集合中的词建立索引，利用主题模型对词进行主题聚类，生成包含主题信息的文档主题词分布；步骤5：使用基于深度学习的词聚类方法word2vec进行关键词聚类，提取和关键词语义接近的前X个关键词；X为正整数；步骤6：使用条件随机场该模型识别评论数据中的命名实体；步骤7：根据步骤4主题模型的聚类结果，构建不同主题下的词集合，计算文档和词集合的相似度，取相似度最高的前Y个主题作分析和比较，得出文档中命名实体的语境含义，从而消除语义岐义；Y为正整数。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于中科嘉速(北京)并行软件有限公司，未经中科嘉速(北京)并行软件有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201410488048.1/，转载请声明来源钻瓜专利网。

上一篇：变电站10kV手车柜断路器手车隔离触头测温系统
下一篇：电锅温度侦测装置、电锅及温度侦测元件

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于深度学习的非监督命名实体语义消歧方法在审

专利文献下载