[发明专利]一种微博文本中产品名实体的规范化方法及装置有效

专利信息
申请号: 201510958361.1 申请日: 2015-12-18
公开(公告)号: CN105468780B 公开(公告)日: 2019-01-29
发明(设计)人: 黄河燕;杨献祥 申请(专利权)人: 北京理工大学
主分类号: G06F16/9032 分类号: G06F16/9032;G06F16/953
代理公司: 北京理工正阳知识产权代理事务所(普通合伙) 11639 代理人: 唐华
地址: 100081 北京市*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 文本 中产 品名 实体 规范化 方法 装置
【说明书】:

发明涉及一种微博文本中产品名实体的规范化方法及其装置,属于互联网数据处理与分析技术领域。本发明方法利用词向量方法进行词的表示,并采用向量的相似度度量词的语义相似度,将待规范化的实体和与其最相似的K个词进行知识库的匹配,对其所属的品牌名进行权重的计算;同时引入了微博用户的交互关系和局部上下文中出现的实体信息进行产品实体的规范化。对比现有技术,本发明有效的解决了微博文本中因文本短、上下文信息不足等造成的产品名实体歧义问题,提高了微博文本中产品名实体规范化的性能。

技术领域

本发明涉及一种产品名实体的规范化方法及装置,特别涉及一种微博文本中的产品名实体进行自动规范化的方法及装置,属于互联网数据处理与分析技术领域。

背景技术

Web2.0时代,随着微博等社交网络平台的兴起,每个互联网用户不再仅仅是信息的浏览者,同时也成为信息的发布者,互联网已经从一个信息发布平台转变为互动交流的平台。微博作为一种短小精悍、发布便捷、易于阅读、方便分享、传播迅速的社交媒体,能使广大网民迅速捕捉到新鲜事件,其传播速度远远快于传统媒体。凭借其独有的特点,迅速吸引了大量用户,截至2013年12月,我国微博用户规模为2.81亿,每天发布的微博数量超过1亿条。伴随微博用户的增长,网民在微博讨论的话题也日趋多样化,涉及政治、经济、军事、文化、教育、娱乐、购物等社会生活的方方面面。越来越多的用户开始在微博上谈论各种各样的事情,分享娱乐新闻,推荐自己购买的商品,评论各类商品和服务的优缺点。由于微博有着大量的用户群体和极快的传播速度,目前不仅政府开始关注微博的话题传播,各类商业企业也开始关注并分析微博,希望从中掌握公司产品的市场口碑,了解广大网民对公司产品的意见和建议,时刻监测本公司产品的负面评论以及时的进行危机公关,保护公司的声誉。微博也成为各行各业的公司从公开途径获取本行业竞争情报的重要方式,各类公司都在密切关注竞争对手的产品的市场表现、新产品的发布以期及时作出合适的决策。由于微博文本在表达上省略了大量的信息,目前微博中存在大量的产品名实体没有明确说明其所属的品牌,不同品牌可能包含具有相同型号名称的产品,表达上存在歧义现象,因此为微博中的产品名实体进行规范化,确定其所属的品牌是一项重要的技术。

产品名实体规范化是要对产品名实体识别的结果进行进一步的处理,为产品名实体确定其所属的品牌,消除因用语省略造成的实体表达歧义。微博作为一种典型的用户生成文本存在文本短、表达不规范、上下文信息缺乏、噪声多、省略信息多等特点,微博中的产品名实体常常省略品牌名称,甚至系列名称,仅仅保留型号名称,也有时直接使用别名称呼一个产品。通过对人工标注的2012年2月至2013年4月的2086条新浪微博手机领域数据进行统计分析发现大约有52.3%的产品名实体包含品牌名,13.1%的产品名实体仅包含系列名和型号名,大约32.1%的产品实体仅包含型号名,还有少量的产品实体以别名的形式出现。仅通过型号名通常无法唯一地确定一个产品。因此需要为识别出的产品实体进行规范化,使其能唯一地表示一个产品。目前在传统媒体文本中通常采用基于知识库的方法进行实体规范化,但是基于知识库的方法计算实体相似度时直接采用字符串编辑距离误差较大,也有人提出基于实体关系推理的方法进行实体规范化,但是在微博中实体密度相对较低,微博文本不规范进行关系抽取也非常困难。目前还没有针对微博文本进行产品实体规范化的方法。

发明内容

本发明的目的在于克服上述现有技术的缺陷,提出一种适用于微博文本的产品名实体规范化方法,可以准确高效的对微博中的产品名实体进行规范化。

本发明的思想是利用词向量方法进行词的表示,并采用向量的相似度度量词的语义相似度,将待规范化的实体和与其最相似的K个词进行知识库的匹配,对其所属的品牌名进行权重的计算;同时引入了微博用户的交互关系和局部上下文中出现的实体信息进行产品实体的规范化。

为了实现上述目的,本发明所采用的技术方案如下:

首先进行相关定义,具体如下:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京理工大学,未经北京理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201510958361.1/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top