[发明专利]一种微博文本中产品名实体的规范化方法及装置有效
申请号: | 201510958361.1 | 申请日: | 2015-12-18 |
公开(公告)号: | CN105468780B | 公开(公告)日: | 2019-01-29 |
发明(设计)人: | 黄河燕;杨献祥 | 申请(专利权)人: | 北京理工大学 |
主分类号: | G06F16/9032 | 分类号: | G06F16/9032;G06F16/953 |
代理公司: | 北京理工正阳知识产权代理事务所(普通合伙) 11639 | 代理人: | 唐华 |
地址: | 100081 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明涉及一种微博文本中产品名实体的规范化方法及其装置,属于互联网数据处理与分析技术领域。本发明方法利用词向量方法进行词的表示,并采用向量的相似度度量词的语义相似度,将待规范化的实体和与其最相似的K个词进行知识库的匹配,对其所属的品牌名进行权重的计算;同时引入了微博用户的交互关系和局部上下文中出现的实体信息进行产品实体的规范化。对比现有技术,本发明有效的解决了微博文本中因文本短、上下文信息不足等造成的产品名实体歧义问题,提高了微博文本中产品名实体规范化的性能。 | ||
搜索关键词: | 一种 文本 中产 品名 实体 规范化 方法 装置 | ||
【主权项】:
1.一种微博文本中产品名实体的规范化方法,其特征在于:包括以下步骤:步骤1,基于产品相关数据构建产品名实体知识库;步骤2,采用领域相关的微博数据训练词向量模型;步骤3,利用已构建的产品名实体知识库和训练好的词向量模型进行实体的规范化;步骤1所述产品名实体知识库通过以下步骤构建:步骤1‑1:从领域相关网站抓取产品相关数据;步骤1‑2:对抓取到的数据进行解析得到初步的产品实体列表;步骤1‑3:对初步的产品实体列表进行人工修正,明确产品实体所属品牌、系列以及型号,构建包括产品实体及其所属品牌、系列以及型号在内的产品实体列表并存储;步骤1‑4:搜集微博中的各个品牌所对应的官方微博、管理人员、发言人用户的微博ID,构建微博用户ID和品牌之间的映射关系表并存储;步骤2所述词向量模型通过以下步骤训练:步骤2‑1:从目标领域的热门论坛和行业网站抓取一定量的数据,从中挖掘热门关键词,并进行人工修正,得到一个目标领域的热门关键词列表;步骤2‑2:根据关键词列表结合目标领域知识编制领域微博过滤规则;步骤2‑3:采用过滤规则从大量的微博数据中过滤得到一定量的目标领域微博数据;步骤2‑4:采用语言模型在目标领域的微博数据上训练得到目标领域的词向量模型;为使所述词向量模型始终能够反映产品实体的最新变化,需定期收集最新微博数据,与之前的微博数据合并后重新进行词向量的训练;步骤3所述进行产品名实体的规范化通过以下步骤实现:步骤3‑1:基于产品名实体知识库通过字符串匹配方式判断待规范的产品名实体M是否包含品牌信息,如果是转到步骤3‑8,否则执行步骤3‑2;步骤3‑2:基于产品名实体知识库通过字符串匹配方式判断M中是否包含系列信息,如果是转到步骤3‑6,否则执行步骤3‑3;步骤3‑3:判断M所在的微博是否有且仅有一个品牌名,如果是则转到3‑7,否则执行3‑4;步骤3‑4:计算M所在的微博的每个品牌的权重,形成<品牌名,权重>列表,执行步骤3‑5;步骤3‑5:从<品牌名,权重>列表中选择权重值最大的品牌作为M的品牌名,执行步骤3‑8;步骤3‑6:从产品名实体知识库中搜索M所包含的系列名所对应的品牌,执行步骤3‑8;步骤3‑7:将M所在的微博中仅含的品牌名作为M的品牌名,执行步骤3‑8;步骤3‑8:输出品牌名和M;步骤3‑4所述<品牌名,权重>列表通过以下过程得到:步骤3‑4‑1:计算M所对应的词向量与词向量模型中的所有词向量的相似度,取相似度最高的K个词作为M的扩展词;步骤3‑4‑2:对于K个扩展词中的每个词ki分别查找产品名实体知识库,如果ki在产品名实体知识库中的型号对应的品牌唯一,则将ki对应的品牌名bi的权重根据公式wi=wi+sim(e,ki)增加;其中,e表示实体;步骤3‑4‑3:对于M所在的微博中的所有被“@”的用户,通过微博用户ID与品牌映射表进行查找其对应的品牌,如果有,则其对应的品牌的权重根据公式wui=wui+1增加;步骤3‑4‑4:对于M所在的微博中存在的其他产品实体,分别查找产品名实体知识库,确定其所相关的品牌名,并将其所对应的品牌权重wei=wei+1;步骤3‑4‑5:根据公式weighti=αwi+βwui+(1‑α‑β)wei计算每个品牌的总权重得到<品牌名,权重>列表;其中,α和β是用来调整wi、wui和wei重要程度的参数。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京理工大学,未经北京理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201510958361.1/,转载请声明来源钻瓜专利网。
- 上一篇:信息收集方法及装置
- 下一篇:操作数据库的方法、装置及系统