[发明专利]一种微博文本中产品名实体的规范化方法及装置有效
申请号: | 201510958361.1 | 申请日: | 2015-12-18 |
公开(公告)号: | CN105468780B | 公开(公告)日: | 2019-01-29 |
发明(设计)人: | 黄河燕;杨献祥 | 申请(专利权)人: | 北京理工大学 |
主分类号: | G06F16/9032 | 分类号: | G06F16/9032;G06F16/953 |
代理公司: | 北京理工正阳知识产权代理事务所(普通合伙) 11639 | 代理人: | 唐华 |
地址: | 100081 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文本 中产 品名 实体 规范化 方法 装置 | ||
1.一种微博文本中产品名实体的规范化方法,其特征在于:包括以下步骤:
步骤1,基于产品相关数据构建产品名实体知识库;
步骤2,采用领域相关的微博数据训练词向量模型;
步骤3,利用已构建的产品名实体知识库和训练好的词向量模型进行实体的规范化;
步骤1所述产品名实体知识库通过以下步骤构建:
步骤1-1:从领域相关网站抓取产品相关数据;
步骤1-2:对抓取到的数据进行解析得到初步的产品实体列表;
步骤1-3:对初步的产品实体列表进行人工修正,明确产品实体所属品牌、系列以及型号,构建包括产品实体及其所属品牌、系列以及型号在内的产品实体列表并存储;
步骤1-4:搜集微博中的各个品牌所对应的官方微博、管理人员、发言人用户的微博ID,构建微博用户ID和品牌之间的映射关系表并存储;
步骤2所述词向量模型通过以下步骤训练:
步骤2-1:从目标领域的热门论坛和行业网站抓取一定量的数据,从中挖掘热门关键词,并进行人工修正,得到一个目标领域的热门关键词列表;
步骤2-2:根据关键词列表结合目标领域知识编制领域微博过滤规则;
步骤2-3:采用过滤规则从大量的微博数据中过滤得到一定量的目标领域微博数据;
步骤2-4:采用语言模型在目标领域的微博数据上训练得到目标领域的词向量模型;
为使所述词向量模型始终能够反映产品实体的最新变化,需定期收集最新微博数据,与之前的微博数据合并后重新进行词向量的训练;
步骤3所述进行产品名实体的规范化通过以下步骤实现:
步骤3-1:基于产品名实体知识库通过字符串匹配方式判断待规范的产品名实体M是否包含品牌信息,如果是转到步骤3-8,否则执行步骤3-2;
步骤3-2:基于产品名实体知识库通过字符串匹配方式判断M中是否包含系列信息,如果是转到步骤3-6,否则执行步骤3-3;
步骤3-3:判断M所在的微博是否有且仅有一个品牌名,如果是则转到3-7,否则执行3-4;
步骤3-4:计算M所在的微博的每个品牌的权重,形成<品牌名,权重>列表,执行步骤3-5;
步骤3-5:从<品牌名,权重>列表中选择权重值最大的品牌作为M的品牌名,执行步骤3-8;
步骤3-6:从产品名实体知识库中搜索M所包含的系列名所对应的品牌,执行步骤3-8;
步骤3-7:将M所在的微博中仅含的品牌名作为M的品牌名,执行步骤3-8;
步骤3-8:输出品牌名和M;
步骤3-4所述<品牌名,权重>列表通过以下过程得到:
步骤3-4-1:计算M所对应的词向量与词向量模型中的所有词向量的相似度,取相似度最高的K个词作为M的扩展词;
步骤3-4-2:对于K个扩展词中的每个词ki分别查找产品名实体知识库,如果ki在产品名实体知识库中的型号对应的品牌唯一,则将ki对应的品牌名bi的权重根据公式wi=wi+sim(e,ki)增加;其中,e表示实体;
步骤3-4-3:对于M所在的微博中的所有被“@”的用户,通过微博用户ID与品牌映射表进行查找其对应的品牌,如果有,则其对应的品牌的权重根据公式wui=wui+1增加;
步骤3-4-4:对于M所在的微博中存在的其他产品实体,分别查找产品名实体知识库,确定其所相关的品牌名,并将其所对应的品牌权重wei=wei+1;
步骤3-4-5:根据公式weighti=αwi+βwui+(1-α-β)wei计算每个品牌的总权重得到<品牌名,权重>列表;其中,α和β是用来调整wi、wui和wei重要程度的参数。
2.一种微博文本中产品名实体的规范化装置,其特征在于:包括规范化模块、品牌信息查找模块、系列信息查找模块、文本查找模块和品牌权重列表模块;规范化模块分别与品牌信息查找模块、系列信息查找模块、文本查找模块和品牌权重列表模块相连,产品名实体知识库分别与品牌信息查找模块、系列信息查找模块、文本查找模块和品牌权重列表模块相连,品牌权重列表模块与词向量模型相连;
所述产品名实体知识库通过权利要求1所述构建产品名实体知识库的过程构建,包括产品实体列表和映射关系表;
所述词向量模型通过权利要求1所述训练词向量模型的过程进行训练得到;
所述规范化模块接受待规范的产品名实体M及其所在的文本T,并将M输入品牌信息查找模块获取其品牌,在得到品牌的情况下输出该品牌及M;在没有得到品牌的情况下将M输入系列信息查找模块获取其品牌,在得到品牌的情况下输出该品牌及M;在没有得到品牌的情况下将T输入文本查找模块获取唯一品牌,在得到品牌的情况下输出该品牌及M;在没有得到品牌的情况下将M和T输入品牌权重列表模块获取品牌权重列表,并从列表中提取最大权重值所对应的品牌,然后输出该品牌及M;
所述品牌信息查找模块根据输入字符串M通过字符串匹配方式查看其是否包含产品名实体知识库中的品牌信息,如包含则输出该品牌字符串;
所述系列信息查找模块根据输入字符串M通过字符串匹配方式查看其是否包含产品名实体知识库中的系列信息,如包含则输出该系列对应的品牌字符串;
所述文本查找模块根据输入文本T通过字符串匹配方式查看其是否仅包含一个产品名实体知识库中的品牌信息,如是则输出该品牌字符串;
所述品牌权重列表模块根据输入字符串M及其所在的文本T采用权利要求1所述获取<品牌名,权重>列表的过程获取<品牌名,权重>列表并输出。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京理工大学,未经北京理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510958361.1/1.html,转载请声明来源钻瓜专利网。
- 上一篇:信息收集方法及装置
- 下一篇:操作数据库的方法、装置及系统