[发明专利]一种文本倾向性分析方法及基于该方法的商品评论倾向判别器在审
申请号: | 201310355704.6 | 申请日: | 2013-08-13 |
公开(公告)号: | CN103455562A | 公开(公告)日: | 2013-12-18 |
发明(设计)人: | 董丽丽;赵繁荣;张翔;王茹 | 申请(专利权)人: | 西安建筑科技大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27;G06Q30/02 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 710055 陕*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文本 倾向性 分析 方法 基于 商品 评论 倾向 判别 | ||
1.一种文本倾向性分析方法,其特征在于,包括以下步骤:
(1)对评论文本进行预处理,通过采集模块中相应的爬虫工具对目标网页的爬取,并在预处理模块中,针对评论内容的HTML标签进行抽取、去噪,以筛选出有用的评论文本;
(2)针对预处理后的评论文本,句法分析模块经句法分析器识别出中文句法的依存关系结构;
(3)情感计算引擎根据情感词典计算出情感词的上下文极性值;
(4)将领域本体引入到SBV极性传递算法当中,二元组挖掘引擎根据本体知识,完成评价对象和评价词的二元组抽取,并确定评价对象间的从属关系;
(5)通过对情感词倾向值加权求和得到句子倾向值,实现句子级倾向性判别;
(6)通过句子级极性值的正负,判别评论情感的褒贬倾向;根据极性绝对值大小,判别评论褒贬情感的强弱。
2.如权利要求1所述的一种文本倾向性分析方法,其特征在于,在步骤(3)中,所述情感词典包括静态情感词典、动态情感词典和修饰词词典;其中考虑到网络评论信息的随意性,将网络术语和特定的领域未登录词融入到静态情感词典中;动态情感词典主要采用人工方式构建;修饰词词典综合前人已有的研究成果并加以归并构成。
3.如权利要求2所述的一种文本倾向性分析方法,其特征在于,采用SO-PMI处理未登录词,利用搜索引擎返回的结果计算词与词之间的共现概率,同时获得单独词出现的概率,其公式为:
其中,hits(word)表示搜索引擎查询词语word所返回的页面数hits(W1 NEAR W2)表示W1与W2在共现窗口内出现的次数;
在此基础上,计算词语word的情感倾向:
。
4.如权利要求1所述的一种文本倾向性分析方法,其特征在于,在步骤(4)中,商品本体的概念包括实体与属性两部分,其分类模型分别对应于森林与树,且该方法为每一个分类模型中的结点赋予一个权值,如果需要计算本体中一个结点的极性值时,只需要将其子节点的极性值加权,其计算公式如下:
。
5.如权利要求1所述的一种文本倾向性分析方法,其特征在于,在步骤(4)中,将商品本体融入到SBV算法当中,利用本体概念关系实现评价实体及属性的识别,当评论文本中存在属性概念时,评价实体的极性值是通过对属性倾向值加权求和来获取,算法描述如下:
1)利用本体判断语句中是否含有评价实体Entity;
a.若无实体,表示此句无意义,则不处理本句,结束;
b.否则表示含有Entity,对Entity使用SBV算法进行处理,得到 ContextualPolarity(Entity),执行2);
2)利用本体查找语句中存在的属性关键词Attribute;
a.若不含属性关键词,执行4);
b.否则使用SBV算法处理评论文本,得到ContextualPolarity(Attribute),标记其中处理过的属性关键词。对于处理过的情感词,也打上标签,执行3);
3)经过SBV算法,
a.继续查找整个句子,找到没有标记过的属性关键词,记为UnMarked Attribute;
b.找到包含UnMarkedAttribute的ATT关系对,对于其中出现的词noun,查找所以包含noun的关系对,直至找到含有情感词adj的关系对;
c.如果ContextualPolarity(adj)≠0,则
ContextualPolarity(UnMarkedAttribute)=ContextualPolarity(adj);
4)记录以上所有使用过的情感词,查找没有标记过的情感词,即UnMarkedPolar,
a.如果UnMarkedPolar存在,向前查找最邻近的属性主题词,将ContextualPolarity(UnMarkedPolar)作为调整参数,调整属性主题词的极性,即ContextualPolarity(Attribute)←ContextualPolarity(UnMarkedPolar)
b.如果UnMarkedPolar不存在,执行5);
5)利用权利要求4中的公式,对Attribute与UnMarkedAttribute极性值加权求和,利用所得结果调整ContextualPolarity(Entity)。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安建筑科技大学,未经西安建筑科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310355704.6/1.html,转载请声明来源钻瓜专利网。
- 上一篇:通过搜索引擎获取通信联系人的方法及终端
- 下一篇:具有交互功能的投影系统