[发明专利]一种基于局部信息表示的细粒度情感元素抽取方法在审
申请号: | 201710763500.4 | 申请日: | 2017-08-30 |
公开(公告)号: | CN107515856A | 公开(公告)日: | 2017-12-26 |
发明(设计)人: | 秦兵;赵妍妍;刘挺;袁建华 | 申请(专利权)人: | 哈尔滨工业大学 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F17/30;G06N3/08 |
代理公司: | 哈尔滨市松花江专利商标事务所23109 | 代理人: | 杨立超 |
地址: | 150001 黑龙*** | 国省代码: | 黑龙江;23 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 局部 信息 表示 细粒度 情感 元素 抽取 方法 | ||
技术领域
本发明涉及细粒度情感元素抽取,具体涉及一种基于局部信息表示的细粒度情感元素抽取方法。
背景技术
细粒度情感元素抽取旨在从文本中抽取出评价持有者、评价对象和评价表达(如图1)。评价持有者是文本中发出观点的实体;评价表达是指文本中代表情绪、情感、意见或其他个人状态的主观表述,通常以形容词或形容词短语形式出现,如“漂亮”,“不大高兴”;评价对象是指文本中被讨论的主题,具体表现为文本中评价表达所修饰的对象。
由于产品评论和社交网络文本中大多带有明确的用户ID信息,因而对评价持有者抽取研究相对淡化,学术界将更多的精力放到评价对象抽取和评价表达抽取任务上。
目前用来抽取评价对象和评价表达的方法主要分为两类:
(1)基于句法规则匹配的方法。例如:Qiu等人[1]采用了一种称为双向传播的算法(double propagation),通过使用依存句法分析器获取情感词与评价对象的关系,并在两者之间传播信息,在迭代过程中对种子情感词进行Bootstraping来扩充情感词集并抽取出评价对象。
(2)基于有指导的机器学习算法。在基于机器学习的算法中,细粒度情感元素抽取通常被当作字符级别序列标注问题。具有代表性的机器学习算法包括基于特征的CRF算法[2]和基于神经网络的序列标注算法[3][4][5]。由于前者较为依赖专家编写的特征模板和手工情感词典等外部特征,并且领域通用性弱,基于神经网络的表示学习算法受到了更多的青睐,例如Irosy等人[3]将词向量特征应用到深层循环神经网络结构,用来抽取评价表达。Liu等人[4]在基于LSTM的循环神经网络中实验了多种类型的词向量特征,证明了其在评价对象抽取任务上的有效性。
通过观察LSTM循环神经网络的评价对象抽取结果,我们发现:一方面,它在抽取类似“set up”等存在一词多义的短语时,不能很好地利用紧随其后的单词信息(如“is”等be动词),导致短语词性判断错误、抽取结果缺漏较多;另一方面,由于评价对象一般较短,相邻词表征的局部信息对判断当前词是否是评价对象的一部分至关重要。
发明内容
本发明的目的是为了解决现有的细粒度情感元素抽取方法当抽取评价对象时,不能很好地利用紧随其后的单词,导致短语词性判断错误、抽取结果缺漏较多,并且难以判断当前词是否是评价对象一部分的缺点,而提出一种基于局部信息表示的细粒度情感元素抽取方法。
一种基于局部信息表示的细粒度情感元素抽取方法,包括:
步骤一、将预设窗口大小中的每一个单词通过Lookup Table查找词特征的向量表示,将得到的词向量分别输入至LSTM模型中;并将所述得到的词向量组合为一个向量输入至前馈神经网络模型中;
步骤二、将LSTM模型隐层特征表示ht以及前馈神经网络模型的局部上下文特征表示hlr进行拼接,得到拼接后的结果hcon:
hcon=[ht,hlr]
步骤三、将hcon送入输出层使用softmax函数作标签分类。
本发明还提供了另一种基于局部信息表示的细粒度情感元素抽取方法,包括:
步骤一、将预设窗口大小中的每一个单词通过Lookup Table查找词特征的向量表示,将得到的词向量分别输入至含有双向循环结构的BLSTM模型中;并将所述得到的词向量组合为一个向量输入至前馈神经网络模型中;
步骤二、将BLSTM模型隐层的正向特征表示和反向特征表示进行拼接组成隐层特征表示ht,并将隐层特征表示ht与前馈神经网络模型的局部上下文特征表示hlr进行拼接,得到拼接后的结果hcon:
hcon=[ht,hlr]
步骤三、将hcon送入输出层使用softmax函数作标签分类。
本发明的有益效果为:1、当抽取一词多义的短语时,考虑到短语的上下文,能够更为准确地判断词性,抽取结果的准确度更高;2、能够更准确地判断当前词是否是评价对象一部分;3、本发明当使用LSTM模型时,在Laptop数据集的F1值能够达到73.49;本发明当使用BLSTM模型时,在Restaurant数据集的F1值能够达到80.62。
附图说明
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨工业大学,未经哈尔滨工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710763500.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种汽车大灯防护罩
- 下一篇:一种紫外防护装置及包含此装置的自动耦合系统
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置