[发明专利]结合写作特征和序列特征的中文情感新词识别方法和系统有效
申请号: | 201610066957.5 | 申请日: | 2016-01-29 |
公开(公告)号: | CN105740236B | 公开(公告)日: | 2018-09-07 |
发明(设计)人: | 林俊杰;毛文吉;王磊;王卿;马宏远 | 申请(专利权)人: | 中国科学院自动化研究所;国家计算机网络与信息安全管理中心 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 北京瀚仁知识产权代理事务所(普通合伙) 11482 | 代理人: | 宋宝库 |
地址: | 100080 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种结合写作特征和序列特征的中文情感新词识别方法和系统。该方法对于输入文本子句,基于情感词的作者写作特征和情感词的序列特征将文本子句表示为各种特征(如:字、词性等)的序列。然后,针对特征表示的文本子句,利用线性链条件随机场模型输出与文本子句对应的情感词标签序列。其中,线性链条件随机场模型基于包含传统情感词的文本训练得到。接着,基于文本子句中字的序列和情感词标签序列,利用有限状态自动机识别文本子句中的情感词,形成情感词集合。最后,利用中文旧词词库对情感词集合进行过滤,将未出现在中文旧词词库中的情感词作为中文情感新词。通过本发明实施例解决了如何提高情感新词识别精度和召回率的技术问题。 | ||
搜索关键词: | 结合 写作 特征 序列 中文 情感 新词 识别 方法 系统 | ||
【主权项】:
1.一种中文情感新词识别方法,其特征在于,所述方法至少包括:获取待识别的文本子句以及包含传统情感词的文本子句集合;基于情感词的作者写作特征和情感词的序列特征,将所述文本子句表示为所述作者写作特征和所述序列特征的特征序列;其中,所述特征序列包括字的序列;基于所述情感词的作者写作特征和所述情感词的序列特征,利用所述包含传统情感词的文本子句集合,训练线性链条件随机场模型;基于所述特征序列,利用训练得到的线性链条件随机场模型,获取与所述文本子句对应的情感词标签序列;基于所述字的序列和所述情感词标签序列,利用有限状态自动机,识别所述文本子句中的情感词,形成情感词集合;利用中文旧词词库对所述情感词集合进行过滤,将未出现在所述中文旧词词库中的情感词作为中文情感新词。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院自动化研究所;国家计算机网络与信息安全管理中心,未经中国科学院自动化研究所;国家计算机网络与信息安全管理中心许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201610066957.5/,转载请声明来源钻瓜专利网。