[发明专利]一种基于五笔字型码字符级语言模型的文本情感分析方法在审
申请号: | 201810354577.0 | 申请日: | 2018-04-19 |
公开(公告)号: | CN108595592A | 公开(公告)日: | 2018-09-28 |
发明(设计)人: | 蒋欣辰 | 申请(专利权)人: | 成都睿码科技有限责任公司;杭州数峰科技有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
代理公司: | 成都君合集专利代理事务所(普通合伙) 51228 | 代理人: | 张鸣洁 |
地址: | 610041 四川省成都市自由贸易*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于五笔字型码字符级语言模型的文本情感分析方法,本发明将中文文本中的汉字转化为五笔字形码,字符级语言模型保留了较多的原始信息;本发明使用mLSTM模型训练字符级语言模型,可以处理连续字符之间更加复杂的状态转移,形成一种灵活的输入依赖处理机制;本发明使用五笔字型码训练字符级语言模型,并将通过字符级语言模型提取的情感神经元作为中文情感分类器的特征,实现了优秀的中文情感分类效果;同时本发明不需要借助大量人工标注可完成模型的训练,本发明可以节省大量的人工成本,可以适用于不同领域的情感分类。 | ||
搜索关键词: | 语言模型 情感分类 五笔字型 文本情感 神经元 五笔字形码 处理机制 连续字符 模型训练 人工标注 人工成本 原始信息 中文文本 状态转移 灵活的 中文 汉字 分析 保留 转化 | ||
【主权项】:
1.一种基于五笔字型码字符级语言模型的文本情感分析方法,其特征在于,主要包括以下步骤:步骤E1:预处理样本文本,将样本文本中的汉字转换为五笔字型码;步骤E2:对步骤E1中预处理后的样本文本中的字符建立索引字典,并映射成不同的固定长度的随机稠密向量;所述样本文本最终转换成字符向量序列,用于训练字符级语言模型;步骤E3:使用mLSTM模型训练字符级语言模型;通过步骤E2生成的字符向量序列中的前面时刻的字符向量去预测序列中下一时刻的字符向量;步骤E4:标记样本文本的情感类别,并使用步骤E3中的字符级语言模型提取样本文本的特征以训练情感分类器;步骤E5:输入检测文本,使用步骤E3中的字符级语言模型和步骤E4的情感分类器对检测文本进行情感分类。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于成都睿码科技有限责任公司;杭州数峰科技有限公司,未经成都睿码科技有限责任公司;杭州数峰科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201810354577.0/,转载请声明来源钻瓜专利网。