[发明专利]用于文本分类的数据处理方法、数据处理装置和电子设备在审
申请号: | 201810482702.6 | 申请日: | 2018-05-18 |
公开(公告)号: | CN108595717A | 公开(公告)日: | 2018-09-28 |
发明(设计)人: | 杨鹏 | 申请(专利权)人: | 北京慧闻科技发展有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
代理公司: | 北京睿邦知识产权代理事务所(普通合伙) 11481 | 代理人: | 徐丁峰 |
地址: | 100000 北京市西城区西*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 初始文本数据 转换文本数据 数据处理 数据处理装置 电子设备 类别标签 特征表示 文本分类 状态序列 词向量 逻辑回归模型 文本数据挖掘 注意力机制 文本数据 主观信息 记忆层 词汇 架构 分类 转换 申请 | ||
本申请提供了用于文本分类的数据处理方法、数据处理装置和电子设备。该数据处理方法包括:获取初始文本数据;对所述初始文本数据中的词汇进行词向量的转换以获得以词向量为基础的转换文本数据;通过双向长短期记忆层处理所述转换文本数据以获得所述转换文本数据对应的隐状态序列;以注意力机制层获得所述隐状态序列的特征表示;以及,以用于多分类的逻辑回归模型处理所述特征表示以获得所述初始文本数据的类别标签。这样,可以以特定的处理架构基于用户的文本数据挖掘出所述文本数据的类别标签,从而更为全面和准确地获取用户所要表达的主观信息。
技术领域
本发明总的来说涉及数据处理领域,特别是涉及用于文本分类的数据处理方法、数据处理装置和电子设备。
背景技术
随着社交媒体的发展,越来越多的用户使用各类社交平台,向他人传递信息、分享自己对某个事件的观点和评价,以及,发布自己感兴趣的内容等。以微博为例,微博是基于社交关系来进行信息传播的媒体平台,允许用户采用发布、分享、回复、转发等方式传播图片、视频和文本等信息。尽管分享图片和视频在社交网络中很普遍,但用户更倾向于使用文本信息来发表对某一事件或商品的看法和评价。
因此,如何基于用户数据挖掘出用户对于客观事物的感受,即,基于用户数据挖掘出用户对于客观事物的主观意图,以更为全面地获取用户对于特定客观现实,比如事件或商品所要表达的主观信息,已逐渐成为当前自然语言处理领域的研究热点。
所以,需要改进的用于文本分类的数据处理方案。
发明内容
为了解决上述技术问题,提出了本申请。本申请的实施例提供了用于文本分类的数据处理方法、数据处理装置和电子设备,其可以以特定的处理架构基于用户的文本数据挖掘出所述文本数据的类别标签,从而更为全面和准确地获取用户所要表达的主观信息。
根据本申请的一方面,提供了一种用于文本分类的数据处理方法,包括:获取初始文本数据;对所述初始文本数据中的词汇进行词向量的转换以获得以词向量为基础的转换文本数据;通过双向长短期记忆层处理所述转换文本数据以获得所述转换文本数据对应的隐状态序列;以注意力机制层获得所述隐状态序列的特征表示;以及,以用于多分类的逻辑回归模型处理所述特征表示以获得所述初始文本数据的类别标签。
在上述用于文本分类的数据处理方法中,获取初始文本数据进一步包括以下的至少其中之一:对所述初始文本数据进行去重;对所述初始文本数据进行去噪声;以及,转化用户数据中的非文本数据为文本数据。
在上述用于文本分类的数据处理方法中,用于多分类的逻辑回归模型是Softmax分类模型,且所述Softmax分类模型具有可设置的类别标签数量。
在上述用于文本分类的数据处理方法中,以用于多分类的逻辑回归模型处理所述特征表示以获得所述初始文本数据的类别标签包括:基于所述特征表示以Softmax分类模型获得所述初始文本数据中每一句子对应的类别标签的概率分布;以及,选择概率最大的类别标签为所述初始文本数据中该句子的类别标签,以获得所述初始文本数据的类别标签。
在上述用于文本分类的数据处理方法中,所述用户数据为用户微博数据,所述类别标签为情感标签.
在上述用于文本分类的数据处理方法中,所述用户微博数据中的所述非文本数据包括表情图片和表情符号。
根据本申请的另一方面,提供了一种用于文本分类的数据处理装置,包括:文本数据获取单元,用于获取初始文本数据;词向量转换单元,用于对所述初始文本数据中的词汇进行词向量的转换以获得以词向量为基础的转换文本数据;隐状态序列获取单元,用于通过双向长短期记忆层处理所述转换文本数据以获得所述转换文本数据对应的隐状态序列;特征表示获取单元,用于以注意力机制层获得所述隐状态序列的特征表示;以及,文本类别获取单元,用于以用于多分类的逻辑回归模型处理所述特征表示以获得所述初始文本数据的类别标签。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京慧闻科技发展有限公司,未经北京慧闻科技发展有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810482702.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:信息显示的方法、装置及计算机可读存储介质
- 下一篇:一种经济管理数据分析装置