[发明专利]一种文本数据分析方法、装置、服务器和存储介质有效
申请号: | 201711346218.2 | 申请日: | 2017-12-15 |
公开(公告)号: | CN108090178B | 公开(公告)日: | 2020-08-25 |
发明(设计)人: | 谢永恒;刘忠松;火一莽;万月亮 | 申请(专利权)人: | 北京锐安科技有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35 |
代理公司: | 北京品源专利代理有限公司 11332 | 代理人: | 孟金喆 |
地址: | 100044 北京市海淀区西小口*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文本 数据 分析 方法 装置 服务器 存储 介质 | ||
本发明公开了一种文本数据分析方法、装置、服务器和存储介质,该方法包括:对预先确定的主题词进行扩展,确定主题词向量;根据所述主题词向量确定训练文本特征向量;根据所述主题词向量将待测试文本转换为测试文本特征向量;根据所述训练文本特征向量和测试文本特征向量对所述待测试文本进行分类。本发明实现了通过构建完备的主题词向量对训练文本特征向量和测试文本特征向量进行确定,并根据完备的主题词向量确定的特征向量对待测试文本进行分类,提高文本分类的准确度。
技术领域
本发明涉及智能信息处理技术领域,尤其涉及一种文本数据分析方法、装置、服务器和存储介质。
背景技术
随着互联网技术的快速发展,大部分的信息都是以文本的形式进行存储和展现。因此,为了便于信息的存储、管理和查询,对文本数据进行分类显得尤为重要。
目前对于文本分类的文本数据分析方法主要有两大类,即基于链接分析的方法和基于内容分析的方法。基于链接分析的方法主要是通过文档页面间的链接关系来直接或者间接的做出评价,这种方法适用范围广但准确率不高。而基于内容的方法是在确定分类的主题词后,利用待分析文本数据本身的内容特征与主题词之间的相似度对文本进行分类,相比于基于链接分析的方法,其识别的准确率较高。
然而,通常情况下,能够反映某一主题词含义的词汇很多,通过人为确定主题词向量的方式极易导致表述主题词的词汇不够全面。因此在主题词向量不完备的情况下,会降低文本内容特征与主题词之间的相似度,从而大大降低文本分类的准确度。
发明内容
本发明实施例提供了一种文本数据分析方法、装置、服务器和存储介质,能够构建完备的主题词向量,提高分类的准确度。
第一方面,本发明实施例提供了一种文本数据分析方法,包括:
对预先确定的主题词进行扩展,确定主题词向量;
根据所述主题词向量确定训练文本特征向量;
根据所述主题词向量将待测试文本转换为测试文本特征向量;
根据所述训练文本特征向量和测试文本特征向量对所述待测试文本进行分类。
第二方面,本发明实施例提供了一种文本数据分析装置,包括:
主题词向量确定模块,用于对预先确定的主题词进行扩展,确定主题词向量;
训练文本特征向量确定模块,用于根据所述主题词向量确定训练文本特征向量;
测试文本特征向量确定模块,用于根据所述主题词向量将待测试文本转换为测试文本特征向量;
分类模块,用于根据所述训练文本特征向量和测试文本特征向量对所述待测试文本进行分类。
第三方面,本发明实施例提供了一种服务器,包括:
一个或多个处理器;
存储器,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现本发明任意实施例所述的文本数据分析方法。
第四方面,本发明实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现本发明任意实施例所述的文本数据分析方法。
本发明通过对预先确定的主题词进行扩展,得到能够反映主题词含义的多个相关词汇,将主题词及其多个相关词汇构建完备的主题词向量,并利用主题词向量确定训练文本特征向量以及测试文本特征向量,以此利用训练文本特征向量对待测试文本进行分类。实现了通过构建完备的主题词向量对训练文本特征向量和测试文本特征向量进行确定,并根据完备的主题词向量确定的特征向量对待测试文本进行分类,提高文本分类的准确度。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京锐安科技有限公司,未经北京锐安科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711346218.2/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置