[发明专利]一种文本分类方法及装置在审
申请号: | 201710003223.7 | 申请日: | 2017-01-03 |
公开(公告)号: | CN108268560A | 公开(公告)日: | 2018-07-10 |
发明(设计)人: | 王朝民;丛鹏宇;王惠欣;任智杰;冯俊兰;孙佳 | 申请(专利权)人: | 中国移动通信有限公司研究院;中国移动通信集团公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京派特恩知识产权代理有限公司 11270 | 代理人: | 张颖玲;蒋雅洁 |
地址: | 100053 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 文本分类 主题向量 矢量确定 主题模型 矢量 词语 | ||
1.一种文本分类方法,其特征在于,所述方法包括:
基于主题模型确定文本对应的主题向量;
根据所述文本中包含的至少一个词语,确定所述文本对应的词矢量;
利用所述文本的所述主题向量以及所述词矢量,确定所述文本对应的类别。
2.根据权利要求1所述的方法,其特征在于,所述基于主题模型确定文本对应的主题向量,包括:
针对所述文本进行分词得到至少一个词语,从所述至少一个词语中获取到关键词,基于所述关键词以及所述主题模型确定所述文本对应的主题向量。
3.根据权利要求1所述的方法,其特征在于,所述根据所述文本中包含的至少一个词语,确定所述文本对应的词矢量,包括:
对所述文本进行分词处理得到所述文本中包含的至少一个词语,分别获取到所述至少一个词语的重要性参数,基于所述重要性参数从所述至少一个词语中选取得到至少一个关键词;
获取到所述至少一个关键词之间的相关性,将相关性高于预设门限值的至少两个关键词进行合并处理,得到合并处理后的至少一个关键词;
基于所述合并处理后的至少一个关键词,确定所述文本对应的词矢量。
4.根据权利要求1-3任一项所述的方法,其特征在于,所述方法还包括:
获取到至少一个训练样本,针对每一个训练样本进行关键词提取;
基于提取到所述关键词的至少一个训练样本训练得到主题模型;其中,所述主题模型中包括有至少一个主题向量中每一个主题向量所对应的关键词。
5.根据权利要求4所述的方法,其特征在于,所述方法还包括:
对所述至少一个训练样本中每一个训练样本进行分词处理得到所述训练样本包含的至少一个词语,分别获取到所述至少一个词语的重要性参数,基于所述重要性参数从所述至少一个词语中选取得到至少一个关键词;
获取到所述至少一个关键词之间的相关性,将相关性高于预设门限值的至少两个关键词进行合并处理,得到合并处理后的至少一个关键词;
基于所述合并处理后的至少一个关键词进行词矢量训练。
6.根据权利要求5所述的方法,其特征在于,所述方法还包括:
将训练样本所对应的主题向量和词矢量进行合并,基于合并后的主题向量以及所述词矢量进行训练,得到训练后的分类器;
相应的,所述利用所述文本的所述主题向量以及所述词矢量确定所述文本对应的类别,包括:
基于所述训练后的分类器,以及所述文本所对应的主题向量以及所述词矢量确定所述文本对应的类别。
7.一种文本分类装置,其特征在于,所述装置包括:
主题向量处理单元,用于基于主题模型确定文本对应的主题向量;
词矢量处理单元,用于根据所述文本中包含的至少一个词语,确定所述文本对应的词矢量;
分类单元,用于利用所述文本的所述主题向量以及所述词矢量确定所述文本对应的类别。
8.根据权利要求7所述的装置,其特征在于,所述主题向量处理单元,用于针对所述文本进行分词得到至少一个词语,从所述至少一个词语中获取到关键词,基于所述关键词以及所述主题模型确定所述文本对应的主题向量。
9.根据权利要求7所述的装置,其特征在于,所述词矢量处理单元,用于对所述文本进行分词处理得到所述文本中包含的至少一个词语,分别获取到所述至少一个词语的重要性参数,基于所述重要性参数从所述至少一个词语中选取得到至少一个关键词;
获取到所述至少一个关键词之间的相关性,将相关性高于预设门限值的至少两个关键词进行合并处理,得到合并处理后的至少一个关键词;
基于所述合并处理后的至少一个关键词,确定所述文本对应的词矢量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国移动通信有限公司研究院;中国移动通信集团公司,未经中国移动通信有限公司研究院;中国移动通信集团公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710003223.7/1.html,转载请声明来源钻瓜专利网。
- 上一篇:基于票务搜索的信息提供方法和装置
- 下一篇:查询数据库的方法和装置