[发明专利]文本过滤的方法及装置在审
申请号: | 201611036246.X | 申请日: | 2016-11-23 |
公开(公告)号: | CN108090075A | 公开(公告)日: | 2018-05-29 |
发明(设计)人: | 王研;车斌 | 申请(专利权)人: | 中移(杭州)信息技术有限公司;中国移动通信集团公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京派特恩知识产权代理有限公司 11270 | 代理人: | 张振伟;蒋雅洁 |
地址: | 310012 浙江省杭州市西*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 集合 关键词向量 文本 分布向量 组合向量 单词 文本过滤 过滤 单元领域 相似度 关键词模型 目标领域 预设规则 | ||
1.一种文本过滤的方法,其特征在于,所述方法包括:
将目标领域划分为n个单元领域,对每个单元领域设置各自对应的相似度阈值和预设数量的参照文本,所述n为自然数;
将所述目标领域的所有参照文本通过文档主题生成LDA模型训练得到第一主题-单词分布向量的集合,将待过滤文本通过所述LDA模型训练得到第二主题-单词分布向量;
将所述目标领域的所有参照文本通过关键词模型训练得到第一关键词向量的集合,将所述待过滤文本通过所述关键词模型训练得到第二关键词向量;
将所述第一主题-单词分布向量的集合与所述第一关键词向量的集合进行组合,得到第一组合向量的集合,将所述第二主题-单词分布向量与所述第二关键词向量进行组合,得到第二组合向量;
根据所述第一组合向量的集合、第二组合向量、所述每个单元领域的相似度阈值三者之间的预设规则确定出所述待过滤文本的结果。
2.根据权利要求1所述的方法,其特征在于,所述将所述目标领域的所有参照文本通过文档主题生成LDA模型训练得到第一主题-单词分布向量的集合,将待过滤文本通过所述LDA模型训练得到第二主题-单词分布向量,包括:
将所述目标领域的所述每个单元领域的预设数量的参照文本通过所述LDA模型训练得到所述每个单元领域的主题-单词分布;根据所述每个单元领域的主题-单词分布和预设数量的参照文本得到所述每个单元领域的主题-单词分布向量;根据所述每个单元领域的主题-单词分布向量得到所述目标领域的主题-单词分布向量的集合;
将所述待过滤文本通过所述LDA模型训练得到所述待过滤文本的主题-单词分布向量。
3.根据权利要求1所述的方法,其特征在于,所述将所述目标领域的所有参照文本通过关键词模型训练得到第一关键词向量的集合,将所述待过滤文本通过所述关键词模型训练得到第二关键词向量,包括:
将所述目标领域的所述每个单元领域的预设数量的参照文本通过所述关键词模型训练得到所述每个单元领域的包含有关键词表的词典;根据所述每个单元领域的包含有关键词表的词典和预设数量的参照文本得到所述每个单元领域的关键词向量;根据所述每个参考领域的关键词向量得到所述目标领域的关键词向量的集合;
将所述待过滤文本通过关键词模型训练得到所述待过滤文本的关键词向量。
4.根据权利要求1所述的方法,其特征在于,所述根据所述第一组合向量的集合、第二组合向量、所述每个单元领域的相似度阈值三者之间的预设规则确定出所述待过滤文本的结果,包括:
分别计算所述待过滤文本的组合向量与所述目标领域的组合向量的集合中的每个单元领域的组合向量各自对应的差值;
判断所述各自对应的差值是否大于等于所述各自对应的相似度阈值,若在所述各自对应的差值中有一个大于对应的相似度阈值,则保留所述待过滤文本;
若在所述各自对应的差值中未有一个大于对应的相似度阈值,则丢弃所述待过滤文本。
5.根据权利要求1至4任一项所述的方法,其特征在于,所述LDA模型为采用基于Gibbs采样算法实现参数求解的LDA模型;
所述关键词模型为采用少词策略的词袋BoW模型。
6.一种文本过滤的装置,其特征在于,所述装置包括:
设置模块,用于将目标领域划分为n个单元领域,对每个单元领域设置各自对应的相似度阈值和预设数量的参照文本,所述n为自然数;
LDA训练模块,用于将所述目标领域的所有参照文本通过文档主题生成LDA模型训练得到第一主题-单词分布向量的集合,将待过滤文本通过所述LDA模型训练得到第二主题-单词分布向量;
关键词训练模块,用于将所述目标领域的所有参照文本通过关键词模型训练得到第一关键词向量的集合,将所述待过滤文本通过所述关键词模型训练得到第二关键词向量;
组合模块,用于将所述第一主题-单词分布向量的集合与所述第一关键词向量的集合进行组合,得到第一组合向量的集合,将所述第二主题-单词分布向量与所述第二关键词向量进行组合,得到第二组合向量;
过滤模块,用于根据所述第一组合向量的集合、第二组合向量、所述每个参考单元领域的预设相似度阈值三者之间的预设规则确定出所述待过滤文本的结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中移(杭州)信息技术有限公司;中国移动通信集团公司,未经中移(杭州)信息技术有限公司;中国移动通信集团公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611036246.X/1.html,转载请声明来源钻瓜专利网。
- 上一篇:图书推荐系统和方法
- 下一篇:页面文字处理方法及装置