[发明专利]一种用户文本信息分析方法及装置在审
申请号: | 201711118314.1 | 申请日: | 2017-11-10 |
公开(公告)号: | CN110019796A | 公开(公告)日: | 2019-07-16 |
发明(设计)人: | 张健;齐林;何琼;李飞;胡泽 | 申请(专利权)人: | 北京信息科技大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06N3/08 |
代理公司: | 北京思元知识产权代理事务所(普通合伙) 11598 | 代理人: | 余光军 |
地址: | 100192 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本信息 分析 预处理 用户偏好分析 用户文本信息 概率分布 神经网络 样本数据 相似度 聚类 文本 分析方法及装置 潜在主题挖掘 文本相似度 相似度距离 聚类分析 学习效率 用户文本 预先建立 隐含层 数字化 挖掘 | ||
1.一种用户文本信息分析方法,其特征在于,包括如下步骤:
对待分析文本信息进行预处理;
对预处理后的待分析文本信息进行潜在主题挖掘,获取文本的主题概率分布;
针对所述主题概率分布计算文本的相似度,根据相似度进行用户特征值聚类;
对聚类后的待分析文本信息进行数字化标记,得到待分析样本数据;
将待分析样本数据输入预先建立的用户偏好分析模型中,得到用户偏好分析结果。
2.根据权利要求1所述的用户文本信息分析方法,其特征在于,所述用户偏好分析模型的建立方法,包括:
对用户文本信息进行预处理;
对预处理后的用户文本信息进行潜在主题挖掘,获取文本的主题概率分布;
针对所述主题概率分布计算文本的相似度,根据相似度进行用户特征值聚类;
对聚类后的用户文本信息进行数字化标记,得到用户样本数据;
使用用户样本数据对神经网络模型进行训练,根据训练后的神经网络模型得到用户偏好分析模型。
3.根据权利要求2所述的方法,其特征在于,还包括将所述用户样本数据分为训练集和测试集,使用所述训练集对所述神经网络模型进行训练,使用测试集对所述神经网络模型进行验证,识别率达到预设阈值时,将所述神经网络模型作为用户偏好分析模型。
4.根据权利要求1或2或3所述的方法,其特征在于,所述对预处理后的待分析文本信息进行潜在主题挖掘的步骤,包括:
对所述待分析文本信息进行中文分词处理,获取关键词;
生成可被狄利克雷模型处理的文档并采用狄利克雷模型进行潜在主题挖掘。
5.根据权利要求1所述的方法,其特征在于,所述相似度计算公式如下:
w1k、w2k分别表示文本D1和D2第k个特征项的权值,1≤k≤N。
6.根据权利要求1所述的方法,其特征在于,所述对聚类后的用户文本信息进行数字化标记,得到用户样本数据的步骤包括:
根据上下文解读词的具体含义,形成一个词表V,里面的每一个词wi都有一个编号i∈{1,...,|V|},那么词wi的一位有效编码表示就是一个维度为|V|的向量,其中第i个元素值非零,其余元素全为0;
利用词向量构建的结果,进行评论集的标注,然后将用户偏好特性映射为一个向量,将分词后用户文本信息中所有单词对应词向量相加做平均,每一个特征对应一个向量。
7.根据权利要求1所述的方法,其特征在于,所述使用用户样本数据对神经网络模型进行训练的过程,包括:
在原始神经网络中从特征空间输入到神经网络中,并用类别标签与输出空间来衡量误差,用最优化理论不断求得极小值,从而得到一个与类别标签相近的输出。
8.一种用户文本信息分析装置,其特征在于,包括:
预处理单元,用于对待分析文本信息进行预处理;
主题挖掘单元,用于对预处理后的待分析文本信息进行潜在主题挖掘,获取文本的主题概率分布;
聚类单元,用于针对所述主题概率分布计算文本的相似度,根据相似度进行用户特征值聚类;
标记单元,用于对聚类后的待分析文本信息进行数字化标记,得到待分析样本数据;
分析单元,用于将待分析样本数据输入预先建立的用户偏好分析模型中,得到用户偏好分析结果。
9.一种计算机装置,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其特征在于,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器执行所述权利要求1-7任一项的用户文本信息分析方法。
10.一种非暂态计算机可读存储介质,其上存储有计算机程序,所述计算机程序用于使所述计算机执行权利要求1-7任一项所述的用户文本信息分析方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京信息科技大学,未经北京信息科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711118314.1/1.html,转载请声明来源钻瓜专利网。
- 上一篇:敏感词检测模型的训练方法和系统
- 下一篇:数据分类方法及装置