[发明专利]一种用户文本信息分析方法及装置在审

申请号：	201711118314.1	申请日：	2017-11-10
公开（公告）号：	CN110019796A	公开（公告）日：	2019-07-16
发明（设计）人：	张健;齐林;何琼;李飞;胡泽	申请（专利权）人：	北京信息科技大学
主分类号：	G06F16/35	分类号：	G06F16/35;G06N3/08
代理公司：	北京思元知识产权代理事务所(普通合伙) 11598	代理人：	余光军
地址：	100192 北***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	文本信息分析预处理用户偏好分析用户文本信息概率分布神经网络样本数据相似度聚类文本分析方法及装置潜在主题挖掘文本相似度相似度距离聚类分析学习效率用户文本预先建立隐含层数字化挖掘
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明提供一种用户文本信息分析方法，对待分析文本信息进行预处理；对预处理后的待分析文本信息进行潜在主题挖掘，获取文本的主题概率分布；针对所述主题概率分布计算文本的相似度，根据相似度进行用户特征值聚类；对聚类后的待分析文本信息进行数字化标记，得到待分析样本数据；将待分析样本数据输入预先建立的用户偏好分析模型中，得到用户偏好分析结果。该方案中，通过深入挖掘用户文本特征，计算用户间文本相似度，并根据相似度距离进行聚类分析，简化深度神经网络隐含层的结构，提高深度神经网络的学习效率。

技术领域

本发明涉及数据挖掘领域，具体涉及一种用户文本信息分析方法及装置。

背景技术

随着市场竞争的加剧，企业间的竞争已经不仅仅是产品间的竞争，更重要的是客户之间的竞争，客户作为市场消费的主体，满足他们的需求是企业经营管理的出发点。于是如何收集客户信息、整合客户数据、挖掘客户之间的潜在信息显得至关重要，这是企业能够制定合理的产品和服务的前提，也是企业经营决策正确性的有力保证。

为了更好的服务用户，企业会收集用户的信息形成文本数据，由于用户的数据量较大，因此收集用户信息形成的文本也是海量文本数据。在用户的文本信息中，会记载用户的偏好，用户对产品的关注程度，购买喜好等等，这些信息可以从侧面反应出用户的个人需求，如果企业可以获取众多客户的偏好需求或其相关数据，便可以为市场经营与决策人员制定相应的策略提供依据，因此如何从用户的海量文本数据中分析用户的特点，指导企业更好的为用户提供服务。

发明内容

因此，本发明要解决的技术问题在于现有技术中的无法从用户的海量文本数据中分析用户的特点。

一种用户文本信息分析方法，包括如下步骤：对待分析文本信息进行预处理；对预处理后的待分析文本信息进行潜在主题挖掘，获取文本的主题概率分布；针对所述主题概率分布计算文本的相似度，根据相似度进行用户特征值聚类；对聚类后的待分析文本信息进行数字化标记，得到待分析样本数据；将待分析样本数据输入预先建立的用户偏好分析模型中，得到用户偏好分析结果。

优选地，所述用户偏好分析模型的建立方法，包括：对用户文本信息进行预处理；对预处理后的用户文本信息进行潜在主题挖掘，获取文本的主题概率分布；针对所述主题概率分布计算文本的相似度，根据相似度进行用户特征值聚类；对聚类后的用户文本信息进行数字化标记，得到用户样本数据；使用用户样本数据对神经网络模型进行训练，根据训练后的神经网络模型得到用户偏好分析模型。

优选地，还包括将所述用户样本数据分为训练集和测试集，使用所述训练集对所述神经网络模型进行训练，使用测试集对所述神经网络模型进行验证，识别率达到预设阈值时，将所述神经网络模型作为用户偏好分析模型。

优选地，所述对预处理后的待分析文本信息进行潜在主题挖掘的步骤，包括：对所述待分析文本信息进行中文分词处理，获取关键词；生成可被狄利克雷模型处理的文档并采用狄利克雷模型进行潜在主题挖掘。

优选地，所述相似度计算公式如下：

w_1k、w_2k分别表示文本D₁和D₂第k个特征项的权值，1≤k≤N。

优选地，所述对聚类后的用户文本信息进行数字化标记，得到用户样本数据的步骤包括：

根据上下文解读词的具体含义，形成一个词表V，里面的每一个词w_i都有一个编号i∈{1,...,|V|}，那么词w_i的一位有效编码表示就是一个维度为|V|的向量，其中第i个元素值非零，其余元素全为0；

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于北京信息科技大学，未经北京信息科技大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201711118314.1/2.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种用户文本信息分析方法及装置在审

专利文献下载