[发明专利]一种用户文本信息分析方法及装置在审

专利信息
申请号: 201711118314.1 申请日: 2017-11-10
公开(公告)号: CN110019796A 公开(公告)日: 2019-07-16
发明(设计)人: 张健;齐林;何琼;李飞;胡泽 申请(专利权)人: 北京信息科技大学
主分类号: G06F16/35 分类号: G06F16/35;G06N3/08
代理公司: 北京思元知识产权代理事务所(普通合伙) 11598 代理人: 余光军
地址: 100192 北*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 文本信息 分析 预处理 用户偏好分析 用户文本信息 概率分布 神经网络 样本数据 相似度 聚类 文本 分析方法及装置 潜在主题挖掘 文本相似度 相似度距离 聚类分析 学习效率 用户文本 预先建立 隐含层 数字化 挖掘
【说明书】:

发明提供一种用户文本信息分析方法,对待分析文本信息进行预处理;对预处理后的待分析文本信息进行潜在主题挖掘,获取文本的主题概率分布;针对所述主题概率分布计算文本的相似度,根据相似度进行用户特征值聚类;对聚类后的待分析文本信息进行数字化标记,得到待分析样本数据;将待分析样本数据输入预先建立的用户偏好分析模型中,得到用户偏好分析结果。该方案中,通过深入挖掘用户文本特征,计算用户间文本相似度,并根据相似度距离进行聚类分析,简化深度神经网络隐含层的结构,提高深度神经网络的学习效率。

技术领域

本发明涉及数据挖掘领域,具体涉及一种用户文本信息分析方法及装 置。

背景技术

随着市场竞争的加剧,企业间的竞争已经不仅仅是产品间的竞争,更 重要的是客户之间的竞争,客户作为市场消费的主体,满足他们的需求是 企业经营管理的出发点。于是如何收集客户信息、整合客户数据、挖掘客 户之间的潜在信息显得至关重要,这是企业能够制定合理的产品和服务的 前提,也是企业经营决策正确性的有力保证。

为了更好的服务用户,企业会收集用户的信息形成文本数据,由于用 户的数据量较大,因此收集用户信息形成的文本也是海量文本数据。在用 户的文本信息中,会记载用户的偏好,用户对产品的关注程度,购买喜好 等等,这些信息可以从侧面反应出用户的个人需求,如果企业可以获取众 多客户的偏好需求或其相关数据,便可以为市场经营与决策人员制定相应 的策略提供依据,因此如何从用户的海量文本数据中分析用户的特点,指导企业更好的为用户提供服务。

发明内容

因此,本发明要解决的技术问题在于现有技术中的无法从用户的海量 文本数据中分析用户的特点。

一种用户文本信息分析方法,包括如下步骤:对待分析文本信息进行 预处理;对预处理后的待分析文本信息进行潜在主题挖掘,获取文本的主 题概率分布;针对所述主题概率分布计算文本的相似度,根据相似度进行 用户特征值聚类;对聚类后的待分析文本信息进行数字化标记,得到待分 析样本数据;将待分析样本数据输入预先建立的用户偏好分析模型中,得 到用户偏好分析结果。

优选地,所述用户偏好分析模型的建立方法,包括:对用户文本信息 进行预处理;对预处理后的用户文本信息进行潜在主题挖掘,获取文本的 主题概率分布;针对所述主题概率分布计算文本的相似度,根据相似度进 行用户特征值聚类;对聚类后的用户文本信息进行数字化标记,得到用户 样本数据;使用用户样本数据对神经网络模型进行训练,根据训练后的神 经网络模型得到用户偏好分析模型。

优选地,还包括将所述用户样本数据分为训练集和测试集,使用所述 训练集对所述神经网络模型进行训练,使用测试集对所述神经网络模型进 行验证,识别率达到预设阈值时,将所述神经网络模型作为用户偏好分析 模型。

优选地,所述对预处理后的待分析文本信息进行潜在主题挖掘的步骤, 包括:对所述待分析文本信息进行中文分词处理,获取关键词;生成可被 狄利克雷模型处理的文档并采用狄利克雷模型进行潜在主题挖掘。

优选地,所述相似度计算公式如下:

w1k、w2k分别表示文本D1和D2第k个特征项的权值,1≤k≤N。

优选地,所述对聚类后的用户文本信息进行数字化标记,得到用户样 本数据的步骤包括:

根据上下文解读词的具体含义,形成一个词表V,里面的每一个词wi都有一个编号i∈{1,...,|V|},那么词wi的一位有效编码表示就是一个维 度为|V|的向量,其中第i个元素值非零,其余元素全为0;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京信息科技大学,未经北京信息科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201711118314.1/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top