[发明专利]一种用户文本信息分析方法及装置在审
申请号: | 201711118314.1 | 申请日: | 2017-11-10 |
公开(公告)号: | CN110019796A | 公开(公告)日: | 2019-07-16 |
发明(设计)人: | 张健;齐林;何琼;李飞;胡泽 | 申请(专利权)人: | 北京信息科技大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06N3/08 |
代理公司: | 北京思元知识产权代理事务所(普通合伙) 11598 | 代理人: | 余光军 |
地址: | 100192 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本信息 分析 预处理 用户偏好分析 用户文本信息 概率分布 神经网络 样本数据 相似度 聚类 文本 分析方法及装置 潜在主题挖掘 文本相似度 相似度距离 聚类分析 学习效率 用户文本 预先建立 隐含层 数字化 挖掘 | ||
本发明提供一种用户文本信息分析方法,对待分析文本信息进行预处理;对预处理后的待分析文本信息进行潜在主题挖掘,获取文本的主题概率分布;针对所述主题概率分布计算文本的相似度,根据相似度进行用户特征值聚类;对聚类后的待分析文本信息进行数字化标记,得到待分析样本数据;将待分析样本数据输入预先建立的用户偏好分析模型中,得到用户偏好分析结果。该方案中,通过深入挖掘用户文本特征,计算用户间文本相似度,并根据相似度距离进行聚类分析,简化深度神经网络隐含层的结构,提高深度神经网络的学习效率。
技术领域
本发明涉及数据挖掘领域,具体涉及一种用户文本信息分析方法及装 置。
背景技术
随着市场竞争的加剧,企业间的竞争已经不仅仅是产品间的竞争,更 重要的是客户之间的竞争,客户作为市场消费的主体,满足他们的需求是 企业经营管理的出发点。于是如何收集客户信息、整合客户数据、挖掘客 户之间的潜在信息显得至关重要,这是企业能够制定合理的产品和服务的 前提,也是企业经营决策正确性的有力保证。
为了更好的服务用户,企业会收集用户的信息形成文本数据,由于用 户的数据量较大,因此收集用户信息形成的文本也是海量文本数据。在用 户的文本信息中,会记载用户的偏好,用户对产品的关注程度,购买喜好 等等,这些信息可以从侧面反应出用户的个人需求,如果企业可以获取众 多客户的偏好需求或其相关数据,便可以为市场经营与决策人员制定相应 的策略提供依据,因此如何从用户的海量文本数据中分析用户的特点,指导企业更好的为用户提供服务。
发明内容
因此,本发明要解决的技术问题在于现有技术中的无法从用户的海量 文本数据中分析用户的特点。
一种用户文本信息分析方法,包括如下步骤:对待分析文本信息进行 预处理;对预处理后的待分析文本信息进行潜在主题挖掘,获取文本的主 题概率分布;针对所述主题概率分布计算文本的相似度,根据相似度进行 用户特征值聚类;对聚类后的待分析文本信息进行数字化标记,得到待分 析样本数据;将待分析样本数据输入预先建立的用户偏好分析模型中,得 到用户偏好分析结果。
优选地,所述用户偏好分析模型的建立方法,包括:对用户文本信息 进行预处理;对预处理后的用户文本信息进行潜在主题挖掘,获取文本的 主题概率分布;针对所述主题概率分布计算文本的相似度,根据相似度进 行用户特征值聚类;对聚类后的用户文本信息进行数字化标记,得到用户 样本数据;使用用户样本数据对神经网络模型进行训练,根据训练后的神 经网络模型得到用户偏好分析模型。
优选地,还包括将所述用户样本数据分为训练集和测试集,使用所述 训练集对所述神经网络模型进行训练,使用测试集对所述神经网络模型进 行验证,识别率达到预设阈值时,将所述神经网络模型作为用户偏好分析 模型。
优选地,所述对预处理后的待分析文本信息进行潜在主题挖掘的步骤, 包括:对所述待分析文本信息进行中文分词处理,获取关键词;生成可被 狄利克雷模型处理的文档并采用狄利克雷模型进行潜在主题挖掘。
优选地,所述相似度计算公式如下:
w1k、w2k分别表示文本D1和D2第k个特征项的权值,1≤k≤N。
优选地,所述对聚类后的用户文本信息进行数字化标记,得到用户样 本数据的步骤包括:
根据上下文解读词的具体含义,形成一个词表V,里面的每一个词wi都有一个编号i∈{1,...,|V|},那么词wi的一位有效编码表示就是一个维 度为|V|的向量,其中第i个元素值非零,其余元素全为0;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京信息科技大学,未经北京信息科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711118314.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:敏感词检测模型的训练方法和系统
- 下一篇:数据分类方法及装置