[发明专利]一种互联网金融平台用户评论主题分析系统及方法有效
申请号: | 201910256768.8 | 申请日: | 2019-04-01 |
公开(公告)号: | CN109977414B | 公开(公告)日: | 2023-03-14 |
发明(设计)人: | 孙庆;贺敏;杜慧;王秀文;徐小磊;岳宇飞;杜漫;马秀娟 | 申请(专利权)人: | 中科天玑数据科技股份有限公司;国家计算机网络与信息安全管理中心 |
主分类号: | G06F40/30 | 分类号: | G06F40/30;G06F16/35 |
代理公司: | 北京市盛峰律师事务所 11337 | 代理人: | 于国富 |
地址: | 100190 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 互联网 金融 平台 用户 评论 主题 分析 系统 方法 | ||
本发明公开了一种互联网金融平台用户评论主题分析系统及方法,涉及自然语言处理领域;分析系统包括数据采集模块、金融词向量学习模块、评论主题生成模块、用户评论分类模块和评论主题更新模块;分析方法所述方法利用金融论坛中平台用户印象聚类生成用户评论主题,基于用户评论主题对互联网金融平台相关用户评论进行分析,并定期对评论主题进行更新。本发明不需要进行长期人工干预,借助互联网中易于获取的用户知识实现稳定的互联网金融平台评论分析及主题提取,分析获得的评论主题较有代表性,从而可以通过分析结果帮助用户更直观了解该互联网金融平台。
技术领域
本发明涉及自然语言处理领域,尤其涉及一种基于用户印象的互联网金融平台用户评论主题分析系统及方法。
背景技术
近年来随着互联网技术的发展和普及,传统金融机构与互联网企业结合,利用互联网技术提供金融相关服务,以互联网为平台开展各类金融活动,各类p2p,众筹,第三方支付,网贷,理财等金融平台相继涌现。“门槛低、收益高、投资周期短、风险小等”铺天盖地的营销文案吸引普通投资者纷纷投入到互联网金融的浪潮中。这些金融平台丰富了大众投资渠道的同时,也相应的带来了极大的风险。许多问题平台注销、跑路,致使普通投资者血本无归,给社会造成巨大不良影响。
通过对互联网金融平台的用户评论分析,可以帮助投资者对平台情况有更加全面公正的了解,辅助投资者进行决策,降低投资风险。
目前常见的评论分析技术有情感分析、评论观点提取分析等。情感分析通过情感词典或机器学习等算法分析用户评论内容的情感极性,通常分为正面、负面、中立三类情感极性,无法给出对平台情况的描述。评论观点提取分析方法主要有基于规则的提取、基于LDA模型的主题分析、基于聚类的算法等。在基于规则的观点提取方法中,归纳观点陈述句的固定的句式结构规则,通过句法分析工具以及规则可以简单有效地抽取到评论观点。但人工总结规则的方式,无法涵盖所有的观点表述方式。并且,这种方法仅对陈述句有效,而中文中有多种句式表达方式。对于以LDA为代表的主题模型和以K-means为代表的传统聚类方法,方法比较成熟,效果也得到了很多场景的验证。但是这类方法直接从用户评论中挖掘主题,主题受评论数据的影响较大,得到的主题没有直观的主题含义,且不能涵盖有助于全面有效了解金融平台整体情况的主题视角。
因此如何高效地对金融平台用户评论进行分析,提取有代表性的用户评论主题是目前需要解决的问题。
发明内容
本发明的目的在于提供一种互联网金融平台用户评论主题分析系统和方法,从而解决现有技术中存在的前述问题。
为了实现上述目的,本发明采用的技术方案如下:
一种互联网金融平台用户评论主题分析系统,包括数据采集模块、金融词向量学习模块、评论主题生成模块、用户评论分类模块和评论主题更新模块,所述数据采集模块采集金融类新闻报道、用户评论和用户印象,并将其汇总后入库;
所述金融词向量学习模块是基于金融平台评论和金融新闻等数据学习金融领域词向量,并定期更新,为金融平台用户评论分析提供基础支撑;
所述评论主题生成模块主要基于用户印象采集模块采集到的用户印象进行相似聚类后得到一系列类簇,作为评论主题t,主题下的用户印象集合记为M;
所述用户评论分类模块主要负责对用户评论进行依存句法分析,对每条评论提取评论的代表短语集合,利用集合中的短语计算评论与每个主题的相似度,发现评论内容所属主题;
所述评论主题更新模块主要负责定期采集金融论坛上新增用户印象,与已有主题去重后,聚类生成新的评论主题,并将其添加到评论主题生成模块中得到的主题集合中。
本发明的另一个目的是提供一种互联网金融平台用户评论主题分析方法,包括以下步骤:
S1,使用金融平台评论和金融新闻等数据学习金融领域词向量,并定期更新,为金融平台用户评论分析提供基础支撑;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中科天玑数据科技股份有限公司;国家计算机网络与信息安全管理中心,未经中科天玑数据科技股份有限公司;国家计算机网络与信息安全管理中心许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910256768.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种基于改进CNN-LDA的情感分析方法
- 下一篇:一种文本纠错方法及装置