[发明专利]识别微信公众号所属业态的方法及装置在审

专利信息
申请号: 202010097890.8 申请日: 2020-02-17
公开(公告)号: CN111325021A 公开(公告)日: 2020-06-23
发明(设计)人: 唐积强;吴震;马秀娟;吴莉莉;王锟;李焱余;霍丽杰;胡晓光;刘刚;周洋 申请(专利权)人: 国家计算机网络与信息安全管理中心;深圳市任子行科技开发有限公司
主分类号: G06F40/284 分类号: G06F40/284;G06N3/04;G06N3/08
代理公司: 深圳市顺天达专利商标代理有限公司 44217 代理人: 郭伟刚
地址: 100029*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 识别 公众 所属 方法 装置
【说明书】:

发明提供一种识别微信公众号所属业态的方法及装置,包括:获取微信公众号的文本数据集,基于所述文本数据集进行BERT模型预训练,得到BERT中文词向量;从所述文本数据集中提取文本特征词,并基于所述BERT中文词向量对所述文本特征词进行向量化,得到字向量序列;将所述字向量序列输入LSTM‑CNN模型,得到所述LSTM‑CNN模型输出的目标特征向量;将所述目标特征向量输入softmax层,得到所述softmax层输出的概率预测向量;查找所述概率预测向量中的最大值,并以所述最大值对应的业态作为所述微信公众号的所属业态。通过本发明,实现了高精度识别微信公众号的所属业态。

技术领域

本发明涉及深度学习技术领域,尤其涉及一种识别微信公众号所属业态的方法及装置。

背景技术

依托互联网的发展,微信作为“社交+信息”的代名词,已逐步成为人们获取信息的重要来源。尤其是微信公众号所具备的方便快捷性使得微信公众号成为新兴互联网金融交易模式的载体。这也充分迎合了移动互联网时代时间碎片化的特点,导致微盘、现金贷等以微信公众号为载体的交易平台层出不穷。如此一来,识别以微信公众号为载体的交易平台的细分业态对于互联网金融监管而言尤为重要。

现有技术中通常是基于机器学习的方法利用词袋模型对微信公众号的文本信息进行表示,从而识别微信公众号所属业态。但这种方式不能根据上下文信息对文本信息进行表征,且不能解决一词多义等问题,导致识别准确率低。

发明内容

本发明的主要目的在于提供一种识别微信公众号所属业态的方法及装置,旨在解决现有技术中对微信公众号所属业态进行识别的准确率较低的技术问题。

为实现上述目的,本发明实施例提供一种识别微信公众号所属业态的方法,所述识别微信公众号所属业态的方法包括:

获取微信公众号的文本数据集,基于所述文本数据集进行BERT模型预训练,得到BERT中文词向量;

从所述文本数据集中提取文本特征词,并基于所述BERT中文词向量对所述文本特征词进行向量化,得到字向量序列;

将所述字向量序列输入LSTM-CNN模型,得到所述LSTM-CNN模型输出的目标特征向量;

将所述目标特征向量输入softmax层,得到所述softmax层输出的概率预测向量;

查找所述概率预测向量中的最大值,并以所述最大值对应的业态作为所述微信公众号的所属业态。

可选的,所述获取微信公众号的文本数据集,基于所述文本数据集进行BERT模型预训练,得到BERT中文词向量包括:

获取微信公众号的简介文本以及微信公众号的推送文章的HTML源码;

对所述微信公众号的推送文章的HTML源码进行解析,得到微信公众号的推送文章文本,将所述简介文本以及推送文章文本作为微信公众号的文本数据集;

对所述文本数据集进行预处理,所述预处理包括剔除所述文本数据集中的无用字符、停用词;

基于所述经过预处理的文本数据集进行BERT模型预训练,取BERT模型的后4层隐藏层的权重平均值作为所述微信公众号的文本数据集对应的向量表示,生成BERT中文词向量。

可选的,所述从所述文本数据集中提取文本特征词,并基于所述BERT中文词向量对所述文本特征词进行向量化,得到字向量序列包括:

对所述文本数据集中微信公众号的简介文本进行切词以及剔除停用词处理,得到所述简介文本对应的第一文本特征词,并基于所述BERT中文词向量对所述第一文本特征词进行向量化,得到第一字向量序列;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国家计算机网络与信息安全管理中心;深圳市任子行科技开发有限公司,未经国家计算机网络与信息安全管理中心;深圳市任子行科技开发有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202010097890.8/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top