[发明专利]识别微信公众号所属业态的方法及装置在审
申请号: | 202010097890.8 | 申请日: | 2020-02-17 |
公开(公告)号: | CN111325021A | 公开(公告)日: | 2020-06-23 |
发明(设计)人: | 唐积强;吴震;马秀娟;吴莉莉;王锟;李焱余;霍丽杰;胡晓光;刘刚;周洋 | 申请(专利权)人: | 国家计算机网络与信息安全管理中心;深圳市任子行科技开发有限公司 |
主分类号: | G06F40/284 | 分类号: | G06F40/284;G06N3/04;G06N3/08 |
代理公司: | 深圳市顺天达专利商标代理有限公司 44217 | 代理人: | 郭伟刚 |
地址: | 100029*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 识别 公众 所属 方法 装置 | ||
1.一种识别微信公众号所属业态的方法,其特征在于,所述识别微信公众号所属业态的方法包括:
获取微信公众号的文本数据集,基于所述文本数据集进行BERT模型预训练,得到BERT中文词向量;
从所述文本数据集中提取文本特征词,并基于所述BERT中文词向量对所述文本特征词进行向量化,得到字向量序列;
将所述字向量序列输入LSTM-CNN模型,得到所述LSTM-CNN模型输出的目标特征向量;
将所述目标特征向量输入softmax层,得到所述softmax层输出的概率预测向量;
查找所述概率预测向量中的最大值,并以所述最大值对应的业态作为所述微信公众号的所属业态。
2.如权利要求1所述的识别微信公众号所属业态的方法,其特征在于,所述获取微信公众号的文本数据集,基于所述文本数据集进行BERT模型预训练,得到BERT中文词向量包括:
获取微信公众号的简介文本以及微信公众号的推送文章的HTML源码;
对所述微信公众号的推送文章的HTML源码进行解析,得到微信公众号的推送文章文本,将所述简介文本以及推送文章文本作为微信公众号的文本数据集;
对所述文本数据集进行预处理,所述预处理包括剔除所述文本数据集中的无用字符、停用词;
基于所述经过预处理的文本数据集进行BERT模型预训练,取BERT模型的后4层隐藏层的权重平均值作为所述微信公众号的文本数据集对应的向量表示,生成BERT中文词向量。
3.如权利要求1所述的识别微信公众号所属业态的方法,其特征在于,所述从所述文本数据集中提取文本特征词,并基于所述BERT中文词向量对所述文本特征词进行向量化,得到字向量序列包括:
对所述文本数据集中微信公众号的简介文本进行切词以及剔除停用词处理,得到所述简介文本对应的第一文本特征词,并基于所述BERT中文词向量对所述第一文本特征词进行向量化,得到第一字向量序列;
对所述文本数据集中微信公众号的推送文章文本进行切词以及剔除停用词处理,得到待提取推送文章文本,通过TF-IDF技术从所述待提取推送文章文本中提取得到所述推送文章文本对应的第二文本特征词,并基于所述BERT中文词向量对所述第二文本特征词进行向量化,得到第二字向量序列。
4.如权利要求3所述的识别微信公众号所属业态的方法,其特征在于,所述LSTM-CNN模型包括LSTM模型以及CNN模型,所述将所述字向量序列输入LSTM-CNN模型,得到所述LSTM-CNN模型输出的目标特征向量包括:
将所述第一字向量序列输入所述LSTM模型,以供所述LSTM模型对所述第一字向量序列进行运算,得到所述LSTM模型输出的第一特征向量;
将所述第二字向量序列输入所述CNN模型,以供所述CNN模型对所述第二字向量序列进行运算,得到所述CNN模型输出的第二特征向量;
将所述第一特征向量与所述第二特征向量进行拼接,得到第三特征向量;
通过全连接层对所述第三特征向量进行线性降维,得到维数为2的目标特征向量。
5.如权利要求1至3中任一项所述的识别微信公众号所属业态的方法,其特征在于,所述LSTM-CNN模型中增加有dropout层以及earlystop机制,所述LSTM-CNN模型采用的损失函数为交叉熵,反向传播算法为adam优化算法。
6.一种识别微信公众号所属业态的装置,其特征在于,所述识别微信公众号所属业态的装置包括:
预训练模块,用于获取微信公众号的文本数据集,基于所述文本数据集进行BERT模型预训练,得到BERT中文词向量;
向量化模块,用于从所述文本数据集中提取文本特征词,并基于所述BERT中文词向量对所述文本特征词进行向量化,得到字向量序列;
第一输入模块,用于将所述字向量序列输入LSTM-CNN模型,得到所述LSTM-CNN模型输出的目标特征向量;
第二输入模块,用于将所述目标特征向量输入softmax层,得到所述softmax层输出的概率预测向量;
查找模块,用于查找所述概率预测向量中的最大值,并以所述最大值对应的业态作为所述微信公众号的所属业态。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国家计算机网络与信息安全管理中心;深圳市任子行科技开发有限公司,未经国家计算机网络与信息安全管理中心;深圳市任子行科技开发有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010097890.8/1.html,转载请声明来源钻瓜专利网。