[发明专利]一种营销文本识别方法及系统在审
| 申请号: | 202210498687.0 | 申请日: | 2022-05-09 |
| 公开(公告)号: | CN114724167A | 公开(公告)日: | 2022-07-08 |
| 发明(设计)人: | 马坤;李乐平;纪科;陈贞翔;杨波 | 申请(专利权)人: | 济南大学 |
| 主分类号: | G06V30/416 | 分类号: | G06V30/416;G06V30/413;G06N3/08;G06N3/04;G06K9/62;G06F40/30;G06V10/764;G06V10/82 |
| 代理公司: | 济南圣达知识产权代理有限公司 37221 | 代理人: | 赵妍 |
| 地址: | 250022 山*** | 国省代码: | 山东;37 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 营销 文本 识别 方法 系统 | ||
本发明提供了一种营销文本识别方法及系统,包括:获取待识别文本,并进行预处理;基于预处理后的待识别文本,构建待识别文本的文本图;基于待识别文本的文本图,生成文本级单词表示,并结合所有标签的嵌入表示,生成文本表示;基于文本表示,采用分类器得到待识别文本是否属于营销文本的结果;其中,标签的嵌入表示的获取方法为:基于训练集的文本图及其标签,生成主题单词概率分布,将主题单词概率分布映射到标签向量空间,并在标签图的指导下学习标签间的相关性关系和语义信息,得到标签的嵌入表示。达到了生成完整标签嵌入的目的,联合学习单词与标签捕获更多与分类相关的信息,提高了营销文本识别的精度。
技术领域
本发明属于自然语言处理技术领域,尤其涉及一种营销文本识别方法及系统。
背景技术
本部分的陈述仅仅是提供了与本发明相关的背景技术信息,不必然构成在先技术。
社交媒体平台每天都发布大量以推广为目的含有广告内容的营销文章。为了消除读者反感,赢得潜在客户信任,营销内容往往隐藏在普通的文章内容中,难以识别发现。与传统媒体不同,某些自媒体编辑为了谋取利益精心设计广告内容,甚至不惜夸大事实、编辑虚假信息,不仅会误导消费者、损害消费者利益,还会破坏健康的网络环境。因此,迫切需要相应的方法和系统来检测自媒体内容营销文章。
大多数研究将内容营销文章的检测视为文本分类问题。现有方法中,解决文本分类任务的方法主要分为以下几类:(1)传统的文本分类方法包括朴素贝叶斯、最大熵、决策树、支持向量机等,这类方法主要依赖人工标注的特征,不仅忽略了词之间的相关性,而且效率低下;(2)深度学习方法,如TextRNN、TextRCNN、fastText,能够自动地获取分类特征,但是这类方法关注单词的局部性,缺乏长距离和非连续的单词交互;(3)基于图神经网络的方法,如TextGCN、HyperGAT、TextING,能够直接处理复杂的结构化数据,并对全局特征进行优先级挖掘,但是这类方法没有考虑细粒度的标签信息以及与标签相关的文本信息。
近年来,一些研究发现标签与文本分类直接相关,并且可以帮助模型获取与分类更相关的信息。对于多标签分类任务,往往涉及大量标签,类别间关系复杂,难以找到合理的方式对其进行描述,因此有效地挖掘标签信息是多标签文本分类学习成功的关键。为了利用标签信息提高分类性能,深度极端多标签学习方法(DXML)通过探索标签结构来捕获标签依赖关系,序列生成模型(SGM)利用长短期记忆网络(LSTM,Long Short-Term Memory)处理标签序列依赖关系,捕获复杂的标签关系。虽然它们从不同的方面学习标签信息来获取标签关系,但是忽视了标签共现信息在捕获标签关系时的作用,难以合理描述标签关系来帮助模型提升分类效果。标签嵌入注意模型(LEAM)联合词和标签来获得文本的嵌入表示,显式交互模型(EXAM)利用类表示来获得单词标签交互信息。这类方法以标签嵌入的形式考虑了标签信息,但是在标签空间向量化时,标签向量缺乏标签间特征信息传递,以至于标签表示不能涵盖标签空间的完整语义。标签特定的注意网络(LSAN)利用自注意机制来识别标签特定的信息,一些基于自动编码器的方法通过基于排名的自动编码器体系结构产生类似的文本标签分数。然而,这类方法假设所有的标签是相互独立的,没有充分考虑标签语义和整体标签相关性。
发明内容
为了解决上述背景技术中存在的技术问题,本发明提供一种营销文本识别方法及系统,达到了捕获标签全局语义和整体相关性关系,生成完整标签嵌入的目的,联合学习单词与标签捕获更多与分类相关的信息,提高了营销文本识别的精度。
为了实现上述目的,本发明采用如下技术方案:
本发明的第一个方面提供一种营销文本识别方法,其包括:
获取待识别文本,并进行预处理;
基于预处理后的待识别文本,构建待识别文本的文本图;
基于待识别文本的文本图,生成文本级单词表示,并结合所有标签的嵌入表示,生成文本表示;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于济南大学,未经济南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210498687.0/2.html,转载请声明来源钻瓜专利网。





