[发明专利]一种基于神经网络的学者用户画像信息抽取方法及模型有效
申请号: | 201811343553.1 | 申请日: | 2018-11-13 |
公开(公告)号: | CN109657135B | 公开(公告)日: | 2023-06-23 |
发明(设计)人: | 林伟伟;游德光;吴梓明;温昂展 | 申请(专利权)人: | 华南理工大学 |
主分类号: | G06F16/9535 | 分类号: | G06F16/9535;G06F16/335;G06F40/284;G06N3/0442;G06N3/08 |
代理公司: | 广州市华学知识产权代理有限公司 44245 | 代理人: | 陈宏升 |
地址: | 510640 广*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 神经网络 学者 用户 画像 信息 抽取 方法 模型 | ||
本发明涉及一种基于神经网络的学者用户画像信息抽取方法,包含以下步骤:对网页进行文本预处理,并对网页进行结构调整和实体标注;对已识别网页所有文本节点及其字符分别构建词库表;对文本节点和前后节点的上下文特征进行提取,接着对文本节点序列进行训练,得到包含节点序列上下文信息的词向量h;对词向量输出进行解码计算,对应地得到每个词向量对目标标签的得分,计算节点序列的标签概率分布,对模型输出结果进行解码,使目标函数最小时即得到最优的预测标签序列,完成模型构建并进行模型训练。本发明能够实现模型的端到端训练,而且利用LSTM网络本身的序列记忆特性,有效地解决目标抽取实体间的长时期依赖关系问题。
技术领域
本发明涉及画像信息抽取领域,特别涉及一种基于神经网络的学者用户画像信息抽取方法及模型。
背景技术
随着互联网、移动互联网、物联网等应用的飞速发展,全球数据量出现了大幅度增长,用户画像成为大数据技术背景下最为重要的应用之一。作为用户画像提取的首要环节,用户信息抽取为之后的用户画像挖掘和分析奠定了基础,在很大程度上决定了最终模型的准确性和完整性。近年来,随着大数据技术的发展,也涌现了许多关于用户信息抽取模型的研究。在学者信息抽取方面,目前大部分研究是将其抽象为序列标注(Sequence Label)问题加以解决。Tang等人最早提出了基于树形条件随机场(Conditional Random Field,CRF)的模型对学者用户画像信息进行抽取。Collobert等人最早提出了基于窗口和句子维度的两种神经网络结构构建的序列标注模型。Gu等人则将主页识别和用户信息抽取整合为一个步骤,通过自定义Web检索规则和一种马尔可夫概率模型对文本实体进行分类抽取。在构建学者用户画像时,传统的基于人工编写规则或机器学习方法的信息抽取模型所面临的技术挑战有:1)学者个人主页的格式各式各样,有的是自定义制作的,有的是统一模版编写的,还有的是由学术搜索引擎自动生成的,传统基于规则和CRF模型的抽取方法无法自适应多种学者主页类型;2)传统信息抽取技术对抽取长度较短且具有固定模版特征的网页较为有效,而在识别网页中所在片段距离较长的文本节点时效果较差。传统模型将无法发现所在片段间隔较远的实体之间的依赖关系。
现如今Web中学术数据爆炸式增长,其中只有3%的学术数据包括语义标注信息,语义严重缺失阻碍了学术大数据进一步的探究和发展,也给学者用户信息抽取带来了全新的挑战。人工编写规则的抽取方法需要针对每一类页面编写特定的规则,且依赖于特定的领域知识,因此通用性非常差;传统机器学习方法虽然在一定程度上对该问题有所改善,但依然没有办法很好地处理网页中距离较长的文本节点。随着Web网页越来越多样化和复杂化,这些问题也越来越凸显出来,现有的方法不能很好地实现学者用户信息抽取。
发明内容
本发明的目的在于克服现有技术方法的不足,提供一种基于神经网络的学者用户画像信息抽取方法,该方法基于Bi-LSTM-CRF神经网络,通过循环神经网络自动提取文本实体的字符级和上下文特征,实现模型的端到端训练,而且利用LSTM网络本身的序列记忆特性,有效地解决目标抽取实体间的长时期依赖关系问题。
本发明的另一目的在于提供一种基于神经网络的学者用户画像信息抽取模型。
本发明的目的通过以下的技术方案实现:
一种基于神经网络的学者用户画像信息抽取方法,所述神经网络为Bi-LSTM-CRF神经网络,包括以下步骤:
S1.通过文本预处理过滤掉网页中的文本信息,并删除空白和注释字符,提取得到简化后的内容体;网页文本嵌入在HTML格式标签中,且短文本节点对应一个实体,将标签的文本节点作为基本抽取单元;
S2.对已识别网页所有文本节点及其字符分别构建词库表,并将每个标签的文本节点转为一个n维向量,表示为词向量w;
S3.对文本节点和前后节点的上下文特征进行提取,接着对文本节点序列进行训练,得到包含节点序列上下文信息的词向量h;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华南理工大学,未经华南理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811343553.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种数据过滤方法及装置
- 下一篇:互联网数据收集系统的重复数据剔除方法