[发明专利]基于融合主题信息增强PU学习的事件相关新闻过滤的学习方法有效
申请号: | 202110347488.5 | 申请日: | 2021-03-31 |
公开(公告)号: | CN113641888B | 公开(公告)日: | 2023-08-29 |
发明(设计)人: | 余正涛;王冠文;线岩团;张玉;黄于欣 | 申请(专利权)人: | 昆明理工大学 |
主分类号: | G06F16/9532 | 分类号: | G06F16/9532;G06F40/30;G06F16/35;G06N3/0442;G06N3/0455;G06N3/0499;G06N3/088 |
代理公司: | 昆明隆合知识产权代理事务所(普通合伙) 53220 | 代理人: | 何娇 |
地址: | 650093 云*** | 国省代码: | 云南;53 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 融合 主题 信息 增强 pu 学习 事件 相关 新闻 过滤 学习方法 | ||
1.基于融入主题信息增强PU学习的事件相关新闻过滤的学习方法,其特征在于:所述方法的具体步骤如下:
Step1、训练分类器,同时加入无监督主题模型进行增强;
Step2、将未标注数据通过训练的分类器模型进行预测,再将对未标注新闻的预测结果进行概率由高到低的排序;
所述步骤Step2的具体步骤为:
Step2.1、将数据集中剩余的未标注数据样本通过分类器和主题模型进行类别的概率预测;预测结果是新闻属于事件相关新闻的概率值;
Step2.2、将对未标注新闻的预测结果进行概率由高到低的排序,每次预测都会按照一定的迭代步幅获取到概率靠前的数据作为可靠事件相关新闻样本和概率靠后的数据作为可靠负样本,并将这些样本从未标注样本中剔除,加入到训练数据中,用以进行后续的迭代训练过程;
Step3、初次的训练和预测过程完成后,进行PU学习的迭代,即在新得到的训练集上重新训练分类器并重复整个预测和训练过程;
Step4、将所有的样本放入分类器进行训练,得到所需要的事件相关新闻分类模型,基于事件相关新闻分类模型过滤出所需的事件相关新闻;
所述步骤Step1包括:
使用I-DNF算法进行非事件相关新闻数据提取,获取到和初始事件相关新闻相同规模的反例,来训练初始分类器,并加入无监督主题模型VAE进行增强;
其中,使用Embedding和双向长短期记忆网络BiLSTM的网络结构作为分类器;
首先使用Embedding网络层对输入文本进行词嵌入,得到词嵌入向量其中n表示新闻文本长度,v为词向量维度;此外,将输入文本再通过VAE主题模型,得到新闻文本的主题向量其中m为预设主题个数,得到两种编码信息;
使用新闻文本的主题向量来对词嵌入向量X进行指导;由于主题模型获取到的主题向量是形状为1*m的向量,将其复制n份,分别拼接到词嵌入向量X后,形成的新矩阵X'就是融入主题向量的新闻编码向量:
融入主题信息后的新闻编码向量通过双向长短期记忆网络层BiLSTM来对其上下文关系进行建模,得到新闻语义表征向量,具体公式如下所示:
其中H为BiLSTM编码后的句子向量,q是BiLSTM的隐含层维数,y表示最终的概率输出。
2.根据权利要求1所述的基于融入主题信息增强PU学习的事件相关新闻过滤的学习方法,其特征在于:所述获取到和初始事件相关新闻相同规模的反例的具体步骤如下:
Step1.1.1、一个文本特征在正例集合中出现频率大于90%,而其在未标识集合出现的频率仅有10%,就把这样的特征当成正例的特征;
Step1.1.2、通过特征在正例集合和未标识集合中出现的频率不同,建立一个正例特征集合;
Step1.1.3、未标识集合U中的样例文档未包含任何正例特征集合中的特征的,就把它从未标识集合U中抽取出来,标识成反例。
3.根据权利要求1所述的基于融入主题信息增强PU学习的事件相关新闻过滤的学习方法,其特征在于:所述步骤Step3的具体步骤为:
Step3.1完成初次的训练和预测过程后,在新得到的训练集上重新训练分类器并重复整个预测和训练过程;
Step3.2、每次迭代完成后,未标注数据的数量会随之减少而训练集的数量随之增加,当未标注数据被完全预测为可靠样本后,结束迭代过程。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于昆明理工大学,未经昆明理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110347488.5/1.html,转载请声明来源钻瓜专利网。
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置