[发明专利]一种基于直接优化PAUC算法的新闻信息分类方法有效

申请号：	201710266425.0	申请日：	2017-04-21
公开（公告）号：	CN107103071B	公开（公告）日：	2019-08-02
发明（设计）人：	程凡;宋栋栋;张闯;张兴义;岳千里;章霞	申请（专利权）人：	安徽大学
主分类号：	G06F16/35	分类号：	G06F16/35
代理公司：	安徽省合肥新安专利代理有限责任公司 34101	代理人：	陆丽莉;何梅生
地址：	230601 安***	国省代码：	安徽;34
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明公开了一种基于直接优化PAUC算法的新闻信息分类方法，其特征是按如下步骤进行：1、采集新闻信息的数据集，并将数据集S按照样本的类别划分为相关新闻信息集合S₊与非相关新闻信息集合S_‑；2、从所述相关信息集合S₊和不相关信息集合S_‑选取新闻信息特征x_T；3、通过新闻信息特征x_T得到第T次迭代的自适应梯度4、利用自适应梯度更新预测模型w_T。本发明能高效的在海量的新闻信息中筛选出符合用户喜好的新闻，提高了用户对新闻信息的搜索效率，提升了用户体验。
搜索关键词：	一种基于直接优化 pauc 算法新闻信息分类方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种基于直接优化PAUC算法的新闻信息分类方法，其特征是按如下步骤进行：步骤1、采集新闻信息，记为x_i表示第i个新闻信息，x_i∈R^d；R^d表示实数的d维空间，d表示新闻信息包含的主题词个数；y_i表示新闻信息的相关性，且y_i∈{+1,‑1}；当y_i＝+1时，表示第i个新闻信息x_i为用户感兴趣信息，当y_i＝‑1时，表示第i个新闻信息x_i非用户感兴趣信息；1≤i≤n；将所有用户感兴趣信息作为相关信息集合S₊＝{(x⁺,+1)}；且表示第i个相关信息，1≤i≤n⁺，其余信息作为不相关信息集合S_‑＝{(x^‑,‑1)}，且表示第j个不相关信息；1≤j≤n^‑，n⁺+n^‑＝n；步骤2、从所述相关信息集合S₊和不相关信息集合S_‑选取新闻信息特征x_T；步骤2.1、定义迭代次数为T，初始化T＝1；定义最大迭代次数为T_max，定义迭代过程中的排序间隔数为k，并有t＝mod(T,k)；初始化第T次迭代的预测模型w为一个d维的零向量，记为w_T；步骤2.2、判断t＝0是否成立，若成立，则执行步骤2.3；否则，将赋值给再执行步骤2.5；其中，表示第T‑1次迭代的不相关信息集合，表示第T次迭代的不相关信息集合；步骤2.3、利用式(1)计算第T次迭代时第j个不相关信息的决策函数值从而得到第T次迭代不相关信息对应的决策函数集合步骤2.4、对所述决策函数集合降序排序，并取出前个决策函数值对应的不相关信息组成第T次迭代的不相关信息集合β表示所设定的阈值；步骤2.5、从所述相关信息集合S₊中随机选择第T次迭代的相关信息从所述第T次迭代的不相关信息集合中随机选择第T次迭代的不相关信息并进行求差计算，得到第T次迭代的新闻信息特征步骤3、通过新闻信息特征x_T得到第T次迭代的自适应梯度步骤3.1、利用式(2)定义损失函数为：步骤3.2、对所述损失函数求偏导，利用随机梯度下降法得到第T次迭代的梯度g_T；步骤3.3、对前T次迭代的梯度求二范数的平方M_T，得到第T次迭代的自适应步长其中θ为常数；步骤3.4、利用式(3)更新第T次迭代的梯度g_T以及第T次迭代的自适应步长得到更新后的第T次迭代的自适应梯度步骤4、利用式(4)更新第T次迭代的预测模型w_T：式(4)中，η为全局步长；步骤5、将T+1赋值给T，并返回步骤2.2，直到T＞T_max为止，从而得到全局预测模型步骤6、使用全局预测模型对其他新闻信息集合进行分类，从而得到用户感兴趣信息。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于安徽大学，未经安徽大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201710266425.0/，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于直接优化PAUC算法的新闻信息分类方法有效

专利文献下载