[发明专利]一种多标签在线新闻读者情绪预测方法在审

专利信息
申请号: 201610347226.8 申请日: 2016-05-23
公开(公告)号: CN106055596A 公开(公告)日: 2016-10-26
发明(设计)人: 张莹;杨志帆;俞力;赵雪;袁晓洁 申请(专利权)人: 南开大学
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 天津佳盟知识产权代理有限公司 12002 代理人: 侯力
地址: 300353 天津*** 国省代码: 天津;12
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明提出了一种多标签在线新闻读者情绪预测方法。包括:提出将在线新闻文本的读者情绪预测问题作为多标签分类任务,即一篇新闻对应一种或者多种读者情绪;提出一种多标签监督的情绪‑主题模型(ML‑sETM),利用该模型对新闻文本进行读者情绪分类。本发明提出的方法能够有效预测读者在阅读在线新闻文本内容后可能产生的情绪类别集合。本发明可用于读者情绪分析和舆情监控等领域。
搜索关键词: 一种 标签 在线 新闻 读者 情绪 预测 方法
【主权项】:
一种多标签在线新闻读者情绪预测方法,该方法包括如下步骤:第1、对在线新闻文本的读者情绪预测问题进行形式化描述定义1:在线新闻文本集合,用符号D表示:D={d(1),d(2),…,d(N)}      (1‑1)其中,d(i)表示新闻文本,N为在线新闻文本数;定义2:读者情绪标签集合,用符号E表示:E={e1,e2,…,eM}      (1‑2)其中,ei表示读者的某一种情绪标签,M为语料库中情绪标签数;定义3:读者在阅读新闻文本d(i)后会产生某一种或者某几种情绪,且不同的读者对同一新闻文本d(i)会产生不同的情绪,这些情绪标签组合在一起构成了一个情绪标签子集合Yi,其中定义4:向量为在线新闻文本d(i)∈D的特征构成的特征向量:<mrow><msup><mi>x</mi><mrow><mo>(</mo><mi>i</mi><mo>)</mo></mrow></msup><mo>=</mo><mo>{</mo><msubsup><mi>x</mi><mn>1</mn><mrow><mo>(</mo><mi>i</mi><mo>)</mo></mrow></msubsup><mo>,</mo><msubsup><mi>x</mi><mn>2</mn><mrow><mo>(</mo><mi>i</mi><mo>)</mo></mrow></msubsup><mo>,</mo><mo>...</mo><mo>,</mo><msubsup><mi>x</mi><mi>n</mi><mrow><mo>(</mo><mi>i</mi><mo>)</mo></mrow></msubsup><mo>}</mo><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>1</mn><mo>-</mo><mn>3</mn><mo>)</mo></mrow></mrow>其中表示新闻文本d(i)的第j个特征;定义5:向量μ(i)为对应的新闻文本d(i)∈D的情绪标签标注,用来表示读者在阅读新闻后可能产生的所有情绪:<mrow><msup><mi>&mu;</mi><mrow><mo>(</mo><mi>i</mi><mo>)</mo></mrow></msup><mo>=</mo><mo>{</mo><msubsup><mi>&mu;</mi><mn>1</mn><mrow><mo>(</mo><mi>i</mi><mo>)</mo></mrow></msubsup><mo>,</mo><msubsup><mi>&mu;</mi><mn>2</mn><mrow><mo>(</mo><mi>i</mi><mo>)</mo></mrow></msubsup><mo>,</mo><mo>...</mo><mo>,</mo><msubsup><mi>&mu;</mi><mi>M</mi><mrow><mo>(</mo><mi>i</mi><mo>)</mo></mrow></msubsup><mo>}</mo><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>1</mn><mo>-</mo><mn>4</mn><mo>)</mo></mrow></mrow>如果新闻文本d(i)标注的情绪标签子集合为则μ(i)中的项可表示为<mrow><msubsup><mi>&mu;</mi><mi>k</mi><mrow><mo>(</mo><mi>i</mi><mo>)</mo></mrow></msubsup><mo>=</mo><mo>{</mo><mtable><mtr><mtd><mrow><mn>1</mn><mo>,</mo></mrow></mtd><mtd><mrow><msub><mi>e</mi><mi>k</mi></msub><mo>&Element;</mo><msub><mi>Y</mi><mi>i</mi></msub></mrow></mtd></mtr><mtr><mtd><mrow><mn>0</mn><mo>,</mo></mrow></mtd><mtd><mrow><msub><mi>e</mi><mi>k</mi></msub><mo>&NotElement;</mo><msub><mi>Y</mi><mi>i</mi></msub></mrow></mtd></mtr></mtable><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>1</mn><mo>-</mo><mn>5</mn><mo>)</mo></mrow></mrow>定义6:由新闻文本的特征向量和相应的情绪标注的N个向量组成的标注数据集T,用于读者情绪预测模型训练,可表示为:T={(x(1)(1)),(x(2)(2)),…,(x(N)(N))}      (1‑6)其中,x(i)表示新闻文本d(i)的特征向量,μ(i)表示新闻文本d(i)的情绪标签标注;定义7:语料库中的所有新闻文本,关于预定义的情绪标签集合中各情绪的概率分布,用符号δ表示;定义8:对于情绪标签集合中的所有情绪标签,关于语料库中隐含主题集合中的各个主题,构成情绪‑主题分布,用符号θ表示;定义9:对于主题集合中的所有主题,关于语料库中的所有词,构成主题‑词分布,用符号表示;第2、构建多标签监督的情绪‑主题模型ML‑sETM定义10:多标签监督的情绪‑主题模型ML‑sETM:对LDA主题模型(Latent Dirichlet Allocation Topic Model)进行扩展:从“文档‑主题‑词”三层贝叶斯结构扩展为“文档‑情绪‑主题‑词”四层贝叶斯结构,同时将其扩展为监督的主题模型;第2.1、对于情绪标签集合中的每个情绪标签em∈E,其中m∈{1,2,…,M},从先验参数为α的狄利克雷分布中得到相应的情绪‑主题分布θm={θm,1m,2,…,θm,K}T,其中K为语料库中隐含主题的数目;第2.2、对于隐含主题集合中的每个主题t,其中t∈{1,2,…,K},从先验参数为β的狄利克雷分布中得到相应的主题‑词分布其中V为语料库中特征词的数目;第2.3、对于语料库中的每一篇新闻文本d(i),根据其标注向量μ(i)和先验参数γ,得到新闻文本d(i)属于各个情绪标签的概率分布δ'd=δd×μ(i),其中δd={δd,1d,2,…,δd,M}T为从先验参数为γ的狄利克雷分布中得到的文档‑情绪分布;第2.4、利用Gibbs采样方法,计算情绪‑主题模型对训练数据的情绪‑主题分布θ和主题‑词分布第2.4.1、对于语料库中的每一个单词wi,随机初始化情绪标签e∈{e1,e2,…,eM}和主题t∈{t1,t2,…,tK};第2.4.2、根据计算得到的情绪标签、主题的后验概率分布,为语料库中的每个词重新分配情绪标签和主题,其中词wi属于各情绪标签、主题的概率的计算方法如下公式:<mrow><mi>P</mi><mi>E</mi><mrow><mo>(</mo><mi>e</mi><mo>)</mo></mrow><mo>=</mo><mfrac><mrow><mi>&alpha;</mi><mo>+</mo><msubsup><mi>n</mi><mrow><mi>e</mi><mo>,</mo><msub><mi>z</mi><mi>i</mi></msub></mrow><mrow><mo>-</mo><mi>i</mi></mrow></msubsup></mrow><mrow><mi>K</mi><mi>&alpha;</mi><mo>+</mo><msub><mo>&Sigma;</mo><mi>k</mi></msub><msubsup><mi>n</mi><mrow><mi>e</mi><mo>,</mo><msub><mi>z</mi><mi>i</mi></msub></mrow><mrow><mo>-</mo><mi>i</mi></mrow></msubsup></mrow></mfrac><mo>&times;</mo><mfrac><mrow><mi>&gamma;</mi><mo>+</mo><msub><mi>n</mi><mrow><mi>d</mi><mo>,</mo><mi>e</mi></mrow></msub></mrow><mrow><mi>M</mi><mi>&gamma;</mi><mo>+</mo><msub><mo>&Sigma;</mo><mi>e</mi></msub><msubsup><mi>N</mi><mrow><mi>d</mi><mo>,</mo><mi>e</mi></mrow><mrow><mo>-</mo><mi>i</mi></mrow></msubsup></mrow></mfrac><mo>&times;</mo><msup><mi>&mu;</mi><mrow><mo>(</mo><msub><mi>d</mi><mi>i</mi></msub><mo>)</mo></mrow></msup><mo>,</mo><mi>P</mi><mi>T</mi><mrow><mo>(</mo><mi>t</mi><mo>)</mo></mrow><mo>=</mo><mfrac><mrow><mi>&alpha;</mi><mo>+</mo><msubsup><mi>n</mi><mrow><msub><mi>&epsiv;</mi><mi>i</mi></msub><mo>,</mo><mi>t</mi></mrow><mrow><mo>-</mo><mi>i</mi></mrow></msubsup></mrow><mrow><mi>K</mi><mi>&alpha;</mi><mo>+</mo><msub><mo>&Sigma;</mo><msup><mi>z</mi><mo>&prime;</mo></msup></msub><msubsup><mi>n</mi><mrow><msub><mi>&epsiv;</mi><mi>i</mi></msub><mo>,</mo><mi>t</mi></mrow><mrow><mo>-</mo><mi>i</mi></mrow></msubsup></mrow></mfrac><mo>&times;</mo><mfrac><mrow><mi>&beta;</mi><mo>+</mo><msubsup><mi>n</mi><mrow><mi>t</mi><mo>,</mo><msub><mi>w</mi><mi>i</mi></msub></mrow><mrow><mo>-</mo><mi>i</mi></mrow></msubsup></mrow><mrow><mrow><mo>|</mo><mi>W</mi><mo>|</mo></mrow><mi>&beta;</mi><mo>+</mo><msub><mo>&Sigma;</mo><mi>w</mi></msub><msubsup><mi>n</mi><mrow><mi>t</mi><mo>,</mo><mi>w</mi></mrow><mrow><mo>-</mo><mi>i</mi></mrow></msubsup></mrow></mfrac></mrow>其中,表示整个语料库中除去当前词wi后主题z被分配给情绪标签e的次数;表示整个语料库中除去当前词wi后词wi被分配给主题t的次数;表示文档d中被分配给情绪标签e的词的数目;|W|为语料库中词的数目,K为语料库中隐含主题的数目,M为语料库中情绪标签数;第2.4.3、将第2.4.2步重复I次直至收敛,认为接近真实的分布;对迭代后的结果进行频次统计,计算得到整个语料库的情绪‑主题分布和主题‑词分布计算方法如下公式:其中,ne,z,·表示整个语料库中主题z被分配给情绪标签e的次数;n·,z,w表示整个语料库中词wi被分配给主题t的次数;第3、对于未知读者情绪标签的新闻文本d(N+1),利用第2.4步得到的情绪‑主题分布和主题‑词分布采用Gibbs采样方法得到文档属于各个情绪标签的概率δ;第3.1、对于新闻文本d(N+1)中的每一个单词wi,随机初始化情绪标签e∈{e1,e2,…,eM}和主题t∈{t1,t2,…,tK};第3.2、利用Gibbs采样方法为新闻文本d(N+1)中每个词重新分配情绪标签和主题;词wi属于各情绪标签、主题的概率的计算方法如下公式:其中,Nd,e为文档d中词被分配给情绪标签e的次数,为第2步训练后的情绪‑主题模型得到的主题z属于情绪标签e的概率,为已训练模型得到的词w属于主题z的概率;第3.3、将第3.2步重复I次直至收敛,认为接近真实的分布;对迭代后的结果进行频次统计,得到文档关于各情绪标签的概率分布δ,计算方法如下公式:<mrow><msub><mi>&delta;</mi><mrow><mi>d</mi><mo>,</mo><mi>e</mi></mrow></msub><mo>=</mo><mfrac><mrow><mi>&gamma;</mi><mo>+</mo><msub><mi>N</mi><mrow><mi>d</mi><mo>,</mo><mi>e</mi></mrow></msub></mrow><mrow><mi>M</mi><mi>&gamma;</mi><mo>+</mo><msub><mo>&Sigma;</mo><mi>e</mi></msub><msub><mi>N</mi><mrow><mi>d</mi><mo>,</mo><mi>e</mi></mrow></msub></mrow></mfrac></mrow>第3.4、根据第3.3步计算得到的未知文档关于情绪的概率分布δ,采用基于阈值的方法得到新闻文本所属的情绪标签集合,其计算方法如下:<mrow><msubsup><mi>y</mi><mi>k</mi><mrow><mo>(</mo><mi>i</mi><mo>)</mo></mrow></msubsup><mo>=</mo><mfenced open = "{" close = ""><mtable><mtr><mtd><mrow><mn>1</mn><mo>,</mo></mrow></mtd><mtd><mrow><mfrac><msub><mi>&delta;</mi><mrow><mi>d</mi><mo>,</mo><mi>e</mi></mrow></msub><mrow><mi>m</mi><mi>a</mi><mi>x</mi><mrow><mo>(</mo><msub><mi>&delta;</mi><mrow><mi>d</mi><mo>,</mo><mn>1</mn></mrow></msub><mo>,</mo><mo>...</mo><mo>,</mo><msub><mi>&delta;</mi><mrow><mi>d</mi><mo>,</mo><mi>M</mi></mrow></msub><mo>)</mo></mrow></mrow></mfrac><mo>&GreaterEqual;</mo><mi>p</mi></mrow></mtd></mtr><mtr><mtd><mrow><mn>0</mn><mo>,</mo></mrow></mtd><mtd><mrow><mfrac><msub><mi>&delta;</mi><mrow><mi>d</mi><mo>,</mo><mi>e</mi></mrow></msub><mrow><mi>m</mi><mi>a</mi><mi>x</mi><mrow><mo>(</mo><msub><mi>&delta;</mi><mrow><mi>d</mi><mo>,</mo><mn>1</mn></mrow></msub><mo>,</mo><mo>...</mo><mo>,</mo><msub><mi>&delta;</mi><mrow><mi>d</mi><mo>,</mo><mi>M</mi></mrow></msub><mo>)</mo></mrow></mrow></mfrac><mo>&lt;</mo><mi>p</mi></mrow></mtd></mtr></mtable></mfenced></mrow>其中,p为预先定义的阈值,δd,e为未知新闻文本属于情绪标签e的概率。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南开大学,未经南开大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201610347226.8/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top