[发明专利]基于短语袋主题模型的话题发现方法在审

专利信息
申请号: 201810233489.5 申请日: 2018-03-21
公开(公告)号: CN108399162A 公开(公告)日: 2018-08-14
发明(设计)人: 潘丽敏;李筱雅;罗森林;郭佳 申请(专利权)人: 北京理工大学
主分类号: G06F17/27 分类号: G06F17/27;G06F17/30
代理公司: 暂无信息 代理人: 暂无信息
地址: 100081 *** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明涉及基于短语袋主题模型的话题发现方法,属于自然语言处理与机器学习领域,目的是为解决词袋模型丢失词之间的关联信息,以及无法准确反映话题信息的问题。本发明首先利用FP‑growth算法快速生成频繁短语,再通过文本数据服从高斯分布的特性挖掘候选短语;然后基于短语袋假设进行主题建模,利用短语中词汇在同一主题下的“主题‑词语”概率分布的Sa函数来修正“主题‑短语”的概率分布;最后用生成的主题短语表述话题。本发明具有主题分配、话题发现准确率高以及话题表述可读性高等特点,有利于对微博舆情进行监控,具有很好的应用价值和推广价值。
搜索关键词: 短语 话题 概率分布 主题模型 机器学习领域 自然语言处理 词袋模型 高斯分布 关联信息 候选短语 快速生成 文本数据 主题短语 发现 准确率 建模 算法 微博 可读性 词语 词汇 修正 监控 挖掘 分配 应用
【主权项】:
1.基于短语袋主题模型的话题发现方法,其特征在于:首先利用FP‑growth算法快速生成频繁短语,再通过文本数据服从高斯分布的特性挖掘候选短语;然后基于短语袋假设进行主题建模,利用短语中词汇在同一主题下的“主题‑词语”概率分布的Sa函数,修正“主题‑短语”的概率分布;最后用生成的主题短语表述话题;具体包括如下步骤:步骤1,将数据集输入预处理模块,利用正则过滤微博数据集中的html标签等噪声符号,并进行繁简体转化,然后使用分词工具对数据集进行分词和词性标注,去除少于4个有效词的微博文本;步骤2,短语挖掘,首先采用两条规则提取频繁短语,同时统计其出现的次数,这两条规则为(1)向下关闭原理:如果短语P不是频繁项,那么任意包含P的短语,可以被认为也不是频繁项;(2)数据的反单调性:如果一个文档不包含长度为n的频繁短语,那么该文档也不会包含长度大于n的频繁短语;然后利用文本服从高斯分布的特性,将频繁项和其左右词汇合并,组成新的短语;步骤3,进行主题建模,利用短语中词汇在同一主题下的“主题‑词语”概率分布的Sa函数来修正“主题‑短语”的概率分布,最后用生成的主题短语表述话题。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京理工大学,未经北京理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201810233489.5/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top