[发明专利]基于短语袋主题模型的话题发现方法在审
申请号: | 201810233489.5 | 申请日: | 2018-03-21 |
公开(公告)号: | CN108399162A | 公开(公告)日: | 2018-08-14 |
发明(设计)人: | 潘丽敏;李筱雅;罗森林;郭佳 | 申请(专利权)人: | 北京理工大学 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F17/30 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100081 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明涉及基于短语袋主题模型的话题发现方法,属于自然语言处理与机器学习领域,目的是为解决词袋模型丢失词之间的关联信息,以及无法准确反映话题信息的问题。本发明首先利用FP‑growth算法快速生成频繁短语,再通过文本数据服从高斯分布的特性挖掘候选短语;然后基于短语袋假设进行主题建模,利用短语中词汇在同一主题下的“主题‑词语”概率分布的Sa函数来修正“主题‑短语”的概率分布;最后用生成的主题短语表述话题。本发明具有主题分配、话题发现准确率高以及话题表述可读性高等特点,有利于对微博舆情进行监控,具有很好的应用价值和推广价值。 | ||
搜索关键词: | 短语 话题 概率分布 主题模型 机器学习领域 自然语言处理 词袋模型 高斯分布 关联信息 候选短语 快速生成 文本数据 主题短语 发现 准确率 建模 算法 微博 可读性 词语 词汇 修正 监控 挖掘 分配 应用 | ||
【主权项】:
1.基于短语袋主题模型的话题发现方法,其特征在于:首先利用FP‑growth算法快速生成频繁短语,再通过文本数据服从高斯分布的特性挖掘候选短语;然后基于短语袋假设进行主题建模,利用短语中词汇在同一主题下的“主题‑词语”概率分布的Sa函数,修正“主题‑短语”的概率分布;最后用生成的主题短语表述话题;具体包括如下步骤:步骤1,将数据集输入预处理模块,利用正则过滤微博数据集中的html标签等噪声符号,并进行繁简体转化,然后使用分词工具对数据集进行分词和词性标注,去除少于4个有效词的微博文本;步骤2,短语挖掘,首先采用两条规则提取频繁短语,同时统计其出现的次数,这两条规则为(1)向下关闭原理:如果短语P不是频繁项,那么任意包含P的短语,可以被认为也不是频繁项;(2)数据的反单调性:如果一个文档不包含长度为n的频繁短语,那么该文档也不会包含长度大于n的频繁短语;然后利用文本服从高斯分布的特性,将频繁项和其左右词汇合并,组成新的短语;步骤3,进行主题建模,利用短语中词汇在同一主题下的“主题‑词语”概率分布的Sa函数来修正“主题‑短语”的概率分布,最后用生成的主题短语表述话题。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京理工大学,未经北京理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201810233489.5/,转载请声明来源钻瓜专利网。