[发明专利]一种主题分类方法、装置、电子设备及可读存储介质在审
申请号: | 201910507841.4 | 申请日: | 2019-06-12 |
公开(公告)号: | CN110399483A | 公开(公告)日: | 2019-11-01 |
发明(设计)人: | 赵忠信;史忠伟;张鹏;张阳 | 申请(专利权)人: | 五八有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F17/27 |
代理公司: | 北京弘权知识产权代理事务所(普通合伙) 11363 | 代理人: | 逯长明;许伟群 |
地址: | 300450 天津市滨海新区经济技术开*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种主题分类方法、装置、电子设备及可读存储介质,对于大规模流式的社交媒体数据,通过分词和词性标注,计算每个单词的权重,确定权重满足选择条件的单词为关键词,建立第一关键词列表。并与已知主题数据的第二关键词列表进行匹配,通过计算语义相似性,得到多个最大相似性值,并计算平均值,将平均值作为文本信息与主题数据的相似性得分,在相似性得分满足阈值条件时,将文本信息添加到主题中。本发明提供的方法,在进行主题检测时,充分考虑每个词的词性,以及词语、语句之间的相似性问题,实现新主题的发现和已知主题的自动归类,使得文本信息的主题分类更加准确。 | ||
搜索关键词: | 文本信息 主题分类 可读存储介质 电子设备 主题数据 权重 单词 语义相似性 最大相似性 词性标注 媒体数据 选择条件 主题检测 阈值条件 词性 分词 归类 流式 语句 匹配 词语 发现 | ||
【主权项】:
1.一种主题分类方法,其特征在于,包括以下步骤:对社交媒体短文本的文本信息进行分词;对分词后所得的单词进行词性标注处理;根据每个单词的词性,计算每个词性标注后的单词在所述文本信息中的权重;建立包括所有关键词的第一关键词列表,所述关键词是指权重满足选择条件的单词;计算所述第一关键词列表中的每个关键词与根据主题数据建立的第二关键词列表中的每个关键词的语义相似性,得到多个最大相似性值,所述主题数据是指预先存储的数据聚类,所述数据聚类中包括多个语义相似的关键词;计算所述文本信息与主题数据的相似性得分,所述相似性得分是指多个最大相似性值的平均值;在所述相似性得分满足阈值条件时,将所述文本信息归类到主题数据中。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于五八有限公司,未经五八有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201910507841.4/,转载请声明来源钻瓜专利网。