[发明专利]主题的探测方法、装置、电子设备及存储介质有效
申请号: | 202110049136.1 | 申请日: | 2021-01-14 |
公开(公告)号: | CN112733542B | 公开(公告)日: | 2022-02-08 |
发明(设计)人: | 徐硕;李玲;翟东升 | 申请(专利权)人: | 北京工业大学 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F40/44;G06F40/30;G06K9/62 |
代理公司: | 北京市立方律师事务所 11330 | 代理人: | 张筱宁 |
地址: | 100124 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 主题 探测 方法 装置 电子设备 存储 介质 | ||
本申请实施例提供了一种主题的探测方法、装置、电子设备及存储介质,涉及信息处理技术领域。该方法包括:获取目标领域中至少两个文本集,并设置预设数量的主题以及主题类别;根据上一次文本集中主题以及主题类别的分配情况,确定本次分配中单词被分配至任意一个主题的第一概率以及被分配至任意一个主题类别的第二概率;根据本次分配中第一概率以及第二概率,对文本集中所有单词分配主题以及主题类别;根据最后一次分配中文本集中每个单词的主题以及主题类别,确定文本集中的主题的分布情况以及主题类别的分布情况。本申请实施例得到了对多源异构文本资源间的科技关联分析更深层次、更可靠的结果。
技术领域
本申请涉及信息处理技术领域,具体而言,本申请涉及一种主题的探测方法、装置、电子设备及存储介质。
背景技术
现今大数据时代信息资源爆炸增长,信息资源类型不断丰富,其中,文本信息作为信息资源中很重要的一部分,如何对其进行分析是一个新的挑战。
目前管道式(pipeline)分析技术是对多种类型的文本信息资源单独进行主题分析,通过后处理的方式将相应主题关联起来,然后针对任意两种资源的主题逐对计算相似度,将相似度高于某个阈值的主题关联起来。
这种分析主题的效率太慢,并且不能准确得出文本信息资源的主题,还由于多源异构文本信息之间的一些特征无法关联起来,使得不同资源间的主题关联不准确,得不到不同资源之间的联系。
发明内容
本发明实施例提供一种克服上述问题或者至少部分地解决上述问题的主题的探测方法、装置、电子设备及存储介质。
第一方面,提供了一种主题的探测方法,该方法包括:
获取目标领域中至少两个文本集,并设置预设数量的主题以及主题类别;
对于文本集中的每个单词,根据上一次文本集中主题以及主题类别的分配情况,确定本次分配中单词被分配至任意一个主题的第一概率以及被分配至任意一个主题类别的第二概率;
根据本次分配中第一概率以及第二概率,对文本集中所有单词分配主题以及主题类别;
当分配次数达到预设阈值后,根据最后一次分配中文本集中每个单词的主题以及主题类别,确定文本集中的主题的分布情况以及主题类别的分布情况;
其中,至少两个文本集是不同的来源且不同的文本结构的;主题类别包括共同主题以及个性化主题;共同主题是所有文本集共有的主题;个性化主题是每个文本集独有的主题。
在一个可能的实现方式中,确定本次分配中单词被分配至任意一个主题的第一概率,包括:
对于任意一个主题,根据上一次文本集中所有主题的分配情况,确定主题在文本集中任意一个文档中任意一个单词的第一占比,以及确定主题在任意一个单词出现的个数中的第二占比;
根据第一占比以及第二占比,确定任意一个单词被分配至任意一个主题的第一概率;
其中,第一占比是根据文档中所有单词的个数以及任意一个主题所占的单词的个数确定的;第二占比是根据文本集中主题分配的所有单词个数以及任意一个单词出现的个数中被分配给主题的个数确定的。
在又一个可能的实现方式中,确定单词被分配至任意一个主题类别的第二概率,包括:
对于任意一个主题类别,根据上一次文本集中主题类别的分配情况,确定主题类别在文本集中任意一个文档中任意一个单词的第三占比;
将第三占比作为任意一个单词被分配至任意一个主题类别的第二概率;
其中,第三占比是根据文档中被分配共同主题的单词个数、被分配个性化主题的个数以及所有单词的个数确定的。
在又一个可能的实现方式中,确定主题在文本集中任意一个文档中单词的第一占比,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工业大学,未经北京工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110049136.1/2.html,转载请声明来源钻瓜专利网。