[发明专利]主题的探测方法、装置、电子设备及存储介质有效

申请号：	202110049136.1	申请日：	2021-01-14
公开（公告）号：	CN112733542B	公开（公告）日：	2022-02-08
发明（设计）人：	徐硕;李玲;翟东升	申请（专利权）人：	北京工业大学
主分类号：	G06F40/295	分类号：	G06F40/295;G06F40/44;G06F40/30;G06K9/62
代理公司：	北京市立方律师事务所 11330	代理人：	张筱宁
地址：	100124 ***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	主题探测方法装置电子设备存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本申请实施例提供了一种主题的探测方法、装置、电子设备及存储介质，涉及信息处理技术领域。该方法包括：获取目标领域中至少两个文本集，并设置预设数量的主题以及主题类别；根据上一次文本集中主题以及主题类别的分配情况，确定本次分配中单词被分配至任意一个主题的第一概率以及被分配至任意一个主题类别的第二概率；根据本次分配中第一概率以及第二概率，对文本集中所有单词分配主题以及主题类别；根据最后一次分配中文本集中每个单词的主题以及主题类别，确定文本集中的主题的分布情况以及主题类别的分布情况。本申请实施例得到了对多源异构文本资源间的科技关联分析更深层次、更可靠的结果。

技术领域

本申请涉及信息处理技术领域，具体而言，本申请涉及一种主题的探测方法、装置、电子设备及存储介质。

背景技术

现今大数据时代信息资源爆炸增长，信息资源类型不断丰富，其中，文本信息作为信息资源中很重要的一部分，如何对其进行分析是一个新的挑战。

目前管道式(pipeline)分析技术是对多种类型的文本信息资源单独进行主题分析，通过后处理的方式将相应主题关联起来，然后针对任意两种资源的主题逐对计算相似度，将相似度高于某个阈值的主题关联起来。

这种分析主题的效率太慢，并且不能准确得出文本信息资源的主题，还由于多源异构文本信息之间的一些特征无法关联起来，使得不同资源间的主题关联不准确，得不到不同资源之间的联系。

发明内容

本发明实施例提供一种克服上述问题或者至少部分地解决上述问题的主题的探测方法、装置、电子设备及存储介质。

第一方面，提供了一种主题的探测方法，该方法包括：

获取目标领域中至少两个文本集，并设置预设数量的主题以及主题类别；

对于文本集中的每个单词，根据上一次文本集中主题以及主题类别的分配情况，确定本次分配中单词被分配至任意一个主题的第一概率以及被分配至任意一个主题类别的第二概率；

根据本次分配中第一概率以及第二概率，对文本集中所有单词分配主题以及主题类别；