[发明专利]基于LDA主题模型的文本分类系统、方法和警情分类系统和方法在审
| 申请号: | 202111312861.X | 申请日: | 2021-11-08 |
| 公开(公告)号: | CN114036941A | 公开(公告)日: | 2022-02-11 |
| 发明(设计)人: | 王明光;谭敦茂;钟浩 | 申请(专利权)人: | 新智道枢(上海)科技有限公司 |
| 主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F40/216;G06K9/62 |
| 代理公司: | 上海领洋专利代理事务所(普通合伙) 31292 | 代理人: | 罗晓鹏 |
| 地址: | 200013 上海市青浦区*** | 国省代码: | 上海;31 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 lda 主题 模型 文本 分类 系统 方法 情分 | ||
1.文本分类方法,其特征在于,所述文本分类方法包括:
采集待分类文本;
对所述待分类文本分词,基于词袋模型,构件所述待分类文本的文本和文本中词的tf-idf向量集;
通过LSA算法,基于所述待分类文本的文本和文本中词的tf-idf向量集,拟合LDA主题模型中文本、文本主题以及文本中词的两两相关的分布。
2.根据权利要求1所述文本分类方法,其特征在于,采集的所述待分类文本为通过ASR技术转化语音后的文本。
3.根据权利要求1或2所述文本分类方法,其特征在于,所述文本分类方法包括:
对分词后的结果进行停用词过滤和文本主题关联词性表进行过滤。
4.基于LDA主题模型的警情分类方法,其特征在于,所述警情分类方法包括:
通过权利要求1-4中任一所述方法处理历史警情对应的文本和实时采集的实时警情文本;
通过LSA算法,基于实时警情文本、文本主题以及文本中词的两两相关的分布,确定所述实时警情文本、文本主题以及文本中词的概率分布;
基于实时警情文本、文本主题以及文本中词的概率分布,判断所述历史警情对应的文本中与所述实时警情文本最相关的主题,并以推断出所述历史警情对应的文本中与所述实时警情文本最相关的主题,作为所述实时警情文本的主题。
5.基于LDA主题模型的文本分类系统,其特征在于,所述基于LDA主题模型的文本分类系统包括:
采集模块,所述采集模块被用以采集所述待处理文本;
向量集构件模块,其中所述向量集构件模块被设置能够基于所述采集模块采集的所述待处理文本,对所述待分类文本分词,基于词袋模型,构件所述待分类文本的文本和文本中词的tf-idf向量集;
拟合模块,其中所述拟合模块被设置通过LSA算法,并基于所述待分类文本的文本和文本中词的tf-idf向量集,拟合LDA主题模型中文本、文本主题以及文本中词的两两相关的分布。
6.根据权利要求5所述基于LDA主题模型的文本分类系统,其特征在于,所述基于LDA主题模型的文本分类系统还包括一过滤模块,其中所述过滤模块被设置对分词后的结果进行停用词过滤和文本主题关联词性表进行过滤。
7.根据权利要求5或6所述基于LDA主题模型的文本分类系统,其特征在于,所述基于LDA主题模型的文本分类系统包括文本转换模块,其中所述文本转换模块被设置能够通过ASR技术解析语音,以生成所述待处理文本。
8.基于LDA主题模型的警情分类系统,其特征在于,所述警情分类系统包括:
如权利要求5-7中任一所述基于LDA主题模型的文本分类系统,其中所述拟合出LDA主题模型中所述实时警情文本、文本主题以及文本中词的两两相关的分布;
判断模块,被设置能够基于实时警情文本、文本主题以及文本中词的ti-idf向量集,判断所述历史警情对应的文本中与所述实时警情文本最相关的主题;
输出模块,被设置能够以推断出所述历史警情对应的文本中与所述实时警情文本最相关的主题,作为所述实时警情文本的主题。
9.计算机可读存储介质,存储于计算机,其特征在于,所述存储介质中存储有计算机可执行程序,当所述程序被运行时,所述计算机执行如权利要求1-4所述方法。
10.计算机装置,其包括:一个或多个处理器;存储器;以及一个或多个计算机程序,上述一个或多个计算机程序被存储在上述存储器中,上述一个或多个计算机程序包括指令,当上述指令被上述设备执行时,使得上述设备执行如权利要求1-4所述方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于新智道枢(上海)科技有限公司,未经新智道枢(上海)科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111312861.X/1.html,转载请声明来源钻瓜专利网。





