[发明专利]基于词向量的警情文本关键词提取方法、系统、介质及设备在审
申请号: | 202210492756.7 | 申请日: | 2022-05-07 |
公开(公告)号: | CN114943224A | 公开(公告)日: | 2022-08-26 |
发明(设计)人: | 王明光;邱世界;蒋维;钟浩;徐佳申;吴正茂;高友光;刘红志;陈磊 | 申请(专利权)人: | 新智道枢(上海)科技有限公司 |
主分类号: | G06F40/284 | 分类号: | G06F40/284;G06F40/30;G06F40/166;G06N3/04;G06N3/08 |
代理公司: | 上海锻创知识产权代理有限公司 31448 | 代理人: | 陈少凌 |
地址: | 201702 上海市青浦区*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 向量 文本 关键词 提取 方法 系统 介质 设备 | ||
本发明提供了一种基于词向量的警情文本关键词提取方法、系统、介质及设备,包括:步骤S1:将文档拆分成句子得到文档集合D=[S1,S2,....Sn];其中,S1,S2,...Sn表示文档中的每个句子;步骤S2:对每个句子S=[W1,W2,...,Wm]进行分词,并进行预处理;设定窗口大小为k,构造[W1,W2,...,Wk],[W2,W3,...,Wk+1],[W3,W4...,Wk+2]...;步骤S3:基于文档集合D=[S1,S2,....Sn]分别进行分词后构造的窗口集合依次进行Ernie处理和TF‑IDF处理,得到融合语义特征和词频特征的窗口向量集合V=[V1,V2,....Vn];步骤S4:计算词频特征的窗口向量集合V中两两词频特征的窗口向量的相似度,组合成以V为顶点,以相似度值为边的有向图G;步骤S5:基于有向图G使用TextRank对文档中的关键字进行评分,从而提取关键字。
技术领域
本发明涉及人工智能技术领域,具体地,涉及基于词向量的警情文本关键词提取方法及系统。
背景技术
关键词提取是使用一个词或多个词来作为一篇文档内容的高度总结,提取出来的关键词可以用做信息检索也可以应用于自动摘要、文本分类、文本聚类、主题获取等众多自然语言处理任务中去。此外,随着社交网络的飞速发展,用户数量的激增,每天产生以亿为单位计的文本信息,其中有很多数据信息需要分析和探索,而分析这些数据的方法之一便是关键字提取。如果能正确提取文本的关键词,就能对文本的主题进行全面的研究和分析,从而对文本作出正确的评估,但是依靠人力去进行关键词的提取以及评估将是一件十分耗时和繁重的任务,因此提出一种高效的关键词提取方法显得十分有必要。
对于常用的公安系统,为了提高接警效率,构建警情专有词汇数据,以及打造更加强大的NER系统,都需要针对警情文本进行关键字提取。近年来,有学者提出基于共现矩阵的方式进行关键字提取,有基于LDA主题模型的的方式,有基于深度学习有监督的方式,也有基于图排序TextRank的方式,进行关键字提取。
专利文献CN103744835B(申请号:201410000751.3)公开了一种基于主题模型的文本关键词提取方法,该方法首先利用主题模型的方法从大量文本训练集中由主题模型训练得到的词项与主题之间的训练文本集的词项与主题的概率矩阵WT,进而得到候选关键词集合A中词项与主题的概率向量的集合所组成的候选的关键词的词项与主题的概率矩阵B、候选关键词集合对应的候选关键词词频权重向量D,通过候选关键词词项的权重向量和文本的主题向量,利用候选关键词语主题的概率矩阵B进行循环计算操作,得到最终修正后的文本主题向量和词项权重比例向量,进而提取出文本的关键词。该专利使用主题模型仅考虑词频信息,缺少了对于文本词本身的语义捕获能力。
杨朝举,葛唯益,王羽,徐建.KEK:基于k-truss的短文本关键词提取方法[J].计算机应用研究,图分解技术复杂过高,且模型效果不好。
刘德荣.基于语义聚类和加权TextRank的新闻关键词提取方法的研究与实现[D].北京邮电大学,2021.虽然既考虑语义信息和词频信息,但对于语义的捕获能力不够,且对虽有词一视同仁,不加区别,对于向警情文本数据名词和动词的权重更大,模型精确度不够。
专利文献CN108133045B(申请号:201810033585.5)公开了一种关键词提取方法,包括:对待提取文本进行分词预处理,将若干分词结果中的词语转化为词向量;根据聚类算法将所有词向量划分为预设数量的类簇;将类簇包含的所有词向量进行相加,以得到类簇的类簇向量,并输入预设的关键词提取模型,以得到类簇的标准关键词的词向量;将与类簇的标准关键词的词向量相似度最高的词向量所对应的词语,确定为类簇的关键词,以提取待提取文本的关键词;关键词提取模型为通过第一文本语料库中的每一类簇的类簇向量作为输入,以及标准关键词的词向量作为输出训练深度神经网络模型所生成。
发明内容
针对现有技术中的缺陷,本发明的目的是提供一种基于词向量的警情文本关键词提取方法、系统、介质及设备。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于新智道枢(上海)科技有限公司,未经新智道枢(上海)科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210492756.7/2.html,转载请声明来源钻瓜专利网。