[发明专利]一种基于领域特征的文本数据扩增方法在审
申请号: | 202111371729.6 | 申请日: | 2021-11-18 |
公开(公告)号: | CN114036907A | 公开(公告)日: | 2022-02-11 |
发明(设计)人: | 祝和明;王德胜;邓涛;李岩松;孙涛;王存超;梅文哲;赵新冬;郭韬;何泽家;唐锦;崔林;张力;戴威;罗珊珊;刘媛;卢茜;于聪聪 | 申请(专利权)人: | 国网江苏省电力有限公司电力科学研究院;国网江苏省电力有限公司 |
主分类号: | G06F40/166 | 分类号: | G06F40/166;G06F40/247;G06F40/284 |
代理公司: | 苏州市中南伟业知识产权代理事务所(普通合伙) 32257 | 代理人: | 刘卉 |
地址: | 211103 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 领域 特征 文本 数据 扩增 方法 | ||
1.一种基于领域特征的文本数据扩增方法,其特征在于,包括:
获取专业领域数据集,所述专业领域数据集包括多个文本;
针对每一个文本,进行预处理,获取待扩增文本;所述预处理包括文本格式统一、文本分词、去停用词和文本词频统计;
针对待扩增文本,获取扩增后的文本;
获取扩增后的专业领域数据集,所述扩增后的专业领域数据集包括多个扩增后的文本。
2.根据权利要求1所述的一种基于领域特征的文本数据扩增方法,其特征在于,所述针对待扩增文本,获取扩增后的文本,包括:
获取所述待扩增文本的词集;所述词集包括多个词语;
获取所述待扩增文本的依存句法树;所述依存句法树包括父结点和子结点,所述父结点包括子结点;每个父结点与其所包含的所有子结点构成一个树枝,每个父结点和每个子结点分别表示一个词语,父结点和子结点之间的关系表示词语之间的依存关系;
根据所述专业领域数据集,构建词频和逆向文件频率模型;
根据所述词频和逆向文件频率模型,获取所述词集中每个词语的词频和逆向文件频率;
获取所述依存句法树中每个树枝的词频和逆向文件频率总和;
随机删除所述依存句法树中词频和逆向文件频率总和低于预设值的树枝;
获取扩增后的文本,所述扩增后的文本包括依存句法树中所有父结点和子结点所对应的词语。
3.根据权利要求2所述的一种基于领域特征的文本数据扩增方法,其特征在于,获取所述依存句法树中每个树枝的词频和逆向文件频率总和之后,所述方法还包括:
将每个树枝的词频和逆向文件频率总和降序排列。
4.根据权利要求2所述的一种基于领域特征的文本数据扩增方法,其特征在于,所述词集中包括停用词、数字和特殊符号,所述停用词、数字和特殊符号的词频和逆向文件频率为0。
5.根据权利要求1所述的一种基于领域特征的文本数据扩增方法,其特征在于,所述针对待扩增文本,获取扩增后的文本,还包括:
构建所述专业领域数据集的LDA模型;
根据所述LDA模型,获取所述专业领域数据集的主题文档表,所述主题文档表包括不同主题;
获取所述待扩增文本所属可能性最大的多个主题;
分别获取所述待扩增文本与所述待扩增文本所属可能性最大的多个主题的余弦相似度;
根据余弦相似度最高的主题,获取目标文本;
构建所述目标文本和所述待扩增文本的依存句法树;所述依存句法树包括父结点和子结点,所述父结点包括子结点;每个父结点与其所包含的所有子结点构成一个树枝,每个父结点和每个子结点分别表示一个词语,父结点和子结点之间的关系表示词语之间的依存关系;
将所述目标文本和所述待扩增文本的依存句法树中存在相同依存关系的树枝进行替换;
获取扩增后的文本,所述扩增后的文本包括所述待扩增文本的依存句法树中所有父结点和子结点所对应的词语。
6.根据权利要求5所述的一种基于领域特征的文本数据扩增方法,其特征在于,所述构建所述专业领域数据集的LDA模型之前,所述方法还包括:
获取所述专业领域数据集的困惑度;
获取所述专业领域数据集的最优主题数。
7.根据权利要求1所述的一种基于领域特征的文本数据扩增方法,其特征在于,所述针对待扩增文本,获取扩增后的文本,还包括:
获取所述待扩增文本的依存句法树;所述依存句法树包括父结点和子结点,所述父结点包括子结点;每个父结点与其所包含的所有子结点构成一个树枝,每个父结点和每个子结点分别表示一个词语,父结点和子结点之间的关系表示词语之间的依存关系;
将所述依存句法树中树枝长度大于预设长度的树枝根据包含关系进行合并;
将所述依存句法树中树枝长度大于预设长度的树枝根据依存关系进行匹配,获取待选树枝对集;
随机交换所述待选树枝对集中的树枝;
获取扩增后的文本,所述扩增后的文本包括所述待扩增文本的依存句法树中所有父结点和子结点所对应的词语。
8.根据权利要求1所述的一种基于领域特征的文本数据扩增方法,其特征在于,所述针对待扩增文本,获取扩增后的文本,还包括:
获取所述专业领域数据集的词频记录;
获取所述专业领域数据集的训练词向量模型;
对所述待扩增文本进行分词以及词性标注,所述词性标注包括专有名词的标注;
获取待替换词语集,所述待替换词语集中包括多个词语,所述多个词语在所述词频记录中属于高频词语,且词性为专有名词;
获取所述待替换词语集在所述训练词向量模型中的近似词语;
随机选取所述待替换词语集中的词语,根据所述近似词语进行替换;
获取扩增后的文本,所述扩增后的文本包括所述待扩增文本替换后的所有词语。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国网江苏省电力有限公司电力科学研究院;国网江苏省电力有限公司,未经国网江苏省电力有限公司电力科学研究院;国网江苏省电力有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111371729.6/1.html,转载请声明来源钻瓜专利网。