[发明专利]样本处理的方法、设备以及计算机可读存储介质在审
申请号: | 202111122099.9 | 申请日: | 2021-09-24 |
公开(公告)号: | CN115858795A | 公开(公告)日: | 2023-03-28 |
发明(设计)人: | 李伟;杨清广;陈纯香;谢一铭 | 申请(专利权)人: | 广东优特云科技有限公司 |
主分类号: | G06F16/36 | 分类号: | G06F16/36;G06F16/335;G06F40/237 |
代理公司: | 深圳中一联合知识产权代理有限公司 44414 | 代理人: | 赵倩 |
地址: | 518000 广东省深圳市南山区桃源*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 样本 处理 方法 设备 以及 计算机 可读 存储 介质 | ||
1.一种样本处理的方法,其特征在于,所述方法包括:
获取第一样本集合,所述第一样本集合包括的样本是基于自然语言编写的语句;
基于自然语言处理NLP对所述第一样本集合中的各个样本进行词性标注,词性标注后所述第一样本集合中的各个样本总共对应Q个词语;
对M个词语进行NLP词向量转换,得到与所述M个词语一一对应的M个词向量,所述Q个词语包括所述M个词语,所述M个词语中部分词语的词性为动词,剩余部分词语的词性为非动词,Q大于或等于M;
对所述M个词向量进行筛选,得到N个词向量,N小于或等于M;
根据所述N个词向量确定与所述N个词向量一一对应的N个词语,所述N个词语中部分词语的词性为动词,剩余部分词语的词性为非动词;
根据所述N个词语中词性为动词的第一词语以及第一知识子图谱确定与所述第一词语对应的至少一个函数,所述第一知识子图谱由至少一个动词的节点以及与所述至少一个动词的节点连接的函数的节点组成,所述至少一个动词的节点对应的动词包括所述第一词语;
根据所述N个词语中词性为非动词的第二词语以及第二知识子图谱确定与所述第二词语对应的至少一个数据,所述第二知识子图谱由至少一个非动词的节点以及与所述至少一个非动词的节点连接的数据的节点组成,所述至少一个非动词的节点对应的非动词包括所述第二词语;
其中,知识图谱包括多个知识子图谱,所述多个知识子图谱包括所述第一知识子图谱和所述第二知识子图谱,Q、M、N为正整数。
2.根据权利要求1所述的方法,其特征在于,在所述对M个词语进行NLP词向量转换,得到M个词向量之前,所述方法包括:
过滤掉所述Q个词语中的无关的词语,得到所述M个词语。
3.根据权利要求1所述的方法,其特征在于,所述对所述M个词向量进行筛选,得到N个词向量,包括:
对所述M个词向量进行聚类,得到K组词向量,所述K组词向量与K个均值一一对应,K为小于M的正整数;
筛选掉所述K组词向量中各组词向量中离所述各组词向量的均值的距离大于预设值的词向量,得到所述N个词向量。
4.根据权利要求1所述的方法,其特征在于,所述方法还包括:
根据NLP确定所述第一样本集合中的各个样本句式结构;
按照所述各个样本的句式结构划分各个样本,得到所述各个样本总共对应的P个词语;
对所述P个词语进行筛选,得到L个词语,L小于或等于P;
根据H个词语中第三词语以及第三知识子图谱确定与所述第三词语对应的至少一个函数,所述第三知识子图谱由第一词语集合包括的至少一个词语的节点以及与所述第一词语集合包括的至少一个词语的节点连接的函数的节点组成,所述第一词语集合包括的至少一个词语包括所述第三词语,所述L个词语包括所述H个词语;
根据L-H个词语中第四词语以及第四知识子图谱确定与所述第四词语对应的至少一个数据,所述第四知识子图谱由第二词语集合包括的至少一个词语的节点以及与所述第二词语集合包括的至少一个词语的节点连接的数据的节点组成,所述第二词语集合包括的至少一个词语包括所述第四词语;
其中,所述多个知识子图谱还包括所述第三知识子图谱和所述第四知识子图谱,P、L、H为正整数。
5.根据权利要求4所述的方法,其特征在于,所述根据NLP确定所述第一样本集合中的各个样本句式结构,包括:
根据NLP对所述第一样本集合中的各个样本进行句法分析,得到所述各个样本的词语依存关系;
根据句式规则对所述各个样本的词语依存关系进行解析得到所述各个样本的句式结构。
6.根据权利要求4所述的方法,其特征在于,所述方法还包括:
根据所述L个词语中至少部分词语确定与所述L个词语相关的至少一个步骤,所述至少一个步骤用于系统开发。
7.根据权利要求4至6中任一项所述的方法,其特征在于,所述第三词语对应的至少一个函数和所述第四词语对应的至少一个数据用于系统开发。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广东优特云科技有限公司,未经广东优特云科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111122099.9/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种印制电路板及其制备方法
- 下一篇:一种半导体器件及其制备方法