[发明专利]文本数据处理方法及装置、存储介质和电子设备在审
申请号: | 202110573844.5 | 申请日: | 2021-05-25 |
公开(公告)号: | CN113360642A | 公开(公告)日: | 2021-09-07 |
发明(设计)人: | 谢韬;沈冀;高倩;邵长东 | 申请(专利权)人: | 科沃斯商用机器人有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/295;G06F40/211;G06N5/02 |
代理公司: | 北京太合九思知识产权代理有限公司 11610 | 代理人: | 刘戈;柴艳波 |
地址: | 215104 江苏省苏州市苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 数据处理 方法 装置 存储 介质 电子设备 | ||
1.一种文本数据处理方法,其特征在于,包括:
对待处理文本进行知识生成,得到第一候选知识集合;
对所述待处理文本进行知识抽取,得到第二候选知识集合;
对所述第一候选知识集合和所述第二候选知识集合进行知识筛选,得到抽取知识集合。
2.根据权利要求1所述的文本数据处理方法,其特征在于,所述对所述第一候选知识集合和所述第二候选知识集合进行知识筛选,得到抽取知识集合,包括:
基于分类模型,对所述第一候选知识集合和所述第二候选知识集合进行分类,得到第三候选知识集合;
根据所述第三候选知识集合确定所述抽取知识集合。
3.根据权利要求2所述的文本数据处理方法,其特征在于,所述根据所述第三候选知识集合确定所述抽取知识集合,包括:
接收人工对所述第三候选知识集合进行人工筛选得到的第四候选知识集合;
将所述第四候选知识集合作为所述抽取知识集合。
4.根据权利要求3所述的文本数据处理方法,其特征在于,在所述对所述第一候选知识集合和所述第二候选知识集合进行知识筛选,得到抽取知识集合之后,还包括:
基于所述待处理文本、所述第三候选知识集合和所述第四候选知识集合更新所述分类模型。
5.根据权利要求1至4任一项所述的文本数据处理方法,其特征在于,所述对待处理文本进行知识生成,得到第一候选知识集合,包括:
基于知识生成模型,对所述待处理文本进行知识生成,得到所述第一候选知识集合。
6.根据权利要求5所述的文本数据处理方法,其特征在于,所述基于知识生成模型,对所述待处理文本进行知识生成,得到所述第一候选知识集合,包括:
抽取所述待处理文本对应的实体候选集,所述实体候选集包括M个实体;
基于所述M个实体构造所述M个实体各自对应的疑问句文本;
基于所述待处理文本和所述M个实体各自对应的疑问句文本构造所述M个实体各自对应的文本对;
基于所述M个实体各自对应的文本对和所述知识生成模型,得到所述第一候选知识集合,其中,所述知识生成模型用于基于所述文本对生成所述文本对对应的知识集合。
7.根据权利要求5所述的文本数据处理方法,其特征在于,在对所述第一候选知识集合和所述第二候选知识集合进行知识筛选,得到抽取知识集合之后,还包括:
基于所述待处理文本和所述抽取知识集合更新所述知识生成模型。
8.根据权利要求1至4任一项所述的文本数据处理方法,其特征在于,所述对所述待处理文本进行知识抽取,得到第二候选知识集合,包括:
基于句法模板,对所述待处理文本进行知识抽取,得到所述第二候选知识集合。
9.根据权利要求8所述的文本数据处理方法,其特征在于,所述基于句法模板,对所述待处理文本进行知识抽取,得到所述第二候选知识集合,包括:
对所述待处理文本进行句法分析,得到所述待处理文本对应的句法分析数据;
基于所述句法模板和所述句法分析数据,对所述待处理文本进行所述知识抽取,得到所述第二候选知识集合。
10.根据权利要求8所述的文本数据处理方法,其特征在于,在所述对所述第一候选知识集合和所述第二候选知识集合进行知识筛选,得到抽取知识集合之后,还包括:
基于所述待处理文本和所述抽取知识集合更新所述句法模板。
11.根据权利要求1至4任一项所述的文本数据处理方法,其特征在于,在所述对待处理文本进行知识生成,得到第一候选知识集合之前,还包括:
对所述待处理文本进行预处理,其中,所述预处理包括指代消解处理和/或零指消解处理。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于科沃斯商用机器人有限公司,未经科沃斯商用机器人有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110573844.5/1.html,转载请声明来源钻瓜专利网。