[发明专利]数据处理方法及装置在审
申请号: | 201610247554.0 | 申请日: | 2016-04-20 |
公开(公告)号: | CN107305555A | 公开(公告)日: | 2017-10-31 |
发明(设计)人: | 刘毅;董云龙;李湛;田江涛 | 申请(专利权)人: | 中国移动通信集团河北有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京派特恩知识产权代理有限公司11270 | 代理人: | 张颖玲,蒋雅洁 |
地址: | 050021 *** | 国省代码: | 河北;13 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据处理 方法 装置 | ||
1.一种数据处理方法,其特征在于,所述方法包括:
对待处理的源数据按照数据格式进行分类;
将所述分类后的各类数据分别进行预处理转换为文本信息;
对所述文本信息进行处理,并加入预设的业务规则进行判断,筛选出符合业务应用的数据。
2.根据权利要求1所述的方法,其特征在于,所述对所述文本信息进行处理,并加入预设的业务规则进行判断,筛选出符合业务应用的数据,包括:
对所述文本信息进行分词,得到词汇集合;
对所述词汇集合按照所述预设的业务规则进行判断,筛选出符合所述业务规则的词汇;
将所述词汇与预设的知识库进行匹配,得到符合业务应用的数据。
3.根据权利要求2所述的方法,其特征在于,所述将所述词汇与预设的知识库进行匹配,得到符合业务应用的数据之后,所述方法还包括:
根据所述匹配结果修正所述知识库。
4.根据权利要求2所述的方法,其特征在于,所述方法还包括:
将所述词汇加入数据库,所述数据库包括按照所述业务规则进行分类后的词汇及所述词汇与源数据间的映射关系。
5.根据权利要求1至4任一项所述的方法,其特征在于,所述将所述分类后的各类数据分别进行预处理转换为文本信息包括:
对分类后的视频进行预处理,将所述视频分离成音频和图片,并将分离后的音频和图片转化为文本,建立所述视频和所述文本的转换映射关系;和/或,
对分类后的音频进行预处理,将所述音频转化为文本,建立所述音频和所述文本的转换映射关系;和/或,
对分类后的图片进行预处理,将所述图片转化为文本,建立所述图片和所述文本的转换映射关系。
6.一种数据处理装置,其特征在于,所述装置包括:
分类模块,用于对待处理的源数据按照数据格式进行分类;
转换模块,用于将所述分类后的各类数据分别进行预处理转换为文本信息;
处理模块,用于对所述文本信息进行处理,并加入预设的业务规则进行判断,筛选出符合业务应用的数据。
7.根据权利要求6所述的装置,其特征在于,所述处理模块具体用于:
对所述文本信息进行分词,得到词汇集合;
对所述词汇集合按照所述预设的业务规则进行判断,筛选出符合所述业务规则的词汇;
将所述词汇与预设的知识库进行匹配,得到符合业务应用的数据。
8.根据权利要求7所述的装置,其特征在于,所述装置还包括:
修正模块,用于根据所述匹配结果修正所述知识库。
9.根据权利要求7所述的装置,其特征在于,所述装置还包括:
加载模块,用于将所述词汇加入数据库,所述数据库包括按照所述业务规则进行分类后的词汇及所述词汇与源数据间的映射关系。
10.根据权利要求6至9任一项所述的装置,其特征在于,所述转换模块具体用于:
对分类后的视频进行预处理,将所述视频分离成音频和图片,并将分离后的音频和图片转化为文本,建立所述视频和所述文本的转换映射关系;和/或,
对分类后的音频进行预处理,将所述音频转化为文本,建立所述音频和所述文本的转换映射关系;和/或,
对分类后的图片进行预处理,将所述图片转化为文本,建立所述图片和所述文本的转换映射关系。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国移动通信集团河北有限公司,未经中国移动通信集团河北有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610247554.0/1.html,转载请声明来源钻瓜专利网。
- 上一篇:数据查询处理方法及装置
- 下一篇:用于3D打印的装置及方法