[发明专利]基于大数据平台的文本处理及检索系统在审
申请号: | 201610976155.8 | 申请日: | 2016-11-07 |
公开(公告)号: | CN106599041A | 公开(公告)日: | 2017-04-26 |
发明(设计)人: | 姜鑫;王金华 | 申请(专利权)人: | 中国电子科技集团公司第三十二研究所 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 上海汉声知识产权代理有限公司31236 | 代理人: | 郭国中 |
地址: | 200233 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于大数据平台的文本处理及检索系统,其包括基于Hadoop的文本处理部分和基于Hadoop分布式检索功能部分;基于Hadoop的文本处理部分包括文本抽取模块等;基于Hadoop分布式检索功能部分包括语义标注模块、基于分布式内存共享检索模块。本发明能够对不同格式、不同编码的文本数据进行文本处理;对文本进行内容抽取、文本分词、索引建立、实体识别、关键词提取、自动摘要、文本聚类、自动分类的更全面的文本处理操作,充分挖掘文本数据所包含的信息和价值;文本处理结果可以通过服务接口的形式发布出去,提高了系统的交互性和扩展性;采用基于分布式内存共享的全文检索技术,提高文本处理后全文检索的效率。 | ||
搜索关键词: | 基于 数据 平台 文本 处理 检索系统 | ||
【主权项】:
一种基于大数据平台的文本处理及检索系统,其特征在于,所述基于大数据平台的文本处理及检索系统包括基于Hadoop的文本处理部分和基于Hadoop分布式检索功能部分;所述基于Hadoop的文本处理部分包括:文本抽取模块,接收外部文本文件;文本分词模块,接收来自文本抽取模块的文本内容;索引建立模块,根据文本分词模块所提供的分词结果建立文本内容的索引文件,为服务接口模块提供索引文件;实体识别模块,针对来自文本分词模块的分词结果,识别出文本内容中的实体词,并输出给服务接口模块;关键词提取模块,接收文本分词模块的分词结构,提取文本内容中的关键词,并输出给服务接口模块;自动摘要模块,根据文本分词模块所得到的分词结果以及上下文结构,进行自动的摘要生成,并将生成的文本内容摘要输出给服务接口模块;文本聚类模块,根据自动聚类功能是通过在文档的处理过程中,自动生成文档的特征向量,根据特征向量,将相似的文档聚合归类;自动分类模块,根据文本分词模块所输出的分词结构,按照预先定义的主体类别给文本内容确定一个类别,并将该分类结构输出给服务接口模块;服务接口模块,分别接受来自索引建立模块、实体识别模块、关键词提取模块、自动摘要模块、自动分类模块的输出结果,并将这些结构分别以服务的形式发布出去,来提供其他系统调用相应的文本处理结果;所述基于Hadoop分布式检索功能部分包括:语义标注模块,对文本添加语义标注,利用标注信息和文本之间的关系,进行辅助检索;基于分布式内存共享检索模块,将文本处理的结果存储到大数据平台中,并加载到内容中。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国电子科技集团公司第三十二研究所,未经中国电子科技集团公司第三十二研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201610976155.8/,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置