[发明专利]一种面向招标文本的信息抽取方法在审
申请号: | 201810513564.3 | 申请日: | 2018-05-25 |
公开(公告)号: | CN108874771A | 公开(公告)日: | 2018-11-23 |
发明(设计)人: | 刘漳辉;陈艺燕;陈星;郭晨皓 | 申请(专利权)人: | 福州大学 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 福州元创专利商标代理有限公司 35100 | 代理人: | 蔡学俊 |
地址: | 350108 福建省福*** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 抽取 信息抽取 招标文件 招标信息 招标 预处理 分词 自然语言处理 读取 抽取模块 词性处理 分词结果 技术实现 文本内容 预设信息 结构化 调用 标注 匹配 存储 规范化 | ||
本发明涉及一种面向招标文本的信息抽取方法,包括:对招标文件进行规范化处理;根据所需要抽取的信息,建立对应的关键词列表;逐句读取招标文件的文本内容,使用jieba分词逐句对招标文件的文本进行分词与标注词性处理;将分词结果进行存储,作为后续抽取操作的输入数据,完成预处理;通过调用预设信息抽取模块,根据目标招标信息,对预处理过的文本采用对应匹配抽取方式进行对应的招标信息抽取操作,获取抽取结果。本发明提出的一种面向招标文本的信息抽取方法,利用自然语言处理领域的技术实现对招标文本中特定信息进行抽取并将获得的信息以结构化的形式给予描述。通过对招标文本的信息抽取为招标信息的提取提供更有力的获取工具。
技术领域
本发明涉及一种面向招标文本的信息抽取方法。
背景技术
当今社会是信息社会,信息资源己成为当今社会中重要的战略资源之一。信息资源的利用和开发水平已成为推动经济、文化、科技和社会发展的重要动力。招标文件是招标人向潜在投标人发出并告知项目需求、招标投标活动规则和合同条件等信息的要约邀请文件,是项目招标投标活动的主要依据。然而招标信息是以自由文本的形式存在的,因此如何将所需要的招标信息转化为计算机可处理、可读、可理解的结构化形式便成为亟待解决的问题。
发明内容
本发明的目的在于提供一种面向招标文本的信息抽取方法,以克服现有技术中存在的缺陷。
为实现上述目的,本发明的技术方案是:一种面向招标文本的信息抽取方法,包括如下步骤:
步骤S1:对招标文件进行规范化处理;
步骤S2:根据所需要抽取的信息,建立对应的关键词列表;
步骤S3:逐句读取招标文件的文本内容,使用jieba分词逐句对招标文件的文本进行分词与标注词性处理;将分词结果进行存储,作为后续抽取操作的输入数据,完成预处理;
步骤S4:通过调用预设信息抽取模块,根据目标招标信息,对预处理过的文本采用对应匹配抽取方式进行对应的招标信息抽取操作,获取抽取结果。
在本发明一实施例中,在所述步骤S1中,还包括如下过程:
步骤S11:从本地的招标文件中读取文本;
步骤S12:查找文本中所有的回车符和空行,将文本所有的回车符使用句号代替,将文本中的空行删除;
步骤S13:将规范化处理后的文本进行存储。
在本发明一实施例中,在所述步骤S2中,所述关键词列表的格式如下:
Keyword_list=['招标内容','项目名称','项目编号','接受投标时间','采购人名称','投标截止及开标时间','投标地点及开标地点','联系电话采购中心地址','邮政编码','项目负责人','公告期限','联系电话','招标公告','项目联系人','项目联系电话','采购单位联系方式','采购单位','联系方式','代理机构联系方式','代理机构','代理机构联系人','代理机构联系地址','预算金额','招标文件售价','招标文件获取方式','投标截止时间','开标时间','开标地点','项目联系方式','资格要求','地点','最高投标限价'。
在本发明一实施例中,在所述步骤S3中,根据所述关键词列表建立词典,并将词典加入jieba分词,按照如下步骤对已经规范化的文本采用概率语言模型算法进行分词处理:
步骤S31:引入jieba分词包;
步骤S32:逐句读取规范化的招标文件;
步骤S33:采用Python的内置函数split()函数通过指定分隔符对字符串进行切片,且指定分配符采用句号,将文本切片成以句号为单位的文本;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于福州大学,未经福州大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810513564.3/2.html,转载请声明来源钻瓜专利网。