[发明专利]一种将文本解析成键值对的方法和装置有效
申请号: | 201210180496.6 | 申请日: | 2012-06-01 |
公开(公告)号: | CN103455471A | 公开(公告)日: | 2013-12-18 |
发明(设计)人: | 王尹 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
主分类号: | G06F17/22 | 分类号: | G06F17/22 |
代理公司: | 北京润泽恒知识产权代理有限公司 11319 | 代理人: | 苏培华 |
地址: | 英属开曼群岛大开*** | 国省代码: | 开曼群岛;KY |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文本 解析 键值 方法 装置 | ||
1.一种将文本解析成键值对的方法,其特征在于,包括:
预置文本格式的文本解析模板;所述文本解析模板用于描述待处理文本的格式和目标键值对的格式;
对所述文本格式的文本解析模板进行编译,得到计算机程序可识别的编译结果,所述编译结果包括:与待处理文本的格式相应的源变量和分隔符,以及与目标键值对的格式相应的目标变量;
依据所述源变量和分隔符在待处理文本中进行匹配,得到所述源变量的值;
保留与所述目标变量相同的源变量及相应的值,作为与所述待处理文本相应的键值对。
2.如权利要求1所述的方法,其特征在于,所述文本解析模板包括若干行文本;所述对所述文本格式的文本解析模板进行编译,得到计算机程序可识别的编译结果的步骤,包括:
读取所述文本解析模板的行文本的内容;
确定所述行文本的内容符合的既定语法结构;所述既定语法结构包括定义语法结构和保留语法结构;
从符合所述定义语法结构的所述行文本的内容中识别出与待处理文本的格式相应的源变量和分隔符;
从符合所述保留语法结构的所述行文本的内容中识别出与目标键值对的格式相应的目标变量。
3.如权利要求1所述的方法,其特征在于,所述依据所述源变量和分隔符在待处理文本中进行匹配,得到所述源变量的值的步骤,包括:
从待处理文本的第一个字符开始,按照所述源变量和分隔符的顺序在待处理文本中进行匹配,得到的匹配结果中,第一个字符到第一个分隔符之间的文本为第一个源变量的值,两个分隔符之间的文本为对应顺序的源变量的值。
4.如权利要求1或2或3所述的方法,其特征在于,所述编译结果的数据结构为类对象。
5.如权利要求1或2或3所述的方法,其特征在于,所述文本解析模板还用于描述解析的数据校验规则;所述编译结果还包括与所述数据校验规则相应的源变量及相应的校验函数;
所述方法还包括:
利用校验函数对所述源变量的值进行校验,若校验通过,则执行所述保留与所述目标变量相同的源变量及相应的值,作为与所述待处理文本相应的键值对的步骤,若校验不通过,则丢弃所述待处理文本。
6.如权利要求1或2或3所述的方法,其特征在于,所述文本解析模板还用于描述解析的二次数据处理需求;所述编译结果还包括与所述二次数据处理需求相应的二次数据处理源变量及相应的新变量和二次数据处理函数,所述二次数据处理函数用于将所述二次数据处理源变量中主键的值赋值给所述新变量;
所述方法还包括:
依据所述与所述二次数据处理需求相应的二次数据处理源变量及相应的新变量和二次数据处理函数,对所述源变量及相应的值进行二次数据处理,得到相应新变量及相应的值;
保留与所述目标变量相同的源变量和新变量及相应的值,作为与所述待处理文本相应的键值对。
7.如权利要求5所述的方法,其特征在于,所述文本解析模板包括若干行文本;所述对所述文本格式的文本解析模板进行编译,得到计算机程序可识别的编译结果的步骤,包括:
读取所述文本解析模板的行文本的内容;
确定所述行文本的内容符合的既定语法结构;所述既定语法结构包括定义语法结构、保留语法结构和校验语法结构;
从符合所述定义语法结构的所述行文本的内容中识别出与待处理文本的格式相应的源变量和分隔符;
从符合所述保留语法结构的所述行文本的内容中识别出与目标键值对的格式相应的目标变量;
从符合所述校验语法结构的所述行文本的内容中识别出与所述数据校验规则相应的源变量及相应的校验函数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210180496.6/1.html,转载请声明来源钻瓜专利网。
- 上一篇:服饰搜索方法及系统
- 下一篇:一种键盘宏功能上传的方法和装置