[发明专利]一种数据处理方法及装置在审
申请号: | 201310577237.1 | 申请日: | 2013-11-18 |
公开(公告)号: | CN104657361A | 公开(公告)日: | 2015-05-27 |
发明(设计)人: | 钟观海 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京国昊天诚知识产权代理有限公司 11315 | 代理人: | 许志勇 |
地址: | 英属开曼群岛大开*** | 国省代码: | 开曼群岛;KY |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 数据处理 方法 装置 | ||
技术领域
本申请涉及数据处理领域,更具体地涉及一种数据处理方法及装置。
背景技术
将非结构化数据转换为结构化数据一直是数据处理领域的难题之一,特别是中文地址信息的结构化转换问题。由于长期缺乏相关的规范制约,中文地址的表达方式差异极大。同一个地址,有时可以出现上百种表达方式,这无疑在很大程度上增加了地址信息标准化、结构化的难度。目前,一些研究机构、相关的技术研发公司在中文地址结构化转换方面上进行了一系列的探索研究,得到了一些地址信息的处理方法,如,使用隐马尔可夫模型解决地址中文分词问题、使用短语结构分析法分析地址文本的句法结构。再如,灵图公司采用基于地址分词的地址匹配方法来定位地址,该方法对地址分词在预设词典中按照特定的规则进行匹配,然后根据匹配出的地址找到对应的经纬度以便在地图上进行定位,从而以这种方式解决中文地址信息的结构化转换问题。
但是,尽管存在上述技术方案,由于传统的分词方法是使用由专家根据经验和历史数据总结而成的“词典”,主要原理是根据关键字和分词规则做匹配。因此,这是一个机械的匹配过程,其受限于词典的完善程度,且不考虑词语切分中的歧义情况,导致分词结果不准确;另外,现有的地址结构化(或者地址拆分、地址匹配)方法均基于由专家总结而成的常规地址,这些方法主要是基于关键字及规则做匹配,但是由于研究数据有限,该匹配方法不能覆盖到中文地址的多种表达方式。因此,对于中文地址信息的结构化转换问题,至今没有一种很好的解决方案。
因此,在本领域中,需要一种能够将以多种表达方式出现的非结构化的中文地址信息进行准确的结构化转换的技术,从而避免在现有技术中进行中文地址分词以及中文地址结构化不准确的问题。
发明内容
本申请的主要目的在于提供一种数据处理方法的技术,以解决进行中文地址分词以及中文地址结构化不准确的问题。
根据本申请的第一方面,提供了一种数据处理方法,其特征在于,包括:基于分词参考数据对非结构化地址进行分词处理以获得地址分词;以及基于短语结构参考数据对地址分词进行结构化处理以获得与非结构化地址相对应的结构化数据。
根据本申请的第二方面,提供了一种数据处理装置,其特征在于,包括:分词处理模块,用于基于分词参考数据对非结构化地址进行分词处理以获得地址分词;以及结构化处理模块,用于基于短语结构参考数据对地址分词进行结构化处理以获得与非结构化地址相对应的结构化数据。
与现有技术相比,根据本申请的技术方案,能够使对中文地址的分词结果更加合理、准确,避免了现有技术中中文地址结构化不准确的问题,并且,可以基于与非结构化地址相对应的结构化数据获得更加合理、准确的地址树和地址分类。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是根据本申请一个实施例的数据处理方法100的流程图;
图2是根据本申请的更详细实施例的数据处理方法200的流程图;
图3是根据本申请的更详细实施例的数据处理方法300的流程图;
图4为根据本申请一个实施例的地址树结构示意图;
图5a为根据本申请一个实施例的部分主干节点及其对应的子节点的示意图;
图5b为根据本申请一个实施例的部分主干节点及其对应的子节点的示意图;
图6为根据本申请一个实施例的地址树参考数据训练方法600的流程图
图7为根据本申请一个实施例的地址树示意图;
图8为根据本申请一个实施例的地址分类样本训练方法800的流程图;
图9为根据本申请一个实施例的地址分类方法900的流程图;以及
图10是根据本申请一个实施例的数据处理装置1000的框图。
具体实施方式
本申请的主要思想在于,基于通过地址分词样本训练得到分词参考数据对非结构化地址进行分词处理以获得地址分词;以及基于通过地址短语结构样本训练得到短语结构参考数据对地址分词进行结构化处理,可以获得与非结构化地址相对应的结构化数据。该技术方案能够使对中文地址的分词结果更加合理、准确,从而避免现有技术中中文地址结构化不准确的问题。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司;,未经阿里巴巴集团控股有限公司;许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310577237.1/2.html,转载请声明来源钻瓜专利网。