[发明专利]一种在长文本中识别复杂住址的方法有效

专利信息
申请号: 201811266619.1 申请日: 2018-10-29
公开(公告)号: CN109299469B 公开(公告)日: 2023-05-02
发明(设计)人: 韩伟力;贾昊阳;盛毅敏;王晓阳 申请(专利权)人: 复旦大学
主分类号: G06F40/295 分类号: G06F40/295;G06F40/242
代理公司: 上海正旦专利代理有限公司 31200 代理人: 陆飞;陆尤
地址: 200433 *** 国省代码: 上海;31
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 文本 识别 复杂 住址 方法
【说明书】:

发明属于数据识别技术领域,具体为一种在长文本中识别复杂住址的方法。本发明包括:采用双数组Trie树构建全国小区名的词典;以基于感知机的中文分词和词性标注模型对长文本数据进行分词与标注;利用分词和词性标注结果,生成粗分词网;进行小区名匹配,更新词网,然后采用最长模式匹配,在长文本中匹配出最长的地址信息,并更新词网;通过维特比算法对词网进行最优路径求解,得到对长文本的最优分词与识别结果,其中包括需要进行上下文分析的完整复杂住址;通过对地址信息的上下文进行正面和负面特征词的分析,最终确定检测结果是否确实为家庭住址信息。本发明可以从大量冗长文本中识别出完整的复杂住址,在隐私检测的过程中减少公共地址数据的干扰,更准确地定位到隐私信息。

技术领域

本发明属于数据识别技术领域,具体涉及一种基于自然语言处理和规则匹配的在长文本中识别复杂住址的方法。

背景技术

在互联网的公开环境中,存在很多的个人隐私数据,这其中可能包括公民的家庭地址信息,这些数据以用户无意间的操作或是他人恶意的泄露而暴露在公开的网络中,对公民个人的隐私,人身安全、财产安全都带来了一定的隐患。为了减少家庭地址在网络中的出现,及时发现隐私信息并做出保护措施,需要一种在长文本中识别完整复杂住址的工具,该工具可以将文本中的地址从粗粒度的市、区到细粒度的门牌号完整标记出来;除此之外,该工具应当判断标记的地址是否为隐私地址,以减少误报的情况。

目前常见的中文地址匹配方法主要包含以下几种:正则表达式匹配、中文分词与命名实体识别、基于词典的匹配,但上述方法存在若干问题。正则表达式匹配算法依靠地址层级关系匹配“市”、“区”、“路”、“号”等关键字,它可以匹配到所有包含关键字且存在层级关系的地址,但同时它也会匹配到很多无关数据,这些数据包含上述关键词,但是与地址并没有关系,因此其准确率受到很大影响;命名实体识别属于自然语言处理的范畴,现有的命名实体识别模型能够识别的地址长度主要依赖于它使用的词典,且它只能识别出简单的地址,例如北京市、朝阳区等,而对于包含多个层级以及数字编号的复杂住址,命名实体识别并不能完整地标记出它,这个问题同样出现在基于词典的匹配上,理想情况下,一个包含所有家庭住址的词典将会解决这个问题。

当前存在很多解决复杂住址识别问题的模型,但是这些模型属于地理信息领域,用于辅助地图软件更好地识别人工输入的地址信息,从而精确定位经纬度;这些模型的输入为一个不固定格式的地址字符串,而对于本发明提到的在长文本中进行地址识别的问题,则不能够发挥作用。除此之外,本发明的重点在于识别隐私地址,即在识别完整复杂住址的基础上完成公民家庭住址的判别,目前对于隐私地址的定义与识别方法并没有成熟的研究成果或产品发表。

发明内容

本发明的目的是为了解决在互联网公开环境中识别隐私信息即公民家庭住址的问题,提供一种新型的在长文本中识别复杂住址的方法。

本发明提供的在长文本中识别复杂住址的方法,包括基于感知机构建的分词模型和词性标注模型,以及双数组Trie树构建的词典,最长字符串匹配算法与维特比算法等。

本发明方法支持包含长文本的数据输入,通过分词、词性标注和规则匹配完成隐私地址识别,并将结果打印出来,帮助使用者定位检测到的内容,及时做出清理、混淆等处理,保护相关公民的隐私安全。

与其他地址检测方法不同的是,本发明支持在文本中识别有复杂格式的地址,可以标记一个完整的地址字符串。除此之外,本发明使用的方法不需要考虑不同层级的地址空间要素,即省、市、区、县、街巷名等信息,不需要枚举所有可能的地址要素,而是基于自然语言处理和规则匹配的方法快速检测文本中的完整地址,且本发明识别出的地址有很大概率为隐私地址,需要对其进行保护处理。

本发明提供的在长文本中识别复杂住址的方法,分为六个步骤:

步骤一、构建小区名词典

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于复旦大学,未经复旦大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201811266619.1/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top