[发明专利]一种在长文本中识别复杂住址的方法有效
申请号: | 201811266619.1 | 申请日: | 2018-10-29 |
公开(公告)号: | CN109299469B | 公开(公告)日: | 2023-05-02 |
发明(设计)人: | 韩伟力;贾昊阳;盛毅敏;王晓阳 | 申请(专利权)人: | 复旦大学 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F40/242 |
代理公司: | 上海正旦专利代理有限公司 31200 | 代理人: | 陆飞;陆尤 |
地址: | 200433 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明属于数据识别技术领域,具体为一种在长文本中识别复杂住址的方法。本发明包括:采用双数组Trie树构建全国小区名的词典;以基于感知机的中文分词和词性标注模型对长文本数据进行分词与标注;利用分词和词性标注结果,生成粗分词网;进行小区名匹配,更新词网,然后采用最长模式匹配,在长文本中匹配出最长的地址信息,并更新词网;通过维特比算法对词网进行最优路径求解,得到对长文本的最优分词与识别结果,其中包括需要进行上下文分析的完整复杂住址;通过对地址信息的上下文进行正面和负面特征词的分析,最终确定检测结果是否确实为家庭住址信息。本发明可以从大量冗长文本中识别出完整的复杂住址,在隐私检测的过程中减少公共地址数据的干扰,更准确地定位到隐私信息。 | ||
搜索关键词: | 一种 文本 识别 复杂 住址 方法 | ||
【主权项】:
1. 一种在长文本中识别复杂住址的方法,其特征在于,具体步骤如下:步骤一、构建小区名词典收集国内所有县级市及以上级别地区的小区名及对应地址;采用双数组Trie树构建小区名词典;步骤二、中文分词与词性标注采用感知机构造中文分词和词性标注模型,对输入的长文本进行基本处理,其中分词和词性标注的准确性来源于训练语料库的大小,使用的语料库大小为1亿字;步骤三、构建词网构建粗分词网,用于记录识别过程中的所有中间结果,初始构建时其中包含基础的分词和词性标注结果,通过后续的字典匹配和实体识别等步骤,更新词网中的内容,从而成为具有更详细信息的细分词网;步骤四、规则匹配利用基于双数组Trie树的AC匹配算法,在已完成分词与词性标注的长文本中匹配小区名,并根据其结果来匹配规则列表中最长的地址格式,将匹配到的最长字符串标记为复杂住址,更新词网信息,得到细分词网;步骤五、维特比求最优路径利用更新后的细分词网,经过一次维特比算法求解,得到一条最优路径,即长文本的最优分词和识别结果,其中包含复杂住址标签的就是最终的疑似住址;步骤六、上下文分析对疑似住址的上下文进行文本分析,通过匹配正面和负面特征词的方法,最终判断提取的字符串是否为真正的隐私住址信息。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于复旦大学,未经复旦大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201811266619.1/,转载请声明来源钻瓜专利网。