[发明专利]识别方法、装置、终端及计算机可读存储介质在审

申请号：	201811540503.2	申请日：	2018-12-14
公开（公告）号：	CN109558596A	公开（公告）日：	2019-04-02
发明（设计）人：	陈万慧;钱城;汪伟;简杰生;付倩;王云敏;董宇康;苏雪婷;田丽珍	申请（专利权）人：	平安城市建设科技（深圳）有限公司
主分类号：	G06F17/27	分类号：	G06F17/27
代理公司：	深圳市世纪恒程知识产权代理事务所 44287	代理人：	胡海国
地址：	518000 广东省深圳市前海深港合作区前***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	地址信息语句计算机可读存储介质概率准确度终端自然语言处理地址词典结构化层级预设查找
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种识别方法、装置、终端及计算机可读存储介质。识别方法包括步骤：获取包含有地址信息的待识别语句，将待识别语句中第一个数字或字母之前的部分作为第一段；对第一段进行多次切分得到多个切分链，每个切分链包含多个待确定名词；从预设的地址词典中查找与每个待确定名词对应的概率并得到各切分链的概率和；将概率和最大的切分链作为最优切分链，将最优切分链的待确定名词确定为地点名词；根据与最优切分链的地点名词对应的地址层级得到行政地址信息。如此，将概率和最大的切分链作为最优切分链，根据最优切分链的地点名词得到地址信息，这样对自然语言处理、识别过程中，待识别语句的结构化程度不影响识别准确度，从而提高识别的准确度。

技术领域

本发明涉及自然语言处理技术领域，尤其涉及一种识别方法、装置、终端及计算机可读存储介质。

背景技术

在房产相关系统录入房源或查找房源时，需要根据输入的包含有地址信息的自然语句，确定自然语句中的地址信息。然而在相关技术中，通常通过正则匹配或模糊匹配的方式，识别包含有地址信息的自然语句中的地址信息。由于中文表达具有多变性，而正则匹配或模糊匹配这些对输入地址字符串的结构化程度敏感性高，导致识别的准确度不够高。

发明内容

本发明的主要目的在于提供一种识别方法、装置、终端及计算机可读存储介质，旨在解决识别包含有地址信息的自然语句中的地址信息时，识别准确度较低的技术问题。

为实现上述目的，本发明提供一种识别方法，包括步骤：

获取包含有地址信息的待识别语句，将所述待识别语句中第一个数字或字母之前的部分作为第一段，将所述第一个数字或字母及之后的部分作为第二段；

使用预设规则对所述第一段进行多次切分得到多个切分链，每个所述切分链包含多个待确定名词；

从预设的地址词典中查找与每个所述待确定名词对应的概率，并根据每个所述切分链中多个待确定名词对应的概率得到各切分链的概率和，所述地址词典中包含地点名词、与所述地点名词对应的概率及地址层级；

将所述概率和最大的切分链作为最优切分链，并将所述最优切分链的待确定名词确定为地点名词；

从所述地址词典获取所述最优切分链的地点名词对应的地址层级，并根据与所述最优切分链的地点名词对应的所述地址层级得到行政地址信息。

优选地，所述获取包含有地址信息的待识别语句，将所述待识别语句中第一个数字或字母之前的部分作为第一段，将所述第一个数字或字母及之后的部分作为第二段的步骤包括：

获取包含有地址信息的待识别语句；

判断所述待识别语句中是否包含数字或字母；

若所述待识别语句中包含数字或字母，则将所述待识别语句中第一个数字或字母之前的部分作为第一段，将所述第一个数字或字母及之后的部分作为第二段；