[发明专利]一种基于车载导航仪全文检索的多语言分词方法及装置在审
申请号: | 201711209343.9 | 申请日: | 2017-11-27 |
公开(公告)号: | CN107992475A | 公开(公告)日: | 2018-05-04 |
发明(设计)人: | 罗跃军;姜子奇;周文昉 | 申请(专利权)人: | 武汉中海庭数据技术有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F17/30 |
代理公司: | 武汉蓝宝石专利代理事务所(特殊普通合伙)42242 | 代理人: | 常海涛 |
地址: | 430000 湖北省武汉市*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 车载 导航 全文 检索 语言 分词 方法 装置 | ||
技术领域
本发明涉及车载导航及文字检索技术领域,具体涉及一种基于车载导航仪全文检索的多语言分词方法及装置。
背景技术
随着检索技术发展以及输入法发展,传统车载导航系统基于NVC的逐字检索方案不管是从用户体验还是检索效率上,已经不能满足当下人们对导航产品的需求。而全文检索(Fulltextsearch)技术凭借其高效的检索效率,应用领域也是越来越广泛。因此在车载导航仪上使用全文检索技术也将成为一种趋势。
但在使用全文检索技术过程中,分词技术就是其核心技术之一。分词(Token),就是借助计算机自动给短句或长句文本切分成一个个分词,并使其能够正确的表达其原来的意思。只要是与语言理解相关的领域,都是需要用到分词技术的。
各个国家与地区的语言语法、书写习惯等因素的不一致,导致了它们需要用不同的分词方法。对于西方屈折语的文本单词与单词之间存在一个空格指示词的边界,根据空格和符号可以轻易分词;但对于那些孤立语和黏着语(如中文、韩语、藏语等)的文本,每个词之间没有任何标志指示词的边界,且如果以字为单位来切分文本,不但会带来巨大的空间消耗,更重要的是单个字检索结果比较庞大,这样会导致检索结果与用户原意不符。
对于现有全文检索技术中的分词器(Tokenizer),大多数只能支持单一语言,而且对于那些孤立语和黏着语(如中文、韩语、藏语等)的文本分词效果并不好。
发明内容
本发明针对现有技术中存在的技术问题,提供一种基于车载导航仪全文检索的多语言分词方法及装置,在车载导航仪上使用全文检索时,对用户输入的文本进行分词,不依赖外部词库,通过一套算法将用户输入的包含混合字符串的文本切分成可以用于全文检索的具体分词。
本发明解决上述技术问题的技术方案如下:
本发明一方面提供一种基于车载导航仪全文检索的多语言分词方法,包括以下步骤:。
步骤1,对输入文本进行初步处理,根据文本中的标点符号对输入文本进行切分,若无标点符号则不切分,得到一个或多个子文本;
步骤2,判断所述一个或多个子文本中是否存在仅包含英文字母或者仅包含英文字母和数字的子文本,如果是则将所述仅包含英文字母或者仅包含英文字母和数字的子文本作为第一子文本并对所述第一子文本做歧义判断进行二次切分并输出,否则将除所述第一子文本外的其他子文本作为第二子文本并执行步骤3;
步骤3,根据语言编码识别机制,将所述第二子文本切分,得到仅包含单一语种的多个字符串;
步骤4,利用正向最大匹配算法对所述多个字符串中的亚洲字符串进行切分,得到最终分词结果并输出。
进一步,所述步骤1包括:
根据UNICODE编码规则,检索输入文本中的标点符号以及空格符号,并将所述标点符号和空格符号构造成分隔符,将所述输入文本分割成多个子文本,若输入文本中不存在标点符号以及空格符号则将所述输入文本作为一个独立的子文本。
进一步,步骤2中所述的对所述第一子文本做歧义判断进行二次切分,得到多个字符串,包括:
获取车载导航仪收录的检索数据的言语种别,并分析所述言语种别中是否含有西方屈折语种别或汉语拼音;
若车载导航仪支持西方屈折语检索,则对所述第一子文本不在进一步分词;若车载导航仪支持汉语拼音检索,则根据汉语拼音规则对所述第一子文本进行分词;将基于西方屈折语检索的分词结果与基于汉语拼音规则的分析结果组合成分词结果集并展示给用户;
根据用户的选择信息确定分词方案并输出。
进一步,所述步骤3包括:
通过语言编码识别机制识别第二子文本中所包含的语种信息,根据所述语种信息,将所述第二子文本切分成多个连续的仅包含单一语种的字符串。
进一步,所述步骤4包括:
设置最小切分阈值,若所述字符串中字符数量不大于所述最小切分阈值,则对该字符串不做切分,否则,从左到右将切分文本中的几个连续字符按照正向最大匹配算法进行切分,针对切分过程中可能产生的多个切分方案,按照以下原则进行筛选确认并输出:
1)切分后的字符串长度越长,优先级越高;
2)切分后的字符串个数越少,优先级越高。
本发明的有益效果是:在车载导航仪上使用全文检索时,对用户输入的文本进行分词,不依赖外部词库,通过一套算法将用户输入的包含混合字符串的文本切分成可以用于全文检索的具体分词,有效避免了由于各个国家与地区的语言语法、书写习惯等因素的不一致,而导致它们需要用不同的分词方法的问题。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉中海庭数据技术有限公司,未经武汉中海庭数据技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711209343.9/2.html,转载请声明来源钻瓜专利网。