[发明专利]一种分词工具处理方法及其相关设备在审
申请号: | 202210374933.1 | 申请日: | 2022-04-11 |
公开(公告)号: | CN114781372A | 公开(公告)日: | 2022-07-22 |
发明(设计)人: | 王国彬;牟锟伦;齐帅;余泽辉 | 申请(专利权)人: | 土巴兔集团股份有限公司 |
主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F40/216 |
代理公司: | 广东普罗米修律师事务所 44615 | 代理人: | 黄利平 |
地址: | 518000 广东省深圳市南山区西丽街道*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 分词 工具 处理 方法 及其 相关 设备 | ||
本申请提供了一种分词工具处理方法,包括:获取目标文本库,所述目标文本库内具有多个目标文本,所述目标文本为中文文本;使用目标分词工具对所述目标文本库内的所述多个目标文本进行处理,得到处理结果;确定所述处理结果中所包括的连续单字词;依据所述连续单字词的出现数量将所述连续单字词作为多字词添加至所述目标分词工具的预设词库。通过上述方式使得分词提取工具可以基于目标文本库提取出其特有的专业名词,从而使得分词工具更加符合目标文本库的适用环境,可以适应特定行业的使用需求,进而使得分词工具的适用性更广,表现更好。
技术领域
本申请属于互联网领域,尤其涉及一种分词工具处理方法及其相关设备。
背景技术
分词又叫做词条化(tokenlize),指的是将原始的字符流转换成一个一个词条(token)的过程。词条化属于自然语言处理中预处理的一个步骤,它是分析语义的基础。下面是一个词条化的例子。
文本1:hello world
文本2:hello tom
那么分词工具会将这两个文本分词。
文本1:hello和world
文本2:hello和tom
这时候用户搜索“hello jerry”,经过分词后为:hello和jerry
其中hello能匹配到文本1和文本2的分词hello,那么就认为文本1和文本2是和搜索相关的。如果用户搜索“tom and jerry”,经过分词后为:tom、 and、jerry其中tom能匹配到文本2,而没有一个分词能匹配到文本1的分词,那么lucene认为只有文本2和搜索相关。
以上是英文分词并进行搜索的过程,实际上中文分词相较之下要复杂得多,比如文本“今天天气真不错”,我们可以辨别出其中“今天”、“天气”、“真不错”是三个分词。然而这对机器来说却是很困难的,机器难以辨别哪些字是一个词。为此需要引入分词工具,比如IK分词工具,它自带一个词库,里面包含了大部分常用中文词,比如上面所提到的“今天”、“天气”等。经过IK 分词工具后,文本会被分词为词库中的词,具体分词逻辑可参照现有技术,了解IK分词工具能将一段文本中在词库里的词提取出来即可。
然而很明显这一方案有局限性,IK的分词词库不可能做到包含中文所有的词,中文在不断发展,总会有新的词语产生,进而容易导致某些词无法被识别出来,造成分词工具的使用不便。
发明内容
本申请实施例第一方面提供了一种分词工具处理方法,包括:
获取目标文本库,所述目标文本库内具有多个目标文本,所述目标文本为中文文本;
使用目标分词工具对所述目标文本库内的所述多个目标文本进行处理,得到处理结果;
确定所述处理结果中所包括的连续单字词;
依据所述连续单字词的出现数量将所述连续单字词作为多字词添加至所述目标分词工具的预设词库。
基于本申请实施例第一方面所提供的分词工具处理方法,可选的,所述目标分词工具为IK分词工具。
基于本申请实施例第一方面所提供的分词工具处理方法,可选的,依据所述连续单字词的出现数量将所述连续单字词作为多字词添加至所述目标分词工具的预设词库,包括:
判断所述连续单字词的出现数量是否超出预设值;
若所述连续单字词的出现数量超出预设值,则将所述连续单字词合并得到所述多字词;
若所述连续单字词的出现数量未超出预设值,则结束流程;
添加所述多字词至所述目标分词工具的预设词库。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于土巴兔集团股份有限公司,未经土巴兔集团股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210374933.1/2.html,转载请声明来源钻瓜专利网。