[发明专利]同义词库构建方法、装置、设备及存储介质在审
申请号: | 202110443784.5 | 申请日: | 2021-04-23 |
公开(公告)号: | CN113051899A | 公开(公告)日: | 2021-06-29 |
发明(设计)人: | 李小娟 | 申请(专利权)人: | 深圳壹账通智能科技有限公司 |
主分类号: | G06F40/247 | 分类号: | G06F40/247;G06F40/289;G06F40/216 |
代理公司: | 深圳市赛恩倍吉知识产权代理有限公司 44334 | 代理人: | 杨毅玲;刘丽华 |
地址: | 518000 广东省深圳市*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 同义 词库 构建 方法 装置 设备 存储 介质 | ||
本发明涉及人工智能,提供一种同义词库构建方法、装置、设备及存储介质。该方法能够当接收到词库构建请求时,根据词库构建请求确定目标领域,采集目标领域的领域语料,对领域语料进行分词处理,得到语料分词,对语料分词进行清洗处理,得到领域词,根据领域词构建领域词库,计算领域词库中每个领域词的第一相似度,根据领域词库及第一相似度构建第一集合,计算领域词库中每个领域词的第二相似度,根据领域词库及第二相似度构建第二集合,根据第一集合及第二集合确定领域同义词库。本发明能够提高领域同义词库的构建准确度。此外,本发明还涉及区块链技术,所述领域同义词库可存储于区块链中。
技术领域
本发明涉及人工智能技术领域,尤其涉及一种同义词库构建方法、装置、设备及存储介质。
背景技术
领域同义词库是指针对特定领域的同义词组成的词库,领域同义词库中包含领域词以及该领域词对应的至少一个同义词,例如,在金融领域同义词库中,领域词“取款机”的同义词有“提款机”以及“ATM”等。领域同义词库在搜索引擎中能够提高召回率以及相关性特征的表征能力,在意图识别中能够提高意图判断的准确性。
目前的领域同义词库是通过具有较强的领域背景知识的专业用户人工构建的,然而,这种方式受到专业用户的领域背景知识的干扰,导致构建得到的领域同义词库不够准确。
发明内容
鉴于以上内容,有必要提供一种同义词库构建方法、装置、设备及存储介质,能够提高领域同义词库的构建准确度。
一方面,本发明提出一种同义词库构建方法,所述同义词库构建方法包括:
当接收到词库构建请求时,根据所述词库构建请求确定目标领域;
采集所述目标领域的领域语料,并对所述领域语料进行分词处理,得到语料分词;
对所述语料分词进行清洗处理,得到领域词,并根据所述领域词构建所述目标领域的领域词库;
计算所述领域词库中每个领域词的第一相似度,并根据所述领域词库及所述第一相似度构建第一集合;
计算所述领域词库中每个领域词的第二相似度,并根据所述领域词库及所述第二相似度构建第二集合;
根据所述第一集合及所述第二集合确定所述目标领域的领域同义词库。
根据本发明优选实施例,所述对所述领域语料进行分词处理,得到语料分词包括:
根据预设词典对所述领域语料进行切分,得到多个切分路径及每个切分路径对应的路径分词,所述预设词典中存储有多个自定义词及每个自定义词对应的权值;
根据所述多个切分路径及所述领域语料构建多个有向无环图;
根据所述预设词典中的权值计算每个有向无环图的切分概率;
将所述切分概率最大的有向无环图对应的切分路径确定为目标路径;
将所述目标路径对应的所述路径分词确定为所述语料分词。
根据本发明优选实施例,所述对所述语料分词进行清洗处理,得到领域词包括:
获取每个语料分词的分词长度;
从所述语料分词中剔除所述分词长度大于预设长度的语料分词,得到第一词汇;
获取所述第一词汇的词性;
从所述第一词汇中剔除所述词性为预设词性的第一词汇,得到第二词汇;
从配置库中获取所述第二词汇的逆文档频率;
从所述第二词汇中剔除所述逆文档频率小于频率阈值的第二词汇,得到所述领域词。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳壹账通智能科技有限公司,未经深圳壹账通智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110443784.5/2.html,转载请声明来源钻瓜专利网。