[发明专利]用于文本相似度计算的分词方法、装置、设备和介质在审
申请号: | 202110202080.9 | 申请日: | 2021-02-23 |
公开(公告)号: | CN112784570A | 公开(公告)日: | 2021-05-11 |
发明(设计)人: | 李柯;徐立坤;王振乾 | 申请(专利权)人: | 南方电网调峰调频发电有限公司信息通信分公司 |
主分类号: | G06F40/194 | 分类号: | G06F40/194;G06F40/284;G06F40/30 |
代理公司: | 佛山市神机营专利代理事务所(普通合伙) 44765 | 代理人: | 许尤庆 |
地址: | 510000 广东省广州市番禺区东环街番禺大*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 文本 相似 计算 分词 方法 装置 设备 介质 | ||
本发明公开了一种用于文本相似度计算的分词方法、装置、设备和介质,该方法包括:获取用于计算文本相似度的至少两个文本对应的文本领域信息;确定与文本领域信息对应的语义树状层次结构,语义树状层次结构为按照词语的语义划分得到的具有层级关系的结构;根据语义树状层次结构,在至少两个文本中确定分词关键信息;基于分词关键信息对至少两个文本进行分词操作,得到分词结果。本发明能够有针对性地进行分词,提高了分词效果。
技术领域
本发明涉及计算机领域,具体而言,涉及一种用于文本相似度计算的分词方法、装置、设备和介质。
背景技术
目前,在进行文本相似度计算的时候,需要以分词作为基础和前提。分词是将连续的字序列按照一定的规范重新组合成词序列的过程。
现在常用的分词方法有基于字符串匹配的分词方法,采用这种分词方法需要按照预设的扫描方向,以预设的匹配长度对待分词的文本进行扫描,通过遍历整个待分词的文本,得到分词结果。该分词方法是一种通用方法,能够适用于各类应用场景,如适用于机器翻译的应用场景。对于特定的文本相似度计算的场景,未考虑文本相似度计算的需求进行分词,针对性较差,从而导致该分词结果在文本相似度计算中的应用效果不佳。
针对上述的问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种用于文本相似度计算的分词方法、装置、设备和介质,以至少提高分词效果。
根据本发明实施例的一个方面,提供了一种用于文本相似度计算的分词的方法,包括:获取用于计算文本相似度的至少两个文本对应的文本领域信息;确定与上述文本领域信息对应的语义树状层次结构,上述语义树状层次结构为按照词语的语义划分得到的具有层级关系的结构;根据上述语义树状层次结构,在上述至少两个文本中确定分词关键信息;基于分词关键信息对上述至少两个文本进行分词操作,得到分词结果。
作为一种可选的实施方式,上述确定与上述文本领域信息对应的语义树状层次结构,包括:确定与上述文本领域信息对应的词语树状层次结构和义原树状层次结构,上述语义树状层次结构至少包括上述词语树状层次结构和上述义原树状层次结构。
作为一种可选的实施方式,上述按照上述语义树状层次结构,在上述至少两个文本中确定分词关键信息,包括:确定与上述词语树状层次结构对应的词语关键信息,以及确定与上述义原树状层次结构对应的义原关键信息;基于上述词语关键信息和上述义原关键信息,在上述至少两个文本中确定分词关键信息。
作为一种可选的实施方式,上述基于分词关键信息对上述至少两个文本进行分词操作,得到分词结果,包括:在上述至少两个文本中确定上述分词关键信息所处的第一文本位置,以及在上述至少两个文本中确定分隔符信息所处的第二文本位置;根据上述第一文本位置和上述第二文本位置对上述至少两个文本进行分词操作,得到分词结果。
作为一种可选的实施方式,在上述基于分词关键信息对上述至少两个文本进行分词操作,得到分词结果之后,上述方法还包括:将上述分词结果中的各组待对比信息进行文本相似度计算,得到各组对应的文本相似度;对上述各组对应的文本相似度进行整合处理,得到目标文本相似度。
根据本发明实施例的另一方面,还提供了一种用于文本相似度计算的分词装置,包括:领域获取单元,用于获取用于计算文本相似度的至少两个文本对应的文本领域信息;结构确定单元,用于确定与上述文本领域信息对应的语义树状层次结构,上述语义树状层次结构为按照词语的语义划分得到的具有层级关系的结构;信息确定单元,用于根据上述语义树状层次结构,在上述至少两个文本中确定分词关键信息;分词操作单元,用于基于分词关键信息对上述至少两个文本进行分词操作,得到分词结果。
作为一种可选的实施方式,上述结构确定单元用于确定与上述文本领域信息对应的语义树状层次结构的方式具体为:确定与上述文本领域信息对应的词语树状层次结构和义原树状层次结构,上述语义树状层次结构至少包括上述词语树状层次结构和上述义原树状层次结构。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南方电网调峰调频发电有限公司信息通信分公司,未经南方电网调峰调频发电有限公司信息通信分公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110202080.9/2.html,转载请声明来源钻瓜专利网。