[发明专利]平行语句库的更新方法、设备及计算机可读存储介质有效
申请号: | 201810526133.0 | 申请日: | 2018-05-28 |
公开(公告)号: | CN108763462B | 公开(公告)日: | 2021-11-12 |
发明(设计)人: | 卢道和;赵伟伟;杨海军;张超 | 申请(专利权)人: | 深圳前海微众银行股份有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/36;G06N3/04;G06N3/08 |
代理公司: | 深圳市世纪恒程知识产权代理事务所 44287 | 代理人: | 胡海国;魏兰 |
地址: | 518052 广东省深圳市前海深港合作区前*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 平行 语句 更新 方法 设备 计算机 可读 存储 介质 | ||
本发明公开了一种平行语句库的更新方法、设备及计算机可读存储介质,该方法包括步骤:当侦测到更新平行语句库的更新指令后,根据所述更新指令确定所述平行语句库中各个预设主题类所需调整的待调整平行语句;对所述待调整平行语句进行聚类,根据聚类所得的聚类结果将所述待调整平行语句重新添加至所述平行语句库中,得到更新后的所述平行语句库;合并更新后的所述平行语句库中的各个主题类,以完成更新所述平行语句库的更新操作。本发明实现了自动更新平行语句库的更新操作,提高了更新平行语句库更新效率。
技术领域
本发明涉及自然语言处理技术领域,尤其涉及一种平行语句库的更新方法、设备及计算机可读存储介质。
背景技术
平行语句可应用在机器翻译领域,平行语句可用在不同语种之间,用多个不同语种句子表达相同的语义;平行语句也可用在同一语种下,用多个不同表述的句子表达相同的语义。例如,“A产品的介绍”、“A产品是什么”以及“A产品怎么样”等都表示同一个语义,但是表述不同。由于自然语言本身的复杂性,某一个相同的语义可能会有多种不同的句子表述,这些不同的句子表述会对计算机理解句子的真实意图造成很大困难。尤其在智能问答领域,知识库的标准QA(Question and Answer,问题和答案)有限,因此对问题的描述也很有限。但是不同用户对同一语义问题的问法变化较大,例如词的不同、顺序不同、口语化等都增加了将用户所问问题映射到标准问题的难度。为了尽可能匹配到标准问题,需要尽可能多的为标准问题添加平行语句,尽可能多样化的描述标准问题,因此需要定期更新平行语句库中的平行语句。
目前更新平行语句库的方法为人工更新,即由对应的工作人员手动确认平行语句库中与标准问题关联的语句是否是平行语句。当确认与标准问题关联的语句不是标准问题的平行语句时,解除标准问题与该语句的关联关系。由此可知,人工更新平行语句库的效率低下。
发明内容
本发明的主要目的在于提供一种平行语句库的更新方法、设备及计算机可读存储介质,旨在解决现有的人工更新平行语句库效率低下的技术问题。
为实现上述目的,本发明提供一种平行语句库的更新方法,所述平行语句库的更新方法包括步骤:
当侦测到更新平行语句库的更新指令后,根据所述更新指令确定所述平行语句库中各个预设主题类所需调整的待调整平行语句;
对所述待调整平行语句进行聚类,根据聚类所得的聚类结果将所述待调整平行语句重新添加至所述平行语句库中,得到更新后的所述平行语句库;
合并更新后的所述平行语句库中的各个主题类,以完成更新所述平行语句库的更新操作。
优选地,所述当侦测到更新平行语句库的更新指令后,根据所述更新指令确定所述平行语句库中各个预设主题类所需调整的待调整平行语句的步骤包括:
当侦测到更新平行语句库的更新指令后,检测所述平行语句库中各个预设主题类中的平行语句是否存在标注信息;
若所述平行语句存在所述标注信息,且所述标注信息为第一标注信息,则确定存在所述第一标注信息的平行语句为待调整平行语句;
若所述平行语句未存在所述标注信息,则调整各个预设主题类的主句,得到各个预设主题类调整后的主句;
计算未存在所述标注信息的平行语句与调整后的所述主句之间的第一相似度,其中,计算所述第一相似度的所述平行语句和所述主句属于同一预设主题类;
若所述第一相似度小于所述第一预设阈值,则确定未存在所述标注信息的平行语句为待调整平行语句。
优选地,所述若所述平行语句未存在所述标注信息,则调整各个预设主题类的主句,得到各个预设主题类调整后的主句的步骤包括:
若所述平行语句未存在所述标注信息,则获取各个预设主题类中各个平行语句在预设时长内的显示频数;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳前海微众银行股份有限公司,未经深圳前海微众银行股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810526133.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:数据处理方法、装置、系统及存储介质
- 下一篇:一种基于区块链的数字档案系统