[发明专利]一种矛盾语块边界识别的方法及装置有效
申请号: | 202010245836.3 | 申请日: | 2020-03-31 |
公开(公告)号: | CN111460766B | 公开(公告)日: | 2023-05-26 |
发明(设计)人: | 姜姗 | 申请(专利权)人: | 云知声智能科技股份有限公司;厦门云知芯智能科技有限公司 |
主分类号: | G06F40/117 | 分类号: | G06F40/117;G06F40/30 |
代理公司: | 北京冠和权律师事务所 11399 | 代理人: | 张楠楠 |
地址: | 100000 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 矛盾 边界 识别 方法 装置 | ||
本发明公开了一种矛盾语块边界识别的方法及装置,所述方法包括:获取带矛盾语块标注的数据集;对所述带矛盾语块标注的数据集预处理,以得到标注后数据;通过BERT和CRF对所述标注后的数据进行处理,以得到每个字符最终的标签;根据所述每个字符最终的标签确定矛盾语块的边界。通过本发明的技术方案,确定了矛盾的具体位置,使得文本矛盾检测具有可解释性。
技术领域
本发明涉及信息处理技术领域,特别涉及一种矛盾语块边界识别的方法及装置。
背景技术
当两个拥有共同实体的句子不能同时为真时,这两个句子相互矛盾。矛盾语块为导致句子矛盾的最小语言单元。矛盾语块边界识别,是给定相互矛盾的两句话,分别找出导致矛盾的语块位置的任务。
正确理解文本矛盾是自然语言理解中的一项重要环节,然后现有的工作大多关注文本矛盾检测,即存在性判断,并未进一步探究矛盾的具体位置,使得文本矛盾检测缺乏可解释性。
发明内容
本发明提供一种矛盾语块边界识别的方法及装置,所述技术方案如下:
根据本发明实施例的第一方面,提供了一种矛盾语块边界识别的方法,包括:
获取带矛盾语块标注的数据集;
对所述带矛盾语块标注的数据集预处理,以得到标注后数据;
通过BERT和CRF对所述标注后的数据进行处理,以得到每个字符最终的标签;
根据所述每个字符最终的标签确定矛盾语块的边界。
在一个实施例中,
所述带矛盾语块标注的数据集中的每一条标准数据分为四列,第一列和第二列分别为第一原始句子和第二原始句子,第三列和第四列分别为所述第一原始句子和第二原始句子中相互矛盾的语块。
在一个实施例中,所述对所述带矛盾语块标注的数据集预处理,以得到标注后数据,包括:
将所述第一原始句子和所述第二原始句子通过预设分隔符拼接在一起,以得到拼接后的数据;
获取预设标签,其中,所述预设标签为O、B-First、I-First、B-Second、I-Second;
通过所述预设标签对所述拼接后的数据进行标注,以得到所述标注后的数据。
在一个实施例中,所述通过BERT和CRF对所述标注后的数据进行处理,以得到每个字符最终的标签,包括:
将所述标注后的数据传输至所述BERT中,以得到所述标注后的数据中每个字符对应的状态特征;
根据所述每个字符对应的状态特征确定所述每个字符对应的状态分数;
将所述每个字符对应的状态分数输入至所述CRF中进行计算,以得到计算结果;
根据所述计算结果确定所述每个字符的最终标签。
在一个实施例中,所述矛盾语块包括第一原始句子中矛盾语块和第二原始句子中矛盾语块,所述根据所述每个字符最终的标签确定矛盾语块的边界,包括:
确定最终标签为B-First和I-First分别对应的字符为所述第一原始句子中矛盾语块的边界;
确定最终标签为B-Second和I-Second分别对应的字符为所述第二原始句子中矛盾语块的边界。
根据本发明实施例的第二方面,提供了一种矛盾语块边界识别的装置,包括:
获取模块,用于获取带矛盾语块标注的数据集;
预处理模块,用于对所述带矛盾语块标注的数据集预处理,以得到标注后数据;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于云知声智能科技股份有限公司;厦门云知芯智能科技有限公司,未经云知声智能科技股份有限公司;厦门云知芯智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010245836.3/2.html,转载请声明来源钻瓜专利网。