[发明专利]显示设备、文本纠错方法及服务器在审
申请号: | 202010879686.1 | 申请日: | 2020-08-27 |
公开(公告)号: | CN114118064A | 公开(公告)日: | 2022-03-01 |
发明(设计)人: | 王敏;修媛媛;杨善松 | 申请(专利权)人: | 海信视像科技股份有限公司 |
主分类号: | G06F40/232 | 分类号: | G06F40/232;G06N3/04;G06N3/08;G10L15/22 |
代理公司: | 北京弘权知识产权代理有限公司 11363 | 代理人: | 郭放;许伟群 |
地址: | 266555 山东省青*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 显示 设备 文本 纠错 方法 服务器 | ||
本申请实施例提供了一种显示设备、文本纠错方法及服务器,显示设备包括显示器和控制器,控制器被配置为:响应于接收到用户输入的语音命令,对语音命令进行语音转换,得到待纠错文本;控制显示器显示待纠错文本;基于音形相近混淆集和图注意力机制对待纠错文本进行纠错,得到初始纠错文本,对待纠错文本和初始纠错文本进行候选召回,根据召回文本的排序结果得到最终纠错文本;控制显示器将待纠错文本刷新为最终纠错文本。本申请实施例根据待纠错文本对应的混淆集生成发音相似知识图谱和形状相近知识图谱,将汉字的拼音及字形相关知识融入图神经网络,抽取相近字符间的深层语义信息,可有效利用音形相近的知识,提高检错纠错的正确率及召回率。
技术领域
本申请涉及显示设备技术领域,尤其涉及一种显示设备、文本纠错方法及服务器。
背景技术
随着计算机、大数据以及机器学习的发展,拼写纠错技术已经被广泛应用与中英文输入法、文档编辑工具、搜索工具、OCR以及语音识别等诸多领域。拼写纠错技术最先提出于作为全球用户最多的英语,经过几十年的发展,先后出现了基于规则、统计和特征的技术,准确率也较可观。相比而言,中文纠错由于起步晚,且中文相比英文更加复杂,加之学者在中文纠错的研究方面投入较少,因此目前中文纠错性能和准确率较低,成熟可用的工具较少。
中文输入数据的准确性是自然语言处理常见任务的基本前提,也是提高上层应用性能的关键。相关技术中,基于LSTM+CRF的检错技术因受限于依赖大量标注样本而难以普遍落地,而基于N-gram的检错技术也因“硬性”的判别规则造成算法性能低下,导致检错效率不高。
发明内容
为解决上述技术问题,本申请提供了一种显示设备、文本纠错方法及服务器。
第一方面,本申请提供了一种显示设备,该显示设备包括:
显示器;
控制器,与所述显示器连接,所述控制器被配置为:
响应于接收到用户输入的语音命令,对所述语音命令进行语音转换,得到待纠错文本;
控制显示器显示所述待纠错文本;
基于音形相近混淆集和图注意力机制对所述待纠错文本进行纠错,得到初始纠错文本;
对所述待纠错文本和初始纠错文本进行候选召回,根据召回文本的排序结果得到最终纠错文本;
控制显示器将所述待纠错文本刷新为最终纠错文本。
在一些实施例中,所述基于音形相近混淆集和图注意力机制对所述待纠错文本进行纠错,包括:
对待纠错文本进行特征抽取,得到初始表征矩阵;
根据音形相近混淆集创建所述待纠错文本中每个字符的邻接矩阵;
将所述初始表征矩阵和邻接矩阵输入多层图卷积神经网络,得到下一层表征矩阵;
根据图注意力机制得到所述多层图卷积神经网络的最后一层表征矩阵;
通过全连接层和概率归一化函数生成字符。
在一些实施例中,所述根据音形相近混淆集创建所述待纠错文本中每个字符的邻接矩阵,包括:
获取所述待纠错文本中每个字符在音形相近混淆集中的发音相似字符和形状相似字符;
将所述待纠错文本中的字符、发音相似字符和字库中的字符作为节点,将字符之间的关系作为边,建立发音相似邻接矩阵;
将所述待纠错文本中的字符、形状相似字符和字库中的字符作为节点,将字符之间的关系作为边,建立形状相似邻接矩阵。
在一些实施例中,所述将所述初始表征矩阵和邻接矩阵输入多层图卷积神经网络,得到下一层表征矩阵,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于海信视像科技股份有限公司,未经海信视像科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010879686.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种废水脱氮装置和工艺及应用
- 下一篇:光处理单元、光传送系统及光传送方法