[发明专利]基于联合图模型的纠错方法及系统有效
申请号: | 201410264085.4 | 申请日: | 2014-06-13 |
公开(公告)号: | CN104050255B | 公开(公告)日: | 2017-10-03 |
发明(设计)人: | 贾钟烨;赵海;王玉柱 | 申请(专利权)人: | 上海交通大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 上海交达专利事务所31201 | 代理人: | 王毓理,王锡麟 |
地址: | 200240 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 一种信息处理技术领域的基于联合图模型的纠错方法及系统,基于拼音规则和拼音音节语言模型,使用最短路径算法,对用户输入的可能包含错误的拼音串进行音节切分,并对切分得到的音节串构建拼音纠错和整句生成的联合图模型,最终通过在联合图模型上进行最短路径解码,获得拼音纠错‑整句生成联合最优解,完成纠错。本发明能够在拼音输入含有错误时仍能够通过自动容错纠错,生成用户意图输入的句子,在复杂度为0(E)的情况下准确率达到97%以上。 | ||
搜索关键词: | 基于 联合 模型 纠错 方法 系统 | ||
【主权项】:
一种基于联合图模型的纠错方法,其特征在于,基于拼音规则和拼音音节语言模型,使用最短路径算法,对用户输入的可能包含错误的拼音串进行音节切分,并对切分得到的音节串构建拼音纠错和整句生成的联合图模型,最终通过在联合图模型上进行最短路径解码,获得拼音纠错‑整句生成联合最优解,完成纠错;所述的拼音音节语言模型是指:使用拼音文本训练得到拼音音节语言模型,拼音音节语言模型根据已知已经出现的若干拼音音节si‑n…si‑2si‑1,提供下一个拼音音节sn的概率P(si|si‑n…si‑2si‑1);所述的拼音音节语言模型的获得方式为:其中:count(x1x2…xk)为序列x1x2…xk的在语料中的计数,smooth()为平滑函数;所述的联合图模型通过以下方式构建得到:4.1)将用户输入的可能包含错误的拼音串中的音节作为节点加入图模型;4.2)使用任意一种现有技术对音节串中的字母进行逐一修改,将替换得到的新的合法音节加入图模型;4.3)合并输入字符串上相邻的音节,当得到符合汉语拼音规范的合法音节则加入步骤4.2)中的图模型中;否则什么都不做;4.4)通过查找拼音‑汉字词典,将图模型的节点由音节转换为汉字词,获得联合图模型。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海交通大学,未经上海交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201410264085.4/,转载请声明来源钻瓜专利网。
- 上一篇:SiC MOS电容及制造方法
- 下一篇:一种高边横向双扩散场效应晶体管