[发明专利]基于联合图模型的纠错方法及系统有效

申请号：	201410264085.4	申请日：	2014-06-13
公开（公告）号：	CN104050255B	公开（公告）日：	2017-10-03
发明（设计）人：	贾钟烨;赵海;王玉柱	申请（专利权）人：	上海交通大学
主分类号：	G06F17/30	分类号：	G06F17/30
代理公司：	上海交达专利事务所31201	代理人：	王毓理,王锡麟
地址：	200240 ***	国省代码：	上海;31
权利要求书：	查看更多	说明书：	查看更多
摘要：	一种信息处理技术领域的基于联合图模型的纠错方法及系统，基于拼音规则和拼音音节语言模型，使用最短路径算法，对用户输入的可能包含错误的拼音串进行音节切分，并对切分得到的音节串构建拼音纠错和整句生成的联合图模型，最终通过在联合图模型上进行最短路径解码，获得拼音纠错‑整句生成联合最优解，完成纠错。本发明能够在拼音输入含有错误时仍能够通过自动容错纠错，生成用户意图输入的句子，在复杂度为0(E)的情况下准确率达到97％以上。
搜索关键词：	基于联合模型纠错方法系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

一种基于联合图模型的纠错方法，其特征在于，基于拼音规则和拼音音节语言模型，使用最短路径算法，对用户输入的可能包含错误的拼音串进行音节切分，并对切分得到的音节串构建拼音纠错和整句生成的联合图模型，最终通过在联合图模型上进行最短路径解码，获得拼音纠错‑整句生成联合最优解，完成纠错；所述的拼音音节语言模型是指：使用拼音文本训练得到拼音音节语言模型，拼音音节语言模型根据已知已经出现的若干拼音音节si‑n…si‑2si‑1，提供下一个拼音音节sn的概率P(si|si‑n…si‑2si‑1)；所述的拼音音节语言模型的获得方式为：其中：count(x1x2…xk)为序列x1x2…xk的在语料中的计数，smooth()为平滑函数；所述的联合图模型通过以下方式构建得到：4.1)将用户输入的可能包含错误的拼音串中的音节作为节点加入图模型；4.2)使用任意一种现有技术对音节串中的字母进行逐一修改，将替换得到的新的合法音节加入图模型；4.3)合并输入字符串上相邻的音节，当得到符合汉语拼音规范的合法音节则加入步骤4.2)中的图模型中；否则什么都不做；4.4)通过查找拼音‑汉字词典，将图模型的节点由音节转换为汉字词，获得联合图模型。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于上海交通大学，未经上海交通大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201410264085.4/，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于联合图模型的纠错方法及系统有效

专利文献下载