[发明专利]一种基于本体和群智能算法的中文歧义切分方法有效
申请号: | 201710464556.X | 申请日: | 2017-06-19 |
公开(公告)号: | CN107391574B | 公开(公告)日: | 2020-10-16 |
发明(设计)人: | 林焓;薛醒思 | 申请(专利权)人: | 福建工程学院 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/332;G06F16/36;G06F40/216;G06F40/295;G06F40/30 |
代理公司: | 福州市鼓楼区京华专利事务所(普通合伙) 35212 | 代理人: | 林云娇 |
地址: | 350000 福建省福州*** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 本体 智能 算法 中文 歧义 切分 方法 | ||
1.一种基于本体和群智能算法的中文歧义切分方法,其特征在于:包括如下步骤:
步骤1、获取用户输入的一个问句进行预处理,得到至少一个候选切分方式,形成候选切分方式集合W;所述步骤1具体为:获取用户输入的问句进行建图处理,对所述图的结构求解k种最短路径,得到k种候选切分方式,用候选切分方式集合W存储,所述集合W={Wi=wi,1wi,2,...|wi,j∈Cname∪Rname∪S,i=1,...,k},其中,S={s1,s2,...}表示问句字符序列的字符集合,k表示候选切分方式的数量,Wi为第i种候选切分方式,wi,j为第i种候选切分方式的第j个词形,Cname表示概念名称集合,Rname表示谓语名称集合;
步骤2、利用本体中标注的同义词信息创建同义词簇,包括对每一候选切分方式中的每两个连续词形扩展成一个二元同义词簇,每三个连续词形扩展成一个三元同义词簇;
步骤3、计算每一候选切分方式中每一词形的词位置e;所述词位置e的计算公式为:
其中,wi,j为第i种候选切分方式的第j个词形,index(wi,j)为词wi,j的首个字符wi,j,1同句子Wi的首个字符wi,1,1的距离,为第i种候选切分方式中所有字符的数量;
BK为句子断点向量,且BK=(bk1,bk2,...,bkq)T,q=3,j=1,2,3,且其中为Wi中所有字符的数量;
步骤4、以三个连续词形为单位,考虑其中前两个词和后两个词的词形对当前处理词形出现的概率的影响创建双向三元模型,计算每一种候选切分方式在所述双向三元模型下出现的概率BP;
步骤5、以三个连续词形为单位,考虑其中前两个词和后两个词的词形、扩展同义词簇以及词位置对当前处理词形出现的概率的影响创建含词位置信息的语义双向三元模型,计算每一种候选切分方式在所述含词位置信息的语义双向三元模型下出现的概率SWP;
步骤6、以三个连续词形为单位,在含词位置信息的语义双向三元模型和双向三元模型的基础上进一步考虑候选切分方式长度以及候选切分方式偏好值对候选切分方式出现的概率的影响创建含词位置信息的偏好语义双向三元模型,计算每一种候选切分方式在所述含词位置信息的偏好语义双向三元模型下出现的概率PSWP;
步骤7、利用所述含词位置信息的偏好语义双向三元模型下出现的概率PSWP,并考虑句子断点向量的淘汰集,创建单目标优化模型,并通过群智能算法求解最优的句子断点向量,将其对应的候选切分方式作为最优分词结果;
所述步骤4中概率BP的具体公式为:
count(wi,j-2 wi,j-1 wi,j)表示词串wi,j-2 wi,j-1 wi,j在训练语料中出现的次数;
count(wi,j-2 wi,j-1)表示词串wi,j-2 wi,j-1在训练语料中出现的次数;
count(wi,j wi,j+1 wi,j+2)表示词串wi,j wi,j+1 wi,j+2在训练语料中出现的次数;
count(wi,j+1 wi,j+2)表示词串wi,j+1 wi,j+2训练语料中出现的次数;
所述步骤5中概率SWP的具体公式为:
其中,count(SW(wi,j-2)u SW(wi,j-1)z SW(wi,j)k,e)表示SW(wi,j-2) SW(wi,j-1)SW(wi,j)笛卡尔积元素在训练语料中在第e=position(wi,j,BK)区间上的次数;
count(SW(wi,j-2)u SW(wi,j-1)z,e)表示SW(wi,j-2)SW(wi,j-1)笛卡尔积元素在训练语料中在第e=position(wi,j,BK)区间上的次数;
count(SW(wi,j)k SW(wi,j+1)u SW(wi,j+2)z,e)表示SW(wi,j)SW(wi,j+1)SW(wi,j+2)笛卡尔积元素在训练语料中在第e=position(wi,j,BK)区间上的次数;
count(SW(wi,j+1)u SW(wi,j+2)z,e)表示SW(wi,j+1)SW(wi,j+2)笛卡尔积元素在训练语料中在第e=position(wi,j,BK)区间上的次数;
上述SW(x)表示概念x在本体中标注的同义词集合,SW(wi,j-2)SW(wi,j-1)和SW(wi,j+1)SW(wi,j+2)为二元同义词簇,SW(wi,j-2)SW(wi,j-1)SW(wi,j)和SW(wi,j)SW(wi,j+1)SW(wi,j+2)为三元同义词簇;
所述步骤6中概率PSWP的具体公式为:
其中,为根据第i中候选切分方式的语义标注结果计算得到的第i中候选切分方式的偏好值;
lengthmax=max{|W1|,|W2|,...},lengthmin=min{|W1|,|W2|,...},|Wi|为切分方式Wi的词数量,i=1,2,..;
所述语义标注结果获取过程具体为:
通过所述本体中的名词集合Cname和谓语集合Rname来抽取候选切分方式中的所有名词和谓语,若没有谓语,则语义标注结束;
将名词间不重复的两个词分别充当主语和宾语同各个谓词进行组合,使得每一种候选切分方式都具有n种语义标注结果,并用表示第i种候选切分方式Wi的第j种语义标注结果,其中,subj、pred、obje分别为标注的主语、谓语和宾语,且subj,obje∈Cname,pred∈Rname;
所述偏好值的计算方式具体为:
其中:
SW(pred)为pred的同义词集合;
domain(SW(pred))为pred以及pred的同义词在本体中标注的主语集合;
range(SW(pred))为pred以及pred的同义词在本体中标注的宾语集合;
SWS(domain(SW(pred)))表示pred以及pred的同义词在本体中标注的主语集合中每一个元素在本体中标注的同义词集合;
SWS(range(SW(pred)))表示pred以及pred的同义词在本体中标注的宾语集合中每一个元素在本体中标注的同义词集合;
所述单目标优化模型具体为:
其中,
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于福建工程学院,未经福建工程学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710464556.X/1.html,转载请声明来源钻瓜专利网。