[发明专利]文本切分方法及装置在审
申请号: | 202210117834.5 | 申请日: | 2022-02-08 |
公开(公告)号: | CN114595681A | 公开(公告)日: | 2022-06-07 |
发明(设计)人: | 邓柯;潘长在 | 申请(专利权)人: | 清华大学 |
主分类号: | G06F40/216 | 分类号: | G06F40/216;G06F40/284;G06F40/242 |
代理公司: | 北京鸿元知识产权代理有限公司 11327 | 代理人: | 董永辉;曹素云 |
地址: | 10008*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 切分 方法 装置 | ||
1.一种文本切分方法,其特征在于,包括以下步骤:
构建贝叶斯模型框架,所述贝叶斯模型框架为:
P(θ,B|T,D)∝P(T|D,θ,B)·π(θ,B)
其中π(θ,B)是参数θ,B的联合先验分布,P(T|D,θ,B)是文本切分预测模型,P(θ,B|T,D)是参数θ,B的后验概率,所述文本切分预测模型包括初始词典D={w1,w2,...,wN,e},词边界向量的集合B和模型参数θ,所述文本切分预测模型用于将中文文本序列T={T1,…,Tn}中每一段未分词文本根据初始词典D、给定的词边界向量和模型参数θ获得分词版本的文本Tj的概率,其中,
wN表示D中有N个词语;
e是结束标记;
j表示第j个未分词文本;
A={a1,a2,··,aM}为T中涉及的汉字集合,M表示汉字集合中汉字的个数,
Lj表示文本中Tj一共有Lj个字,
表示第j个未分词文本Tj的第Lj个字对应的词边界向量的分量;
如果文本Tj中第l个字的后面有词边界分隔符,则bjl=1,否则为0;
n表示共n个未分词文本;
为(θ,B)确定联合先验分布π(θ,B),以将词语使用和文本切分的先验偏好整合到所述文本切分预测模型中;
采用EM算法估计模型参数θ的后验峰值并利用所述后验峰值从所述初始词典中去除显著性低于阈值τψ的词语,从而将最初词典D简化为最终词典Df;
利用所述后验峰值最终词典Df,获得词边界向量的集合B,从而实现对文本T进行切分。
2.根据权利要求1所述的文本切分方法,其特征在于,对于未分词文本Tj,所述根据初始词典D、给定的词边界向量和模型参数θ获得分词版本的文本Tj的概率,包括:
获得似然函数:
其中θ={θw}w∈D,θw是T中词语w的使用频率,nw(Bj)是词语w在基于Bj的分词版本的文本Tj中出现的数量,P(Tj|D,θ,Bj)表示给定了词边界向量Bj、词典D和模型参数θ,生成文本Tj的概率,
由此得到利用初始词典D、给定的词边界向量的集合B和模型参数θ获得中文文本序列T的概率,
其中
其中,nw(B)表示词语w在基于B的分词版本的中文文本序列T中出现的数量。
3.根据权利要求1所述的文本切分方法,其特征在于,使用独立共轭先验来确定联合先验分布π(θ,B),包括:
π(θ,B)=π(θ)π(B)
π(θ)=Dirichlet(θ|α),
π(bjl)=Binary(bjl|ρjl)
其中,π(θ)是θ的先验分布;
π(B)是B的先验分布;
Dirichlet是狄利克雷分布;
Binary是伯努利分布;
α={αw}w∈D和ρ={ρjl}是控制先验信息强度的超参数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学,未经清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210117834.5/1.html,转载请声明来源钻瓜专利网。