[发明专利]文本切分方法及装置在审

申请号：	202210117834.5	申请日：	2022-02-08
公开（公告）号：	CN114595681A	公开（公告）日：	2022-06-07
发明（设计）人：	邓柯;潘长在	申请（专利权）人：	清华大学
主分类号：	G06F40/216	分类号：	G06F40/216;G06F40/284;G06F40/242
代理公司：	北京鸿元知识产权代理有限公司 11327	代理人：	董永辉;曹素云
地址：	10008***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	文本切分方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种文本切分方法，其特征在于，包括以下步骤：

构建贝叶斯模型框架，所述贝叶斯模型框架为：

P(θ，B|T，D)∝P(T|D，θ，B)·π(θ，B)

其中π(θ，B)是参数θ，B的联合先验分布，P(T|D，θ，B)是文本切分预测模型，P(θ，B|T，D)是参数θ，B的后验概率，所述文本切分预测模型包括初始词典D＝{w1，w2，...，wN，e}，词边界向量的集合B和模型参数θ，所述文本切分预测模型用于将中文文本序列T＝{T₁，…，T_n}中每一段未分词文本根据初始词典D、给定的词边界向量和模型参数θ获得分词版本的文本T_j的概率，其中，

wN表示D中有N个词语；

e是结束标记；

j表示第j个未分词文本；

A＝{a₁，a₂，··，a_M}为T中涉及的汉字集合，M表示汉字集合中汉字的个数，

L_j表示文本中T_j一共有L_j个字，

表示第j个未分词文本T_j的第L_j个字对应的词边界向量的分量；

如果文本T_j中第l个字的后面有词边界分隔符，则b_jl＝1，否则为0；

n表示共n个未分词文本；

为(θ，B)确定联合先验分布π(θ，B)，以将词语使用和文本切分的先验偏好整合到所述文本切分预测模型中；

采用EM算法估计模型参数θ的后验峰值并利用所述后验峰值从所述初始词典中去除显著性低于阈值τ_ψ的词语，从而将最初词典D简化为最终词典D_f；

利用所述后验峰值最终词典D_f，获得词边界向量的集合B，从而实现对文本T进行切分。

2.根据权利要求1所述的文本切分方法，其特征在于，对于未分词文本T_j，所述根据初始词典D、给定的词边界向量和模型参数θ获得分词版本的文本T_j的概率，包括：