[发明专利]文本切分方法及装置在审
申请号: | 202210117834.5 | 申请日: | 2022-02-08 |
公开(公告)号: | CN114595681A | 公开(公告)日: | 2022-06-07 |
发明(设计)人: | 邓柯;潘长在 | 申请(专利权)人: | 清华大学 |
主分类号: | G06F40/216 | 分类号: | G06F40/216;G06F40/284;G06F40/242 |
代理公司: | 北京鸿元知识产权代理有限公司 11327 | 代理人: | 董永辉;曹素云 |
地址: | 10008*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 切分 方法 装置 | ||
本发明公开一种文本切分方法及装置,包括:构建贝叶斯模型框架,文本切分预测模型包括初始词典D,词边界向量集合B和模型参数θ,文本切分预测模型用于将中文文本序列T中每一段未分词文本Tj,根据初始词典D、给定的词边界向量Bj和模型参数θ获得分词版本的文本Tj的概率;确定联合先验分布π(θ,B),将词语使用和文本切分的先验偏好整合到文本切分预测模型中;用EM算法估计模型参数θ的后验峰值用后验峰值从初始词典中去除显著性低词语,D简化为最终词典Df;用后验峰值最终词典Df,获得词边界向量的集合B,实现对文本T进行切分。本发明通过先验信息,以及κ参数的选择控制切词的颗粒度,以使得能够切分出词语,提高文本切分效果。
技术领域
本发明涉及自然语言处理技术领域,具体地说,涉及一种文本切分方法及装置。
背景技术
长期以来,分词的方法多数是基于词典,在大规模词典的帮助下,基于词典的分词方法取得了较好的效果,但是该方法在识别未登录词时,结果并不理想,然而未登录词的识别在分词应用中是不可避免的问题。
由于中文没有词边界,中文自然语言处理面临一些独特的挑战,在处理包含许多未记录词和命名实体的开放域中文语料库时,这些挑战变得更加严峻,因为它们经常纠缠在一起:通常在不知道真实词表的情况下无法正确分词;另一方面,如果没有分词的指导,通常很难从开放域语料库中精确地发现未记录的词和命名实体。
由Deng et al.(2016)提出的TopWORDS是一种基于无监督统计学习的离线自然语言处理的通用方法。TopWORDS假设句子是通过从隐含词典中随机抽取词语并拼接而生成的,从一个包含目标文本中所有可能的候选词的完备的初始词词典开始,并通过基于统计模型的变量选择原则来去除不重要的候选词,逐渐简化词典,并最终利用词典来对文本进行分词。
在实际应用中,TopWORDS在从开放域中文文本中发现词语、技术术语和短语方面特别有效,但其倾向于在短语级别而不是词语级别对更粗粒度的文本进行切分。(这里短语级别指切分结果为例如“我们要端正态度”,而期望的词语级别切分为“我们要端正态度”)。
发明内容
为解决以上问题,本发明提供一种文本切分方法,包括以下步骤:
构建贝叶斯模型框架,所述贝叶斯模型框架为:
P(θ,B|T,D)∝P(T|D,θ,B)·π(θ,B)
其中π(θ,B)是参数θ,B的联合先验分布,P(T|D,θ,B)是文本切分预测模型,P(θ,B|T,D)是参数θ,B的后验概率,所述文本切分预测模型包括初始词典D={w1,w2,...,wN,e},词边界向量的集合B和模型参数θ,所述文本切分预测模型用于将中文文本序列T={T1,…,Tn}中每一段未分词文本根据初始词典D、给定的词边界向量和模型参数θ获得分词版本的文本Tj的概率,其中,
wN表示D中有N个词语;
e是结束标记;
j表示第j个未分词文本;
A={a1,a2,··,aM}为T中涉及的汉字集合,M表示汉字集合中汉字的个数,
Lj表示文本中Tj一共有Lj个字,
表示第j个未分词文本Tj的第Lj个字对应的词边界向量的分量;
如果文本Tj中第l个字的后面有词边界分隔符,则bjl=1,否则为0;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学,未经清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210117834.5/2.html,转载请声明来源钻瓜专利网。