[发明专利]中文分词方法、装置及设备在审
申请号: | 202211728809.7 | 申请日: | 2022-12-30 |
公开(公告)号: | CN116205223A | 公开(公告)日: | 2023-06-02 |
发明(设计)人: | 王振常;王星皓;吕晗;李佳;刘文娟;孙婧;蔡林坤;王伊玲;陈乾;汤若薇;任鹏玲;刘雅文;杨文博 | 申请(专利权)人: | 首都医科大学附属北京友谊医院 |
主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F17/18;G06N3/047;G06N3/088 |
代理公司: | 北京太合九思知识产权代理有限公司 11610 | 代理人: | 孙明子;刘戈 |
地址: | 100050*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 中文 分词 方法 装置 设备 | ||
1.一种中文分词方法,其特征在于,包括:
获取待分词的DR报告;
对所述DR报告中的文本进行字嵌入处理,获得所述文本中每个字所对应的字向量;
确定所述文本中各个字向量之间的关联关系;
基于所述关联关系,对所述文本进行分词处理,获得多个分词标签以及所述多个分词标签各自对应的概率;
根据多个分词标签以及所述多个分词标签各自对应的概率,确定所述待分词的DR报告的分词结果。
2.根据权利要求1所述的方法,其特征在于,所述确定所述文本中各个字向量之间的关联关系,包括:
基于DR报告语料,确定所述文本中各个字向量的邻域特征;
获取各个字向量之间的连接关系;
基于所述各个字向量之间的连接关系,确定领域特征所对应的权重;
基于所述权重,确定所述文本中各个字向量之间的关联关系。
3.根据权利要求1所述的方法,其特征在于,所述确定所述文本中各个字向量之间的关联关系;基于所述关联关系,对所述文本进行分词处理,获得多个分词标签以及所述多个分词标签各自对应的概率,包括:
将所述文本中各个字所对应的字向量输入至预先训练的中文分词模型,以利用所述中文分词模型获得所述文本所对应的多个分词标签、以及所述多个分词标签各自对应的概率,其中所述中文分词模型被训练为对文本进行分词,并预测分词标签所对应的概率。
4.根据权利要求3所述的方法,其特征在于,所述方法还包括:
获取预先标注的DR报告语料;
对所述预先批注的DR报告语料进行字嵌入处理,获得所述DR报告语料所对应的多个词向量;
将所述多个词向量输入至图注意力神经网络中进行训练,获取预先训练的中文分词模型。
5.根据权利要求4所述的方法,其特征在于,所述获得预先标注的DR报告语料,包括:
获取多个DR报告文本;
基于预设的分词包,对所述多个DR报告文本进行分词,获得初步分词结果;
对所述初步分词结果进行校正处理,获得校正后的分词结果;
使用4词标注法,对所述校正后的分词结果进行标注处理,获得预先批注的DR报告语料。
6.根据权利要求5所述的方法,其特征在于,所述将所述DR报告语料输入至图注意力神经网络模型中进行训练,获得预先训练的中文分词模型,包括:
将所述DR报告语料所对应的多个词向量输入至图注意力神经网络模型中;
基于所述多个词向量,确定所述多个词向量所对应的有向图;
基于所述有向图,确定所述图注意力神经网络模型中各个参数所对应的权重;
基于所述各个参数所对应的权重,生成预先训练的中文分词模型。
7.根据权利要求6所述的方法,其特征在于,所述基于所述多个词向量,确定所述多个词向量所对应的有向图,包括:
确定所述各个词向量之间的第一边权值;
确定所述词向量与所述文本向量之间的第二边权值;
基于所述第一边权值和所述第二边权值,确定所述多个词向量所对应的有向图。
8.根据权利要求1所述的方法,其特征在于,所述根据多个分词标签以及所述多个分词标签各自对应的概率,确定所述待分词的DR报告的分词结果,包括:
将所述多个分词标签各自对应的概率从大到小进行排序;
将概率最大的的分词标签确定为目标分词标签;
将所述目标分词标签,确定为所述待分词的DR报告的分词结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于首都医科大学附属北京友谊医院,未经首都医科大学附属北京友谊医院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211728809.7/1.html,转载请声明来源钻瓜专利网。