[发明专利]一种基于多模态主动学习的中文分词方法在审

申请号：	202210796242.0	申请日：	2022-07-07
公开（公告）号：	CN115496064A	公开（公告）日：	2022-12-20
发明（设计）人：	吴含前;李昕玮;胡政;李露;王启鹏;吴国威;周爱华	申请（专利权）人：	东南大学;国网江苏省电力有限公司
主分类号：	G06F40/289	分类号：	G06F40/289;G06F40/211;G06K9/62;G06N3/04;G06N3/08
代理公司：	南京众联专利代理有限公司 32206	代理人：	杜静静
地址：	210096 ***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明公开了一种基于多模态主动学习的中文分词方法，使用音频特征作为模型补充输入，利用声学信息帮助分词。为了减少音频特征工程工作量，仅使用MFCC特征利用深度卷积神经网络ResNet进行音频特征提取。同时引入依存句法信息，利用异构图注意力神经网络实现依存句法结构图节点特征更新，使用注意力机制融合文本特征和句法结构特征得到句法文本特征，以缓解标注语料匮乏问题。本发明使用了主动学习策略，构造多样性预测模块，预测未标注样本所含信息量，选择富含信息的未标注样本进行人工标注，与已标注样本一起作为训练数据迭代提升模型性能。本发明在减少数据标注代价的基础上，在中文分词的各方面性能都较其他基线方法有了一定提升。
搜索关键词：	一种基于多模态主动学习中文分词方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

暂无信息

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于东南大学;国网江苏省电力有限公司，未经东南大学;国网江苏省电力有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/202210796242.0/，转载请声明来源钻瓜专利网。

上一篇：耐腐蚀性良好的高应变V强化管线宽厚板及其生产方法
下一篇：一种车辆控制方法、装置、设备及介质

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于多模态主动学习的中文分词方法在审

专利文献下载