[发明专利]一种5G移动业务产品词库的构建方法及系统有效
申请号: | 202110585587.7 | 申请日: | 2021-05-27 |
公开(公告)号: | CN113312903B | 公开(公告)日: | 2022-04-19 |
发明(设计)人: | 杨京虎;李忠斌;段亮;岳昆;胡矿 | 申请(专利权)人: | 云南大学 |
主分类号: | G06F40/242 | 分类号: | G06F40/242;G06F40/126;G06F40/216;G06F40/284;G06F40/30;G06N3/08 |
代理公司: | 北京高沃律师事务所 11569 | 代理人: | 韩雪梅 |
地址: | 650091*** | 国省代码: | 云南;53 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 移动 业务 产品 词库 构建 方法 系统 | ||
本发明涉及一种5G移动业务产品词库的构建方法及系统。该方法包括:获取套餐办理类来电文本,基于字符串模式匹配算法,构建原始词源数据集;计算所有分词词语的词频以及逆文档频率,构建词频‑逆文档频率矩阵;根据词频‑逆文档频率矩阵确定移动业务产品词集以及移动业务语义词集;对所有分词词语进行编码,确定分词词语的编码;根据移动业务产品词集以及移动业务语义词集确定负样本数据集;将分词词语以及分词词语的编码加载至神经网络模型中,利用负样本数据集训练加载后的神经网络模型,生成训练后的神经网络模型;基于训练后的神经网络模型,利用移动业务产品词集构建产品词库以及同义词库。本发明能够准确提供移动业务产品以及提高识别效率。
技术领域
本发明涉及自然语言处理领域,特别是涉及一种5G移动业务产品词库的构建方法及系统。
背景技术
自然语言处理(Natural Language Processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向,研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。
在语言文本中,命名实体是信息的主要载体,旨在识别文本中特定实体信息;命名实体识别(Name Entity Recognition,NER)用来构建移动业务产品词库,产品词库构建以命名实体识别为核心,文本为输入、识别出的词集为输出;命名实体识别的质量直接影响到后续的移动业务需求,因此命名实体识别是信息处理的前提和重要任务。
命名实体识别方法包括基于词典的命名实体识别方法、基于规则的命名实体识别方法、基于无监督学习的命名实体识别的方法、基于特征的监督学习的命名实体识别方法和基于深度学习的命名实体识别方法。
基于词典的命名实体识别方法包括通用领域词典和特定领域词典,首先构造一定规模的实体词典,然后通过字符串多模匹配,切词匹配和词典来进行命名实体识别。基于规则的命名实体识别方法主要依赖人工特征,可以基于特定领域或者特定语法规则来设计规则;当词汇详尽时,基于规则的识别方法效果很好;然而由于特定领域的规则和不完整的词典,这类方法往往具有较高的精度和较低的召回率,适用领域有限。基于无监督学习的命名实体识别方法的主要思想为:词汇、词语模式以及在大语料上计算的统计特性可以用来推断命名实体的出现,其中典型的是基于文本相似性来聚类的NER提取方法。基于特征的监督学习的命名实体识别方法是将NER问题转化为一个多分类问题或者序列标注问题,通过精心设计的特征,在标注语料上进行训练,从而在未知文本上识别出类似的模式实体。基于深度学习的命名实体识别方法主要从输入、编码、解码三个方面来生成NER模型,其原理是将字或者词映射为单一向量,标注语料,然后输入神经网络模型中进行学习和标签预测,其中,经典模型是BiLSTM-CRF模型。
上述方法存在下列缺陷:
基于词典的命名实体识别方法,在一般情况下仅适用于通用领域,在特定领域上严重依赖于词库,无法识别词库中不存在的词,且在实体嵌套情形下识别困难。基于规则的命名实体识别方法,在构建规则时需要具有一定的语言学背景知识,且跨语言困难,如中文表达具有多样性,规则难以枚举且容易冲突,不具有迁移性。基于无监督学习的命名实体识别的方法,应用范围有限,常常一种方法只能在一个问题节点上处理。基于特征的监督学习的命名实体识别方法,严重依赖于特征明显的文本,实用范围有限。基于深度学习的命名实体识别方法,在字或词的多义性上难以表征,且模型参数庞大,训练时间长,加载速度慢,不能很好地满足实时应用交互型产品。
现有的套餐办理类来话文本数据为移动客服与客户的对话记录,存在文本质量不高,如对话记录不完整、语义歧义及关键词错误等问题,由于文本质量低导致无法准确提供移动业务产品,且移动业务需要高效地识别文本,进行实时交互处理,因此,词库的成功构建关系着后续的一系列需求,如监控客服是否主动推销业务、如何基于客户实际情况进行业务推荐,客户投诉问题的根源追踪等;由此可见,利用上述命名实体识别方法构建移动业务产品词库尚不能满足这种情况下的词库构建及维护的需求。
发明内容
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于云南大学,未经云南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110585587.7/2.html,转载请声明来源钻瓜专利网。