[发明专利]一种5G移动业务产品词库的构建方法及系统有效
申请号: | 202110585587.7 | 申请日: | 2021-05-27 |
公开(公告)号: | CN113312903B | 公开(公告)日: | 2022-04-19 |
发明(设计)人: | 杨京虎;李忠斌;段亮;岳昆;胡矿 | 申请(专利权)人: | 云南大学 |
主分类号: | G06F40/242 | 分类号: | G06F40/242;G06F40/126;G06F40/216;G06F40/284;G06F40/30;G06N3/08 |
代理公司: | 北京高沃律师事务所 11569 | 代理人: | 韩雪梅 |
地址: | 650091*** | 国省代码: | 云南;53 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 移动 业务 产品 词库 构建 方法 系统 | ||
1.一种5G移动业务产品词库的构建方法,其特征在于,包括:
获取套餐办理类来电文本,并基于字符串模式匹配算法,根据所述套餐办理类来电文本构建原始词源数据集;所述原始词源数据集包括多个分词词语;
所述基于字符串模式匹配算法,根据所述套餐办理类来电文本构建原始词源数据集,具体包括:
从所述套餐办理类来话文本中的每一行数据采集语料,生成初始语料数据集;所述每一行数据包括通话内容、通话流水号以及文本类型;
基于字符串模式匹配算法,对所述初始语料数据集进行正则化处理,生成处理后的数据集;
获取通用日常文本用词,并根据所述通用日常文本用词构建停用词库;
根据所述停用词库过滤所述处理后的数据集,生成过滤后的数据集;
利用分词工具对所述过滤后的数据集进行分词处理,构建原始词源数据集;
计算所述原始词源数据集内所有所述分词词语的词频以及逆文档频率,构建词频-逆文档频率矩阵;
所述计算所述原始词源数据集内所有所述分词词语的词频以及逆文档频率,构建词频-逆文档频率矩阵,具体包括:
利用公式计算所述分词词语的词频;其中,wtf为词频,αij为原始词源数据集中的每一个分词词语σij在所述套餐办理类来话文本中所出现的次数;
利用公式计算逆文档频率;其中,widf为逆文档频率,|ω|所述套餐办理类来话文本的总条数,|χ|为包含分词词语σij的文本条数;
所述词频-逆文档频率矩阵为:
其中,为第T行第C列的词语wTC及wTC的Tf-idf值其中,0<T<50,0<C<20,wtf-idf=wtf×widf;w11的tf-idf值最大,w12的tf-idf值次之,Tf-idf值依次递减;
根据所述词频-逆文档频率矩阵确定移动业务产品词集以及移动业务语义词集;
所述根据所述词频-逆文档频率矩阵确定移动业务产品词集以及移动业务语义词集,具体包括:
将所述词频-逆文档频率矩阵中出现的移动业务产品词加入词集,生成移动业务产品词集;
利用聚类算法,对所述词频-逆文档频率矩阵进行聚类处理,将与移动业务语义词相似度高于相似度阈值的聚类后的词语加入词集,生成移动业务语义词集;
对所有所述分词词语进行编码,确定所述分词词语的编码;
所述对所有所述分词词语进行编码,确定所述分词词语的编码,具体包括:
将所述原始词源数据集内的所有分词作为具有多棵树的森林;其中,每棵树只有一个节点;
合并森林中两个根节点权重最小的树,作为新树的左子树以及右子树;所述新树的根结点的权重为所述左子树以及所述右子树的根结点的权重之和;
删除合并后的森林中根节点权重最小的两棵树,并所述新树添加到所述合并后的森林中;
返回“合并森林中两个根节点权重最小的树,作为新树的左子树以及右子树”,直至森林中仅剩一棵树;
根据森林中仅剩的一棵树确定所有分词词语的编码;
根据所述移动业务产品词集以及所述移动业务语义词集确定负样本数据集;
所述根据所述移动业务产品词集以及所述移动业务语义词集确定负样本数据集,具体包括:
将所述移动业务产品词集作为正例词,将所述移动业务语义词集作为负例词,根据所述正例词以及所述负例词确定输出词概率;
基于所述输出词概率,将词频进行0.75次幂运算,并根据所述词频-逆文档频率矩阵中词语的分布概率进行抽样;
若抽取的词语为正例词,抽取下一个词语;若抽取的词语不为正例词,将所述抽取的词语作为负样本数据,直至抽取的负样本数据的数量占总样本比例的60%以上,生成负样本数据集;
将所述分词词语以及所述分词词语的编码加载至神经网络模型中,并利用所述负样本数据集训练加载后的神经网络模型,生成训练后的神经网络模型;
基于所述训练后的神经网络模型,利用所述移动业务产品词集构建产品词库以及同义词库;
所述基于所述训练后的神经网络模型,利用所述移动业务产品词集构建产品词库以及同义词库,具体包括:
将所述移动业务产品词集中每个词语输入至所述训练后的神经网络模型中,输出所述移动业务产品词集中每个词语对应的词向量编码;
根据所述移动业务产品词集中每个词语对应的词向量编码与所述分词词语的词向量编码的相似度确定第一移动业务产品套餐词候选集;
根据所述第一移动业务产品套餐词候选集构建产品词库、移动业务产品词的不同表达形式以及有关联的套餐;
根据所述移动业务产品词的不同表达形式以及所述有关联的套餐构建同义词库。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于云南大学,未经云南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110585587.7/1.html,转载请声明来源钻瓜专利网。