[发明专利]基于联合相似度的民航旅客不文明等级预测方法及系统有效
申请号: | 201910404740.4 | 申请日: | 2019-05-15 |
公开(公告)号: | CN110084440B | 公开(公告)日: | 2022-12-23 |
发明(设计)人: | 丁建立;李洋;王怀超 | 申请(专利权)人: | 中国民航大学 |
主分类号: | G06Q10/04 | 分类号: | G06Q10/04;G06Q50/30;G06F16/33;G06F40/211;G06F40/289 |
代理公司: | 天津市鼎和专利商标代理有限公司 12101 | 代理人: | 蒙建军 |
地址: | 300300 天*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明涉及一种基于联合相似度的民航旅客不文明等级预测方法及系统,包括:一:数据预处理;二:文本信息的特征提取;三:民航不文明旅客与社会不文明人员的不文明行为通过IPS算法进行句子向量表示;四:不文明旅客的惩处特征的度量,五:基于联合相似度匹配的旅客不文明等级预测,六:通过对来自民航和社会两部分不文明旅客和不文明人员行为数据进行整理,并带入联合相似度匹配模型进行计算,同时分别在平均词向量算法、Doc2vec模型、IPS算法、以及IPBS‑IPS算法中进行实验对比与分析,依据各模型的相似度值来预测在从事民航活动的人员发生不文明行为的潜在程度,通过查准率、召回率、F1值和准确率来对实验结果进行评估。 | ||
搜索关键词: | 基于 联合 相似 民航 旅客 不文明 等级 预测 方法 系统 | ||
【主权项】:
1.一种基于联合相似度的民航旅客不文明等级预测方法,其特征在于:至少包括如下步骤:步骤一:数据预处理;将来自于民航和社会两部分的不文明旅客信息记录和不文明人员信息记录进行处理生成待输入数据集,根据数据来源的不同将数据分为民航和社会两个数据集,同时对数据进行如下的清洗:删除重复数据,将文档中的杂乱字符进行替换,从而达到统一的数据组织方式,将民航与社会中的不文明信息记录和惩处结果分属表示为后续模型的运算提供数据输入;步骤二:文本信息的特征提取;来自民航和社会的不文明信息记录以文本形式存在,对旅客发生不文明行为的潜在程度的预测,通过word2vec算法对文本信息进行特征提取,word2vec算法专注于神经网络学习的单词的分布式表示,将单个词表示为语义空间的词向量,通过skip‑gram模型通过当前单词词向量预测周围单词词向量的机制获得不文明旅客文本记录信息的语义表示;步骤三:民航不文明旅客与社会不文明人员的不文明行为通过IPS算法进行句子向量表示;不文明旅客行为记录的文本信息是通过短文本的句子形式记录的,依据word2vec算法将文本信息处理成词向量,再通过IPS算法进行加权求和获得不文明行为的句子向量表示;公式表述如下:
X←{vs:s∈S}vs←vs‑uuTvs算法中:w代表一个词,V代表整个语料库生成的词的全集,vw代表词向量,即{vw:w∈V};s代表一个句子或段落,S代表数据中所有句子的全集,vs是句子向量,即{vs:s∈S};其中a为平滑反频率参数,p(w)为单词在整个语料库中的频率;为了句子向量和语义空间上下文建立联系,将所有的句子向量组成矩阵X,得到X的第一奇异向量u,通过第一奇异向量u对原本的vs进行更新获得最新的vs向量表示;步骤四:不文明旅客的惩处特征的度量,具体为:1)引入不文明旅客处罚规则概率P,在不文明旅客处罚规则关系网络中,C代表不文明旅客的处罚类型的集合,Ci代表不文明旅客的第i种处罚类型,P(Ci)的表达式为:
式中:∑Ci代表i种处罚类型总数,
为所有处罚类型数目之和;不文明旅客的处罚类型在当前所有处罚情况中所占比重不同,引入概率保证度量的合理性;2)引入不文明旅客行为严重程度归一度量标准L,在不文明旅客的处罚结果中,Cij为第i种处罚类型j处罚结果,Max(Cij)为i类型种j处罚结果中的最大值,Lij的表达式为:
其中:Lij的值域为Lij∈(0,1),Max(Cij)+1可防止Lij=1情况的出现;3)不文明旅客处罚规则的归一标准度量矩阵PL公式为:
4)引入概率模型寻优参数β,![]()
其中:λ为处罚规则的平滑反频率,β为反频率参数,β∈(10‑4,100)。β的引入使得每一类的PL值随处罚梯度上升而增加,以ω=2e‑5作为步长使β在(10‑4,100)上寻优,优化后的PL值随处罚梯度的上升而增加;步骤五:基于联合相似度匹配的旅客不文明等级预测,具体步骤如下:使用余弦相似度来比较来自民航和社会的不文明文本记录的语义相似性,使用改进的反正切函数来比较两个处罚统一度量值的相似性,并为联合相似度匹配算法设置加权参数,联合相似度算法表述如下:![]()
sims=α·cos(vi,vj)+(1‑α)sim(PLi,PLj)约束条件:α>(1‑α),α∈(0,1)其中:cosθ为余弦距离来度量不文明记录的语义相似度,sim()为改进的反正切函数来度量惩处特征的相似度,sims()算法是联合相似度匹配算法,α为权重参数;步骤六:通过对来自民航和社会两部分不文明旅客和不文明人员行为数据进行整理,并带入联合相似度匹配模型进行计算,同时分别在平均词向量算法、Doc2vec模型、IPS算法、以及IPBS‑IPS算法中进行实验对比与分析,并依据各模型的相似度值来预测在从事民航活动的人员发生不文明行为的潜在程度,最后通过查准率、召回率、F1值和准确率来对实验结果进行评估。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国民航大学,未经中国民航大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201910404740.4/,转载请声明来源钻瓜专利网。
- 同类专利
- 专利分类
G06 计算;推算;计数
G06Q 专门适用于行政、商业、金融、管理、监督或预测目的的数据处理系统或方法;其他类目不包含的专门适用于行政、商业、金融、管理、监督或预测目的的处理系统或方法
G06Q10-00 行政;管理
G06Q10-02 .预定,例如用于门票、服务或事件的
G06Q10-04 .预测或优化,例如线性规划、“旅行商问题”或“下料问题”
G06Q10-06 .资源、工作流、人员或项目管理,例如组织、规划、调度或分配时间、人员或机器资源;企业规划;组织模型
G06Q10-08 .物流,例如仓储、装货、配送或运输;存货或库存管理,例如订货、采购或平衡订单
G06Q10-10 .办公自动化,例如电子邮件或群件的计算机辅助管理
G06Q 专门适用于行政、商业、金融、管理、监督或预测目的的数据处理系统或方法;其他类目不包含的专门适用于行政、商业、金融、管理、监督或预测目的的处理系统或方法
G06Q10-00 行政;管理
G06Q10-02 .预定,例如用于门票、服务或事件的
G06Q10-04 .预测或优化,例如线性规划、“旅行商问题”或“下料问题”
G06Q10-06 .资源、工作流、人员或项目管理,例如组织、规划、调度或分配时间、人员或机器资源;企业规划;组织模型
G06Q10-08 .物流,例如仓储、装货、配送或运输;存货或库存管理,例如订货、采购或平衡订单
G06Q10-10 .办公自动化,例如电子邮件或群件的计算机辅助管理