[发明专利]基于人际间会话信息的人际关系自动化画像方法有效

申请号：	201611078731.3	申请日：	2016-11-29
公开（公告）号：	CN106776895B	公开（公告）日：	2019-05-14
发明（设计）人：	王博;王渊;武贤丽	申请（专利权）人：	天津大学
主分类号：	G06F16/332	分类号：	G06F16/332;G06F16/951
代理公司：	天津市北洋有限责任专利代理事务所 12201	代理人：	李丽萍
地址：	300072***	国省代码：	天津;12
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明公开了一种基于人际间会话信息的人际关系自动化画像方法，主要是通过提取会话信息中的频繁项集，进而挖掘频繁项集中的主题来反映关系内涵，步骤是，首先定义会话双方之间的会话信息集合，然后采用FP‑Growth算法在会话信息集合中挖掘出一个频繁项集，所述频繁项集中频繁项的长度为2到10，所述频繁项集的最小支持度的最小取值为2，最大取值为会话信息集合中会话信息的数量；根据上述挖掘出的频繁项集中提取多个关键主题词，将这些关键主题词组合后即为会话信息中的主题；最后将主题作为会话双方的关系内涵。
搜索关键词：	基于人际会话信息人际关系自动化画像方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种基于人际间会话信息的人际关系自动化画像方法，其特征在于：包括以下步骤：步骤一、定义会话双方之间的会话信息集合：P＝{P₁,P₂,...,P_n}，P是指会话双方之间的会话信息集合；其中，P_i是指会话信息集合中的某一条会话信息；当W_i.sup>＝min_sup时，将会话信息集合P中的一个单词集合W_i称为一个频繁项；其中，W_i.sup表示会话信息集合P中一个单词集合W_i的支持度，支持度为n表示在会话信息集合P中有n条信息包含单词集合W_i；min_sup用来表示会话信息集合P中一个频繁项的最小支持度；步骤二、频繁项集的挖掘：采用FP‑Growth算法在会话信息集合P中挖掘出一个频繁项集；设会话信息集合P大小为size，单位是kb，且会话信息集合P中包含m条会话信息，则该频繁项的最小支持度的取值按照如下公式计算可得：式(1)中，p的取值范围为0.2‑0.5，所述频繁项集中频繁项的长度为2到10；步骤三、提取会话信息中的主题，有下述两种方法之一：方法一是将步骤二挖掘出的频繁项集中的频繁项按照频繁项的支持度进行降序排列，然后提取前3‑5个频繁项作为主题，这些主题词组合后即为会话信息中的主题；方法二包括以下两步骤：步骤2‑1、频繁项集聚类：首先，进行相似频繁项的过滤，过滤掉所述频繁项集中的所有子集和频繁项集中相似度很高的交叉项得到重要频繁项集；其中，交叉项指的是频繁项集中有相同单词的频繁项；F＝{F₁,F₂,...,F_m}为过滤前的频繁项集，将重要频繁项集初始化为Key_F＝Φ，重要频繁项集记为Key_F；对于进行下述处理过程：对于如果F_i是F_j的一个子集，将F_i从F移除；如果F_i是F_j的交叉项，F_i与F_j之间的Jacard相似度J(F_i,F_j)用以下公式计算：J(F_i,F_j)＝|F_i∩F_j|/|F_i∪F_j|当F_i与F_j之间的相似度大于0.5时，将F_i从F中移除；如果对于J(F_i,F_j)均小于等于0.5时，则将F_i添加至Key_F；重复上述处理过程直至F＝Key_F；此时Key_F中的项集即为过滤后的重要频繁项集；然后，计算过滤后的重要频繁项集Key_F中包含的全部单词在会话双方会话信息集合P中的逆向文本频率即idf值；利用所述idf值计算重要频繁项集Key_F中任意两个频繁项之间的相似度，两个频繁项之间的相似度等于两个频繁项的相关文本集之间的相似度；其中，相关文本集用以下方法求得：通过计算过滤前的频繁项集中的F_i与会话信息集合P中的某一条会话信息P_i之间的相似度，如果F_i与P_i之间的相似度大于c，c的取值范围为0.05‑0.2；则将P_i添加至F_i的相关文本集当中，最终，F_i的相关文本集用R_i进行表示，F_i与P_i之间的相似度由如下公式求得：式(2)中，tf_ij指的是F_i中的第j个单词在P_i中出现的频率，idf_ij指的F_i中的第j个单词的逆向文本频率，得到每个频繁项的相关文本集之后，利用相关文本集计算任意两个频繁项之间的相似度，计算公式如下：得到任意两个频繁项之间的相似度之后，进行聚类个数的估计；设定有一频繁项集簇，并将该频繁项集簇初始化为C＝{C₁}，C₁＝{F₁}，F₁是从Key_F中随机选择的一个频繁项；对于比较F_i和C中当前所有的簇之间的相似度，频繁项F_i和簇C_k之间的相似度计算如下：如果C_sim是与F_i相似度最高的那个簇而且sim(F_i,C_sim)>b，b＝0.2，则将F_i添加至C_sim；如果sim(F_i,C_sim)<＝b，则创建一个新的簇并把F_i添加至新簇；然后，把C中的簇按照簇的大小进行降序排列，即C_sort＝{C₍₁₎,C₍₂₎,...,C_(n)}；依次累加C_(i)中的频繁项个数直至累加和超过Key_F中总的频繁项个数的80％；如果k是最后一个在C_sort中累加的下标，则k就是最终的预估聚类个数；得到预估的聚类个数，使用K‑means算法对Key_F中的所有频繁项进行聚类；步骤2‑2、提取聚类后的主题：通过抽取聚类之后的每个类中的主题词，将这些主题词组合作为该类的主题，抽取主题词时，考虑的因素包括词的tf值、簇内支持度和簇间区分度；对于每个类中的所有单词，按照如下公式计算每一个词的重要程度：式(5)中，第一项、第二项、第三项分别表示词的tf值、簇内支持度和簇间区分度；W_ki指的是第k个类中的第i个单词，tf_ki指的是第k个类中的第i个单词的的tf值；|F_ki|指的是在第k个类中包含单词w_ki的频繁项个数；|F_k|指的是第k个类中总的频繁项个数；|F_i|指的是在Key_F中包含单词W_ki的频繁项个数；|F|指的是Key_F中总的频繁项个数；|C_i|指的是包含单词W_ki的类的个数；|C|指的是类的总数；得到每个单词的重要程度之后，把每个类中的单词按照其重要程度进行降序排列，然后选择前3～6个的单词作为主题词，这些主题词的组合即为该类中的主题；步骤四、确定会话双方的关系内涵：根据步骤三获得的会话信息中的主题，得出会话双方的关系内涵。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于天津大学，未经天津大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201611078731.3/，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于人际间会话信息的人际关系自动化画像方法有效

专利文献下载