[发明专利]基于人际间会话信息的人际关系自动化画像方法有效
申请号: | 201611078731.3 | 申请日: | 2016-11-29 |
公开(公告)号: | CN106776895B | 公开(公告)日: | 2019-05-14 |
发明(设计)人: | 王博;王渊;武贤丽 | 申请(专利权)人: | 天津大学 |
主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F16/951 |
代理公司: | 天津市北洋有限责任专利代理事务所 12201 | 代理人: | 李丽萍 |
地址: | 300072*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于人际间会话信息的人际关系自动化画像方法,主要是通过提取会话信息中的频繁项集,进而挖掘频繁项集中的主题来反映关系内涵,步骤是,首先定义会话双方之间的会话信息集合,然后采用FP‑Growth算法在会话信息集合中挖掘出一个频繁项集,所述频繁项集中频繁项的长度为2到10,所述频繁项集的最小支持度的最小取值为2,最大取值为会话信息集合中会话信息的数量;根据上述挖掘出的频繁项集中提取多个关键主题词,将这些关键主题词组合后即为会话信息中的主题;最后将主题作为会话双方的关系内涵。 | ||
搜索关键词: | 基于 人际 会话 信息 人际关系 自动化 画像 方法 | ||
【主权项】:
1.一种基于人际间会话信息的人际关系自动化画像方法,其特征在于:包括以下步骤:步骤一、定义会话双方之间的会话信息集合:P={P1,P2,...,Pn},P是指会话双方之间的会话信息集合;其中,Pi是指会话信息集合中的某一条会话信息;当Wi.sup>=min_sup时,将会话信息集合P中的一个单词集合Wi称为一个频繁项;其中,Wi.sup表示会话信息集合P中一个单词集合Wi的支持度,支持度为n表示在会话信息集合P中有n条信息包含单词集合Wi;min_sup用来表示会话信息集合P中一个频繁项的最小支持度;步骤二、频繁项集的挖掘:采用FP‑Growth算法在会话信息集合P中挖掘出一个频繁项集;设会话信息集合P大小为size,单位是kb,且会话信息集合P中包含m条会话信息,则该频繁项的最小支持度的取值按照如下公式计算可得:
式(1)中,p的取值范围为0.2‑0.5,所述频繁项集中频繁项的长度为2到10;步骤三、提取会话信息中的主题,有下述两种方法之一:方法一是将步骤二挖掘出的频繁项集中的频繁项按照频繁项的支持度进行降序排列,然后提取前3‑5个频繁项作为主题,这些主题词组合后即为会话信息中的主题;方法二包括以下两步骤:步骤2‑1、频繁项集聚类:首先,进行相似频繁项的过滤,过滤掉所述频繁项集中的所有子集和频繁项集中相似度很高的交叉项得到重要频繁项集;其中,交叉项指的是频繁项集中有相同单词的频繁项;F={F1,F2,...,Fm}为过滤前的频繁项集,将重要频繁项集初始化为Key_F=Φ,重要频繁项集记为Key_F;对于
进行下述处理过程:对于
如果Fi是Fj的一个子集,将Fi从F移除;如果Fi是Fj的交叉项,Fi与Fj之间的Jacard相似度J(Fi,Fj)用以下公式计算:J(Fi,Fj)=|Fi∩Fj|/|Fi∪Fj|当Fi与Fj之间的相似度大于0.5时,将Fi从F中移除;如果对于
J(Fi,Fj)均小于等于0.5时,则将Fi添加至Key_F;重复上述处理过程直至F=Key_F;此时Key_F中的项集即为过滤后的重要频繁项集;然后,计算过滤后的重要频繁项集Key_F中包含的全部单词在会话双方会话信息集合P中的逆向文本频率即idf值;利用所述idf值计算重要频繁项集Key_F中任意两个频繁项之间的相似度,两个频繁项之间的相似度等于两个频繁项的相关文本集之间的相似度;其中,相关文本集用以下方法求得:通过计算过滤前的频繁项集中的Fi与会话信息集合P中的某一条会话信息Pi之间的相似度,如果Fi与Pi之间的相似度大于c,c的取值范围为0.05‑0.2;则将Pi添加至Fi的相关文本集当中,最终,Fi的相关文本集用Ri进行表示,Fi与Pi之间的相似度由如下公式求得:
式(2)中,tfij指的是Fi中的第j个单词在Pi中出现的频率,idfij指的Fi中的第j个单词的逆向文本频率,得到每个频繁项的相关文本集之后,利用相关文本集计算任意两个频繁项之间的相似度,计算公式如下:
得到任意两个频繁项之间的相似度之后,进行聚类个数的估计;设定有一频繁项集簇,并将该频繁项集簇初始化为C={C1},C1={F1},F1是从Key_F中随机选择的一个频繁项;对于
比较Fi和C中当前所有的簇之间的相似度,频繁项Fi和簇Ck之间的相似度计算如下:
如果Csim是与Fi相似度最高的那个簇而且sim(Fi,Csim)>b,b=0.2,则将Fi添加至Csim;如果sim(Fi,Csim)<=b,则创建一个新的簇并把Fi添加至新簇;然后,把C中的簇按照簇的大小进行降序排列,即Csort={C(1),C(2),...,C(n)};依次累加C(i)中的频繁项个数直至累加和超过Key_F中总的频繁项个数的80%;如果k是最后一个在Csort中累加的下标,则k就是最终的预估聚类个数;得到预估的聚类个数,使用K‑means算法对Key_F中的所有频繁项进行聚类;步骤2‑2、提取聚类后的主题:通过抽取聚类之后的每个类中的主题词,将这些主题词组合作为该类的主题,抽取主题词时,考虑的因素包括词的tf值、簇内支持度和簇间区分度;对于每个类中的所有单词,按照如下公式计算每一个词的重要程度:
式(5)中,第一项、第二项、第三项分别表示词的tf值、簇内支持度和簇间区分度;Wki指的是第k个类中的第i个单词,tfki指的是第k个类中的第i个单词的的tf值;|Fki|指的是在第k个类中包含单词wki的频繁项个数;|Fk|指的是第k个类中总的频繁项个数;|Fi|指的是在Key_F中包含单词Wki的频繁项个数;|F|指的是Key_F中总的频繁项个数;|Ci|指的是包含单词Wki的类的个数;|C|指的是类的总数;得到每个单词的重要程度之后,把每个类中的单词按照其重要程度进行降序排列,然后选择前3~6个的单词作为主题词,这些主题词的组合即为该类中的主题;步骤四、确定会话双方的关系内涵:根据步骤三获得的会话信息中的主题,得出会话双方的关系内涵。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天津大学,未经天津大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201611078731.3/,转载请声明来源钻瓜专利网。
- 上一篇:日志数据库系统和同步方法
- 下一篇:一种快速的图融合图像检索方法
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置