[发明专利]基于在线社会媒体信息自动化度量社会关系主观性强度的方法在审
申请号: | 201611075092.5 | 申请日: | 2016-11-29 |
公开(公告)号: | CN106780059A | 公开(公告)日: | 2017-05-31 |
发明(设计)人: | 王博;武贤丽;郁延书 | 申请(专利权)人: | 天津大学 |
主分类号: | G06Q50/00 | 分类号: | G06Q50/00 |
代理公司: | 天津市北洋有限责任专利代理事务所12201 | 代理人: | 李丽萍 |
地址: | 300072*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于在线社会媒体信息自动化度量社会关系主观性强度的方法,步骤是抽取关系双方互动次数均不小于15的用户对以及用户对双方各自的互动语言内容;基于用户对双方各自的互动语言内容,分别抽取并计算用户对双方的语言特征值(频率、长度、流畅性和情感极性)得到一个特征值列表文件;基于个人语言习惯规范特征值列表文件得到一个相对特征值列表文件,而后转化为相对特征值序列;以有向图表示一给定的社交网络,找出具有互动关系的用户对的双方同时主动与第三方沟通,以用户对的双方和第三方作为顶点所构成的有向三角形;建立并求解计算用户对双方对彼此的主观看法的最优化模型,最终得出所有用户对双方对彼此的主观看法。 | ||
搜索关键词: | 基于 在线 社会 媒体 信息 自动化 度量 社会关系 主观性 强度 方法 | ||
【主权项】:
一种基于在线社会媒体信息自动化度量社会关系主观性强度的方法,其特征在于,包括以下步骤:步骤一、抽取关系双方互动次数均不小于m的用户对以及用户对双方各自的互动语言内容,m为阈值,m的取值为15;步骤二、基于用户对双方各自的互动语言内容,分别抽取用户对双方的四个语言特征值,所述四个语言特征值分别是频率、长度、流畅性以及情感极性,所述频率是指定时间段内的互动次数,所述长度是交互式语言的字的数量,所述流畅性用于反映互动语言中词和语法的规范度和质量,所述情感极性用于反映交互式语言的情绪倾向;对每个用户对双方均分别计算以上四个特征值,从而得到一个特征值列表文件备用;所述频率的计算公式如下:frequency_scorei,j=Nt2-t1---(1)]]>式(1)中,frequency_scorei,j表示用户对中的用户i对用户j的互动语言内容的互动频率,N表示用户i对用户j的互动语言内容的互动次数,t1和t2分别表示用户i对用户j的互动语言内容的最早和最晚的互动时间;所述长度的计算公式如下:length_scorei,j=wN---(2)]]>式(2)中,length_scorei,j表示用户对中的用户i对用户j的互动语言内容的长度,w表示用户i对用户j的互动语言内容的单词数目;所述流畅性的计算公式如下:perplexity_scorei,j=10(‑logprob/(words‑oovs+1)) (3)式(3)中,perplexity_scorei,j表示用户对中的用户i对用户j的互动语言内容的混乱度,prob是用户i对用户j的互动语言内容的句子的生成概率,words和oovs分别是指用户i对用户j的互动语言内容的句子中的词汇数和该句子中不在SRI语言建模工具包中的词典中的单词数量;所述情感极性的计算公式如下:Sentiment_scorei,j=WS---(4)]]>式(4)中,Sentiment_scorei,j表示用户对中的用户i对用户j的互动语言内容的情感极性,S是用户i对用户j的互动语言内容的句子数目,这些句子的所有情绪词得分为W,所述情绪词得分W的计算方法是基于情感词典统计出用户对中的用户i对用户j的互动语言内容中出现的正面及负面情感词及评价词数量,对于互动语言内容中每出现一个正面词计+1、一个负面词计‑1;所述情绪词得分W为互动语言内容中正面词和负面词得分的代数和;步骤三、基于个人语言习惯将步骤二获得的特征值列表文件中用户对双方的语言特征值规范化,得到一个相对特征值列表文件备用;个人语言习惯值通过公式(5)得到:Hf(i)=1|C|Σi∈Cf(i,j)---(5)]]>式(5)中,Hf(i)是用户i的个人语言习惯值,f(i,j)是由步骤二获得的用户i对用户j所说的语言的语言特征值,C是与用户i通信的所有用户的集合,|C|表示与用户i通信的所有用户的数目;语言特征值规范化的结果通过公式(6)得到:f′(i,j)=f(i,j)-Hf(i)Hf(i)---(6)]]>式(6)中,f'(i,j)是用户i对用户j所说的语言规范化后的语言特征值;步骤四、将步骤三获得的相对特征值列表转化为相对特征值序列,从而获得一个包含全部用户对双向的相对特征值序列;步骤五、以有向图表示一给定的社交网络,在该社交网络中找出有向三角形,所述有向三角形是指具有互动关系的用户对的双方同时主动与第三方沟通,以用户对的双方和第三方作为顶点所构成的三角形;步骤六、建立计算用户对双方对彼此的主观看法的最优化模型,利用matlab求解该最优化模型,从而得出所有用户对双方对彼此的主观看法;所述最优化模型如下表示:s*=argmins∈[0,1]|E|Σe∈E,fe∈{f1e,f2e,f3e,f44}c~(se,fe)+Σt∈Td~(st)---(7)]]>式(7)中,s*表示用户对双方对彼此的主观看法的集合,该集合s*是n*1维的向量,n表示嵌入社交网络的边缘的数目,边缘符号向量集合s∈[0,1]|E|表示用户对彼此之间相互关系的主观强度;第一项是总边缘成本,其中,|E|表示嵌入社交网络的边缘的数目,fe∈{f1e,f2e,f3e,f44}表示基于语言内容测量的边缘e的四个语言特征值,四个语言特征值分别是频率,长度,流畅性和情感极性,表示边缘e∈E的边缘符号se偏离语言特征值fe的成本;c~(se,fe)=λ1||se-fe||++λ0||fe-se||+---(8)]]>式(8)中,为单条边缘成本,λ1,λ0∈R+是可调参数,λ1,λ0分别用于调整最高或最低的不对称成本,边缘符号se偏离语言特征值fe越多,单条边缘成本越高;||y||+=max{0,y}是hinge loss;第二项是总有向三角形成本,即惩罚社交网络中的所有有向三角形t∈T中的用户对彼此之间相互关系强度的主观观点st∈{0,1}4违反有向三角形的社会关系平衡理论的成本的总和;所述来表示有向三角形t中的用户A、用户B和用户C对彼此之间相互关系强度的主观观点;其中,表示用户A对用户A与用户B之间的关系强度的主观观点,表示用户B对用户A与用户B之间的关系强度的主观观点,表示用户A对用户A与用户C之间的关系强度的主观观点,表示用户B对用户B与用户C之间的关系强度的主观观点;d~(st)=Σz∈{0,1}4F(st,z)---(9)]]>式(9)中,是单个有向三角形成本;式(10)中,t1,t2∈R+是可调节参数,其中,f(st,z)=||1‑||st‑z||1||+ (11)式(11)中,是有向三角形t中的用户A、用户B和用户C对彼此之间相互关系强度的主观观点st偏离有向三角形z的偏离度;若st偏离平衡的有向三角形越多,则有向三角形t的成本越高,反之,越低;st偏离不平衡的有向三角形越多,有向三角形t的成本越低,反之,越高。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天津大学,未经天津大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201611075092.5/,转载请声明来源钻瓜专利网。