[发明专利]一种用户画像构建方法在审

申请号：	201910452154.7	申请日：	2019-05-28
公开（公告）号：	CN110209767A	公开（公告）日：	2019-09-06
发明（设计）人：	周庆;侯芬;胡月;葛亮;陈超;文举;尹畅;欧娇娇;王欢	申请（专利权）人：	重庆大学
主分类号：	G06F16/33	分类号：	G06F16/33;G06F16/35;G06F17/27
代理公司：	北京康盛知识产权代理有限公司 11331	代理人：	陶俊洁
地址：	400044 ***	国省代码：	重庆;50
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	目标词画像量化结果向量形式类别词构建自然语言处理技术文本量化评论文本向量训练余弦距离弦距离分类求和申请分析
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种用户画像构建方法，其特征在于，包括步骤:

提取评价文本中的目标词和意见词；

量化意见词，得到意见词的量化结果；

将所述目标词进行分类：将各类别词和各所述目标词分别带入向量训练模型，得到有向量形式的类别词和有向量形式的目标词；计算各目标词与类别词之间的余弦距离；将最大余弦距离值所对应的目标词归入对应的类别中；

对各类别下的目标词所对应意见词的量化结果进行求和，得到各类别的分值；

根据各类别的分值得到用户画像。

2.根据权利要求1所述的一种用户画像构建方法，其特征在于，还包括如下步骤：

对评论文本进行预处理，包括：

清洗数据、筛除数据；

对评论文本进行分词、词性标注、依存句法分析。

3.根据权利要求1所述的一种用户画像构建方法，其特征在于，所述提取评价文本中的目标词和意见词，包括：

设置:初始意见词集，初始目标词集，第一初始中间意见词集，第二初始中间意见词集，第一初始中间目标词集，第二初始中间目标词集；

遍历预处理的评论文本，根据初始意见词集中的意见词，利用第一规则提取目标词，如果提取的目标词不在初始目标词集中，则向第一初始中间目标词集、初始目标词集中加入目标词，否则不加入；

遍历预处理的评论文本，根据初始意见词集中的意见词，利用第四规则提取意见词，如果提取的意见词不在初始意见词集中，则向第一初始中间意见词集、初始意见词集中加入意见词，否则不加入；

遍历预处理的评论文本，根据第一初始中间目标词集中的目标词，利用第三规则提取目标词，如果提取的目标词不在初始目标词集中，则向第二初始中间目标词集、初始目标词集中加入目标词，否则不加入；

遍历预处理的评论文本，根据第一初始中间目标词集中的目标词，利用第二规则提取意见词，如果提取的意见词不在初始意见词集中，则向第二初始中间意见词集、初始意见词集中加入意见词，否则不加入；

判断第一初始中间意见词集、第二初始中间意见词集、第一初始中间目标词集、第二初始中间目标词集是否均为空：如果是，则分别输出初始意见词集和初始目标词集，提取目标词和意见词完成。

4.根据权利要求1所述的一种用户画像构建方法，其特征在于：所述量化意见词，得到意见词的量化结果，包括：

遍历提取的意见词,赋予提取的意见词分值；

设置程度词的权重值；

判断意见词是否被程度词修饰：当是，将意见词的分值乘以意见词所对应程度词的权重值，得到意见词的量化结果；当否，意见词的量化结果为赋予的意见词分值。

5.根据权利要求1所述的一种用户画像构建方法，其特征在于，所述向量训练模型为word2vec模型。

6.根据权利要求1所述的一种用户画像构建方法，其特征在于，通过计算目标词与类别词之间的余弦距离,为向量，θ为向量和向量间的夹角，||x||为向量的模，||y||为向量的模。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于重庆大学，未经重庆大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201910452154.7/1.html，转载请声明来源钻瓜专利网。

专利分类

专利文献下载