[发明专利]基于LDA主题模型与固定效应模型的直播效果的预测方法在审
| 申请号: | 202211400723.1 | 申请日: | 2022-11-09 |
| 公开(公告)号: | CN115619041A | 公开(公告)日: | 2023-01-17 |
| 发明(设计)人: | 吴少辉;王洪珑;谢晓东;李国鑫 | 申请(专利权)人: | 哈尔滨工业大学 |
| 主分类号: | G06Q10/04 | 分类号: | G06Q10/04;G06Q30/0601;G06Q30/0242;G06F18/23;G06F40/44;G06F40/289 |
| 代理公司: | 哈尔滨龙科专利代理有限公司 23206 | 代理人: | 高媛 |
| 地址: | 150001 黑龙*** | 国省代码: | 黑龙江;23 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 lda 主题 模型 固定 效应 直播 效果 预测 方法 | ||
1.一种基于LDA主题模型与固定效应模型的直播效果的预测方法,其特征在于:利用LDA主题模型得到不同主题分布,利用固定效应模型探究直播的多种因素对直播销量的影响,并得出主播的最佳互动模式,所述方法包括以下步骤:
S1、获取主播和每场直播的信息,得到原始数据集;
S2、对原始数据集中的弹幕文本进行数据预处理,得到初始数据集;
S3、根据初始数据集,构建LDA主题模型,并通过LDA主题模型从初始数据集中挖掘出主题词和每场直播的主题分布,即每场直播互动模式的概率分布;
S4、依据每场直播互动模式的概率分布及其二次项,并分别加入直播时长、粉丝数量、该场直播的访问量及该场直播的效果构建固定效应模型,从而探究多个自变量对直播效果的影响关系,并得到二次项固定效应模型系数和残差项;
S5、根据二次项固定效应模型系数,探求该主播群体固定效应模型的极值点,探究针对直播的最佳互动模式。
2.根据权利要求1所述的基于LDA主题模型与固定效应模型的直播效果的预测方法,其特征在于:所述步骤S1中,获取主播和每场直播的信息,包括弹幕和销量信息。
3.根据权利要求1所述的基于LDA主题模型与固定效应模型的直播效果的预测方法,其特征在于:所述步骤S2中,对原始数据集中的弹幕文本进行数据预处理,得到初始数据集的具体步骤如下:
S21、筛选掉含有缺失值、销售量为0、弹幕量为0的直播;
S22、在步骤S21基础上,对原始数据集进行文本分词,得到分词词汇集;
S23、根据停用词表收集停用词,去除分词词汇集中的停用词,得到初始数据集。
4.根据权利要求1所述的基于LDA主题模型与固定效应模型的直播效果的预测方法,其特征在于:所述步骤S3中,构建LDA主题模型的具体步骤如下:
S31、根据初始数据集,确定LDA主题模型的主题数范围,为了保证合理的聚类效果,保证结果的解释度,将主题数范围定为K=2至K=10;
S32、在先验参数为α和β的狄利克雷分布中,抽样生成的每篇文档的主题分布θ和所有直播的主题词分布每篇文档也即每场直播;
α具体表示为每场直播中的主题分布的先验参数,每场直播的主题分布θ服从参数α的狄利克雷分布;
β具体表示为每个主题中的词分布的先验参数,所有直播的主题词分布服从参数β的狄利克雷分布;
S33、从主题分布θ中,抽样生成直播主题Z,LDA主题模型假设每场直播的弹幕都是由不同社会互动类型的比例组合组成的,反映了每场直播的一个独特的主题,组合比例服从多项式分布,表示为:
Z|θ=Multinomial(θ) (1)
从所有直播的主题词分布中,抽样生成主题词W,每个主题都是由弹幕中的词语组成的,组合比例也服从多项式分布,表示为:
其中,第i场直播中计算词语wi概率分布的计算公式为:
P(wi|z=k)表示词语wi属于第k个主题的概率;P(z=k|i)表示一场直播i中第k个主题的概率,K为主题数;
S34、依据主题数K的范围,在每个主题数K下,重复S32至S33的步骤,构建LDA主题模型,并得到相应主题数K下不同主题k的主题词和每场直播的主题分布;
S35、计算主题强度;主题强度是指LDA主题模型构建后的每个主题k在语料库中占的相对分量,计算结果能够反映直播观众对某些领域的重视程度,主题强度高代表该领域为互动的重点内容;
主题强度计算公式为:
其中:Pk代表第k个主题的强度,能够体现主题的宏观均值;N表示直播的个数;θki表示第k个主题在第i场直播中的概率;
S36、根据主题强度的计算结果,以及主题的可解释性,确定最终主题数K及对应结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨工业大学,未经哈尔滨工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211400723.1/1.html,转载请声明来源钻瓜专利网。
- 上一篇:食品加工灭菌装置
- 下一篇:一种房建施工现场防噪音污染的环保型隔离墙
- 同类专利
- 专利分类
G06Q 专门适用于行政、商业、金融、管理、监督或预测目的的数据处理系统或方法;其他类目不包含的专门适用于行政、商业、金融、管理、监督或预测目的的处理系统或方法
G06Q10-00 行政;管理
G06Q10-02 .预定,例如用于门票、服务或事件的
G06Q10-04 .预测或优化,例如线性规划、“旅行商问题”或“下料问题”
G06Q10-06 .资源、工作流、人员或项目管理,例如组织、规划、调度或分配时间、人员或机器资源;企业规划;组织模型
G06Q10-08 .物流,例如仓储、装货、配送或运输;存货或库存管理,例如订货、采购或平衡订单
G06Q10-10 .办公自动化,例如电子邮件或群件的计算机辅助管理





