基于LDA主题模型和kmeans聚类算法的主播画像分类方法.pdf
《基于LDA主题模型和kmeans聚类算法的主播画像分类方法.pdf》由会员分享,可在线阅读,更多相关《基于LDA主题模型和kmeans聚类算法的主播画像分类方法.pdf(18页完成版)》请在专利查询网上搜索。
1、(19)国家知识产权局(12)发明专利申请(10)申请公布号 (43)申请公布日 (21)申请号 202310157141.3(22)申请日 2023.02.23(71)申请人 哈尔滨工业大学地址 150001 黑龙江省哈尔滨市南岗区西大直街92号(72)发明人 吴少辉王洪珑谢晓东李国鑫(74)专利代理机构 哈尔滨龙科专利代理有限公司 23206专利代理师 高媛(51)Int.Cl.G06F 16/35(2019.01)G06F 40/242(2020.01)G06F 40/279(2020.01)G06F 40/30(2020.01)G06F 18/23213(2023.01)G06F 18。
2、/24(2023.01)(54)发明名称基于LDA主题模型和kmeans聚类算法的主播画像分类方法(57)摘要基于LDA主题模型和kmeans聚类算法的主播画像分类方法,属于数据分析技术领域。步骤:S1、在指示终端设备中获取主播信息,得到原始数据集,并对获取的主播信息进行数据预处理,得到初始数据集;S2、根据初始数据集,构建LDA主题模型,从初始数据集中挖掘出主题词和每位主播文本信息的主题概率分布;S3、数据转换,将每位主播的数据信息进行对数处理和标准化;S4、确定聚类的类别数量,依据轮廓系数和簇内误差平方和确定聚类的类别数量;S5、依据kmeans聚类算法主播相关数值数据进行聚类,得到主播所。
3、属的不同类别,并依据结果分析主播特质,建立主播画像。本发明可将主播的文本数据与结构化数据同时进行聚类,建立主播画像,精细化营销。权利要求书3页 说明书12页 附图2页CN 116127074 A2023.05.16CN 116127074 A1.一种基于LDA主题模型和kmeans聚类算法的主播画像分类方法,其特征在于:利用LDA主题模型将主播的文本数据转化为数值数据,利用kmeans聚类算法将主播的相关数值数据进行聚类,建立主播画像;所述方法包括以下步骤:S1、在指示终端设备中获取主播信息,得到原始数据集,并对信息进行数据预处理,得到初始数据集;S2、根据初始数据集,构建LDA主题模型,从初。
4、始数据集中挖掘出主题词和每位主播文本数据的不同主题概率分布;S3、数据转换,将每位主播的数值数据进行对数处理和标准化;S4、确定聚类的类别数量,依据轮廓系数和簇内误差平方和确定聚类的类别数量;S5、依据kmeans聚类算法将主播的相关数值数据进行聚类,得到主播所属的不同类别,并依据结果分析主播特质,建立主播画像。2.根据权利要求1所述的基于LDA主题模型和kmeans聚类算法的主播画像分类方法,其特征在于:所述步骤S1中,在指示终端设备中获取主播信息,得到原始数据集,并对信息进行数据预处理,得到初始数据集的具体步骤如下:S11、获取主播的文本数据和数值数据,并筛选掉含有缺失值的直播,得到原始数。
5、据集;S12、在步骤S11基础上,对原始数据集进行文本分词,得到分词词汇集;S13、根据停用词表收集停用词,构建相关词典,去除分词词汇的停用词,得到初始数据集。3.根据权利要求1所述的基于LDA主题模型和kmeans聚类算法的主播画像分类方法,其特征在于:所述步骤S2中,构建LDA主题模型的具体步骤如下:S21、根据初始数据集,确定LDA主题模型的主题数K,采用困惑度评价法求得最优主题数K,困惑度计算公式为:其中,M为主播文本数据的个数;Ni为第i位主播的文本数据中出现的词语总数;wi为构成第i位主播相关文本数据的词语;p(wi)为wi产生的概率;为了保证聚类效果,得出主题数K为10以内的所有。
6、主题数K的困惑度,并依据手肘法,选择困惑度的拐点作为最佳主题数K;S22、在先验参数为 和 的狄利克雷分布中,抽样生成每位主播在主题数K条件下文本数据的主题分布 和所有主播文本数据的主题词分布 具体表示为每位主播文本数据在主题上的分布的狄利克雷先验参数;具体表示为所有主播文本数据的主题词分布的狄利克雷先验参数;S23、从每位主播文本数据的主题分布 中,抽样生成每位主播文本数据的主题Z,LDA主题模型假设每位主播文本数据都是由不同比例的词语组合组成的,反映了每位主播文本数据的独特的主题,组合比例服从多项式分布,表示为:Z|DMultinomial()从所有主播文本数据的主题词分布 中,抽样生成主。
7、题词W,每个主题都是由主播文本数据中的词语组成的,组合比例也服从多项式分布,表示为:权利要求书1/3 页2CN 116127074 A2其中,wi为构成第i位主播相关文本数据的词语,其概率分布的计算公式为:其中,P(wi|zs)表示词语wi属于第s个主题的概率;P(zs|i)表示第i位主播文本数据中第s个主题的概率,K为最佳主题数;S24、LDA主题模型结果含有每个主题k下的高频词,以及每位主播文本数据的主题分布,分析最佳主题数K下,每个主题k的前20个高频词,同时对每个主题k进行定义与解释;S25、LDA主题模型结果也含有每个主题在每个主播文本数据中的概率分布,后续以此为主播文本数据的数据变。
8、量,纳入聚类分析中。4.根据权利要求1所述的基于LDA主题模型和kmeans聚类算法的主播画像分类方法,其特征在于:所述步骤S3中数据转换的具体步骤如下:S31、将需要聚类的主播的数值数据标准化,用公式表示为:z(x )/其中,x为该数值数据的某一具体数,为该数值数据的平均数,为该数值数据的标准差;Z值的量代表着原始分数和母体平均值之间的距离,是以标准差为单位计算;在原始分数低于平均值时Z则为负数,反之则为正数。5.根据权利要求1所述的基于LDA主题模型和kmeans聚类算法的主播画像分类方法,其特征在于:步骤S4的具体步骤如下:S41、依据轮廓系数和簇内误差平方和确定聚类的类别数量,轮廓系数。
9、计算公式如下:其中,ai表示第i个样本与其同一簇群中所有其他数据之间的平均距离,即为量化簇内的凝聚度;bi表示第i个样本与最近一个聚簇的平均距离,用于量化簇内的分离度;n表示主播总数,数量上等于主播文本信息的个数M;f为全部样本的轮廓系数;不难发现,若f小于0,说明f与其簇内元素的平均距离大于最近的其他簇,表示聚类效果不好;如果ai趋于0,或者bi大于ai,那么f趋近于1,说明聚类效果最好;误差平方和(SSE)计算如下:其中,Cq为第q个簇;mq为Cq的簇质心;p为Cq中的样本点;SSE为所有样本的聚类误差,代表着聚类效果的好坏;随着聚类数目l值的增多,每个簇的聚合程度也会逐渐增加,而SSE则。
10、会逐渐减小;并且当l值在小于最优聚类数目范围内增加时,SSE的下降幅度会比较大;当l值增加到最佳聚类数目L时,SSE的下降幅度则会骤减,然后随着l值的继续增大SSE会慢慢趋于平缓;基于轮廓系数19的最大的三个点,结合SSE的拐点确定最佳聚类数目L;S42、从步骤S31中标准化的数值数据中随机选取L个指标向量作为初始中心点,其中,L权利要求书2/3 页3CN 116127074 A31;S43、选定初始中心点后,计算每一个所述指标向量到L个初始中心点的距离,所述指标向量到哪一个所述初始中心点的距离最小,则将所述指标向量划分至所述初始中心点对应的分类;S44、所述指标向量被分成L个分类,计算每个所。
11、述分类的中心点;S45、迭代进行步骤S43和步骤S44和的计算,直至所述L个分类的中心点与上一次计算的所述L个分类的中心点相等或者距离小于规定的阂值,则结束迭代运算,最终运算得到的所述L个分类的中心点,也即所述指标向量的中心点,所述中心点为L个分类的所述特征向量。权利要求书3/3 页4CN 116127074 A4基于LDA主题模型和kmeans聚类算法的主播画像分类方法技术领域0001本发明属于数据分析技术领域,具体涉及一种基于LDA主题模型和kmeans聚类算法的主播画像分类方法。背景技术0002随着移动网络的发展,越来越多的国人观看直播,抖音、快手等直播平台基于此迅速发展,也由于直播时带。
12、来的强大流量,越来越多的企业找到主播寻求合作,推广自己的产品和服务。但是,面对海量的主播群体,企业如何选择合适的主播进行合作,不同类型的主播都有哪些特质,能够产生哪些不同的营销效果,却不得而知。基于此,我们提出基于LDA主题模型和使用kmeans聚类算法对主播进行画像。同时,主播的文本数据(如直播介绍)等在现有研究中,无法以量化的形式纳入主播画像,但众所周知,这一重要数据类型在实际生活中却极大的影响观众和企业对主播的认知。0003授权公告号为CN110689040B、授权公告日为2022年10月18日的发明专利公开了“一种基于主播画像的声音分类方法”,该专利也是对主播画像进行分类的。该专利的分。
13、类方法需要事先对音频内容进行定义分类,因而无法应对大数据做出广泛高效的分析,同时没有对音频的文本数据进行自动化分析和挖掘。发明内容0004本发明的目的是为解决现有技术存在的上述问题,提供一种基于LDA主题模型和kmeans聚类算法的主播画像分类方法。0005本发明对主播进行自动分类,基于LDA主题模型能够分析主播的文本数据,并将其转化为数值数据。在此基础上通过kmeans聚类算法将主播的数值数据进行聚类分析,基于机器学习而不用人工的办法,从而能够保证分类结果的客观性与分类的便捷性,同时能够释放占据的人力资源。0006实现上述目的,本发明采取的技术方案如下:0007基于LDA主题模型和kmean。
14、s聚类算法的主播画像分类方法,利用LDA主题模型将主播的文本数据转化为数值数据,利用kmeans聚类算法将主播的相关数值数据进行聚类,建立主播画像;所述方法包括以下步骤:0008S1、在指示终端设备中获取主播信息,得到原始数据集,并对信息进行数据预处理,得到初始数据集;0009S2、根据初始数据集,构建LDA主题模型,从初始数据集中挖掘出主题词和每位主播文本数据的不同主题概率分布;0010S3、数据转换,将每位主播的数值数据进行对数处理和标准化;0011S4、确定聚类的类别数量,依据轮廓系数和簇内误差平方和确定聚类的类别数量;0012S5、依据kmeans聚类算法将主播的相关数值数据进行聚类,。
15、得到主播所属的不同类别,并依据结果分析主播特质,建立主播画像。说明书1/12 页5CN 116127074 A50013进一步的是,所述步骤S1中,在指示终端设备中获取主播信息,得到原始数据集,并对信息进行数据预处理,得到初始数据集的具体步骤如下:0014S11、获取主播的文本数据和数值数据,并筛选掉含有缺失值的直播,得到原始数据集;0015S12、在步骤S11基础上,对原始数据集进行文本分词,得到分词词汇集;0016S13、根据停用词表收集停用词,构建相关词典,去除分词词汇的停用词,得到初始数据集。0017进一步的是,所述步骤S2中,构建LDA主题模型的具体步骤如下:0018S21、根据初始。
16、数据集,确定LDA主题模型的主题数K,采用困惑度评价法求得最优主题数K,困惑度计算公式为:00190020其中,M为主播文本数据的个数;Ni为第i位主播的文本数据中出现的词语总数;wi为构成第i位主播相关文本数据的词语;p(wi)为wi产生的概率;0021为了保证聚类效果,得出主题数K为10以内的所有主题数K的困惑度,并依据手肘法,选择困惑度的拐点作为最佳主题数K;0022S22、在先验参数为 和 的狄利克雷分布中,抽样生成每位主播在主题数K条件下文本数据的主题分布 和所有主播文本数据的主题词分布0023 具体表示为每位主播文本数据在主题上的分布的狄利克雷先验参数;0024 具体表示为所有主播。
17、文本数据的主题词分布的狄利克雷先验参数;0025S23、从每位主播文本数据的主题分布 中,抽样生成每位主播文本数据的主题Z,LDA主题模型假设每位主播文本数据都是由不同比例的词语组合组成的,反映了每位主播文本数据的独特的主题,组合比例服从多项式分布,表示为:0026Z|Multinomial()0027从所有主播文本数据的主题词分布 中,抽样生成主题词W,每个主题都是由主播文本数据中的词语组成的,组合比例也服从多项式分布,表示为:00280029其中,wi为构成第i位主播相关文本数据的词语,其概率分布的计算公式为:00300031其中,P(wi|zs)表示词语wi属于第s个主题的概率;P(zs。
18、|i)表示第i位主播文本数据中第s个主题的概率;K为最佳主题数;0032S24、LDA主题模型结果含有每个主题k下的高频词,以及每位主播文本数据的主题分布,分析最佳主题数K下,每个主题k的前20个高频词,同时对每个主题k进行定义与解释;0033S25、LDA主题模型结果也含有每个主题在每个主播文本数据中的概率分布,后续以此为主播文本数据的数据变量,纳入聚类分析中。0034进一步的是,所述步骤S3中数据转换的具体步骤如下:0035S31、将需要聚类的主播的数值数据标准化,用公式表示为:0036z(x )/说明书2/12 页6CN 116127074 A60037其中,x为该数值数据的某一具体数;。
19、为该数值数据的平均数;为该数值数据的标准差;Z值的量代表着原始分数和母体平均值之间的距离,是以标准差为单位计算,在原始分数低于平均值时Z则为负数,反之则为正数。0038进一步的是,步骤S4的具体步骤如下:0039S41、依据轮廓系数和簇内误差平方和确定聚类的类别数量,轮廓系数计算公式如下:00400041其中,ai表示第i个样本与其同一簇群中所有其他数据之间的平均距离,即为量化簇内的凝聚度;bi表示第i个样本与最近一个聚簇的平均距离,用于量化簇内的分离度;n表示主播总数,数量上等于主播文本信息的个数M;f为全部样本的轮廓系数;不难发现,若f小于0,说明f与其簇内元素的平均距离大于最近的其他簇,。
20、表示聚类效果不好;如果ai趋于0,或者bi大于ai,那么f趋近于1,说明聚类效果最好;0042误差平方和计算如下:00430044其中,Cq为第q个簇;mq为Cq的簇质心;p为Cq中的样本点;SSE为所有样本的聚类误差,代表着聚类效果的好坏;随着聚类数目l值的增多,每个簇的聚合程度也会逐渐增加,而SSE则会逐渐减小;并且当l值在小于最优聚类数目范围内增加时,SSE的下降幅度会比较大;当l值增加到最佳聚类数目L时,SSE的下降幅度则会骤减,然后随着l值的继续增大SSE会慢慢趋于平缓;0045基于轮廓系数19的最大的三个点,结合SSE的拐点确定最佳聚类数目L;0046S42、从步骤S31中标准化的。
21、数值数据中随机选取L个指标向量作为初始中心点,其中,L1;0047S43、选定初始中心点后,计算每一个所述指标向量到L个初始中心点的距离,所述指标向量到哪一个所述初始中心点的距离最小,则将所述指标向量划分至所述初始中心点对应的分类;0048S44、所述指标向量被分成L个分类,计算每个所述分类的中心点;0049S45、迭代进行步骤S43和步骤S44和的计算,直至所述L个分类的中心点与上一次计算的所述L个分类的中心点相等或者距离小于规定的阂值,则结束迭代运算,最终运算得到的所述L个分类的中心点,也即所述指标向量的中心点,所述中心点为L个分类的所述特征向量。0050与现有技术相比,本发明的有益效果是。
22、:本发明提出了一种基于LDA主题模型和kmeans聚类算法的主播画像分类方法,其首先运用LDA主题模型挖掘主播的文本信息(如主播介绍,告示),提炼出主播的文本信息的主题分布,依据主题词确定不同主题的内容,并将主题分布及其他主播的数值数据标准化后,进行kmeans聚类分析。依据轮廓系数和误差平方和(SSE)确定最佳聚类数,在此基础上进行聚类分析,得到不同类的中心点,建立主播画说明书3/12 页7CN 116127074 A7像。本发明的分类方法在直播领域,其中LDA主题模型也可以大量分析文本数据,弥补了以往研究中对文本数据无法分析和聚类的不足,从而搭建起完整的主播画像。本发明提供的一种基于LDA。
23、主题模型和kmeans聚类算法的主播画像分类方法,针对互联网电子平台,通过主播在平台上的各种行为与效果,作为分类的依据,通过Kmeans聚类算法的方法,对主播进行自动分类,能够保证分类结果的客观性,同时能够释放占据的人力资源。本发明可先将音频数据转化为文本数据,从而实现对音频的文本数据进行自动化分析和挖掘。附图说明0051图1为本发明的基于LDA主题模型和kmeans聚类算法的主播画像分类方法的流程框图;0052图2为LDA主题模型的简易示意图。具体实施方式0053下面将结合本发明实施例中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是发明的一部分实施例,而不是全部的。
24、实施例,基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。0054具体实施方式一:如图1所示,本实施方式披露了一种基于LDA主题模型和kmeans聚类算法的主播画像分类方法,利用LDA主题模型将主播的文本数据转化为数值数据(即得到文本数据中的不同主题概率分布),利用kmeans聚类算法将主播的相关数值数据进行聚类,建立主播画像(帮助企业找到合适的带货方,精细化营销);所述方法包括以下步骤:0055S1、在指示终端设备中获取主播信息,得到原始数据集,并对信息(信息包括文本数据和非文本数据。文本数据如主播简介、公告、数值数据如粉丝量等。
25、)进行数据预处理,得到初始数据集;0056S2、根据初始数据集,构建LDA主题模型,从初始数据集中挖掘出主题词和每位主播文本数据的不同主题概率分布;0057S3、数据转换,将每位主播的数值数据(是指与主播相关的各种用数字表述的信息,如粉丝数等)进行对数处理和标准化;0058S4、确定聚类的类别数量,依据轮廓系数和簇内误差平方和(SSE)确定聚类的类别数量(是确定步骤S3中的数值数据聚类的类别数量,也是确定最佳聚类数);0059S5、依据kmeans聚类算法将主播的相关数值数据进行聚类,得到主播所属的不同类别,并依据结果分析主播特质,建立主播画像。0060进一步的是,所述步骤S1中,在指示终端设。
26、备中获取主播信息,得到原始数据集,并对信息进行数据预处理,得到初始数据集的具体步骤如下:0061S11、获取主播的文本数据(例如主播介绍)和数值数据(例如粉丝量,直播时长等),并筛选掉含有缺失值的直播,得到原始数据集;0062S12、在步骤S11基础上,对原始数据集进行文本分词,得到分词词汇集;0063S13、根据停用词表收集停用词,构建相关词典,去除分词词汇的停用词(分词词汇集是很多的词语集合,停用词是分词词汇集中,为不采用的词语),得到初始数据集。说明书4/12 页8CN 116127074 A80064进一步的是,所述步骤S2中,构建LDA主题模型的具体步骤如下:0065S21、根据初始。
27、数据集,确定LDA主题模型(为现有技术)的主题数K,采用困惑度评价法求得最优主题数K(不同主题数K运算得出的困惑度是不同的,困惑度越低,对应K值下的主题模型的泛化能力就越强),困惑度计算公式为:00660067其中,M为主播文本数据(如主播介绍)的个数;Ni为第i位主播的文本数据(如主播介绍)中出现的词语总数;wi为构成第i位主播相关文本数据(如主播介绍)的词语;p(wi)为wi产生的概率;0068为了保证聚类效果,得出主题数K为10以内的所有主题数K的困惑度,并依据手肘法,选择困惑度的拐点作为最佳主题数K;0069S22、在先验参数为 和 的狄利克雷(Dirichlet)分布中,抽样生成每位。
28、主播在主题数K(在本文操作时采用了最佳主题数)条件下文本数据(如主播介绍)的主题分布 和所有主播文本数据(如主播介绍)的主题词分布0070 具体表示为每位主播文本数据(如主播介绍)在主题上的分布的狄利克雷先验参数;0071 具体表示为所有主播文本数据(如主播介绍)的主题词分布的狄利克雷先验参数;0072S23、从每位主播文本数据(如主播介绍)的主题分布 中,抽样生成每位主播文本数据(如主播介绍)的主题Z,LDA主题模型假设每位主播文本数据(如主播介绍)都是由不同比例的词语组合组成的,反映了每位主播文本数据(如主播介绍)的独特的主题,组合比例服从多项式(Multinomial)分布,表示为:00。
29、73Z|Multinomial()0074从所有主播文本数据(如主播介绍)的主题词分布 中,抽样生成主题词W,每个主题都是由主播文本数据(如主播介绍)中的词语组成的,组合比 例也服从多项式(Multinomial)分布,表示为:00750076其中,wi为构成第i位主播相关文本数据(如主播介绍)的词语,其概率分布的计算公式为:00770078其中,P(wi|zs)表示词语wi属于第s个主题的概率;P(zs|i)表示第i位主播文本数据(如主播介绍)中第s个主题的概率;K为最佳主题数;0079S24、LDA主题模型结果含有每个主题k下的高频词,以及每位主播文本数据(如主播介绍)的主题分布,分析最佳。
30、主题数K下,每个主题k的前20个高频词,同时对每个主题k进行定义与解释;0080S25、LDA主题模型结果也含有每个主题在每个主播文本数据中的概率分布,后续以此为主播文本数据的数据变量,纳入聚类分析中。0081进一步的是,所述步骤S3中数据转换的具体步骤如下:说明书5/12 页9CN 116127074 A90082S31、将需要聚类的主播的数值数据标准化,用公式表示为:0083z(x )/0084其中,x为该数值数据的某一具体数;为该数值数据的平均数;为该数值数据的标准差;Z值的量代表着原始分数(即该具体数)和母体平均值(即该数值数据的平均值)之间的距离,是以标准差为单位计算;在原始分数低于。
31、平均值时Z则为负数,反之则为正数。0085进一步的是,步骤S4的具体步骤如下:0086S41、依据轮廓系数和簇内误差平方和(SSE)确定聚类的类别数量,轮廓系数计算公式如下:00870088其中,ai表示第i个样本(即主播)与其同一簇群中所有其他数据之间的平均距离,即为量化簇内的凝聚度;bi表示第i个样本(即主播)与最近一个聚簇的平均距离,用于量化簇内的分离度;n表示主播总数,数量上等于主播文本信息(如主播介绍)的个数M;f为全部样本的轮廓系数;不难发现,若f小于0,说明f与其簇内元素的平均距离大于最近的其他簇,表示聚类效果不好;如果ai趋于0,或者bi大于ai,那么f趋近于1,说明聚类效果最。
32、好;0089误差平方和(SSE)计算如下:00900091其中,Cq为第q个簇;mq为Cq的簇质心;p为Cq中的样本点;SSE为所有样本的聚类误差,代表着聚类效果的好坏;随着聚类数目l值的增多,每个簇的聚合程度也会逐渐增加,而SSE则会逐渐减小;并且当l值在小于最优聚类数目范围内增加时,SSE的下降幅度会比较大;当l值增加到最佳聚类数目L时,SSE的下降幅度则会骤减,然后随着l值的继续增大SSE会慢慢趋于平缓;0092基于轮廓系数19的最大的三个点,结合SSE的拐点确定最佳聚类数目L;0093S42、从步骤S31中标准化的数值数据中随机选取L个指标向量(即最佳聚类数)作为初始中心点,其中,L1。
33、;0094S43、选定初始中心点后,计算每一个所述指标向量(即每一个样本)到L个初始中心点的距离,所述指标向量到哪一个所述初始中心点的距离最小,则将所述指标向量划分至所述初始中心点对应的分类;0095S44、所述指标向量(即所有样本)被分成L个分类(即最佳聚类数),计算每个所述分类(每个聚类)的中心点(均值);0096S45、迭代进行步骤S43和步骤S44和的计算,直至所述L个分类的中心点与上一次计算的所述L个分类的中心点相等或者距离小于规定的阂值,则结束迭代运算,最终运算得到的所述L个分类的中心点,也即所述指标向量的中心点,所述中心点为L个分类的所述特征向量。0097实施例1:0098本实施。
34、例披露了一种基于LDA主题模型和kmeans聚类算法的主播画像分类方法,说明书6/12 页10CN 116127074 A10采用LDA主题模型挖掘文本数据中的主题词并进行分类提取,得到每位主播主播介绍的主题分布,最后通过kmeans聚类算法聚类每位主播的数值数据,得到主播画像,指导企业更有效的选择合作主播,加深相关方对主播特征的挖掘和了解。0099一、研究数据与方法01001、研究数据0101随着移动互联网技术的发展,直播也越来越受到观众的喜爱,大量的、拥有不同特质和效果的主播开始在直播平台上出现。本实施例选取了抖音平台上2021年5月10月的2069位主播举办的81237场直播,这些主播主。
35、播介绍在这期间并没有更改,即每位主播都有一篇自己的主播介绍。获取主播数值数据(粉丝数、直播时间段分布、带货的平均商品种类数、平均直播时长、平均作品数、商品的平均价格)和主播的文本数据(主播介绍),在这些数据的基础上进行基于LDA主题模型和kmeans聚类算法的主播画像。01022、研究方法0103随着时代科技的发展,直播凭借其便捷性、沉浸性,极大地丰富了观众的生活,观众也销售直播带来的快乐。由此,企业们也纷纷选择和主播合作,推广自己的产品;直播平台也会选择主播培养,为自己带来流量;新加入主播也模仿现有主播的特质,以期得到相应的效果。但是,面对海量的主播,如何迅速的将其分类,同时将主播的文本数据。
36、纳入考量,用于主播画像,一直是现有研究中较少涉猎的方面。因此,本发明提出一种基于LDA主题模型和kmeans聚类算法的主播画像分类方法,通过对实时的主播数据,包括文本数据和数值数据,进行数据挖掘,将主播迅速分类,挖掘相关特质。如图1所示,本发明的方法包括以下步骤:0104(1)数据获取与数据预处理;在指示终端设备中获取主播和每场直播的信息(包括弹幕和销量信息),得到原始数据集;通过设计Python爬虫程序获取抖音的主播和每场直播的相关数据,对初始数据集进行数据预处理,主要包括数据清洗、Jieba分词和去停用词处理。0105(2)主题模型分析;采用LDA主题模型识别主播介绍中的不同主题及其分布。。
37、0106(3)kmeans聚类分析:对数值数据进行转换,依据轮廓系数和误差平方和(SSE)确定最优聚类数,在此基础上使用kmeans聚类算法对数据进行分类,并依据结果分析主播特质,建立主播画像。0107二、实验与分析01081、数据获取及预处理0109通过第三方平台选取了抖音平台上2021年5月10月的2069位带货主播举办的81237场直播,获取主播数值数据(粉丝数、直播时间段分布、带货的平均商品种类数、平均直播时长、平均作品数、商品的平均价格)和主播的文本数据(主播介绍),本实施例以此类抖音主播群体的实际直播数据进行分析。0110获得原始数据后,通常需要进行数据预处理,提高数据的可靠性,具。
38、体过程为:0111(1)、通过Excel筛选掉相关数据缺失的直播;0112(2)、通过利用Jieba分词软件包,在Python程序中进行文本分词;0113(3)、收集停用词库,制作停用词表,并利用Python程序去除停用词;并依据成语词典制作停用词词典;说明书7/12 页11CN 116127074 A1101142、主题模型分析0115在直播过程中,不同主播会通过主播介绍自己的经历,发布相关的产品或直播信息,在此使用LDA主题模型将主播介绍这种文本信息转化聚类成数值信息,得到每位主播的主播介绍含有的不同主题分布。01162.1、利用LDA主题模型对主题进行挖掘0117LDA主题模型0118本。
39、发明采用LDA主题模型对主播介绍进行主题挖掘,这是一种文档主题生成模型,共包含词、主题、文档(即直播)三层结构,具体如图2所示;该模型采用概率推断算法处理文本,建模前不需要人工干预标注初始文档,可识别文档中隐含的主题信息,更好地保留文档内部关系,在文本语义分析、信息检索等方面取得了良好的实践效果。0119图2中,和 均为狄利克雷(Dirichlet)先验参数;0120其中:0121 具体表示为每位主播文本数据(如主播介绍)在主题上的分布的狄利克雷先验参数;0122 具体表示为所有主播文本数据(如主播介绍)的主题词分布的狄利克雷先验参数;0123 具体表示为抽样生成每位主播在主题数K(在本文操作。
40、时采用了最佳主题数)条件下文本数据(如主播介绍)的主题分布;0124表示所有主播文本数据(如主播介绍)的主题词分布;0125Z表示抽样生成每位主播文本数据(如主播介绍)的主题;0126W表示抽样生成主题词;0127M表示主播文本数据(如主播介绍)的个数;0128N表示文档(即一篇主播文本数据)中的词汇数;0129LDA主题模型生成过程如下:01302.2、确定主题数;根据初始数据集,确定LDA主题模型(为现有技术)的主题数K,采用困惑度评价法求得最优主题数K(不同主题数K运算得出的困惑度是不同的,困惑度越低,对应K值下的主题模型的泛化能力就越强),困惑度计算公式为:01310132其中,M为主。
41、播文本数据(如主播介绍)的个数,在此操作中为主播介绍的个数;Ni为第i位主播的文本数据(如主播介绍)中出现的词语总数;wi为构成第i位主播相关文本数据(如主播介绍)的词语;p(wi)为wi产生的概率;0133为了保证聚类效果,得出主题数K为10以内的所有主题数K的困惑度,并依据手肘法,选择困惑度的拐点作为最佳主题数K3;01342.3、构建LDA主题模型;0135在先验参数为 和 的狄利克雷(Dirichlet)分布中,抽样生成每位主播在最佳主题数K条件下文本数据(如主播介绍)的主题分布 和所有主播文本数据(如主播介绍)的主题词分布0136 具体表示为每位主播文本数据(如主播介绍)在主题上的分。
42、布的狄利克雷先验参说明书8/12 页12CN 116127074 A12数;0137 具体表示为所有主播文本数据(如主播介绍)的主题词分布的狄利克雷先验参数;0138从每位主播文本数据(如主播介绍)的主题分布 中,抽样生成每位主播文本数据(如主播介绍)的主题Z,LDA主题模型假设每位主播文本数据(如主播介绍)都是由不同比例的词语组合组成的,反映了每位主播文本数据(如主播介绍)的独特的主题,组合比例服从多项式(Multinomial)分布,表示为:0139Z|Multinomial()0140从所有主播文本数据(如主播介绍)的主题词分布 中,抽样生成主题词W,每个主题都是由主播介绍中的词语组成的。
43、,组合比例也服从多项式(Multinomial)分布,表示为:01410142其中,第i位主播主播介绍中计算词语wi概率分布的计算公式为:01430144其中,P(wi|zs)表示词语wi属于第s个主题的概率;P(zs|i)表示第i位主播主播介绍中第s个主题的概率;K为最佳主题数;01452.4、LDA主题模型结果0146LDA主题模型结果含有每个主题k下的高频词,以及每位主播主播介绍的主题分布,分析最佳主题数K下,每个主题k的前20个高频词,同时对每个主题k进行定义与解释;0147LDA主题模型结果也含有每个主题在每个主播文本信息中的概率分布,后续以此为主播文本信息的数据变量,纳入聚类分析中。
44、。0148本发明采用Python程序进行LDA主题模型中sklearn包进行主题建模,用pyLDAVis可视化工具呈现结果,在结果为3主题时,依据主题内高频词解释该主题。不同主题下前五个高频词如下表1所示;0149表101500151在主题1中,弹幕的主要词汇包括品牌、客服、官方、工厂等。这些词都是特定于信誉的。因此,我们将这种主播介绍元素称为信誉型。在此主题下,主播介绍往往聚焦于突出自身的信誉和品牌,会较多的讨论产品和服务的保障、名声等。相比之下,主题2中弹幕的主要词汇包括合作、商务、售后、分享、关注等。结果表明,这一类别的主播介绍元素是聚焦于说明书9/12 页13CN 116127074 。
45、A13互动的,更倾向于主播与观众之间的交互行为,关系和情感在这一主题中起着重要作用。以此,主题2中的情感词比例较高,将主题2中主播介绍的归类为关系型或者互动型的主播介绍。主题3聚焦于产品,该主题下有大量的独特的词汇,如商品、女装、等,此类主播介绍的元素往往突出于自己的产品信息,以证明自己的产品贴合于客户的需求。0152在此基础上,得到了不同主题在主播介绍中的分布。部分示例如表2所示。主播可以了解到每场直播的主题分布,了解到不同主播介绍的风格与氛围。并为进一步地探索不同主播介绍的元素对于主播直播业绩的影响打好基础,即根据每位主播自身的往期直播效果,根据每个主题对应概率分布(即主题分布),探寻最适。
46、合自己的介绍方式,以及自己粉丝的独特互动偏好与兴趣点。0153表2015401553、Kmeans聚类分析0156将需要聚类的数值数据进行数据转换,避免数值差异过大而对聚类结果产生影响。数据转换包括标准化处理,归一化处理等,在本实施例中只进行取对数和标准化处理。在此数据基础上,依据轮廓系数和簇内误差平方和(SSE)确定最优聚类数,依据最佳聚类数使用kmeans聚类算法对数据进行分类,并依据结果分析主播特质。01573.1、数据转换0158为了避免数据值差异过大对聚类产生影响,对可能超过1000的数据类型进行对数变换。在此之后,使用统计分析相关软件对所有聚类数据进行数据的标准化,标准化公式为:0。
47、159z(x )/0160其中,x为该数值数据的某一具体数;为该数值数据的平均数;为该数值数据的标准差;Z值的量代表着原始分数(即该具体数)和母体平均值(即该数值数据的平均值)之间的距离,是以标准差为单位计算。在原始分数低于平均值时Z则为负数,反之则为正数。01613.2、聚类数确定0162依据轮廓系数和误差平方和(SSE)确定聚类数L。轮廓系数计算公式如下:01630164其中,ai表示第i个样本(即主播)与其同一簇群中所有其他数据之间的平均距离,即为量化簇内的凝聚度;bi表示第i个样本(即主播)与最近一个聚簇的平均距离,用于量化簇内的分离度;n表示主播数量;f为全部样本的轮廓系数;不难发现。
48、,若f小于0,说明f与其簇内元素的平均距离大于最近的其他簇,表示聚类效果不好;如果ai趋于0,或者bi大于ai,那么f趋近于1,说明聚类效果最好;说明书10/12 页14CN 116127074 A140165误差平方和(SSE)计算如下:01660167其中,Cq为第q个簇;mq为Cq的簇质心;p为Cq中的样本点;SSE为所有样本的聚类误差,代表着聚类效果的好坏;随着聚类数目l值的增多,每个簇的聚合程度也会逐渐增加,而SSE则会逐渐减小;并且当l值在小于最优聚类数目范围内增加时,SSE的下降幅度会比较大;当l值增加到最佳聚类数目L时,SSE的下降幅度则会骤减,然后随着l值的继续增大SSE会慢。
49、慢趋于平缓;0168基于轮廓系数19的最大的三个点,结合SSE的拐点确定最佳聚类数目L。0169使用python中的sklearn包计算,轮廓系数在聚类数目L2、L3时为其中最大的两个点,同时在L3时SSE取得拐点,由此,确定最佳聚类数L3。01703.3、kmeans聚类与结果分析01713.3.1、使用从步骤3.1中标准化的数值数据中随机选取L个指标向量(即最佳聚类数量)作为初始中心点,其中,L1。01723.3.2、计算每一个所述指标向量(即每一个样本)到L个所述初始中心点的距离,所述指标向量到哪一个所述初始中心点的距离最小,则将所述指标向量划分至所述初始中心点对应的分类;01733.3。
50、.3所述指标向量(即所有样本)被分成L个分类,计算每个所述分类(每个聚类)的中心点(均值);01743.3.4迭代进行步骤3.3.2和步骤3.3.3和的计算,直至所述L个分类的中心点与上一次计算的所述L个分类的中心点相等或者距离小于规定的阂值,则结束迭代运算。0175最终运算得到的所述L个分类的中心点,也即所述指标向量的中心点,所述中心点为L个分类的所述特征向量。0176使用python中kmeans包进行计算,最终得到每个主播所属类别。计算每个类别中,主播各项指标的平均值,如下表3所示:说明书11/12 页15CN 116127074 A15017701780179由表3可知,第一类(类别1。
网址:基于LDA主题模型和kmeans聚类算法的主播画像分类方法.pdf https://mxgxt.com/news/view/136990
相关内容
影片分析方法(一)电影基础知识分享明星公关危机的类型与应对方法
影视作品分析的基本方法
网络舆情潜在热点主题识别研究*
文娱行业年度法治观察报告|艺人“塌房”三大诱因占比高,两类“流量造假”或构成不正当竞争,测评类直播易引发这类纠纷…
虚拟人、数字人、虚拟偶像……一文看懂数字虚拟人的定义与分类
“直播带货”中参与主体法律角色分析及风险防范
明星公关危机中的常见类型以及应对方法
类型电影欣赏与作品分析报告
不同类型明星粉丝消费行为分析