基于演员信息调查结果的数据挖掘
商务智能与数据挖掘数据挖掘技术在电影行业中的应用—基于演员信息调查结果的研究目录1商业理解12数据理解23数据准备,导演在选取演员时很多都是凭感觉和推荐,很好去挖掘演员信息来确定,在薪酬方面也不合理,有些导演为了提高电影票房,一味的去选取知名度较高的明星及所谓的大腕,付予高报酬,大大地增加了其制作成本。本文通过对演员调查信息的分析,找出与收入有关的因素,并分析其规则。为导演在选取演员和决定所付薪水时提供依据,有效地减少制作成本。,找出其有关因素。、关联规则、神经网络3种数据挖掘方法,对大量的演员信息调查数据进行分析与挖掘,最后形成相关数据模型。,由于所调查的演员数量较多有3500多条,并且某些演员信息不全,经筛选后这里只取了信息完整的,所在国家为UnitedStates的Female演员,一共有310条记录。将前200条记录作为训练集,后面110条数据作为测试集。,有22个。为了便于决策树模型的建立,e属性相关性较大的Age,EducationLevel,MaritalStatus,HomeOwnership,NumChildren,NumCars,e分类决策树模型的依据,生成新的演员信息基本数据表。(1)在数据窗口,选择菜单“文件→新建→数据窗口”,建立一个新的数据文件。如图3-1。图3-1进入数据窗口(2)在数据窗口,点击工具栏上的变量设置按钮,切换到变量窗口。并进行变量设置如下:图3-3变量设置(3):变量Age属性:20~30用“1”表示,30~40用“2”表示,40~50用“3”表示,50~60用“4”表示变量Educationlevel属性:master’sdegree用“1”表示,Post-Doc用“2”表示,Bachelor’sdegree用“3”表示,somecollege用“4”表示,Doctorate用“5”表示,Associate’sdegree用“6”表示,GradeSchool用“7”表示,highschool用“8”表示。变量HomeOwnership属性:Own用“1”表示,Rent用“2”表示变量MaritalStatus属性:Married用“1”表示,NeverMa用“2”表示,Separate用“3”表示,Other用“4”表示变量NumChildren属性:用0、1、2、3表示实际个数变量NumCars属性:用0、1、2、3、4表示实际个数变量TheaterFreq属性:Rarely用“1”表示,weekly用“2”表示,Monthly用“3”表示,Never用“4”表示编码后结果如下图3-4编码后数据表(图中为一部分):—决策树图4--、决策树相关设置其相关设置如图4-4和图4-5所示。图4-3数据源设置图4-4变量设置图4-(1)决策树描述:所处理记录个数:200;丢弃的记录个数:2;决策树正确率:%,(分裂时一个分支的最小样本数大于2,连续值分叉结点的最大分叉数3;生成树方法为信息熵;树剪枝的方法:深度剪枝,最大深度为5)(2)决策树结果见图4-6图4-6决策树(3)-7决策树变量分类重要性(4),下面选取的是可信度为100%的规则一共19条规则4如果:MaritalStatus属于Married并且:EducationLevel属于Bachelor'sDegree并且:CustomerID属于[,)并且:TheaterFr
基于演员信息调查结果的数据挖掘 来自淘豆网www.taodocs.com转载请标明出处.
网址:基于演员信息调查结果的数据挖掘 https://mxgxt.com/news/view/156300
相关内容
明星数据分析怎么查百度天量数据挖掘明星关系,极客都是好娱记
一次微博数据挖掘试验:鹿晗粉丝的七张画像
明星信息贩卖背后:数据泄露来源难追踪,衍生代拍、刷关等产业
5亿微博用户数据泄露,查到明星网红手机号,如何保护个人信息?
揭开明星艺人信息泄露的渠道,防信息泄露指南请查收!
用大数据解读明星到底价值几何
媒体评多位明星斥航班信息被泄露:查处要深挖到底
大量明星信息数据遭泄露,你以为你的隐私还安全吗?
大量明星信息数据遭泄露,你以为你的隐私还安全吗?