㈠ 电影票房预测系统的电影票房如何预测
早在80年代,美国票房收入预测的先驱BarryLitman对美国80年代近700部电影进行分析推出票房收入预测模型。该系统对之后美国电影投资界产生了颠覆性的影响。电影票房预测系统能分析预测不同种类电影的票房价值,已经成为国际电影产业投融资的重要参考工具,对电影产品定价及衍生产品开发都具有较强的指导作用。
㈡ 豆瓣电影数据分析
这篇报告是我转行数据分析后的第一篇报告,当时学完了Python,SQL,BI以为再做几个项目就能找工作了,事实上……分析思维、业务,这两者远比工具重要的多。一个多月后回过头来看,这篇报告虽然写得有模有样,但和数据分析报告还是有挺大差别的,主要原因在于:a.只是针对豆瓣电影数据分析太过宽泛了,具体关键指标到底是哪些呢?;b.没有一个确切有效的分析模型/框架,会有种东一块西一块的拼接感。
即便有着这些缺点,我还是想把它挂上来,主要是因为:1.当做Pandas与爬虫(Selenium+Request)练手,总得留下些证明;2.以豆瓣电影进行分析确实很难找到一条业务逻辑线支撑,总体上还是描述统计为主;3.比起网上能搜到的其他豆瓣电影数据分析,它更为详细,可视化效果也不错;
本篇报告旨在针对豆瓣电影1990-2020的电影数据进行分析,首先通过编写Python网络爬虫爬取了51375条电影数据,采集对象包括:电影名称、年份、导演、演员、类型、出品国家、语言、时长、评分、评论数、不同评价占比、网址。经过去重、清洗,最后得到29033条有效电影数据。根据电影评分、时长、地区、类型进行分析,描述了评分与时长、类型的关系,并统计了各个地区电影数量与评分。之后,针对演员、导演对数据进行聚合,给出产量与评分最高的名单。在分析过程中,还发现电影数量今年逐步增加,但评分下降,主要原因是中国地区今年低质量影视作品的增加。
另外,本篇报告还爬取了电影票房网( http://58921.com/ )1995-2020年度国内上映的影片票房,共采集4071条数据,其中3484条有效。进一步,本文分析了国内院线电影票房年度变化趋势,票房与评分、评价人数、时长、地区的关系,票房与电影类型的关联,并给出了票房最高的导演、演员与电影排名。
清洗、去重后,可以看到29033条数据长度、评分、评论数具有以下特点:
结合图1(a)(b)看,可以看到电影数据时长主要集中在90-120分钟之间,向两极呈现阶梯状递减,将数据按照短(60-90分钟),中(90-120分钟),长(120-150分钟),特长(>150分钟)划分,各部分占比为21.06%, 64.15%, 11.95%, 2.85%。
结合图2(a)看,可以看到我们采集到的电影数据评分主要集中在6.0-8.0之间,向两极呈现阶梯状递减,在此按照评分划分区间:2.0-4.0为口碑极差,4.0-6.0为口碑较差,6.0-7.0为口碑尚可,7.0-8.0为口碑较好,8.0-10.0为口碑极佳。
这5种电影数据的占比分别为:5.78%, 23.09%, 30.56%, 29.22%, 11.34%
再将评分数据细化到每年进行观察,可以发现,30年内电影数量与年度电影均分呈反相关,年度均分整体呈现下降趋势,2016年电影均分最低,电影数量最多。
进一步做出每个年份下不同评级等级的电影数据占比,可以发现,近年来,评分在[2.0,6.0)的电影数据占比有着明显提升,评分在[6.0,7.0)的数据占比不变,评分在[7.0,10.0)的数据占比减少,可能原因有:
对照图5,可以发现,评分与时长、评论人数的分布大致呈现漏斗状,高分电影位于漏斗上部,低分电影位于漏斗下部。这意味着,如果一部电影的评论人数很多(特别是超过30w人观影),时长较长(大于120min),那么它大概率是一部好电影。
根据各个国家的电影数量作图,可以得到图6,列出电影数量前十的国家可得表格2,发现美国在电影数量上占第一,达到8490部,中国其次,达6222部。此外,法国,英国,日本的电影数量也超过1000,其余各国电影数量相对较少。这可以说明美国电影有着较大的流量输入,在中国产生了较大的影响。
进一步分析各国电影的质量,依据评分绘制评分箱线图可得图7,在电影数量排名前20的国家中:
接着我们可以探索,哪个国家的电影对豆瓣评分随年份下降的贡献最大,考虑到电影数量对应着评分的权重。根据上述各国的电影评分表现,我们可以猜测电影数量较多的国家可能对年度均分的下降有较大影响。于是,我们再计算出这些国家的年度电影均分,并与整体均分进行比较分析。
再作出中国大陆,中国台湾,中国香港的均分箱线图图9(a),可以看到,大陆电影均分低于港台电影,且存在大量低分电影拉低了箱体的位置。
分析相关性可得,大陆、香港、台湾电影年度均分与全部评分关联度分别为R=0.979,0.919,0.822,说明滤去台湾和香港电影,大陆电影年度均分的变化趋势与全部评分变化更接近。图9(b)可以进一步反映这一点。
可以看到,大部分类型集中在X×Y=[10000,30000]×[6.00,7.50]的区间范围内,剧情、喜剧、爱情、犯罪、动作类电影数量上较多,说明这些题材的电影是近三十年比较热门的题材,其中剧情类电影占比最多,音乐、传记类电影平均得分更高,但在数量上较少,动作、惊悚类电影评论人数虽多,但评价普遍偏低。
除此之外,还有两块区域值得关注:
根据类型对电影数据进行聚合,整理得到各类型电影评分的时间序列,计算它们与整体均分时间序列的相关性,可得表格4与图11,可以看到剧情,喜剧,悬疑这三种类型片与总分趋势变化相关性最强,同时剧情、喜剧类电影在电影数量上也最多,因此可以认为这两类电影对于下跌趋势影响最大,但其余类别电影的相关性也达到了0.9以上,说明几种热门的电影得分的变化趋势与总体均分趋势一致。
前面已经得知,中美两国电影占比最高,且对于均分时间序列的影响最大。在此,进一步对两国电影进行类型分析,选取几种主要的类型(数量上较多,且相关性较高)进行分析,分别是剧情,喜剧,爱情,惊悚,动作,悬疑类电影,绘制近年来几类电影的数量变化柱状图与评分箱线图可得图12,13,14,15。
对导演与演员进行聚合,得到数据中共有15011名导演,46223名演员。按照作品数量在(0,2], (2,5], (5,10], (10,20], (20,999]进行分组统计导演数量,可以发现,15009名导演中有79.08%只拍过1-2部作品,46220名演员中有75.93%只主演过1-2部作品。忽略那些客串、跑龙套的演员,数据总体符合二八定律,即20%的人占据了行业内的大量资源。
在此,可以通过电影得分、每部电影评论人数以及电影数目寻找优秀的电影导演与演员。这三项指标分别衡量了导演/演员的创作水平,人气以及产能。考虑到电影数据集中可能有少量影视剧/剧场版动画,且影视剧/剧场版动画受众少于电影,但得分普遍要高于电影,这里根据先根据每部电影评论数量、作品数量来筛选导演/演员,再根据电影得分进行排名,并取前30名进行作图,可得图17,18。
结合电影票房网( http://58921.com/ )采集到的3353条票房数据,与豆瓣数据按照电影名称进行匹配,可以得到1995-2020年在中国大陆上映的电影信息,分别分析中国内地电影的数量、票房变化趋势,票房与评分、评价人数、时长、地区以及类型的关系,此外还给出了不同导演与演员的票房表现以及影片票房排名。
如图19所示,国内票房数据与上映的电影数量逐年递增,2020年记录的只是上半年的数据,且由于受疫情影响,票房与数量骤减。这说明在不发生重大事件的情况下,国内电影市场规模正在不断扩大。
对电影数据根据类型进行聚合,绘制散点图21,可以发现:
提取导演/演员姓名,对导演/演员字段进行聚合,计算每个导演/演员的票房总和,上映电影均分、以及执导/参与电影数目进行计算,作出票房总和前30名的导演/演员,可得图22,23,图中导演/演员标号反映了票房排名,具体每位导演/演员的上映影片数量、均分、每部电影评价人数、平均时长与总票房在表5、表6中给出。
最后根据电影票房进行排名,得到票房排名前20的电影如表格7所示,可以看到绝大部分上榜电影都是中国电影,索引序号为3、10、12、14、18、19为美国电影,这也反映了除国产电影之外,好莱坞大片占据较大的市场。
本篇报告采集了1990-2020年间豆瓣电影29033组有效数据,从豆瓣电影的评分、时长、地区、类型、演员、导演以及票房等信息进行分析评价,主要有以下结论:
㈢ 电影票房的统计分析有哪些
中国内地电影票房历史排行(2千万元以上)
泰坦尼克号(1998)----------------------------------3.595亿元
赤壁(上)(2008)----------------------------------3.12亿元
满城尽带黄金甲(2006)-----------------------------2.91亿元
变形金刚(2007)------------------------------------2.77亿元
周恩来(1992)---------------------------------------2.70亿元
英雄(2002)-----------------------------------------2.50亿元
集结号(2007)---------------------------------------2.4076亿元
画皮(2008)-----------------------------------------2.29亿元
长江七号(2008)------------------------------------2.02亿元
投名状(2007)---------------------------------------2.00亿元
功夫之王(2008)------------------------------------1.865亿元
无极(2005)-----------------------------------------1.795亿元
功夫熊猫(2008)------------------------------------1.78亿元
功夫(2004)-----------------------------------------1.55亿元
十面伏山埋伏(2004)------------------------------------1.536亿元
蜘蛛侠3(2007)-------------------------------------1.45亿元
007大破量子危机(2008)---------------------------1.42亿元
哈利·波特与凤凰社(2007)--------------------------1.3789亿元
牧马人(1982)---------------------------------------1.3亿元
色•戒(2007)----------------------------------------1.263亿元
夜宴(2006)-----------------------------------------1.251亿元虚厅纳
加勒比海盗:世界的尽头(2007)------------------- 1.247亿元
天下无贼(2004)-------------------------------------1.20亿元
生死抉择(2000)-------------------------------------1.165亿元
大灌篮(2008)---------------------------------------1.128亿元
木乃伊3(2008)-------------------------------------1.1亿元
钢铁侠(2008)---------------------------------------1.059亿元
珍珠港(2001)---------------------------------------1.05亿元
真实的谎言(1995)----------------------------------1.02亿元
少林差没寺(1982)---------------------------------------1.02亿元
金刚(2006)-----------------------------------------1.0184亿元
霍元甲(2006)---------------------------------------1.016亿元
达·芬奇密码(2006)---------------------------------1.012亿元
全民超人汉考克(2007)-----------------------------1.01亿元
妈妈再爱我一次(1990)-----------------------------1.00亿元
大决战:辽沈战役(1990)---------------------------1.00亿元
芙蓉镇(1986)---------------------------------------1.00亿元
白蛇传(1981)---------------------------------------1.00亿元
喜盈门(1981)---------------------------------------1.00亿元
庐山恋(1980)---------------------------------------1.00亿元
405谋杀案(1980)----------------------------------1.00亿元
神秘的大佛(1979)----------------------------------1.00亿元
警察任务4之简单任务(1996)-----------------------9600万元
神话(2005)-----------------------------------------9550万元
哈利·波特与火焰杯(2005)--------------------------9490万元
007大战皇家赌场(2007)---------------------------9200万元
宝贝计划(2006)------------------------------------9200万元
指环王:王者归来(2004)---------------------------8630万元
纳尼亚传奇:凯斯宾王子(2008)-------------------8600万元
后天(2004)-----------------------------------------8600万元
少林小子(1984)------------------------------------8600万元
七剑(2005)-----------------------------------------8345万元
梅兰芳(2008)---------------------------------------8277万元
拯救大兵瑞恩(1998)--------------------------------8230万元
碟中谍3(2006)-------------------------------------8100万元
红番区(1995)---------------------------------------8000万元
南北少林(1986)------------------------------------8000万元
史前10000年(2008)-------------------------------7600万元
星战前传3:西斯的反击(2005)--------------------7554万元
伤城(2006)-----------------------------------------7430万元
侏罗纪公园:失落的世界(1997)--------------------7210万元
通缉令(2008)---------------------------------------7200万元
鸦片战争(1997)------------------------------------7200万元
特洛伊(2004)---------------------------------------7000万元
见龙御甲(2008)------------------------------------6990万元
国家宝藏2(2008)-----------------------------------6970万元
地心历险记(2008)----------------------------------6800万元
海神号(2006)---------------------------------------6700万元
一个好人(1997)------------------------------------6500万元
无敌浩克(2008)------------------------------------6400万元
头文字D(2005)-------------------------------------6300万元
尼斯湖水怪(2008)----------------------------------6270万元
门徒(2007)-----------------------------------------6250万元
史密斯行动(2005)----------------------------------6198万元
超人归来(2006)------------------------------------6182万元
墨攻(2006)-----------------------------------------6150万元
纳尼亚传奇(2006)----------------------------------6036万元
哈利·波特与魔法石(2002)--------------------------5900万元
博物馆奇妙夜(2007)--------------------------------5800万元
加菲猫2(2006)-------------------------------------5640万元
指环王:护戒使者(2002)---------------------------5600万元
南极大冒险(2006)----------------------------------5463万元
龙卷风(1996)---------------------------------------5450万元
世界之战(2005)------------------------------------5299万元
哈利·波特与密室(2003)----------------------------5200万元
蜘蛛侠2(2004)-------------------------------------5170万元
龙虎门(2006)---------------------------------------5130万元
彗星撞地球(1998)----------------------------------5130万元
断箭(1996)-----------------------------------------5050万元
红樱桃(1995)---------------------------------------5000万元
情癜大圣(2005)------------------------------------4900万元
勇敢者的游戏(1996)--------------------------------4770万元
勇闯夺命岛(1996)----------------------------------4770万元
天崩地裂(1997)------------------------------------4760万元
十全九美(2008)------------------------------------4700万元
虎胆龙威(1995)------------------------------------4700万元
有话好好说(1997)----------------------------------4600万元
蒸发密令(1997)------------------------------------4580万元
碟中碟(1996)---------------------------------------4510万元
手机(2004)-----------------------------------------4500万元
保持通话(2008)------------------------------------4400万元
江山美人(2008)------------------------------------4320万元
新警察故事(2004)----------------------------------4300万元
蜘蛛侠(2002)---------------------------------------4300万元
水啸雾都(2008)------------------------------------4200万元
黑客帝国:重装上阵(2003)-------------------------4200万元
大腕(2001)-----------------------------------------4200万元
黑客帝国:矩阵革命(2003)-------------------------4166万元
狮子王(1995)---------------------------------------4130万元
韩城攻略(2005)------------------------------------4100万元
天地英雄(2003)------------------------------------4100万元
不见不散(1999)------------------------------------4100万元
小鬼当家3(1998)-----------------------------------4020万元
大转折——挺进大别山(1997)----------------------4000万元
红樱桃(1995)---------------------------------------4000万元
红粉(1994)-----------------------------------------4000万元
焦裕禄(1990)---------------------------------------4000万元
霸王别姬(1993)------------------------------------4000万元
廊桥遗梦(1996)------------------------------------3950万元
张思德(2004)---------------------------------------3800万元
生死时速(1995)------------------------------------3780万元
无间道:终极无间(2003)---------------------------3700万元
红河谷(1999)---------------------------------------3700万元
忍者神龟(2007)------------------------------------3680万元
哈利·波特与阿兹卡班的囚徒(2004)----------------3660万元
云水谣(2006)---------------------------------------3600万元
国家宝藏(2005)------------------------------------3592万元
冰川时代2(2006)-----------------------------------3558万元
没完没了(2000)------------------------------------3500万元
命运呼叫转移(2007)--------------------------------3400万元
男儿本色(2007)------------------------------------3400万元
龙骑士(2007)---------------------------------------3400万元
未来水世界(1996)----------------------------------3400万元
不能说的秘密(2007)--------------------------------3330万元
海底总动员(2003)----------------------------------3300万元
星战前传1:魅影危机(1999)-----------------------3300万元
甲方乙方(1997)------------------------------------3300万元
七七事变(1995)------------------------------------3300万元
黄金罗盘(2008)------------------------------------3285万元
绝地战警(1995)------------------------------------3280万元
极度恐慌(1996)------------------------------------3260万元
爱情左灯右行(2008)--------------------------------3200万元
玩具总动员(1996)----------------------------------3180万元
导火线(2007)---------------------------------------3100万元
佐罗传奇(2005)------------------------------------3076万元
生死时速2(1997)-----------------------------------3040万元
玩命快递(2006)------------------------------------3038万元
龙之战(2008)---------------------------------------3021万元
桃花运(2008)---------------------------------------3000万元
风云决(2008)---------------------------------------3000万元
千里走单骑(2005)----------------------------------3000万元
2046(2004)----------------------------------------3000万元
一个都不能少(1999)--------------------------------3000万元
洗澡(1999)------------------------------------------3000万元
我是谁(1998)---------------------------------------3000万元
爱情麻辣烫(1997)----------------------------------3000万元
周恩来外交风云(1998)-----------------------------3000万元
离开雷锋的日子(1996)-----------------------------3000万元
红高粱(1987)---------------------------------------3000万元
如果•爱(2005)--------------------------------------2980万元
天堂口(2007)---------------------------------------2968万元
剑蝶(2008)-----------------------------------------2940万元
迈阿密风云(2006)----------------------------------2925万元
特务迷城(2001)------------------------------------2900万元
U-571(2000)--------------------------------------2900万元
宝莲灯(1999)---------------------------------------2900万元
偷天陷阱(1999)------------------------------------2900万元
兄弟之生死同盟(2007)-----------------------------2870万元
灵魂战车(2007)------------------------------------2850万元
马达加斯加(2005)----------------------------------2819万元
终结者3(2003)-------------------------------------2817万元
虎胆龙威4.0(2007)--------------------------------2750万元
铁三角(2007)---------------------------------------2740万元
翻译风波(2005)------------------------------------2724万元
任长霞(2005)---------------------------------------2700万元
恐龙(2000)-----------------------------------------2700万元
冷山(2004)-----------------------------------------2650万元
绝密飞行(2005)------------------------------------2640万元
亚瑟王(2004)---------------------------------------2600万元
狂蟒之灾2(2005)-----------------------------------2533万元
千机变:花都大战(2004)---------------------------2500万元
角斗士(2000)---------------------------------------2500万元
生死豪情(1997)------------------------------------2500万元
飞龙再生(2003)------------------------------------2500万元
亡命天涯(1994)------------------------------------2580万元
尖锋时刻(1999)------------------------------------2500万元
红色恋人(1998)------------------------------------2500万元
周恩来———伟大的朋友(1998)-------------------2500万元
生死狙击(2007)------------------------------------2460万元
惊涛大冒险(2006)----------------------------------2450万元
空中大灌篮(1997)----------------------------------2410万元
时空线索(2007)------------------------------------2400万元
来电惊魂(2006)------------------------------------2400万元
郑培民(2004)---------------------------------------2400万元
红色恋人(1998)------------------------------------2400万元
谍影重重3(2007)-----------------------------------2300万元
疯狂的石头(2006)----------------------------------2300万元
老鼠爱上猫(2003)----------------------------------2300万元
木乃伊2(2001)-------------------------------------2300万元
深海寻人(2008)------------------------------------2280万元
加勒比海盗(2003)----------------------------------2250万元
防火墙(2006)---------------------------------------2215万元
世贸中心(2006)------------------------------------2212万元
憨豆的黄金周(2007)-------------------------------2200万元
国家公敌(1999)------------------------------------2200万元
极速赛车手(2008)----------------------------------2180万元
X战警3:背水一战(2006)--------------------------2145万元
赛车总动员(2006)----------------------------------2145万元
美食总动员(2007)----------------------------------2120万元
超人总动员(2005)----------------------------------2100万元
一级戒备(2006)------------------------------------2100万元
指环王:双城奇谋(2003)---------------------------2100万元
将军的女儿(2000)----------------------------------2100万元
精灵鼠小弟(2000)----------------------------------2080万元
蝙蝠侠:侠影之谜(2005)---------------------------2070万元
宝葫芦的秘密(2007)--------------------------------2065万元
云中漫步(1996)------------------------------------2050万元
哆啦A梦大雄的恐龙(2007)-------------------------2040万元
盗走达芬奇(2008)----------------------------------2010万元
东京审判(2006)------------------------------------2000万元
神奇四侠(2005)------------------------------------2000万元
生死牛玉儒(2005)----------------------------------2000万元
怒海争锋(2004)------------------------------------2000万元
周渔的火车(2003)----------------------------------2000万元
我的兄弟姐妹(2001)--------------------------------2000万元
蝙蝠侠与罗宾(1998)--------------------------------2000万元
情归巴黎(1997)------------------------------------2000万元
首映日票房排行(200万元以上)
赤壁(上)(2008)----------------------------------2700万元
变形金刚(2007)------------------------------------2241万元
无极(2005)-----------------------------------------2115万元
泰坦尼克号(1998)----------------------------------1800万元
蜘蛛侠3(2007)-------------------------------------1726万元
功夫(2004)-----------------------------------------1700万元
功夫之王(2008)------------------------------------1600万元
画皮(2008)-----------------------------------------1520万元
梅兰芳(2008)---------------------------------------1500万元
功夫熊猫(2008)------------------------------------1500万元
集结号(2007)---------------------------------------1500万元
满城尽带黄金甲(2006)-----------------------------1500万元
木乃伊3(2008)-------------------------------------1400万元
007大破量子危机(2008)---------------------------1200万元
长江七号(2008)------------------------------------1200万元
夜宴(2006)-----------------------------------------1200万元
英雄(2002)-----------------------------------------1200万元
投名状(2007)---------------------------------------1000万元
见龙御甲(2008)------------------------------------900万元
全民超人汉考克(2007)-----------------------------860万元
博物馆奇妙夜(2007)--------------------------------800万元
达·芬奇密码(2006)---------------------------------800万元
水啸雾都(2008)------------------------------------650万元
国家宝藏2(2008)-----------------------------------650万元
超人归来(2006)------------------------------------620万元
天下无贼(2004)------------------------------------510万元
通缉令(2008)---------------------------------------400万元
墨攻(2006)-----------------------------------------400万元
防火墙(2006)---------------------------------------300万元
极速赛车手(2008)----------------------------------250万元
赛车总动员(2006)----------------------------------238万元
手机(2004)-----------------------------------------220万元
预见未来(2008)------------------------------------200万元
桃花运(2008)---------------------------------------200万元
剑蝶(2008)-----------------------------------------200万元
十全九美(2008)------------------------------------200万元
单日票房排行(200万元以上)
无极(2005)-----------------------------------------2500万元
功夫(2004)-----------------------------------------2200万元
英雄(2002)-----------------------------------------1800万元
007大破量子危机(2008)---------------------------1740万元
首映前三日排行(500万元以上)
十面埋伏(2004)------------------------------------5500万元
英雄(2002)-----------------------------------------5240万元
梅兰芳(2008)---------------------------------------4218万元
功夫熊猫(2008)------------------------------------3800万元
达·芬奇密码(2006)---------------------------------3750万元
珍珠港(2001)---------------------------------------3500万元
哈利·波特与火焰杯(2005)--------------------------3329万元
星战前传3:西斯的反击(2005)--------------------2800万元
纳尼亚传奇:凯斯宾王子(2008)-------------------2700万元
七剑(2005)-----------------------------------------2600万元
史前10000年(2008)-------------------------------2530万元
神话(2005)-----------------------------------------2412万元
伤城(2006)-----------------------------------------2400万元
史密斯行动(2005)----------------------------------1692万元
龙虎门(2006)---------------------------------------1560万元
叶问(2008)-----------------------------------------1500万元
超人归来(2006)------------------------------------1500万元
加菲猫2(2006)-------------------------------------1391万元
导火线(2007)---------------------------------------1100万元
南极大冒险(2006)----------------------------------1056万元
龙骑士(2007)---------------------------------------1050万元
一级戒备(2006)------------------------------------998万元
十全九美(2008)------------------------------------900万元
黄金罗盘(2008)------------------------------------900万元
佐罗传奇(2005)------------------------------------898万元
X战警3:背水一战(2006)--------------------------848万元
冰河世纪2(2006)-----------------------------------790.8万元
忍者神龟(2007)------------------------------------780万元
云水谣(2006)---------------------------------------728万元
马达加斯加(2005)----------------------------------670万元
李米的猜想(2008)----------------------------------650万元
宝葫芦的秘密(2007)--------------------------------541万元
超强台风(2008)------------------------------------500万元
日本沉没(2007)------------------------------------500万元
哆啦A梦大雄的恐龙(2007)-------------------------500万元
㈣ 影视行业影响票房的影响因素
影响电影票房的五大因素
一、影片本身质量:影片的质量是影响票房的首要因素。内容为王,影片的质量上去了,有口碑了票房就容易上去。
按照电影的口碑和票房可以分为:
有票房又有口碑的电影;
有票房无口碑的电影;
无票房有口碑的电影;
无票房无口碑。
有票房又有口碑电影,数量很少;市场上绝大多数都是无票房无口碑的电影。无票房却有口碑电影,可能经典并获奖,受众范围较小,比如2017年上映的《七十七天》《二十二》。只有影片本身质量过硬,拥有口碑后,电影票房就更容易获得成功。
二、影片排映档期:影片在什么档期内进入市场是一门学问。不同档期有不同的特点,在定档期的的时候需要瞻前顾后,不要匆忙且盲目的选择档期。有同类题材的影片上映之时,就不要前后紧挨着上片。不同的档期应有不同的策略。
中国特色电影档期
1、贺岁档:贺岁档泛指每年11月初到次年3月初的电影档期,大约在八九十天左右。
2、五一档:一般泛指每年五一期间的电影档期。
3、暑期档:一般泛指每年6月-9月的电影档期。
4、国庆档:一般泛指每年国庆期间的电影档期。
其中含有情人节档、三八档、清明档、愚人档、端午档、七夕档、光棍节档、双12档等。不同的档期应有不同的策略。
三、影片宣传策划:电影市场是以商品交换的形式而提供影片和放映的场所,需要经过宣传策划的手段达到产品推广的目的。 关于电影的营销策划,宣传要有诱惑力,宣传投资、演员、花絮、导演阐述、拍摄趣事等,对影片的包装等都是至关重要的。
电影的宣传策划应该贯穿于制片、发行和放映的全过程,各自利用自身优势在影片的宣传策划上“各尽所能”。电影片名,好的片名拥有很好的传播效应,片名也会影响票房。朗朗上口,过长不便于记忆。电影海报,海报的作用就是吸引观众走进电影院,富有视觉性,作为电影售前的消费产品,片名是第一包装,电影海报是第二包装。
四、映期社会环境:对一部具体的商业影片来说,在绝对有效生命周期内能否取得最大值的票房,与该片上映周期前后的社会环境存在着一种潜在的因果关系。电影市场放在社会大环境中来
看,还是比较脆弱的,911恐怖事件、SARS肆虐数月、足球世界杯等,都动摇过电影市场的正常地位。应势利导、随机应变是必不可少的。
五、映期天气环境:天气情况与社会发展、个人
生活都有关系,天气同样在客观上影响着电影市场票房,只是其表现形式不同而已。电影市场上的放映工作犹如足球比赛,一经决定档期,不会因天气变化而变动,这中间运气的成份太浓。从这个意义上讲,影片进入市场后也得“靠天吃饭”了 。
六、影院和票价等其他因素:影院建设、电影票价、影片数量和立法规范等诸多方面也影响电影票发。所以中国电影市场要稳定发展,则要依靠社会的资金和力量,从而使市场正常有序、规范和谐的持续发展。
㈤ 好莱坞电影票房与电影类型有联系么一部电影取得高票房的原因究竟有哪些
国王的演讲票房算不上惨淡吧,印象中还过亿了,甚至排行榜保持了一阵第一的位置。电影票房还是多方位衡量的,不能说与口碑无关,但是确实和电影的前期宣传以及知名度演员等等关系更大。
就比如说楼主说的暮光之城吧,其票房爆棚的原因是源自于这个系列的书的畅销。今年的饥饿游戏也是这样,不过饥饿游戏的口碑也还不错。另外像变形金刚,大家都说是烂片,但是还是去看,就是因为大家想看那些机器啊。对于爆米花电影,口碑一点也不重要,相反,噱头,知名度,宣传是最重要的。大多数观众的消费都是非理性的,看电影就说啊,最近哪部电影很出名在上映就去看了,不可能在此之前到imdb烂番茄之类的查分数。
当然,口碑很差票房很好的电影其实并不多,如果大片都粗制滥造,也不可能靠一点运气和名气塌漏获得高票房,像美国队长,绿灯侠什么的虽然有漫画打底,票房依旧糟烂。而复仇者联盟,近期的蝙蝠侠,蜘蛛侠,普罗米修斯就属于名气,票房,口碑都很不错的作品。
这是大片,另一种独立小品则完全要靠营销和口碑搏出位。最经典的例子就是女巫布莱尔,它是影团昌烂史回报率最高的电影,dv拍摄的伪纪录片形式恐怖片,由于口口相传和制片方的病毒式营销,最后票房高的吓人。还有阳光小美女,也是靠口碑传播最后活动6亿票房,甚至一直奔到奥斯卡,迅激可谓奖项荣誉票房口碑都得到了。前年的宿醉和去年的帮助都是这样靠口碑取胜成为票房黑马的独立小片。
其实票房是有多方面影响的,不过我始终觉得对于一部电影来说,还是本身质量最重要,10年之后,谁还会记得变形金刚3是什么样,但是赔了血本的拆弹部队会因为一座奥斯卡名留影史。
㈥ 怎样预测票房
票房预测:需求与现实
从1896年西洋影戏传入上海徐园,到1905年中国拍摄首部国产电影《定军山》,再到2013年全国电影票房突破200亿
大关,(4)有着百余年历史的中国电影产业,在近几年呈现出飞跃式发展的态势,无论是影片质量、院线建设还是投资规模都有了长足的发展。与此同时,随着
“大数据”时代的到来,电影观影群体、观影偏好与心理、电影信息传播和获取方式也都在发生着深刻的变化。
毋庸置疑,多样化资本的加入是中国电影不可或缺的发展引擎,然而,电影行业以投资回报率难以预测著称,大投入未必有大产出,票房预测工具的缺失使得投资者
无法有效对冲投资风险,华人著名导演吴宇森的《风语者》就拖累了米高梅公司最终走向破产。因此制作与发行公司不得不考虑所有对票房有影响的因素:辣妈李小
璐对《私人订制》票房贡献几何;《风暴》票房为何远低于其金牌制片人江志强预期;被吐槽“烂片”的《富山春居图》和《小时代》缘何票房却一路走红;成龙大
叔的《警察故事2013》有无必要拍成3D;《泰囧》的“报复性”观影效应能否复现……这一切的一切其实都可以从“大数据”中找到答案。因为网络上的每一
次浏览、查询乃至点击所汇聚成的群体智慧都“蝴蝶效应”般地影响着电影的最终票房。
2013年Google在一份名为《Quantifying Movie Magic with Google Search》(5)
的白皮书中公布了其电影票房预测模型,该模型主要利用搜索、广告点击数据以及院线排片来预测票房,Google宣布其模型预测票房与真实票房的吻合程度达
到了94%,但并未见其公开对未上映电影的预测结果。
搜狗公司借助“深思”系统,建立了更为复杂的模型,用于预测国内电影票房,并在新浪微博上提前发布了2013年12月国内上映电影的首周票房预测结果。很高兴到目前为止预测结果与真实数据非常接近,同时,我们的模型还可以用于对影响票房的因素进行定量分析。
搜索查询量的奥秘
搜狗搜索每天都响应上亿次的搜索请求,查询词的分布和变化趋势能够很好的反映出中国网民的兴趣点和关注指向。与Google的研究类似,我们也发现,电影
上映前相关查询词的搜索次数与票房收入有着很强的关联性。这一点很好理解,用户的主动搜索行为体现了用户对这部电影的潜在兴趣。
我们选取了2013年1-11月国内上映的180部电影的票房和上映前的搜索量数据作为训练集,用于训练一个基础的线性回归模型。实验发现,单纯利用搜索
量训练得到的模型,预测得到的首周票房与真实票房的相关度R方值仅为68%,这与Google仅用搜索数据得到的结果70%很接近。(注:R方值取值为0
至1,值越大表示模型预测效果越好),这个结果也说明无论在中国还是美国,用户的搜索行为是很相似的。
用搜索量来进行预测票房是一个好的开始,但是准确度还远远不够。同时很多搜索词还存在歧义的情况,比如《生化危机》,既是电影也是游戏,混在一起会造成票
房预测值偏高。进一步研究发现,游戏意图的查询请求量较为平稳,但电影意图的查询请求在上映前则有一个高峰,也可以通过用户点击的URL来进一步确认用户
的搜索意图。因此模型需要再引入查询量的变化趋势和用户点击的分布情况。修正后的模型可以达到74%的准确度,这时模型已经可以对电影票房进行一个粗略的
估计。
社交媒体:用户的情感分析
社交媒体数据对票房预测也会有一定帮助。假设你是某个明星的粉丝,打算去看他主演的电影,那么你很可能会提前转发该电影的相关微博给你的朋友。国外已经有
很多预测项目都是在针对Twitter数据做研究,这里我们主要采用国内部分微博网站的数据来进行预测。通过自然语言理解技术,分析出用户对未上映影片的
情感倾向,从而转换为用户的观影需求。进一步可以考虑的因素包括微博转发深度、评论活跃程度,以及相关微博数量随电影上映日期临近的变化趋势,这些数据都
可以被有效的提炼为特征并加入到模型中。
微博数据的加入使得准确率超过了80%。
结语
预测专家纳特·西尔弗在《信号与噪声:大数据时代预测的科学与艺术》一书中提到,大数据时代的预测更容易失败,大部分失败的预测都源于一种盲目的自信,用精确的预测来冒充准确的预测。
对此我们有着清醒的认识,目前的票房预测模型还有若干需要改进的方向。首先,目前模型的主要思想是通过电影上映前的用户关注度来推算首周票房,这实际上没
有考虑电影上映后的口碑对票房的影响;其次,模型较为依赖历史数据,可能难以识别一些上映后脱颖而出的小成本“黑马”电影;再次,目前的技术只能提前10
天预报出首周票房,还可以更加超前。
总体而言,“深思”系统代表了搜狗公司在社会化预测方面一些新的尝试。我们试着从繁杂的海量数据中筛选出真正的信号,努力穿越不确定性的迷雾,区分出未来
图景的哪些部分可以预测,哪些不可预测。通向这个未来的道路还在探索之中,但目前工作已经取得了一些不错的进展,并给予了我们更大的信心。
㈦ 电影的票房是怎么算的
票房可以用观影人数或门票收入来计算,而通常我们所讲的票房,就是用门票收入来计算的。即,票房=票价X购买人数。
比如某影院一天放映了6场《李茶的姑妈》,有学生票:40元,共10人,标准票:80元,共10人,团体票:30元,共10人,会员票价:20元,一共10人,那么,这一天该影院的总票房就是:4000+8000+3000+2000 。
现在各大电影院都实行电脑售票,这些售票系统是和国家电影局电影专项基金管理中心联网的,每天都会在固定的时间自动向专基中心发送票房数据。因此,相对来说,电影票房对判断某部电影的观影人数,影片受欢迎程度还是有很大参考意义的。
(7)如何分析不同类型电影的票房扩展阅读
电影票房的影响因素:
影片票房的好坏取决于多种因素的综合,包括影片题材及剧本、主创团队、影片定位、影片质量、票价、档期、发行、院线排片、宣传推广等多个方面。题材和剧本是一部影片的核心;科幻、魔幻题材一向是票房大热的选项,贴近生活、打动人心的情感题材也比较受观众青睐。
主创团队如导演、主演、制片人和制作团队等,都是吸引观众的重量级筹码,能够在影片上映前期对观众形成最大的吸引和冲击;影片定位是指影片为自己影片的市场预估,比如从剧本设置、演员选择等方面切入设定目标人群定位。
影片质量包含了剧本、拍摄、制作、演员表演等综合因素,是电影艺术成就的衡量标准,是一部电影成功的最重要因素等等。
参考资料来源:网络-电影票房
㈧ 数据挖掘 | 数据理解和预处理
数据挖掘 | 数据理解和预处理
小编遇到过很多人(咳咳,请不要对号入座),拿到数据后不管三七二十一,先丢到模型中去跑,管它具体什么样呢,反正“大数据”嘛,总能整出点东西来。
但就像上次说过的,“大数据”很有可能带来“大错误”!所以在数据挖掘工作开始前,认真的理解数据、检查数据,对数据进行预处理是至关重要的。
很多人说,数据准备工作真是个“体力活”,耗时耗力不说,还异常的枯燥无味。这点小编承认,建模之前的数据处理确实是平淡的,它往往不需要多高的智商,多牛的编程技巧,多么高大上的统计模型。
但是,它却能时时触发你的兴奋点,因为它需要足够的耐心和细心,稍不留神就前功尽弃。
在这次的内容里,小编首先会从“数据理解”、“变量类型”和“质量检查”三个方面进行阐述,然后会以一个自己做过的实际数据为例进行展示。
一、数据理解
拿到数据后要做的第一步就是理解数哗知据。
什么是理解数据呢?不是简单看下有多少Excel表,有多少行,多少列,而是要结合自己的分析目标,带着具体的业务需求去看。
首先,我们需要明确数据记录的详细程度,比方说某个网站的访问量数据是以每小时为单位还是每天为单位;一份销售数据记录的是每家门店的销售额还是每个地区的总销售额。
其次,洞芦猜我们需要确定研究群体。研究群体的确定一定和业务目标是密切相关的。
比方说,如果我们想研究用户对产品的满意度与哪些因素有关,就应该把购买该产品的所有客户作为研究群体;如果我们想研究用户的购买行为受哪些因素影响,就应该同时考察购买人群和非购买人群,在两类人群的对比中寻找关键因素。
研究群体的确定有时也和数据的详细程度有关。
比如我们想研究“观众影评”对“电影票房”的影响,我们既可以把“每部电影”看成一个个体,研究“影评总数”对“电影总票房”的影响,也可以把“每部电影每天的票房”看成一个个体,研究“每天的影评数”对“每天的电影票房”的影响。
具体选择哪一种取决于我们手上有什么样的数据,如果只有总票房和总影评数的数据,那我们只能选择第一种;如果有更详细的数据,那就可以考虑第二种方案。
需要注意的是,这两种方案还会影响我们对于模型的选择。
例如,如果研究“每天的影评数”对“每天电影票房”的影响,那每部电影又被细分为很多天,同一部电影不同时间的票房会有较高的相似性,这就形成了一种层次结构,可以考虑使用层次模型(hierarchical model)进行分析。
最后,当我们确定了研究目标和研究群体后,我们需要逐一理解每个变量的含义。有些变量和业务目标明显无关,可以直接从研究中剔除。
有些变量虽然有意义,但是在全部样本上取值都一样,这样的变量就是冗余变量,也需要从研究中剔除。
还有一些变量具有重复的含义,如“省份名称”和“省份简称”,这时只需要保留一个就可以了。
二、纳型变量类型
所有变量按其测量尺度可以分成两大类,一类是“分类变量”,一类是“数值变量”。不同类型的变量在处理方法和后期的模型选择上会有显著差别。
【分类变量】
分类变量又称属性变量或离散变量,它的取值往往用有限的几个类别名称就可以表示了,例如“性别”,“教育程度”,“收入水平”,“星期几”等。细分的话,分类变量又可分为两类,一类是“名义变量”,即各个类别间没有顺序和程度的差别,就像“手机系统”中ios和安卓并没有明显的好坏差别,“电影类型”中“动作片”和“科幻片”也都是一样的,说不上哪个更好或更差。
另外一类是定序变量,即不同类别之间存在有意义的排序,如“空气污染程度”可以用“差、良、优”来表示、“教育程度”可以用“小学、初中、高中、大学”来表示。
当研究的因变量是分类变量时,往往对应特定的分析方法,我们在后面的章节会陆续讲到,这里暂且不谈。
当研究中的自变量是分类变量时,也会限制模型选择的范围。有些数据挖掘模型可以直接处理分类自变量,如决策树模型;但很多数据挖掘模型不能直接处理分类自变量,如线性回归、神经网络等,因此需要将分类变量转换成数值变量。
对于定序自变量,最常用的转换方法就是按照类别程度将其直接转换成数值自变量,例如将空气污染程度 “差、良、优”转换为“1,2,3”。
对于名义自变量,最常用的转换方法就是构造0-1型哑变量。例如,对于“性别”,可以定义“1=男,0=女”。
当某个名义变量有K个类别取值时,则需要构造K-1个哑变量。例如教育程度“小学,初中,高中,大学及以上”,可以构造三个哑变量分别为:x1:1=小学,0=其它;x2:1=初中,0=其它;x3:1=高中,0=其它。当x1,x2,x3三个哑变量取值都为0时,则对应着“大学及以上”。
需要注意的是,有时候名义变量的取值太多,会生成太多的哑变量,这很容易造成模型的过度拟合。
这时可以考虑只把观测比较多的几个类别单独拿出来,而把剩下所有的类别都归为“其它”。
例如,中国一共包含56个民族,如果每个民族都生成一个哑变量就会有55个,这时我们可以只考虑设置“是否为汉族”这一个0-1哑变量。
【数值变量】
我们再来看看数值变量。数值变量就是用数值描述,并且可以直接进行代数运算的变量,如“销售收入”、“固定资本”、“评论总数”、“访问量”、“学生成绩”等等都是数值变量。
需要注意的是,用数值表示的变量不一定就是数值型变量,只有在代数运算下有意义的变量才是数值型变量。
例如财务报表的年份,上市时间等,虽然也是用数值表示的,但我们通常不将它们按照数值型变量来处理。
上面我们讲到,分类变量通常要转换成数值型变量,其实有些时候,数值型变量也需要转换成分类变量,这就用到了“数据分箱”的方法。
为什么要进行数据分箱呢?通常有以下几个原因:
1. 数据的测量可能存在一定误差,没有那么准确,因此按照取值范围转换成不同类别是一个有效的平滑方法;
2.有些算法,如决策树模型,虽然可以处理数值型变量,但是当该变量有大量不重复的取值时,使用大于、小于、等于这些运算符时会考虑很多的情况,因此效率会很低,数据分箱的方法能很好的提高算法效率;
3.有些模型算法只能处理分类型自变量(如关联规则),因此也需要将数值变量进行分箱处理。
数据分箱后,可以使用每个分箱内的均值、中位数、临界值等作为这个类别的代表值,也可以直接将不同取值范围定义成不同的类别,如:将污染程度划分后定义为“低、中、高”等。
那如何进行数据分箱呢?常用的数据分箱的方法有:等宽分箱(将变量的取值范围划分成等宽的几个区间)、等频分箱(按照变量取值的分位数进行划分)、基于k均值聚类的分箱(将所有数据进行k均值聚类,所得的不同类别即为不同的分箱),还有一些有监督分箱方法,如:使分箱后的结果达到最小熵或最小描述长度等。这里不详细介绍了,有兴趣的童鞋可以自行网络。
三、质量检查
对数据中的各个变量有了初步了解后,我们还需要对数据进行严格的质量检查,如果数据质量不过关,还需要进行数据的清洗或修补工作。
一般来说,质量检查包括检查每个变量的缺失程度以及取值范围的合理性。
【缺失检查】
原始数据中经常会存在各种各样的缺失现象。
有些指标的缺失是合理的,例如顾客只有使用过某个产品才能对这个产品的满意度进行评价,一笔贷款的抵押物中只有存在房地产,才会记录相应的房地产的价值情况等。
像这种允许缺失的变量是最难搞的,因为我们很难判断它的缺失是合理的,还是由于漏报造成的。
但无论哪种情况,如果变量的缺失率过高,都会影响数据的整体质量,因为数据所反映的信息实在太少,很难从中挖掘到有用的东西。
对于不允许缺失的变量来说,如果存在缺失情况,就必须进行相应的处理。如果一个变量的缺失程度非常大,比方说达到了70%,那就考虑直接踢掉吧,估计没救了。
如果缺失比例还可以接受的话,可以尝试用缺失值插补的方法进行补救。
插补的目的是使插补值能最大可能的接近其真实的取值,所以如果可以从其他途径得到变量的真实值,那一定优先选择这种方法。
比如某个公司的财务信息中缺失了“最终控制人类型”和“是否国家控股”这两个取值,这些可以通过网上的公开信息得到真实值;再比如缺失了“净利润率”这个指标的取值,但是却有“净利润”和“总收入”的取值,那就可以通过变量间的关系得到相应的缺失值,即净利润率=净利润/总收入。
当然,更多的时候,我们无法得到缺失值的真实信息,这时就只能借用已有的数据来进行插补了。
对数值变量来说,可以用已观测值的均值、中位数来插补缺失值;对分类型变量来说,可以用已观测数据中出现比例最高的类别取值来进行插补。
这些方法操作起来非常简单,但它们都是对所有缺失值赋予了相同的取值,所以当缺失比例较大时,可能会扭曲被插补变量与其余变量的关系。
更复杂一点的,我们可以选择模型插补方法,即针对被插补变量和其它自变量之间的关系建立统计模型(如回归、决策树等),将模型预测值作为插补值。
如何处理缺失值是一个很大的研究课题,我们这里只是介绍了最简单可行的方法,有兴趣的读者可以参阅Little和Rubin 2002年的专著“Statistical Analysis with Missing Data”。
【变量取值合理性检查】
除了缺失外,我们还要考察每个变量的取值合理性。每个变量都会有自己的取值范围,比如“用户访问量”、“下载次数”一定是非负的,“投资收益率”一定在0~1之间。通过判断变量的取值是否超出它应有的取值范围,可以简单的对异常值进行甄别。
除了根据变量的取值范围来检查变量质量外,还可以根据变量之间的相互关系进行判断。例如一家公司的“净利润率”不应该大于“总利润率”等。
只有通过了各个方面检测的数据才是一份高质量的数据,才有可能带来有价值的模型结果。
四、实例分析——电影票房分析
最后,我们给出一个实例分析。在这个例子中,我们的目标是研究电影哪些方面的特征对电影票房有影响。
我们有两方面的数据,一是描述电影特征的数据,二是描述电影票房的数据。
由于我们关注的是北美的票房市场,所以描述电影特征的数据可以从IMDB网站得到,它是一个关于演员、电影、电视节目、电视明星和电影制作的在线数据库,里面可以找到每部上映电影的众多信息;电影每天的票房数据可以从美国权威的票房网站Box Office Mojo得到,上面记录了每部电影上映期间内每天的票房数据。
我们将从IMDB得到的数据放到“movieinfor.csv”文件中,将从Box Office Mojo中得到的数据放到“boxoffice.csv”文件中。
这里,我们以2012年北美票房市场最高的前100部电影为例进行讲解。下表给出了这两个数据集中包含的所有变量以及相应的解释。
在这两个数据中,movieinfor.csv数据的记录是精确到每部电影的,而boxoffice.csv数据精确到了每部电影中每天的票房数据,是精确到天的。上表中给出的变量中,除了电影名称和ID外,“电影类型”“MPAA评级”(美国电影协会对电影的评级)和“星期几”是分类型变量;“放映时长”、“制作预算”、“电影每天的票房”和“每天放映的影院数”是数值型变量。两份数据都不存在缺失值。
我们首先对两个数据集分别进行变量预处理,然后再根据电影ID将两个数据整合到一起。下面给出了每个变量的处理方法:
【电影类型】
电影类型是一个分类变量。在这个变量中我们发现每部电影都不止一个类型,例如“The Dark Knight Rises”这部电影就有“Action”、“Crime”和“Thriller”三个类型,并且它们以“|”为分隔符写在了一起。
同时,不同电影之间可能有相同的类型,也可能有不同的类型,例如票房排名第二的电影“Skyfall”,它的类型是“Action |Adventure |Thriller”。
因此,我们首先需要做的是把每部电影所属的类型逐一取出来,然后将所有出现过的类型分别形成一个0-1哑变量,如果这部电影在某个类型上出现了,则相应变量的取值就是1,否则是0.
通过上面一步,我们知道这个数据集中出现过的所有电影类型一共有11个。
那是不是按照之前所讲的,应该把它转换为10个哑变量呢?这里需要注意的是,所有的电影类型之间并不是互斥的(即有了action,就不能有其他的类型),所以我们无需因为共线性的原因去掉其中一个。
也就是说,如果把每一个电影类型单独作为一个独立的变量,可以衍生出11个新的0-1变量,这完全没有问题。但11个变量未免有点过多,所以我们根据不同电影类型的频数分布情况,只把出现次数明显较多的类型单独拿出来,最终生成了6个0-1型变量,分别为Adventure,Fantasy,Comedy,Action,Animation,Others。
【MPAA评级】
对于这个分类型变量,我们首先可以看一下数据中它所包含的全部取值,发现一共有“PG”,“PG-13”和“R”三个。
和上面的电影类型(Genre)不同,对于一部电影而言,它只能有一个MPAA取值。因此,在MPAA变量中,我们需要选择一个作为基准,将另外两个构造成哑变量。
例如,我们以“PG”为基准,构造的两个哑变量分别为PG13和R,如果这两个哑变量的取值同时为0,那就相当于电影的MPAA评级是PG。
【放映当天是星期几】
这个变量同MPAA评级一样,每部电影只能有一个取值。
如果它在星期一到星期日上都有取值的话,我们可以衍生出6个0-1型哑变量。
因为这里我们更关注周末和非周末对电影票房的影响,而并不关注具体是哪一天,所以我们将其进一步概括成一个变量,即“是否是周末”。
【放映时长和制作预算】
放映时长和制作预算这两个变量都是取值大于0的数值型变量,我们可以分别检查它们的取值是否在合理的范围内,然后直接保留它们的数值信息。
同时,对“制作预算”而言,假设我们这里关心的不是制作预算的具体数值,而是“小成本电影”和“大成本电影”的票房差异,那我们就可以将这个数值型变量进行分箱处理,转换为一个0-1型的分类变量,即 “是否为小成本电影”。
在决定按照什么标准来划分是否为小成本电影时,我们根据之前文献里的研究结果,将制作预算在100 million以下的电影看成是小成本电影。
上述所有变量的处理过程都可以使用R中最基本的语句(table,rep,which等)完成,由于篇幅限制,小编这里就不列出详细的code了,大家感兴趣的话,可以阅读狗熊会的“R语千寻”系列(戳这里),相信会在R语言的学习上受到更多启发。
最后,我们将所有新生成的变量按照电影ID整合到一起,就大功告成啦。
五、总结
最后总结一下,小编在这次内容中向大家介绍了拿到数据后的数据理解和预处理工作,内容虽然不难,但同样需要我们认真对待。就好像生活一样,只有踏踏实实走好前面的路,才有可能迎接后面的高潮迭起!
㈨ 电影票房分析及预测
在缺少衍生品市场的当下,电影投资主要以票房为主要收入来源,因此前期的票房预测就显得十分重要,能让投资者提前预判项目的大致受益,并通过合适的宣发手段来提高影片的关注度,以便提高最终的票房收入。
新传智库自主研发的票房预测系统就从去年11月份开始,以影片自身题材、主创阵容、大盘、档期、口碑、对手、首日及首周市场表现等为主要依据,对部分上映新片进行票房预测。虽然仍与实际结果有一些出入,但部分结果却做到了高度的精准,可以此为基础详细解释一下票房预测的思路、要点等。
映前主创信息—模糊分类,预测票房起点
由于此时影片很多都尚在制作阶段,一般意义上,只能按照影片的题材、主创阵容、演员明星等推测影片的题材与体量,仅能大致分为大型制作、中等制作、小成本三大类,但这一指标却具有极大的不确定性与不稳定性,且预测难度也是逐步上升。
大成本制作,一般都有着大笔特效投入、知名导演明星参与,有的还有着一定的IP基础,无论哪一方面都能吸引到大量的关注,因此其票房成绩总体已经维持在了一定的水平,票房起点应该在5亿以上。
相比于大制作,中等制作一般是轻工业产品,可能会有一些名导与明星共同参与,题材内容方面贴近现实,一般多为喜剧片、爱情片、剧情片,缺少武侠、动作、科幻、奇幻等题材所需要的大场面特效的加持。
中等成本制作总体较难预测,票房区间从千万级别到亿元级别都有分布。此时演员、导演的因素一般会被放大,明星云集的影片更容易在同类型中获取更多关注,《我不是潘金莲》、《摆渡人》等都属此类;同时,喜剧片的成绩普遍要好于爱情片、剧情片等其他类型,可适当加分,如去年的《从你的全世界路过》和《奔爱》都主打明星牌,但的8.14亿和4751万的成绩却有着天壤之别。
而小成本制作则相对即简单有困难,从题材到主创的毫无新意使得其注定要成为彻彻底底的炮灰,票房成绩也均在一千万以下,多数进口批片、国产剧情片、恐怖片等都属于这种行列。但其内部之间仍然有着较大的差异,根据大盘、档期、对手等的变化仍有小幅的波动,很难利用现有指标精准预测其最终成绩。不过对于此类制作而言,精准预测的意义也并不大。
映前第三方指数—纵向对比,预测票房区间
第三方指数(如猫眼想看指数、网络搜索指数等)反映的是观众对于影片的关注度与认可度,极有可能转化为电影的实际票房支持,因此据有较高的参考价值。
对于猫眼想看指数,一般从影片正式上映一个月左右,就可以作为有效的参考指数。
指数长期保持在高水平(一般日增想看指数维持在3000人以上)则是所谓的大片,其最终市场表现往往取决于口碑,口碑好的话会在一般水平上有所上扬,口碑不理想的情况下,自然就会有一定程度的缩水。
而映前短期内(一般为一周左右)相关指数暴涨的影片其更容易成为爆款,在预测这类影片票房成绩时应适度扩大其预测值,但却很难估测其最终的落脚点,最重要的是看同期竞争影片的表现。
对于每日日增想看人数仅在几百左右的影片,则应已经注定了其票房成绩难有起色。上周五上映的三部新片可以明显的反映出这种趋势(对于小成本而言,这一指标的参考意义并不大,相关平台一般缺少相关数据,难以以此做出有关的推论):
而网络搜索指数更多的是整体反应票房的大致趋势,常用于与其他已上映影片的对比分析,以最近上映的三部进口大片《金刚狼3:殊死一战》、《生化危机:终章》、《极限特工:终极回归》为例,可以发现《金刚狼3》的映前的热度明显低于后两这,因此其在票房上也难以达到两者的成绩。
第三方指数,仅用于初步判断影片的热度,最重要的意义来源于与相关影片的精准对比,数字本身与最终票房之间并没有特别确定的函数转换关系。
大盘趋势与对手实力—小幅调整,缩小预测范围
大盘的走向往往反映着整体的体量,约束着一段时期内电影市场天花板的高度,因此对于单个影片的影响程度较高,春节档多方厮杀仍然平均分力,就在于市场容量的巨大,这也正是众多影片抢占档期的重要因素所在。
除了档期以外,各月份也是有好有坏,3月、9月、11月等都是著名的淡季,全月的总体量在20——30亿左右,萎靡的大盘难以被众多影片平均分割,其票房成绩自然也会有所下滑。但此时大盘的主要限制的是中等制作与小成本影片,大制作反而更因为观众选择面窄小而获利。而对大盘进行预测时,一般可参照去年同期的总量,并根据增势做相应的调整。
除此之外,对手的实力也是影响票房的最重要因素。《功夫瑜伽》能够力压《西游伏妖篇》登顶春节档冠军很大一部分原因在于《西游伏妖篇》的口碑不足。市场热度和总量一定的情况下,重点影片的差评自然会催动其他影片成为“爆款”。
而同类题材也是重要对手,《金刚狼3》的成绩不如《极限特工:终极一战》、《生化危机:终章》;去年的《佩小姐的奇幻城堡》远低于《奇异博士》和《神奇动物在哪里》等都有观众审美疲劳的原因在里面。因此,在这种情况下,即便影片口碑不俗,仍需调低票房预期。
上映首日排片、首周末票房——完全锁定票房成绩
以上的预测都处于前期阶段,在影片正式落地之前,谁也无法比较精确的预测影片的最终票房成绩,但到了影片正式上映之后,则一切都有了较为明显和科学的依据。
虽然排片并不能决定一部影片的生死,但却无疑有着极大的左右能力,限制着影片的市场发挥空间,是市场专业人士的预判。
一般情况下,排片占比与票房占比之间存在着一定的一致性,但马太效应明显。通俗而言,占据市场4成左右排片的影片一般会贡献出5——6成,甚至是7成的票房;排片在2成左右的影片,其票房成绩与排片占比大致相同,而排片在1成以下的影片,通常其票房贡献量会低于5%。
多数影片都集中于周五上映,恰逢大盘最火热时期(个别节假日及档期除外),而首周末三天口碑已出、接下来的工作日整体低迷、周五面临新片冲击,因此已经可以看出其市场走向如何了。
总体而言,对于一般的大型制作,其首周末票房占总票房的比重一般会在40%——50%;中等成本因为其本身的不确定性,用此方法相对较难以预测,但首周末票房所占的比例一般都会在60%——80%之间。而对于小成本,其首周末票房的占比有时会高达90%。
以2016年票房过亿的85部影片为例,其首周末票房占比分布如下(已祛除部分上映日期异常影片):票房成绩在10亿以上的影片,首周末平均占比为31.09%;5亿——10亿之间,为45.24%;1亿——5亿之间,平均为63.03%。
此时还需要考虑的一点就是后续长尾效应。多在于其上映的第二周有没有强劲的足够挑战影片时长份额的大片上映,如果没有的话,影片的影响力可能会持续,尤其是在下周末会引来一次小的高峰,帮助影片的总体成绩提升。
㈩ 电影票房是如何统计的
行业常用的票房收入计算公式为“票房=总座位数×场次×上座率×平均票价×天数”。比如某影院一天放映了6场《李茶的姑妈》,有学生票:40元,共10人,标准票:80元,共10人,团体票:30元,共10人,会员票价:20元,一共10人,那么,这一天该影院的总票房就是:4000+8000+3000+2000 。
现在各大电影院都实行电脑售票,这些售票系统是和国家电影局电影专项基金管理中心联网的,每天都会在固定的时间自动向专基中心发送票房数据。因此,相对来说,电影票房对判断某部电影的观影人数,影片受欢迎程度还是有很大参考意义的。
电影票房的影响因素
1、影片题材及剧本。题材和剧本是一部影片的核心,科幻、魔幻题材如《变3》、《哈7》及此前的《阿凡达》等影片,一向是票房大热,除题材具有想象空间而吸引观众外,这类影片本身就需要大成本支撑,因此获得票房佳绩也不足为奇。另外,贴近生活、打动人心的情感题材影片,如《非诚勿扰》、《失恋33天》等,也成为“应景”主题,为影迷所期待。
2、主创团对主创团队,队如导演、主演、制片人、制作团队等,无一不是吸引观众的重量级筹码。例如国民大导张艺谋、冯小刚的力量甚至大过于影片题材,成为观众期待的焦点;演员的力量同样如此——有些人光名字就是号召力,如杨幂的《孤岛惊魂》一举开创“粉丝电影”的先河,演员对票房的贡献不容小视。制片人、制作团队的名气,同样能为一部影片带来“万众期待”的效果。
3、影片定位,影片定位是指片方对自己影片的市场预估。首先应该是目标人群定位,从影片的剧本设置、演员选择、拍摄手法到后期制作风格、传播途径、传播手段等等,都要迎合大部分的目标人群喜好,奠定稳定的票房基础。其次要正确预估票房,有时片方过于自信,会影响影片上映后的侧重点。尤其在做传播工作之前,应该根据档期、题材、排片等因素做好影片的定位和票房预估的沟通。
以上内容参考网络_票房