㈠ 電影票房預測系統的電影票房如何預測
早在80年代,美國票房收入預測的先驅BarryLitman對美國80年代近700部電影進行分析推出票房收入預測模型。該系統對之後美國電影投資界產生了顛覆性的影響。電影票房預測系統能分析預測不同種類電影的票房價值,已經成為國際電影產業投融資的重要參考工具,對電影產品定價及衍生產品開發都具有較強的指導作用。
㈡ 豆瓣電影數據分析
這篇報告是我轉行數據分析後的第一篇報告,當時學完了Python,SQL,BI以為再做幾個項目就能找工作了,事實上……分析思維、業務,這兩者遠比工具重要的多。一個多月後回過頭來看,這篇報告雖然寫得有模有樣,但和數據分析報告還是有挺大差別的,主要原因在於:a.只是針對豆瓣電影數據分析太過寬泛了,具體關鍵指標到底是哪些呢?;b.沒有一個確切有效的分析模型/框架,會有種東一塊西一塊的拼接感。
即便有著這些缺點,我還是想把它掛上來,主要是因為:1.當做Pandas與爬蟲(Selenium+Request)練手,總得留下些證明;2.以豆瓣電影進行分析確實很難找到一條業務邏輯線支撐,總體上還是描述統計為主;3.比起網上能搜到的其他豆瓣電影數據分析,它更為詳細,可視化效果也不錯;
本篇報告旨在針對豆瓣電影1990-2020的電影數據進行分析,首先通過編寫Python網路爬蟲爬取了51375條電影數據,採集對象包括:電影名稱、年份、導演、演員、類型、出品國家、語言、時長、評分、評論數、不同評價佔比、網址。經過去重、清洗,最後得到29033條有效電影數據。根據電影評分、時長、地區、類型進行分析,描述了評分與時長、類型的關系,並統計了各個地區電影數量與評分。之後,針對演員、導演對數據進行聚合,給出產量與評分最高的名單。在分析過程中,還發現電影數量今年逐步增加,但評分下降,主要原因是中國地區今年低質量影視作品的增加。
另外,本篇報告還爬取了電影票房網( http://58921.com/ )1995-2020年度國內上映的影片票房,共採集4071條數據,其中3484條有效。進一步,本文分析了國內院線電影票房年度變化趨勢,票房與評分、評價人數、時長、地區的關系,票房與電影類型的關聯,並給出了票房最高的導演、演員與電影排名。
清洗、去重後,可以看到29033條數據長度、評分、評論數具有以下特點:
結合圖1(a)(b)看,可以看到電影數據時長主要集中在90-120分鍾之間,向兩極呈現階梯狀遞減,將數據按照短(60-90分鍾),中(90-120分鍾),長(120-150分鍾),特長(>150分鍾)劃分,各部分佔比為21.06%, 64.15%, 11.95%, 2.85%。
結合圖2(a)看,可以看到我們採集到的電影數據評分主要集中在6.0-8.0之間,向兩極呈現階梯狀遞減,在此按照評分劃分區間:2.0-4.0為口碑極差,4.0-6.0為口碑較差,6.0-7.0為口碑尚可,7.0-8.0為口碑較好,8.0-10.0為口碑極佳。
這5種電影數據的佔比分別為:5.78%, 23.09%, 30.56%, 29.22%, 11.34%
再將評分數據細化到每年進行觀察,可以發現,30年內電影數量與年度電影均分呈反相關,年度均分整體呈現下降趨勢,2016年電影均分最低,電影數量最多。
進一步做出每個年份下不同評級等級的電影數據佔比,可以發現,近年來,評分在[2.0,6.0)的電影數據佔比有著明顯提升,評分在[6.0,7.0)的數據佔比不變,評分在[7.0,10.0)的數據佔比減少,可能原因有:
對照圖5,可以發現,評分與時長、評論人數的分布大致呈現漏斗狀,高分電影位於漏鬥上部,低分電影位於漏斗下部。這意味著,如果一部電影的評論人數很多(特別是超過30w人觀影),時長較長(大於120min),那麼它大概率是一部好電影。
根據各個國家的電影數量作圖,可以得到圖6,列出電影數量前十的國家可得表格2,發現美國在電影數量上占第一,達到8490部,中國其次,達6222部。此外,法國,英國,日本的電影數量也超過1000,其餘各國電影數量相對較少。這可以說明美國電影有著較大的流量輸入,在中國產生了較大的影響。
進一步分析各國電影的質量,依據評分繪制評分箱線圖可得圖7,在電影數量排名前20的國家中:
接著我們可以探索,哪個國家的電影對豆瓣評分隨年份下降的貢獻最大,考慮到電影數量對應著評分的權重。根據上述各國的電影評分表現,我們可以猜測電影數量較多的國家可能對年度均分的下降有較大影響。於是,我們再計算出這些國家的年度電影均分,並與整體均分進行比較分析。
再作出中國大陸,中國台灣,中國香港的均分箱線圖圖9(a),可以看到,大陸電影均分低於港台電影,且存在大量低分電影拉低了箱體的位置。
分析相關性可得,大陸、香港、台灣電影年度均分與全部評分關聯度分別為R=0.979,0.919,0.822,說明濾去台灣和香港電影,大陸電影年度均分的變化趨勢與全部評分變化更接近。圖9(b)可以進一步反映這一點。
可以看到,大部分類型集中在X×Y=[10000,30000]×[6.00,7.50]的區間范圍內,劇情、喜劇、愛情、犯罪、動作類電影數量上較多,說明這些題材的電影是近三十年比較熱門的題材,其中劇情類電影佔比最多,音樂、傳記類電影平均得分更高,但在數量上較少,動作、驚悚類電影評論人數雖多,但評價普遍偏低。
除此之外,還有兩塊區域值得關註:
根據類型對電影數據進行聚合,整理得到各類型電影評分的時間序列,計算它們與整體均分時間序列的相關性,可得表格4與圖11,可以看到劇情,喜劇,懸疑這三種類型片與總分趨勢變化相關性最強,同時劇情、喜劇類電影在電影數量上也最多,因此可以認為這兩類電影對於下跌趨勢影響最大,但其餘類別電影的相關性也達到了0.9以上,說明幾種熱門的電影得分的變化趨勢與總體均分趨勢一致。
前面已經得知,中美兩國電影佔比最高,且對於均分時間序列的影響最大。在此,進一步對兩國電影進行類型分析,選取幾種主要的類型(數量上較多,且相關性較高)進行分析,分別是劇情,喜劇,愛情,驚悚,動作,懸疑類電影,繪制近年來幾類電影的數量變化柱狀圖與評分箱線圖可得圖12,13,14,15。
對導演與演員進行聚合,得到數據中共有15011名導演,46223名演員。按照作品數量在(0,2], (2,5], (5,10], (10,20], (20,999]進行分組統計導演數量,可以發現,15009名導演中有79.08%只拍過1-2部作品,46220名演員中有75.93%只主演過1-2部作品。忽略那些客串、跑龍套的演員,數據總體符合二八定律,即20%的人占據了行業內的大量資源。
在此,可以通過電影得分、每部電影評論人數以及電影數目尋找優秀的電影導演與演員。這三項指標分別衡量了導演/演員的創作水平,人氣以及產能。考慮到電影數據集中可能有少量影視劇/劇場版動畫,且影視劇/劇場版動畫受眾少於電影,但得分普遍要高於電影,這里根據先根據每部電影評論數量、作品數量來篩選導演/演員,再根據電影得分進行排名,並取前30名進行作圖,可得圖17,18。
結合電影票房網( http://58921.com/ )採集到的3353條票房數據,與豆瓣數據按照電影名稱進行匹配,可以得到1995-2020年在中國大陸上映的電影信息,分別分析中國內地電影的數量、票房變化趨勢,票房與評分、評價人數、時長、地區以及類型的關系,此外還給出了不同導演與演員的票房表現以及影片票房排名。
如圖19所示,國內票房數據與上映的電影數量逐年遞增,2020年記錄的只是上半年的數據,且由於受疫情影響,票房與數量驟減。這說明在不發生重大事件的情況下,國內電影市場規模正在不斷擴大。
對電影數據根據類型進行聚合,繪制散點圖21,可以發現:
提取導演/演員姓名,對導演/演員欄位進行聚合,計算每個導演/演員的票房總和,上映電影均分、以及執導/參與電影數目進行計算,作出票房總和前30名的導演/演員,可得圖22,23,圖中導演/演員標號反映了票房排名,具體每位導演/演員的上映影片數量、均分、每部電影評價人數、平均時長與總票房在表5、表6中給出。
最後根據電影票房進行排名,得到票房排名前20的電影如表格7所示,可以看到絕大部分上榜電影都是中國電影,索引序號為3、10、12、14、18、19為美國電影,這也反映了除國產電影之外,好萊塢大片占據較大的市場。
本篇報告採集了1990-2020年間豆瓣電影29033組有效數據,從豆瓣電影的評分、時長、地區、類型、演員、導演以及票房等信息進行分析評價,主要有以下結論:
㈢ 電影票房的統計分析有哪些
中國內地電影票房歷史排行(2千萬元以上)
泰坦尼克號(1998)----------------------------------3.595億元
赤壁(上)(2008)----------------------------------3.12億元
滿城盡帶黃金甲(2006)-----------------------------2.91億元
變形金剛(2007)------------------------------------2.77億元
周恩來(1992)---------------------------------------2.70億元
英雄(2002)-----------------------------------------2.50億元
集結號(2007)---------------------------------------2.4076億元
畫皮(2008)-----------------------------------------2.29億元
長江七號(2008)------------------------------------2.02億元
投名狀(2007)---------------------------------------2.00億元
功夫之王(2008)------------------------------------1.865億元
無極(2005)-----------------------------------------1.795億元
功夫熊貓(2008)------------------------------------1.78億元
功夫(2004)-----------------------------------------1.55億元
十面伏山埋伏(2004)------------------------------------1.536億元
蜘蛛俠3(2007)-------------------------------------1.45億元
007大破量子危機(2008)---------------------------1.42億元
哈利·波特與鳳凰社(2007)--------------------------1.3789億元
牧馬人(1982)---------------------------------------1.3億元
色•戒(2007)----------------------------------------1.263億元
夜宴(2006)-----------------------------------------1.251億元虛廳納
加勒比海盜:世界的盡頭(2007)------------------- 1.247億元
天下無賊(2004)-------------------------------------1.20億元
生死抉擇(2000)-------------------------------------1.165億元
大灌籃(2008)---------------------------------------1.128億元
木乃伊3(2008)-------------------------------------1.1億元
鋼鐵俠(2008)---------------------------------------1.059億元
珍珠港(2001)---------------------------------------1.05億元
真實的謊言(1995)----------------------------------1.02億元
少林差沒寺(1982)---------------------------------------1.02億元
金剛(2006)-----------------------------------------1.0184億元
霍元甲(2006)---------------------------------------1.016億元
達·芬奇密碼(2006)---------------------------------1.012億元
全民超人漢考克(2007)-----------------------------1.01億元
媽媽再愛我一次(1990)-----------------------------1.00億元
大決戰:遼沈戰役(1990)---------------------------1.00億元
芙蓉鎮(1986)---------------------------------------1.00億元
白蛇傳(1981)---------------------------------------1.00億元
喜盈門(1981)---------------------------------------1.00億元
廬山戀(1980)---------------------------------------1.00億元
405謀殺案(1980)----------------------------------1.00億元
神秘的大佛(1979)----------------------------------1.00億元
警察任務4之簡單任務(1996)-----------------------9600萬元
神話(2005)-----------------------------------------9550萬元
哈利·波特與火焰杯(2005)--------------------------9490萬元
007大戰皇家賭場(2007)---------------------------9200萬元
寶貝計劃(2006)------------------------------------9200萬元
指環王:王者歸來(2004)---------------------------8630萬元
納尼亞傳奇:凱斯賓王子(2008)-------------------8600萬元
後天(2004)-----------------------------------------8600萬元
少林小子(1984)------------------------------------8600萬元
七劍(2005)-----------------------------------------8345萬元
梅蘭芳(2008)---------------------------------------8277萬元
拯救大兵瑞恩(1998)--------------------------------8230萬元
碟中諜3(2006)-------------------------------------8100萬元
紅番區(1995)---------------------------------------8000萬元
南北少林(1986)------------------------------------8000萬元
史前10000年(2008)-------------------------------7600萬元
星戰前傳3:西斯的反擊(2005)--------------------7554萬元
傷城(2006)-----------------------------------------7430萬元
侏羅紀公園:失落的世界(1997)--------------------7210萬元
通緝令(2008)---------------------------------------7200萬元
鴉片戰爭(1997)------------------------------------7200萬元
特洛伊(2004)---------------------------------------7000萬元
見龍御甲(2008)------------------------------------6990萬元
國家寶藏2(2008)-----------------------------------6970萬元
地心歷險記(2008)----------------------------------6800萬元
海神號(2006)---------------------------------------6700萬元
一個好人(1997)------------------------------------6500萬元
無敵浩克(2008)------------------------------------6400萬元
頭文字D(2005)-------------------------------------6300萬元
尼斯湖水怪(2008)----------------------------------6270萬元
門徒(2007)-----------------------------------------6250萬元
史密斯行動(2005)----------------------------------6198萬元
超人歸來(2006)------------------------------------6182萬元
墨攻(2006)-----------------------------------------6150萬元
納尼亞傳奇(2006)----------------------------------6036萬元
哈利·波特與魔法石(2002)--------------------------5900萬元
博物館奇妙夜(2007)--------------------------------5800萬元
加菲貓2(2006)-------------------------------------5640萬元
指環王:護戒使者(2002)---------------------------5600萬元
南極大冒險(2006)----------------------------------5463萬元
龍卷風(1996)---------------------------------------5450萬元
世界之戰(2005)------------------------------------5299萬元
哈利·波特與密室(2003)----------------------------5200萬元
蜘蛛俠2(2004)-------------------------------------5170萬元
龍虎門(2006)---------------------------------------5130萬元
彗星撞地球(1998)----------------------------------5130萬元
斷箭(1996)-----------------------------------------5050萬元
紅櫻桃(1995)---------------------------------------5000萬元
情癜大聖(2005)------------------------------------4900萬元
勇敢者的游戲(1996)--------------------------------4770萬元
勇闖奪命島(1996)----------------------------------4770萬元
天崩地裂(1997)------------------------------------4760萬元
十全九美(2008)------------------------------------4700萬元
虎膽龍威(1995)------------------------------------4700萬元
有話好好說(1997)----------------------------------4600萬元
蒸發密令(1997)------------------------------------4580萬元
碟中碟(1996)---------------------------------------4510萬元
手機(2004)-----------------------------------------4500萬元
保持通話(2008)------------------------------------4400萬元
江山美人(2008)------------------------------------4320萬元
新警察故事(2004)----------------------------------4300萬元
蜘蛛俠(2002)---------------------------------------4300萬元
水嘯霧都(2008)------------------------------------4200萬元
黑客帝國:重裝上陣(2003)-------------------------4200萬元
大腕(2001)-----------------------------------------4200萬元
黑客帝國:矩陣革命(2003)-------------------------4166萬元
獅子王(1995)---------------------------------------4130萬元
韓城攻略(2005)------------------------------------4100萬元
天地英雄(2003)------------------------------------4100萬元
不見不散(1999)------------------------------------4100萬元
小鬼當家3(1998)-----------------------------------4020萬元
大轉折——挺進大別山(1997)----------------------4000萬元
紅櫻桃(1995)---------------------------------------4000萬元
紅粉(1994)-----------------------------------------4000萬元
焦裕祿(1990)---------------------------------------4000萬元
霸王別姬(1993)------------------------------------4000萬元
廊橋遺夢(1996)------------------------------------3950萬元
張思德(2004)---------------------------------------3800萬元
生死時速(1995)------------------------------------3780萬元
無間道:終極無間(2003)---------------------------3700萬元
紅河谷(1999)---------------------------------------3700萬元
忍者神龜(2007)------------------------------------3680萬元
哈利·波特與阿茲卡班的囚徒(2004)----------------3660萬元
雲水謠(2006)---------------------------------------3600萬元
國家寶藏(2005)------------------------------------3592萬元
冰川時代2(2006)-----------------------------------3558萬元
沒完沒了(2000)------------------------------------3500萬元
命運呼叫轉移(2007)--------------------------------3400萬元
男兒本色(2007)------------------------------------3400萬元
龍騎士(2007)---------------------------------------3400萬元
未來水世界(1996)----------------------------------3400萬元
不能說的秘密(2007)--------------------------------3330萬元
海底總動員(2003)----------------------------------3300萬元
星戰前傳1:魅影危機(1999)-----------------------3300萬元
甲方乙方(1997)------------------------------------3300萬元
七七事變(1995)------------------------------------3300萬元
黃金羅盤(2008)------------------------------------3285萬元
絕地戰警(1995)------------------------------------3280萬元
極度恐慌(1996)------------------------------------3260萬元
愛情左燈右行(2008)--------------------------------3200萬元
玩具總動員(1996)----------------------------------3180萬元
導火線(2007)---------------------------------------3100萬元
佐羅傳奇(2005)------------------------------------3076萬元
生死時速2(1997)-----------------------------------3040萬元
玩命快遞(2006)------------------------------------3038萬元
龍之戰(2008)---------------------------------------3021萬元
桃花運(2008)---------------------------------------3000萬元
風雲決(2008)---------------------------------------3000萬元
千里走單騎(2005)----------------------------------3000萬元
2046(2004)----------------------------------------3000萬元
一個都不能少(1999)--------------------------------3000萬元
洗澡(1999)------------------------------------------3000萬元
我是誰(1998)---------------------------------------3000萬元
愛情麻辣燙(1997)----------------------------------3000萬元
周恩來外交風雲(1998)-----------------------------3000萬元
離開雷鋒的日子(1996)-----------------------------3000萬元
紅高粱(1987)---------------------------------------3000萬元
如果•愛(2005)--------------------------------------2980萬元
天堂口(2007)---------------------------------------2968萬元
劍蝶(2008)-----------------------------------------2940萬元
邁阿密風雲(2006)----------------------------------2925萬元
特務迷城(2001)------------------------------------2900萬元
U-571(2000)--------------------------------------2900萬元
寶蓮燈(1999)---------------------------------------2900萬元
偷天陷阱(1999)------------------------------------2900萬元
兄弟之生死同盟(2007)-----------------------------2870萬元
靈魂戰車(2007)------------------------------------2850萬元
馬達加斯加(2005)----------------------------------2819萬元
終結者3(2003)-------------------------------------2817萬元
虎膽龍威4.0(2007)--------------------------------2750萬元
鐵三角(2007)---------------------------------------2740萬元
翻譯風波(2005)------------------------------------2724萬元
任長霞(2005)---------------------------------------2700萬元
恐龍(2000)-----------------------------------------2700萬元
冷山(2004)-----------------------------------------2650萬元
絕密飛行(2005)------------------------------------2640萬元
亞瑟王(2004)---------------------------------------2600萬元
狂蟒之災2(2005)-----------------------------------2533萬元
千機變:花都大戰(2004)---------------------------2500萬元
角鬥士(2000)---------------------------------------2500萬元
生死豪情(1997)------------------------------------2500萬元
飛龍再生(2003)------------------------------------2500萬元
亡命天涯(1994)------------------------------------2580萬元
尖鋒時刻(1999)------------------------------------2500萬元
紅色戀人(1998)------------------------------------2500萬元
周恩來———偉大的朋友(1998)-------------------2500萬元
生死狙擊(2007)------------------------------------2460萬元
驚濤大冒險(2006)----------------------------------2450萬元
空中大灌籃(1997)----------------------------------2410萬元
時空線索(2007)------------------------------------2400萬元
來電驚魂(2006)------------------------------------2400萬元
鄭培民(2004)---------------------------------------2400萬元
紅色戀人(1998)------------------------------------2400萬元
諜影重重3(2007)-----------------------------------2300萬元
瘋狂的石頭(2006)----------------------------------2300萬元
老鼠愛上貓(2003)----------------------------------2300萬元
木乃伊2(2001)-------------------------------------2300萬元
深海尋人(2008)------------------------------------2280萬元
加勒比海盜(2003)----------------------------------2250萬元
防火牆(2006)---------------------------------------2215萬元
世貿中心(2006)------------------------------------2212萬元
憨豆的黃金周(2007)-------------------------------2200萬元
國家公敵(1999)------------------------------------2200萬元
極速賽車手(2008)----------------------------------2180萬元
X戰警3:背水一戰(2006)--------------------------2145萬元
賽車總動員(2006)----------------------------------2145萬元
美食總動員(2007)----------------------------------2120萬元
超人總動員(2005)----------------------------------2100萬元
一級戒備(2006)------------------------------------2100萬元
指環王:雙城奇謀(2003)---------------------------2100萬元
將軍的女兒(2000)----------------------------------2100萬元
精靈鼠小弟(2000)----------------------------------2080萬元
蝙蝠俠:俠影之謎(2005)---------------------------2070萬元
寶葫蘆的秘密(2007)--------------------------------2065萬元
雲中漫步(1996)------------------------------------2050萬元
哆啦A夢大雄的恐龍(2007)-------------------------2040萬元
盜走達芬奇(2008)----------------------------------2010萬元
東京審判(2006)------------------------------------2000萬元
神奇四俠(2005)------------------------------------2000萬元
生死牛玉儒(2005)----------------------------------2000萬元
怒海爭鋒(2004)------------------------------------2000萬元
周漁的火車(2003)----------------------------------2000萬元
我的兄弟姐妹(2001)--------------------------------2000萬元
蝙蝠俠與羅賓(1998)--------------------------------2000萬元
情歸巴黎(1997)------------------------------------2000萬元
首映日票房排行(200萬元以上)
赤壁(上)(2008)----------------------------------2700萬元
變形金剛(2007)------------------------------------2241萬元
無極(2005)-----------------------------------------2115萬元
泰坦尼克號(1998)----------------------------------1800萬元
蜘蛛俠3(2007)-------------------------------------1726萬元
功夫(2004)-----------------------------------------1700萬元
功夫之王(2008)------------------------------------1600萬元
畫皮(2008)-----------------------------------------1520萬元
梅蘭芳(2008)---------------------------------------1500萬元
功夫熊貓(2008)------------------------------------1500萬元
集結號(2007)---------------------------------------1500萬元
滿城盡帶黃金甲(2006)-----------------------------1500萬元
木乃伊3(2008)-------------------------------------1400萬元
007大破量子危機(2008)---------------------------1200萬元
長江七號(2008)------------------------------------1200萬元
夜宴(2006)-----------------------------------------1200萬元
英雄(2002)-----------------------------------------1200萬元
投名狀(2007)---------------------------------------1000萬元
見龍御甲(2008)------------------------------------900萬元
全民超人漢考克(2007)-----------------------------860萬元
博物館奇妙夜(2007)--------------------------------800萬元
達·芬奇密碼(2006)---------------------------------800萬元
水嘯霧都(2008)------------------------------------650萬元
國家寶藏2(2008)-----------------------------------650萬元
超人歸來(2006)------------------------------------620萬元
天下無賊(2004)------------------------------------510萬元
通緝令(2008)---------------------------------------400萬元
墨攻(2006)-----------------------------------------400萬元
防火牆(2006)---------------------------------------300萬元
極速賽車手(2008)----------------------------------250萬元
賽車總動員(2006)----------------------------------238萬元
手機(2004)-----------------------------------------220萬元
預見未來(2008)------------------------------------200萬元
桃花運(2008)---------------------------------------200萬元
劍蝶(2008)-----------------------------------------200萬元
十全九美(2008)------------------------------------200萬元
單日票房排行(200萬元以上)
無極(2005)-----------------------------------------2500萬元
功夫(2004)-----------------------------------------2200萬元
英雄(2002)-----------------------------------------1800萬元
007大破量子危機(2008)---------------------------1740萬元
首映前三日排行(500萬元以上)
十面埋伏(2004)------------------------------------5500萬元
英雄(2002)-----------------------------------------5240萬元
梅蘭芳(2008)---------------------------------------4218萬元
功夫熊貓(2008)------------------------------------3800萬元
達·芬奇密碼(2006)---------------------------------3750萬元
珍珠港(2001)---------------------------------------3500萬元
哈利·波特與火焰杯(2005)--------------------------3329萬元
星戰前傳3:西斯的反擊(2005)--------------------2800萬元
納尼亞傳奇:凱斯賓王子(2008)-------------------2700萬元
七劍(2005)-----------------------------------------2600萬元
史前10000年(2008)-------------------------------2530萬元
神話(2005)-----------------------------------------2412萬元
傷城(2006)-----------------------------------------2400萬元
史密斯行動(2005)----------------------------------1692萬元
龍虎門(2006)---------------------------------------1560萬元
葉問(2008)-----------------------------------------1500萬元
超人歸來(2006)------------------------------------1500萬元
加菲貓2(2006)-------------------------------------1391萬元
導火線(2007)---------------------------------------1100萬元
南極大冒險(2006)----------------------------------1056萬元
龍騎士(2007)---------------------------------------1050萬元
一級戒備(2006)------------------------------------998萬元
十全九美(2008)------------------------------------900萬元
黃金羅盤(2008)------------------------------------900萬元
佐羅傳奇(2005)------------------------------------898萬元
X戰警3:背水一戰(2006)--------------------------848萬元
冰河世紀2(2006)-----------------------------------790.8萬元
忍者神龜(2007)------------------------------------780萬元
雲水謠(2006)---------------------------------------728萬元
馬達加斯加(2005)----------------------------------670萬元
李米的猜想(2008)----------------------------------650萬元
寶葫蘆的秘密(2007)--------------------------------541萬元
超強台風(2008)------------------------------------500萬元
日本沉沒(2007)------------------------------------500萬元
哆啦A夢大雄的恐龍(2007)-------------------------500萬元
㈣ 影視行業影響票房的影響因素
影響電影票房的五大因素
一、影片本身質量:影片的質量是影響票房的首要因素。內容為王,影片的質量上去了,有口碑了票房就容易上去。
按照電影的口碑和票房可以分為:
有票房又有口碑的電影;
有票房無口碑的電影;
無票房有口碑的電影;
無票房無口碑。
有票房又有口碑電影,數量很少;市場上絕大多數都是無票房無口碑的電影。無票房卻有口碑電影,可能經典並獲獎,受眾范圍較小,比如2017年上映的《七十七天》《二十二》。只有影片本身質量過硬,擁有口碑後,電影票房就更容易獲得成功。
二、影片排映檔期:影片在什麼檔期內進入市場是一門學問。不同檔期有不同的特點,在定檔期的的時候需要瞻前顧後,不要匆忙且盲目的選擇檔期。有同類題材的影片上映之時,就不要前後緊挨著上片。不同的檔期應有不同的策略。
中國特色電影檔期
1、賀歲檔:賀歲檔泛指每年11月初到次年3月初的電影檔期,大約在八九十天左右。
2、五一檔:一般泛指每年五一期間的電影檔期。
3、暑期檔:一般泛指每年6月-9月的電影檔期。
4、國慶檔:一般泛指每年國慶期間的電影檔期。
其中含有情人節檔、三八檔、清明檔、愚人檔、端午檔、七夕檔、光棍節檔、雙12檔等。不同的檔期應有不同的策略。
三、影片宣傳策劃:電影市場是以商品交換的形式而提供影片和放映的場所,需要經過宣傳策劃的手段達到產品推廣的目的。 關於電影的營銷策劃,宣傳要有誘惑力,宣傳投資、演員、花絮、導演闡述、拍攝趣事等,對影片的包裝等都是至關重要的。
電影的宣傳策劃應該貫穿於製片、發行和放映的全過程,各自利用自身優勢在影片的宣傳策劃上「各盡所能」。電影片名,好的片名擁有很好的傳播效應,片名也會影響票房。朗朗上口,過長不便於記憶。電影海報,海報的作用就是吸引觀眾走進電影院,富有視覺性,作為電影售前的消費產品,片名是第一包裝,電影海報是第二包裝。
四、映期社會環境:對一部具體的商業影片來說,在絕對有效生命周期內能否取得最大值的票房,與該片上映周期前後的社會環境存在著一種潛在的因果關系。電影市場放在社會大環境中來
看,還是比較脆弱的,911恐怖事件、SARS肆虐數月、足球世界盃等,都動搖過電影市場的正常地位。應勢利導、隨機應變是必不可少的。
五、映期天氣環境:天氣情況與社會發展、個人
生活都有關系,天氣同樣在客觀上影響著電影市場票房,只是其表現形式不同而已。電影市場上的放映工作猶如足球比賽,一經決定檔期,不會因天氣變化而變動,這中間運氣的成份太濃。從這個意義上講,影片進入市場後也得「靠天吃飯」了 。
六、影院和票價等其他因素:影院建設、電影票價、影片數量和立法規范等諸多方面也影響電影票發。所以中國電影市場要穩定發展,則要依靠社會的資金和力量,從而使市場正常有序、規范和諧的持續發展。
㈤ 好萊塢電影票房與電影類型有聯系么一部電影取得高票房的原因究竟有哪些
國王的演講票房算不上慘淡吧,印象中還過億了,甚至排行榜保持了一陣第一的位置。電影票房還是多方位衡量的,不能說與口碑無關,但是確實和電影的前期宣傳以及知名度演員等等關系更大。
就比如說樓主說的暮光之城吧,其票房爆棚的原因是源自於這個系列的書的暢銷。今年的飢餓游戲也是這樣,不過飢餓游戲的口碑也還不錯。另外像變形金剛,大家都說是爛片,但是還是去看,就是因為大家想看那些機器啊。對於爆米花電影,口碑一點也不重要,相反,噱頭,知名度,宣傳是最重要的。大多數觀眾的消費都是非理性的,看電影就說啊,最近哪部電影很出名在上映就去看了,不可能在此之前到imdb爛番茄之類的查分數。
當然,口碑很差票房很好的電影其實並不多,如果大片都粗製濫造,也不可能靠一點運氣和名氣塌漏獲得高票房,像美國隊長,綠燈俠什麼的雖然有漫畫打底,票房依舊糟爛。而復仇者聯盟,近期的蝙蝠俠,蜘蛛俠,普羅米修斯就屬於名氣,票房,口碑都很不錯的作品。
這是大片,另一種獨立小品則完全要靠營銷和口碑搏出位。最經典的例子就是女巫布萊爾,它是影團昌爛史回報率最高的電影,dv拍攝的偽紀錄片形式恐怖片,由於口口相傳和製片方的病毒式營銷,最後票房高的嚇人。還有陽光小美女,也是靠口碑傳播最後活動6億票房,甚至一直奔到奧斯卡,迅激可謂獎項榮譽票房口碑都得到了。前年的宿醉和去年的幫助都是這樣靠口碑取勝成為票房黑馬的獨立小片。
其實票房是有多方面影響的,不過我始終覺得對於一部電影來說,還是本身質量最重要,10年之後,誰還會記得變形金剛3是什麼樣,但是賠了血本的拆彈部隊會因為一座奧斯卡名留影史。
㈥ 怎樣預測票房
票房預測:需求與現實
從1896年西洋影戲傳入上海徐園,到1905年中國拍攝首部國產電影《定軍山》,再到2013年全國電影票房突破200億
大關,(4)有著百餘年歷史的中國電影產業,在近幾年呈現出飛躍式發展的態勢,無論是影片質量、院線建設還是投資規模都有了長足的發展。與此同時,隨著
「大數據」時代的到來,電影觀影群體、觀影偏好與心理、電影信息傳播和獲取方式也都在發生著深刻的變化。
毋庸置疑,多樣化資本的加入是中國電影不可或缺的發展引擎,然而,電影行業以投資回報率難以預測著稱,大投入未必有大產出,票房預測工具的缺失使得投資者
無法有效對沖投資風險,華人著名導演吳宇森的《風語者》就拖累了米高梅公司最終走向破產。因此製作與發行公司不得不考慮所有對票房有影響的因素:辣媽李小
璐對《私人訂制》票房貢獻幾何;《風暴》票房為何遠低於其金牌製片人江志強預期;被吐槽「爛片」的《富山春居圖》和《小時代》緣何票房卻一路走紅;成龍大
叔的《警察故事2013》有無必要拍成3D;《泰囧》的「報復性」觀影效應能否復現……這一切的一切其實都可以從「大數據」中找到答案。因為網路上的每一
次瀏覽、查詢乃至點擊所匯聚成的群體智慧都「蝴蝶效應」般地影響著電影的最終票房。
2013年Google在一份名為《Quantifying Movie Magic with Google Search》(5)
的白皮書中公布了其電影票房預測模型,該模型主要利用搜索、廣告點擊數據以及院線排片來預測票房,Google宣布其模型預測票房與真實票房的吻合程度達
到了94%,但並未見其公開對未上映電影的預測結果。
搜狗公司藉助「深思」系統,建立了更為復雜的模型,用於預測國內電影票房,並在新浪微博上提前發布了2013年12月國內上映電影的首周票房預測結果。很高興到目前為止預測結果與真實數據非常接近,同時,我們的模型還可以用於對影響票房的因素進行定量分析。
搜索查詢量的奧秘
搜狗搜索每天都響應上億次的搜索請求,查詢詞的分布和變化趨勢能夠很好的反映出中國網民的興趣點和關注指向。與Google的研究類似,我們也發現,電影
上映前相關查詢詞的搜索次數與票房收入有著很強的關聯性。這一點很好理解,用戶的主動搜索行為體現了用戶對這部電影的潛在興趣。
我們選取了2013年1-11月國內上映的180部電影的票房和上映前的搜索量數據作為訓練集,用於訓練一個基礎的線性回歸模型。實驗發現,單純利用搜索
量訓練得到的模型,預測得到的首周票房與真實票房的相關度R方值僅為68%,這與Google僅用搜索數據得到的結果70%很接近。(註:R方值取值為0
至1,值越大表示模型預測效果越好),這個結果也說明無論在中國還是美國,用戶的搜索行為是很相似的。
用搜索量來進行預測票房是一個好的開始,但是准確度還遠遠不夠。同時很多搜索詞還存在歧義的情況,比如《生化危機》,既是電影也是游戲,混在一起會造成票
房預測值偏高。進一步研究發現,游戲意圖的查詢請求量較為平穩,但電影意圖的查詢請求在上映前則有一個高峰,也可以通過用戶點擊的URL來進一步確認用戶
的搜索意圖。因此模型需要再引入查詢量的變化趨勢和用戶點擊的分布情況。修正後的模型可以達到74%的准確度,這時模型已經可以對電影票房進行一個粗略的
估計。
社交媒體:用戶的情感分析
社交媒體數據對票房預測也會有一定幫助。假設你是某個明星的粉絲,打算去看他主演的電影,那麼你很可能會提前轉發該電影的相關微博給你的朋友。國外已經有
很多預測項目都是在針對Twitter數據做研究,這里我們主要採用國內部分微博網站的數據來進行預測。通過自然語言理解技術,分析出用戶對未上映影片的
情感傾向,從而轉換為用戶的觀影需求。進一步可以考慮的因素包括微博轉發深度、評論活躍程度,以及相關微博數量隨電影上映日期臨近的變化趨勢,這些數據都
可以被有效的提煉為特徵並加入到模型中。
微博數據的加入使得准確率超過了80%。
結語
預測專家納特·西爾弗在《信號與雜訊:大數據時代預測的科學與藝術》一書中提到,大數據時代的預測更容易失敗,大部分失敗的預測都源於一種盲目的自信,用精確的預測來冒充准確的預測。
對此我們有著清醒的認識,目前的票房預測模型還有若干需要改進的方向。首先,目前模型的主要思想是通過電影上映前的用戶關注度來推算首周票房,這實際上沒
有考慮電影上映後的口碑對票房的影響;其次,模型較為依賴歷史數據,可能難以識別一些上映後脫穎而出的小成本「黑馬」電影;再次,目前的技術只能提前10
天預報出首周票房,還可以更加超前。
總體而言,「深思」系統代表了搜狗公司在社會化預測方面一些新的嘗試。我們試著從繁雜的海量數據中篩選出真正的信號,努力穿越不確定性的迷霧,區分出未來
圖景的哪些部分可以預測,哪些不可預測。通向這個未來的道路還在探索之中,但目前工作已經取得了一些不錯的進展,並給予了我們更大的信心。
㈦ 電影的票房是怎麼算的
票房可以用觀影人數或門票收入來計算,而通常我們所講的票房,就是用門票收入來計算的。即,票房=票價X購買人數。
比如某影院一天放映了6場《李茶的姑媽》,有學生票:40元,共10人,標准票:80元,共10人,團體票:30元,共10人,會員票價:20元,一共10人,那麼,這一天該影院的總票房就是:4000+8000+3000+2000 。
現在各大電影院都實行電腦售票,這些售票系統是和國家電影局電影專項基金管理中心聯網的,每天都會在固定的時間自動向專基中心發送票房數據。因此,相對來說,電影票房對判斷某部電影的觀影人數,影片受歡迎程度還是有很大參考意義的。
(7)如何分析不同類型電影的票房擴展閱讀
電影票房的影響因素:
影片票房的好壞取決於多種因素的綜合,包括影片題材及劇本、主創團隊、影片定位、影片質量、票價、檔期、發行、院線排片、宣傳推廣等多個方面。題材和劇本是一部影片的核心;科幻、魔幻題材一向是票房大熱的選項,貼近生活、打動人心的情感題材也比較受觀眾青睞。
主創團隊如導演、主演、製片人和製作團隊等,都是吸引觀眾的重量級籌碼,能夠在影片上映前期對觀眾形成最大的吸引和沖擊;影片定位是指影片為自己影片的市場預估,比如從劇本設置、演員選擇等方面切入設定目標人群定位。
影片質量包含了劇本、拍攝、製作、演員表演等綜合因素,是電影藝術成就的衡量標准,是一部電影成功的最重要因素等等。
參考資料來源:網路-電影票房
㈧ 數據挖掘 | 數據理解和預處理
數據挖掘 | 數據理解和預處理
小編遇到過很多人(咳咳,請不要對號入座),拿到數據後不管三七二十一,先丟到模型中去跑,管它具體什麼樣呢,反正「大數據」嘛,總能整出點東西來。
但就像上次說過的,「大數據」很有可能帶來「大錯誤」!所以在數據挖掘工作開始前,認真的理解數據、檢查數據,對數據進行預處理是至關重要的。
很多人說,數據准備工作真是個「體力活」,耗時耗力不說,還異常的枯燥無味。這點小編承認,建模之前的數據處理確實是平淡的,它往往不需要多高的智商,多牛的編程技巧,多麼高大上的統計模型。
但是,它卻能時時觸發你的興奮點,因為它需要足夠的耐心和細心,稍不留神就前功盡棄。
在這次的內容里,小編首先會從「數據理解」、「變數類型」和「質量檢查」三個方面進行闡述,然後會以一個自己做過的實際數據為例進行展示。
一、數據理解
拿到數據後要做的第一步就是理解數嘩知據。
什麼是理解數據呢?不是簡單看下有多少Excel表,有多少行,多少列,而是要結合自己的分析目標,帶著具體的業務需求去看。
首先,我們需要明確數據記錄的詳細程度,比方說某個網站的訪問量數據是以每小時為單位還是每天為單位;一份銷售數據記錄的是每家門店的銷售額還是每個地區的總銷售額。
其次,洞蘆猜我們需要確定研究群體。研究群體的確定一定和業務目標是密切相關的。
比方說,如果我們想研究用戶對產品的滿意度與哪些因素有關,就應該把購買該產品的所有客戶作為研究群體;如果我們想研究用戶的購買行為受哪些因素影響,就應該同時考察購買人群和非購買人群,在兩類人群的對比中尋找關鍵因素。
研究群體的確定有時也和數據的詳細程度有關。
比如我們想研究「觀眾影評」對「電影票房」的影響,我們既可以把「每部電影」看成一個個體,研究「影評總數」對「電影總票房」的影響,也可以把「每部電影每天的票房」看成一個個體,研究「每天的影評數」對「每天的電影票房」的影響。
具體選擇哪一種取決於我們手上有什麼樣的數據,如果只有總票房和總影評數的數據,那我們只能選擇第一種;如果有更詳細的數據,那就可以考慮第二種方案。
需要注意的是,這兩種方案還會影響我們對於模型的選擇。
例如,如果研究「每天的影評數」對「每天電影票房」的影響,那每部電影又被細分為很多天,同一部電影不同時間的票房會有較高的相似性,這就形成了一種層次結構,可以考慮使用層次模型(hierarchical model)進行分析。
最後,當我們確定了研究目標和研究群體後,我們需要逐一理解每個變數的含義。有些變數和業務目標明顯無關,可以直接從研究中剔除。
有些變數雖然有意義,但是在全部樣本上取值都一樣,這樣的變數就是冗餘變數,也需要從研究中剔除。
還有一些變數具有重復的含義,如「省份名稱」和「省份簡稱」,這時只需要保留一個就可以了。
二、納型變數類型
所有變數按其測量尺度可以分成兩大類,一類是「分類變數」,一類是「數值變數」。不同類型的變數在處理方法和後期的模型選擇上會有顯著差別。
【分類變數】
分類變數又稱屬性變數或離散變數,它的取值往往用有限的幾個類別名稱就可以表示了,例如「性別」,「教育程度」,「收入水平」,「星期幾」等。細分的話,分類變數又可分為兩類,一類是「名義變數」,即各個類別間沒有順序和程度的差別,就像「手機系統」中ios和安卓並沒有明顯的好壞差別,「電影類型」中「動作片」和「科幻片」也都是一樣的,說不上哪個更好或更差。
另外一類是定序變數,即不同類別之間存在有意義的排序,如「空氣污染程度」可以用「差、良、優」來表示、「教育程度」可以用「小學、初中、高中、大學」來表示。
當研究的因變數是分類變數時,往往對應特定的分析方法,我們在後面的章節會陸續講到,這里暫且不談。
當研究中的自變數是分類變數時,也會限制模型選擇的范圍。有些數據挖掘模型可以直接處理分類自變數,如決策樹模型;但很多數據挖掘模型不能直接處理分類自變數,如線性回歸、神經網路等,因此需要將分類變數轉換成數值變數。
對於定序自變數,最常用的轉換方法就是按照類別程度將其直接轉換成數值自變數,例如將空氣污染程度 「差、良、優」轉換為「1,2,3」。
對於名義自變數,最常用的轉換方法就是構造0-1型啞變數。例如,對於「性別」,可以定義「1=男,0=女」。
當某個名義變數有K個類別取值時,則需要構造K-1個啞變數。例如教育程度「小學,初中,高中,大學及以上」,可以構造三個啞變數分別為:x1:1=小學,0=其它;x2:1=初中,0=其它;x3:1=高中,0=其它。當x1,x2,x3三個啞變數取值都為0時,則對應著「大學及以上」。
需要注意的是,有時候名義變數的取值太多,會生成太多的啞變數,這很容易造成模型的過度擬合。
這時可以考慮只把觀測比較多的幾個類別單獨拿出來,而把剩下所有的類別都歸為「其它」。
例如,中國一共包含56個民族,如果每個民族都生成一個啞變數就會有55個,這時我們可以只考慮設置「是否為漢族」這一個0-1啞變數。
【數值變數】
我們再來看看數值變數。數值變數就是用數值描述,並且可以直接進行代數運算的變數,如「銷售收入」、「固定資本」、「評論總數」、「訪問量」、「學生成績」等等都是數值變數。
需要注意的是,用數值表示的變數不一定就是數值型變數,只有在代數運算下有意義的變數才是數值型變數。
例如財務報表的年份,上市時間等,雖然也是用數值表示的,但我們通常不將它們按照數值型變數來處理。
上面我們講到,分類變數通常要轉換成數值型變數,其實有些時候,數值型變數也需要轉換成分類變數,這就用到了「數據分箱」的方法。
為什麼要進行數據分箱呢?通常有以下幾個原因:
1. 數據的測量可能存在一定誤差,沒有那麼准確,因此按照取值范圍轉換成不同類別是一個有效的平滑方法;
2.有些演算法,如決策樹模型,雖然可以處理數值型變數,但是當該變數有大量不重復的取值時,使用大於、小於、等於這些運算符時會考慮很多的情況,因此效率會很低,數據分箱的方法能很好的提高演算法效率;
3.有些模型演算法只能處理分類型自變數(如關聯規則),因此也需要將數值變數進行分箱處理。
數據分箱後,可以使用每個分箱內的均值、中位數、臨界值等作為這個類別的代表值,也可以直接將不同取值范圍定義成不同的類別,如:將污染程度劃分後定義為「低、中、高」等。
那如何進行數據分箱呢?常用的數據分箱的方法有:等寬分箱(將變數的取值范圍劃分成等寬的幾個區間)、等頻分箱(按照變數取值的分位數進行劃分)、基於k均值聚類的分箱(將所有數據進行k均值聚類,所得的不同類別即為不同的分箱),還有一些有監督分箱方法,如:使分箱後的結果達到最小熵或最小描述長度等。這里不詳細介紹了,有興趣的童鞋可以自行網路。
三、質量檢查
對數據中的各個變數有了初步了解後,我們還需要對數據進行嚴格的質量檢查,如果數據質量不過關,還需要進行數據的清洗或修補工作。
一般來說,質量檢查包括檢查每個變數的缺失程度以及取值范圍的合理性。
【缺失檢查】
原始數據中經常會存在各種各樣的缺失現象。
有些指標的缺失是合理的,例如顧客只有使用過某個產品才能對這個產品的滿意度進行評價,一筆貸款的抵押物中只有存在房地產,才會記錄相應的房地產的價值情況等。
像這種允許缺失的變數是最難搞的,因為我們很難判斷它的缺失是合理的,還是由於漏報造成的。
但無論哪種情況,如果變數的缺失率過高,都會影響數據的整體質量,因為數據所反映的信息實在太少,很難從中挖掘到有用的東西。
對於不允許缺失的變數來說,如果存在缺失情況,就必須進行相應的處理。如果一個變數的缺失程度非常大,比方說達到了70%,那就考慮直接踢掉吧,估計沒救了。
如果缺失比例還可以接受的話,可以嘗試用缺失值插補的方法進行補救。
插補的目的是使插補值能最大可能的接近其真實的取值,所以如果可以從其他途徑得到變數的真實值,那一定優先選擇這種方法。
比如某個公司的財務信息中缺失了「最終控制人類型」和「是否國家控股」這兩個取值,這些可以通過網上的公開信息得到真實值;再比如缺失了「凈利潤率」這個指標的取值,但是卻有「凈利潤」和「總收入」的取值,那就可以通過變數間的關系得到相應的缺失值,即凈利潤率=凈利潤/總收入。
當然,更多的時候,我們無法得到缺失值的真實信息,這時就只能借用已有的數據來進行插補了。
對數值變數來說,可以用已觀測值的均值、中位數來插補缺失值;對分類型變數來說,可以用已觀測數據中出現比例最高的類別取值來進行插補。
這些方法操作起來非常簡單,但它們都是對所有缺失值賦予了相同的取值,所以當缺失比例較大時,可能會扭曲被插補變數與其餘變數的關系。
更復雜一點的,我們可以選擇模型插補方法,即針對被插補變數和其它自變數之間的關系建立統計模型(如回歸、決策樹等),將模型預測值作為插補值。
如何處理缺失值是一個很大的研究課題,我們這里只是介紹了最簡單可行的方法,有興趣的讀者可以參閱Little和Rubin 2002年的專著「Statistical Analysis with Missing Data」。
【變數取值合理性檢查】
除了缺失外,我們還要考察每個變數的取值合理性。每個變數都會有自己的取值范圍,比如「用戶訪問量」、「下載次數」一定是非負的,「投資收益率」一定在0~1之間。通過判斷變數的取值是否超出它應有的取值范圍,可以簡單的對異常值進行甄別。
除了根據變數的取值范圍來檢查變數質量外,還可以根據變數之間的相互關系進行判斷。例如一家公司的「凈利潤率」不應該大於「總利潤率」等。
只有通過了各個方面檢測的數據才是一份高質量的數據,才有可能帶來有價值的模型結果。
四、實例分析——電影票房分析
最後,我們給出一個實例分析。在這個例子中,我們的目標是研究電影哪些方面的特徵對電影票房有影響。
我們有兩方面的數據,一是描述電影特徵的數據,二是描述電影票房的數據。
由於我們關注的是北美的票房市場,所以描述電影特徵的數據可以從IMDB網站得到,它是一個關於演員、電影、電視節目、電視明星和電影製作的在線資料庫,裡面可以找到每部上映電影的眾多信息;電影每天的票房數據可以從美國權威的票房網站Box Office Mojo得到,上面記錄了每部電影上映期間內每天的票房數據。
我們將從IMDB得到的數據放到「movieinfor.csv」文件中,將從Box Office Mojo中得到的數據放到「boxoffice.csv」文件中。
這里,我們以2012年北美票房市場最高的前100部電影為例進行講解。下表給出了這兩個數據集中包含的所有變數以及相應的解釋。
在這兩個數據中,movieinfor.csv數據的記錄是精確到每部電影的,而boxoffice.csv數據精確到了每部電影中每天的票房數據,是精確到天的。上表中給出的變數中,除了電影名稱和ID外,「電影類型」「MPAA評級」(美國電影協會對電影的評級)和「星期幾」是分類型變數;「放映時長」、「製作預算」、「電影每天的票房」和「每天放映的影院數」是數值型變數。兩份數據都不存在缺失值。
我們首先對兩個數據集分別進行變數預處理,然後再根據電影ID將兩個數據整合到一起。下面給出了每個變數的處理方法:
【電影類型】
電影類型是一個分類變數。在這個變數中我們發現每部電影都不止一個類型,例如「The Dark Knight Rises」這部電影就有「Action」、「Crime」和「Thriller」三個類型,並且它們以「|」為分隔符寫在了一起。
同時,不同電影之間可能有相同的類型,也可能有不同的類型,例如票房排名第二的電影「Skyfall」,它的類型是「Action |Adventure |Thriller」。
因此,我們首先需要做的是把每部電影所屬的類型逐一取出來,然後將所有出現過的類型分別形成一個0-1啞變數,如果這部電影在某個類型上出現了,則相應變數的取值就是1,否則是0.
通過上面一步,我們知道這個數據集中出現過的所有電影類型一共有11個。
那是不是按照之前所講的,應該把它轉換為10個啞變數呢?這里需要注意的是,所有的電影類型之間並不是互斥的(即有了action,就不能有其他的類型),所以我們無需因為共線性的原因去掉其中一個。
也就是說,如果把每一個電影類型單獨作為一個獨立的變數,可以衍生出11個新的0-1變數,這完全沒有問題。但11個變數未免有點過多,所以我們根據不同電影類型的頻數分布情況,只把出現次數明顯較多的類型單獨拿出來,最終生成了6個0-1型變數,分別為Adventure,Fantasy,Comedy,Action,Animation,Others。
【MPAA評級】
對於這個分類型變數,我們首先可以看一下數據中它所包含的全部取值,發現一共有「PG」,「PG-13」和「R」三個。
和上面的電影類型(Genre)不同,對於一部電影而言,它只能有一個MPAA取值。因此,在MPAA變數中,我們需要選擇一個作為基準,將另外兩個構造成啞變數。
例如,我們以「PG」為基準,構造的兩個啞變數分別為PG13和R,如果這兩個啞變數的取值同時為0,那就相當於電影的MPAA評級是PG。
【放映當天是星期幾】
這個變數同MPAA評級一樣,每部電影只能有一個取值。
如果它在星期一到星期日上都有取值的話,我們可以衍生出6個0-1型啞變數。
因為這里我們更關注周末和非周末對電影票房的影響,而並不關注具體是哪一天,所以我們將其進一步概括成一個變數,即「是否是周末」。
【放映時長和製作預算】
放映時長和製作預算這兩個變數都是取值大於0的數值型變數,我們可以分別檢查它們的取值是否在合理的范圍內,然後直接保留它們的數值信息。
同時,對「製作預算」而言,假設我們這里關心的不是製作預算的具體數值,而是「小成本電影」和「大成本電影」的票房差異,那我們就可以將這個數值型變數進行分箱處理,轉換為一個0-1型的分類變數,即 「是否為小成本電影」。
在決定按照什麼標准來劃分是否為小成本電影時,我們根據之前文獻里的研究結果,將製作預算在100 million以下的電影看成是小成本電影。
上述所有變數的處理過程都可以使用R中最基本的語句(table,rep,which等)完成,由於篇幅限制,小編這里就不列出詳細的code了,大家感興趣的話,可以閱讀狗熊會的「R語千尋」系列(戳這里),相信會在R語言的學習上受到更多啟發。
最後,我們將所有新生成的變數按照電影ID整合到一起,就大功告成啦。
五、總結
最後總結一下,小編在這次內容中向大家介紹了拿到數據後的數據理解和預處理工作,內容雖然不難,但同樣需要我們認真對待。就好像生活一樣,只有踏踏實實走好前面的路,才有可能迎接後面的高潮迭起!
㈨ 電影票房分析及預測
在缺少衍生品市場的當下,電影投資主要以票房為主要收入來源,因此前期的票房預測就顯得十分重要,能讓投資者提前預判項目的大致受益,並通過合適的宣發手段來提高影片的關注度,以便提高最終的票房收入。
新傳智庫自主研發的票房預測系統就從去年11月份開始,以影片自身題材、主創陣容、大盤、檔期、口碑、對手、首日及首周市場表現等為主要依據,對部分上映新片進行票房預測。雖然仍與實際結果有一些出入,但部分結果卻做到了高度的精準,可以此為基礎詳細解釋一下票房預測的思路、要點等。
映前主創信息—模糊分類,預測票房起點
由於此時影片很多都尚在製作階段,一般意義上,只能按照影片的題材、主創陣容、演員明星等推測影片的題材與體量,僅能大致分為大型製作、中等製作、小成本三大類,但這一指標卻具有極大的不確定性與不穩定性,且預測難度也是逐步上升。
大成本製作,一般都有著大筆特效投入、知名導演明星參與,有的還有著一定的IP基礎,無論哪一方面都能吸引到大量的關注,因此其票房成績總體已經維持在了一定的水平,票房起點應該在5億以上。
相比於大製作,中等製作一般是輕工業產品,可能會有一些名導與明星共同參與,題材內容方面貼近現實,一般多為喜劇片、愛情片、劇情片,缺少武俠、動作、科幻、奇幻等題材所需要的大場面特效的加持。
中等成本製作總體較難預測,票房區間從千萬級別到億元級別都有分布。此時演員、導演的因素一般會被放大,明星雲集的影片更容易在同類型中獲取更多關注,《我不是潘金蓮》、《擺渡人》等都屬此類;同時,喜劇片的成績普遍要好於愛情片、劇情片等其他類型,可適當加分,如去年的《從你的全世界路過》和《奔愛》都主打明星牌,但的8.14億和4751萬的成績卻有著天壤之別。
而小成本製作則相對即簡單有困難,從題材到主創的毫無新意使得其註定要成為徹徹底底的炮灰,票房成績也均在一千萬以下,多數進口批片、國產劇情片、恐怖片等都屬於這種行列。但其內部之間仍然有著較大的差異,根據大盤、檔期、對手等的變化仍有小幅的波動,很難利用現有指標精準預測其最終成績。不過對於此類製作而言,精準預測的意義也並不大。
映前第三方指數—縱向對比,預測票房區間
第三方指數(如貓眼想看指數、網路搜索指數等)反映的是觀眾對於影片的關注度與認可度,極有可能轉化為電影的實際票房支持,因此據有較高的參考價值。
對於貓眼想看指數,一般從影片正式上映一個月左右,就可以作為有效的參考指數。
指數長期保持在高水平(一般日增想看指數維持在3000人以上)則是所謂的大片,其最終市場表現往往取決於口碑,口碑好的話會在一般水平上有所上揚,口碑不理想的情況下,自然就會有一定程度的縮水。
而映前短期內(一般為一周左右)相關指數暴漲的影片其更容易成為爆款,在預測這類影片票房成績時應適度擴大其預測值,但卻很難估測其最終的落腳點,最重要的是看同期競爭影片的表現。
對於每日日增想看人數僅在幾百左右的影片,則應已經註定了其票房成績難有起色。上周五上映的三部新片可以明顯的反映出這種趨勢(對於小成本而言,這一指標的參考意義並不大,相關平台一般缺少相關數據,難以以此做出有關的推論):
而網路搜索指數更多的是整體反應票房的大致趨勢,常用於與其他已上映影片的對比分析,以最近上映的三部進口大片《金剛狼3:殊死一戰》、《生化危機:終章》、《極限特工:終極回歸》為例,可以發現《金剛狼3》的映前的熱度明顯低於後兩這,因此其在票房上也難以達到兩者的成績。
第三方指數,僅用於初步判斷影片的熱度,最重要的意義來源於與相關影片的精準對比,數字本身與最終票房之間並沒有特別確定的函數轉換關系。
大盤趨勢與對手實力—小幅調整,縮小預測范圍
大盤的走嚮往往反映著整體的體量,約束著一段時期內電影市場天花板的高度,因此對於單個影片的影響程度較高,春節檔多方廝殺仍然平均分力,就在於市場容量的巨大,這也正是眾多影片搶占檔期的重要因素所在。
除了檔期以外,各月份也是有好有壞,3月、9月、11月等都是著名的淡季,全月的總體量在20——30億左右,萎靡的大盤難以被眾多影片平均分割,其票房成績自然也會有所下滑。但此時大盤的主要限制的是中等製作與小成本影片,大製作反而更因為觀眾選擇面窄小而獲利。而對大盤進行預測時,一般可參照去年同期的總量,並根據增勢做相應的調整。
除此之外,對手的實力也是影響票房的最重要因素。《功夫瑜伽》能夠力壓《西遊伏妖篇》登頂春節檔冠軍很大一部分原因在於《西遊伏妖篇》的口碑不足。市場熱度和總量一定的情況下,重點影片的差評自然會催動其他影片成為「爆款」。
而同類題材也是重要對手,《金剛狼3》的成績不如《極限特工:終極一戰》、《生化危機:終章》;去年的《佩小姐的奇幻城堡》遠低於《奇異博士》和《神奇動物在哪裡》等都有觀眾審美疲勞的原因在裡面。因此,在這種情況下,即便影片口碑不俗,仍需調低票房預期。
上映首日排片、首周末票房——完全鎖定票房成績
以上的預測都處於前期階段,在影片正式落地之前,誰也無法比較精確的預測影片的最終票房成績,但到了影片正式上映之後,則一切都有了較為明顯和科學的依據。
雖然排片並不能決定一部影片的生死,但卻無疑有著極大的左右能力,限制著影片的市場發揮空間,是市場專業人士的預判。
一般情況下,排片佔比與票房佔比之間存在著一定的一致性,但馬太效應明顯。通俗而言,占據市場4成左右排片的影片一般會貢獻出5——6成,甚至是7成的票房;排片在2成左右的影片,其票房成績與排片佔比大致相同,而排片在1成以下的影片,通常其票房貢獻量會低於5%。
多數影片都集中於周五上映,恰逢大盤最火熱時期(個別節假日及檔期除外),而首周末三天口碑已出、接下來的工作日整體低迷、周五面臨新片沖擊,因此已經可以看出其市場走向如何了。
總體而言,對於一般的大型製作,其首周末票房占總票房的比重一般會在40%——50%;中等成本因為其本身的不確定性,用此方法相對較難以預測,但首周末票房所佔的比例一般都會在60%——80%之間。而對於小成本,其首周末票房的佔比有時會高達90%。
以2016年票房過億的85部影片為例,其首周末票房佔比分布如下(已祛除部分上映日期異常影片):票房成績在10億以上的影片,首周末平均佔比為31.09%;5億——10億之間,為45.24%;1億——5億之間,平均為63.03%。
此時還需要考慮的一點就是後續長尾效應。多在於其上映的第二周有沒有強勁的足夠挑戰影片時長份額的大片上映,如果沒有的話,影片的影響力可能會持續,尤其是在下周末會引來一次小的高峰,幫助影片的總體成績提升。
㈩ 電影票房是如何統計的
行業常用的票房收入計算公式為「票房=總座位數×場次×上座率×平均票價×天數」。比如某影院一天放映了6場《李茶的姑媽》,有學生票:40元,共10人,標准票:80元,共10人,團體票:30元,共10人,會員票價:20元,一共10人,那麼,這一天該影院的總票房就是:4000+8000+3000+2000 。
現在各大電影院都實行電腦售票,這些售票系統是和國家電影局電影專項基金管理中心聯網的,每天都會在固定的時間自動向專基中心發送票房數據。因此,相對來說,電影票房對判斷某部電影的觀影人數,影片受歡迎程度還是有很大參考意義的。
電影票房的影響因素
1、影片題材及劇本。題材和劇本是一部影片的核心,科幻、魔幻題材如《變3》、《哈7》及此前的《阿凡達》等影片,一向是票房大熱,除題材具有想像空間而吸引觀眾外,這類影片本身就需要大成本支撐,因此獲得票房佳績也不足為奇。另外,貼近生活、打動人心的情感題材影片,如《非誠勿擾》、《失戀33天》等,也成為「應景」主題,為影迷所期待。
2、主創團對主創團隊,隊如導演、主演、製片人、製作團隊等,無一不是吸引觀眾的重量級籌碼。例如國民大導張藝謀、馮小剛的力量甚至大過於影片題材,成為觀眾期待的焦點;演員的力量同樣如此——有些人光名字就是號召力,如楊冪的《孤島驚魂》一舉開創「粉絲電影」的先河,演員對票房的貢獻不容小視。製片人、製作團隊的名氣,同樣能為一部影片帶來「萬眾期待」的效果。
3、影片定位,影片定位是指片方對自己影片的市場預估。首先應該是目標人群定位,從影片的劇本設置、演員選擇、拍攝手法到後期製作風格、傳播途徑、傳播手段等等,都要迎合大部分的目標人群喜好,奠定穩定的票房基礎。其次要正確預估票房,有時片方過於自信,會影響影片上映後的側重點。尤其在做傳播工作之前,應該根據檔期、題材、排片等因素做好影片的定位和票房預估的溝通。
以上內容參考網路_票房