久久综合丝袜日本网手机版,日韩欧美中文字幕在线三区,亚洲精品国产品国语在线,极品在线观看视频婷婷

      <small id="aebxz"><menu id="aebxz"></menu></small>
    1. 如何用數(shù)據(jù)分析來預(yù)測奧斯卡最佳影片獎

      時間:2022-07-10 18:59:08 其他 我要投稿
      • 相關(guān)推薦

      如何用數(shù)據(jù)分析來預(yù)測奧斯卡最佳影片獎


      一年一度的奧斯卡頒獎又要開始了。 2005年, 李安導(dǎo)演憑借《斷背山》獲得最佳導(dǎo)演獎,可惜與最佳影片獎失之交臂。 這次, 李安導(dǎo)演又一次攜《少年派的奇幻漂流》再次沖擊奧斯卡。

      在一周前的金球獎, 《逃離德黑蘭》爆冷擊敗了《林肯》和《少年派的奇幻漂流》獲得最佳影片獎。 這讓很多人都覺得不可思議。 雖然藝術(shù)評委的思維模式往往與大眾相左(參考閱讀:社會化輿情分析,你信奧斯卡還是IBM), 但實際上數(shù)據(jù)分析仍然有可能為我們&ldquo;劇透&rdquo;今年的奧斯卡最佳影片獎得主。 好吧, 以下本人就試著用R分析一下吧。

      奧斯卡的原始數(shù)據(jù)可以到www.appdata.com去下載這個文件, 這個文件包括了從1927年到2010年奧斯卡提名和獲獎的所有數(shù)據(jù)。

      有了這個原始數(shù)據(jù)集, 我們就可以開始我們的數(shù)據(jù)分析項目了。

      首先確定項目的目標(biāo): 我希望能夠分析從最佳影片提名中預(yù)測最后產(chǎn)生的獲獎影片。 首先要做得是確定預(yù)測樣本的特征值, 觀察了一下原始數(shù)據(jù)集, 我們可以把一些肯定與最佳影片無關(guān)的獎項去掉(比如最佳動畫長片, 最佳短片, 最佳外語片等)。 最后 我選擇了下面這些獎項:

      最佳男主角, 最佳男配角, 最佳女主角, 最佳女配角, 最佳藝術(shù)指導(dǎo), 最佳攝影, 最佳服裝設(shè)計, 最佳導(dǎo)演, 最佳影片剪輯, 最佳化妝, 最佳原創(chuàng)音樂, 最佳原創(chuàng)歌曲, 最佳混音, 最佳音效, 最佳視覺效果和最佳劇本。

      其中, 奧斯卡的最佳劇本其實分最佳原創(chuàng)劇本和最佳改編劇本, 但是原始數(shù)據(jù)把二者合并了。 (這也是數(shù)據(jù)分析中常常會碰到的情況。 不過對我們來說影響不大)。

      然后, 就是根據(jù)這些特征值, 對數(shù)據(jù)集進行整理。 這部分工作, 其實在一般的數(shù)據(jù)分析項目里, 大約占到60%的時間。 確實沒有搞模型什么的有意思, 不過很多數(shù)據(jù)分析項目實施的好壞和數(shù)據(jù)整理其實有很大的關(guān)系。

      我在這里主要是把特征值進行擴展, 把獲得提名和獲得最后獎項做為兩個特征來看, 對每個獎項, 如果獲得提名, 則獲得提名定值為1, 否則為0。 如果該獎項沒有獲得提名, 則獲得最后獎項的值為0 , 如果獲得提名并得獎, 則為1。 同時還需要把歷年的&ldquo;最佳影片&rdquo;的提名和獲獎數(shù)據(jù)從原始數(shù)據(jù)集中取出來。 這些工作可以用R語言來完成,見附件中的代碼。 總共最后整理成了一個共有 485個觀察樣本, 每個樣本有32個特征值的數(shù)據(jù)集。 接著, 把這485個樣本進行分組, 我按照80:20原則, 把80%的樣本作為訓(xùn)練樣本組, 20%的樣本作為驗證預(yù)測模型的驗證組。

      接下來就是進行預(yù)測模型的選擇。 由于我們是個分類問題, 所以可以選擇分類模型。 這個數(shù)據(jù)集相對較小, 因此不同模型的差別應(yīng)該不大。 這里我先選擇用回歸樹來做分析。 用R里面的回歸樹的包, 可以很容易的進行決策樹的構(gòu)建。 最后的決策樹模型的ROC是0.877. 下圖是決策樹的示意。


      決策樹的一個好處就是比較直觀, 這個決策樹簡單來說, 就是這樣進行預(yù)測判斷的, 首先是判斷是否獲得&ldquo;最佳導(dǎo)演獎&rdquo;, 如果獲得最佳導(dǎo)演, 則判斷是否有&ldquo;最佳影片剪輯提名&rdquo;。 如果沒有, 則獲獎概率為38%, 如果有最佳影片剪輯提名, 看是否獲得&ldquo;最佳劇本&rdquo;獎, 如果沒有, 則得獎概率為63%, 如果獲得了, 則繼續(xù)看是否獲得&ldquo;最佳混音&rdquo;提名。 如此類推。

      如此看來, 獲得奧斯卡最佳影片獎的關(guān)鍵是獲得奧斯卡最佳導(dǎo)演獎。 如果沒有導(dǎo)演獎, 那么獲最佳影片獎的概率頂多就是37%。

      好, 我們來看看《少年派》, 少年派獲得了導(dǎo)演獎的提名, 而如果獲得了導(dǎo)演獎, 那么由于它本身已經(jīng)是&ldquo;最佳影片剪輯&rdquo;提名, 所以即便不能拿到&ldquo;最佳劇本&rdquo;獎, 獲獎概率也能達到63%, 而如果再拿到&ldquo;最佳劇本獎&rdquo;, 由于已經(jīng)獲得&ldquo;最佳混音&rdquo;提名, 所以幾乎就能夠鐵定獲獎了。

      而對《林肯》來說也是這樣的, 因為林肯也獲得了最佳導(dǎo)演, 最佳剪輯和最佳劇本的提名, 所以, 《少年派》和《林肯》之間的對決主要是在最佳導(dǎo)演的爭奪上了。 至于《逃離德黑蘭》, 由于沒有獲得最佳導(dǎo)演獎的提名, 所以, 它的獲獎概率最多可以到37%。 當(dāng)然, 這個概率也比5選1的20%的概率要高。

      為了看一看各個特征值對于最終獲獎的影響, 我們也可以用邏輯回歸的模型看一下, 下面是邏輯回歸的出來的各特征值的權(quán)重, (ROC = 0.873,和決策樹差不多)。

      這里面可以看到, 最佳導(dǎo)演獲獎依然是影響最大的因素, 其次是最佳化妝獎。 有意思的是, 有些提名或者獲獎反而會降低得&ldquo;最佳影片獎&rdquo;的概率。 比如說&ldquo;最佳音效獎得獎&rdquo;或者&ldquo;最佳視覺效果提名&rdquo;。 也可能這些是對&ldquo;最佳影片&rdquo;的落榜影片的&ldquo;安慰獎&rdquo;。

      &ldquo;數(shù)據(jù)可視化是科學(xué), 也是藝術(shù)&rdquo;,指出數(shù)據(jù)可視化是科學(xué)藝術(shù)和設(shè)計的結(jié)合,而我們現(xiàn)在做的,則是用數(shù)據(jù)分析預(yù)測藝術(shù)市場。 在我們觀看奧斯卡頒獎典禮的時候, 因為最佳影片是最后一個頒獎的, 所以大家可以把決策樹拿出來, 對照著前面頒獎的情況進行觀看, 是不是會更有意思呢。

      對數(shù)據(jù)分析愛好者來說, 我的R代碼和整理過的數(shù)據(jù)集見附件(請登錄下載), 讀者也可以自己研究一下, 也許還能發(fā)現(xiàn)更好的模型。 或者還可以把金球獎的數(shù)據(jù)包括進來。 看看《逃離德黑蘭》獲得金球獎對它獲得奧斯卡獎有多大影響。

      Via:IT經(jīng)理網(wǎng)

      最佳導(dǎo)演獲獎

      3.826687

      最佳化妝獲獎

      3.036705

      最佳音效提名

      1.908622

      最佳男主角獲獎

      1.641444

      最佳服裝獲獎

      1.611889

      最佳劇本獲獎

      1.27472

      最佳影片剪輯提名

      0.838309

      最佳原創(chuàng)歌曲提名

      0.763278

      最佳男配角提名

      0.644326

      最佳藝術(shù)指導(dǎo)獲獎

      0.558941

      最佳影片剪輯獲獎

      0.471427

      最佳女配角獲獎

      0.454053

      最佳服裝提名

      0.383574

      最佳混音獲獎

      0.343589

      最佳混音提名

      0.295055

      最佳化妝提名

      0.198427

      最佳原創(chuàng)音樂提名

      0.188186

      最佳藝術(shù)指導(dǎo)提名

      0.171621

      最佳女主角獲獎

      0.108964

      最佳導(dǎo)演提名

      0.094558

      最佳女配角提名

      0.083959

      最佳視覺效果獲獎

      -0.02597

      最佳男配角獲獎

      -0.19262

      最佳攝影獲獎

      -0.32458

      最佳原創(chuàng)音樂獲獎

      -0.37605

      最佳女主角提名

      -0.39106

      最佳男主角提名

      -0.59084

      最佳攝影提名

      -0.71286

      最佳原創(chuàng)歌曲獲獎

      -0.75752

      最佳劇本提名

      -0.78589

      最佳視覺效果提名

      -0.86435

      最佳音效獲獎

      -2.07864

      [如何用數(shù)據(jù)分析來預(yù)測奧斯卡最佳影片獎]相關(guān)文章:

      1.如何用數(shù)據(jù)分析來預(yù)測奧斯卡最佳影片獎

      【如何用數(shù)據(jù)分析來預(yù)測奧斯卡最佳影片獎】相關(guān)文章:

      數(shù)據(jù)分析報告07-28

      大數(shù)據(jù)分析07-20

      銷售數(shù)據(jù)的分析方法07-25

      大數(shù)據(jù)分析07-25

      多維數(shù)據(jù)分析方法04-07

      數(shù)據(jù)分析工作職責(zé)07-28

      數(shù)據(jù)分析常用方法07-26

      數(shù)據(jù)分析主管的職責(zé)01-13

      數(shù)據(jù)分析報告【推薦】03-07

      數(shù)據(jù)分析簡歷模板02-17