python影視作品分析的簡單介紹

本文目錄一覽:

豆瓣電影數據分析

這篇報告是我轉行數據分析後的第一篇報告,當時學完了Python,SQL,BI以為再做幾個項目就能找工作了,事實上……分析思維、業務,這兩者遠比工具重要的多。一個多月後回過頭來看,這篇報告雖然寫得有模有樣,但和數據分析報告還是有挺大差別的,主要原因在於:a.只是針對豆瓣電影數據分析太過寬泛了,具體關鍵指標到底是哪些呢?;b.沒有一個確切有效的分析模型/框架,會有種東一塊西一塊的拼接感。

即便有着這些缺點,我還是想把它掛上來,主要是因為:1.當做Pandas與爬蟲(Selenium+Request)練手,總得留下些證明;2.以豆瓣電影進行分析確實很難找到一條業務邏輯線支撐,總體上還是描述統計為主;3.比起網上能搜到的其他豆瓣電影數據分析,它更為詳細,可視化效果也不錯;

本篇報告旨在針對豆瓣電影1990-2020的電影數據進行分析,首先通過編寫Python網絡爬蟲爬取了51375條電影數據,採集對象包括:電影名稱、年份、導演、演員、類型、出品國家、語言、時長、評分、評論數、不同評價佔比、網址。經過去重、清洗,最後得到29033條有效電影數據。根據電影評分、時長、地區、類型進行分析,描述了評分與時長、類型的關係,並統計了各個地區電影數量與評分。之後,針對演員、導演對數據進行聚合,給出產量與評分最高的名單。在分析過程中,還發現電影數量今年逐步增加,但評分下降,主要原因是中國地區今年低質量影視作品的增加。

另外,本篇報告還爬取了電影票房網( )1995-2020年度國內上映的影片票房,共採集4071條數據,其中3484條有效。進一步,本文分析了國內院線電影票房年度變化趨勢,票房與評分、評價人數、時長、地區的關係,票房與電影類型的關聯,並給出了票房最高的導演、演員與電影排名。

清洗、去重後,可以看到29033條數據長度、評分、評論數具有以下特點:

結合圖1(a)(b)看,可以看到電影數據時長主要集中在90-120分鐘之間,向兩極呈現階梯狀遞減,將數據按照短(60-90分鐘),中(90-120分鐘),長(120-150分鐘),特長(150分鐘)劃分,各部分佔比為21.06%, 64.15%, 11.95%, 2.85%。

結合圖2(a)看,可以看到我們採集到的電影數據評分主要集中在6.0-8.0之間,向兩極呈現階梯狀遞減,在此按照評分劃分區間:2.0-4.0為口碑極差,4.0-6.0為口碑較差,6.0-7.0為口碑尚可,7.0-8.0為口碑較好,8.0-10.0為口碑極佳。

這5種電影數據的佔比分別為:5.78%, 23.09%, 30.56%, 29.22%, 11.34%

再將評分數據細化到每年進行觀察,可以發現,30年內電影數量與年度電影均分呈反相關,年度均分整體呈現下降趨勢,2016年電影均分最低,電影數量最多。

進一步做出每個年份下不同評級等級的電影數據佔比,可以發現,近年來,評分在[2.0,6.0)的電影數據佔比有着明顯提升,評分在[6.0,7.0)的數據佔比不變,評分在[7.0,10.0)的數據佔比減少,可能原因有:

對照圖5,可以發現,評分與時長、評論人數的分布大致呈現漏斗狀,高分電影位於漏鬥上部,低分電影位於漏斗下部。這意味着,如果一部電影的評論人數很多(特別是超過30w人觀影),時長較長(大於120min),那麼它大概率是一部好電影。

根據各個國家的電影數量作圖,可以得到圖6,列齣電影數量前十的國家可得表格2,發現美國在電影數量上占第一,達到8490部,中國其次,達6222部。此外,法國,英國,日本的電影數量也超過1000,其餘各國電影數量相對較少。這可以說明美國電影有着較大的流量輸入,在中國產生了較大的影響。

進一步分析各國電影的質量,依據評分繪製評分箱線圖可得圖7,在電影數量排名前20的國家中:

接着我們可以探索,哪個國家的電影對豆瓣評分隨年份下降的貢獻最大,考慮到電影數量對應着評分的權重。根據上述各國的電影評分表現,我們可以猜測電影數量較多的國家可能對年度均分的下降有較大影響。於是,我們再計算出這些國家的年度電影均分,並與整體均分進行比較分析。

再作出中國大陸,中國台灣,中國香港的均分箱線圖圖9(a),可以看到,大陸電影均分低於港台電影,且存在大量低分電影拉低了箱體的位置。

分析相關性可得,大陸、香港、台灣電影年度均分與全部評分關聯度分別為R=0.979,0.919,0.822,說明濾去台灣和香港電影,大陸電影年度均分的變化趨勢與全部評分變化更接近。圖9(b)可以進一步反映這一點。

可以看到,大部分類型集中在X×Y=[10000,30000]×[6.00,7.50]的區間範圍內,劇情、喜劇、愛情、犯罪、動作類電影數量上較多,說明這些題材的電影是近三十年比較熱門的題材,其中劇情類電影佔比最多,音樂、傳記類電影平均得分更高,但在數量上較少,動作、驚悚類電影評論人數雖多,但評價普遍偏低。

除此之外,還有兩塊區域值得關註:

根據類型對電影數據進行聚合,整理得到各類型電影評分的時間序列,計算它們與整體均分時間序列的相關性,可得表格4與圖11,可以看到劇情,喜劇,懸疑這三種類型片與總分趨勢變化相關性最強,同時劇情、喜劇類電影在電影數量上也最多,因此可以認為這兩類電影對於下跌趨勢影響最大,但其餘類別電影的相關性也達到了0.9以上,說明幾種熱門的電影得分的變化趨勢與總體均分趨勢一致。

前面已經得知,中美兩國電影佔比最高,且對於均分時間序列的影響最大。在此,進一步對兩國電影進行類型分析,選取幾種主要的類型(數量上較多,且相關性較高)進行分析,分別是劇情,喜劇,愛情,驚悚,動作,懸疑類電影,繪製近年來幾類電影的數量變化柱狀圖與評分箱線圖可得圖12,13,14,15。

對導演與演員進行聚合,得到數據中共有15011名導演,46223名演員。按照作品數量在(0,2], (2,5], (5,10], (10,20], (20,999]進行分組統計導演數量,可以發現,15009名導演中有79.08%只拍過1-2部作品,46220名演員中有75.93%只主演過1-2部作品。忽略那些客串、跑龍套的演員,數據總體符合二八定律,即20%的人佔據了行業內的大量資源。

在此,可以通過電影得分、每部電影評論人數以及電影數目尋找優秀的電影導演與演員。這三項指標分別衡量了導演/演員的創作水平,人氣以及產能。考慮到電影數據集中可能有少量影視劇/劇場版動畫,且影視劇/劇場版動畫受眾少於電影,但得分普遍要高於電影,這裡根據先根據每部電影評論數量、作品數量來篩選導演/演員,再根據電影得分進行排名,並取前30名進行作圖,可得圖17,18。

結合電影票房網( )採集到的3353條票房數據,與豆瓣數據按照電影名稱進行匹配,可以得到1995-2020年在中國大陸上映的電影信息,分別分析中國內地電影的數量、票房變化趨勢,票房與評分、評價人數、時長、地區以及類型的關係,此外還給出了不同導演與演員的票房表現以及影片票房排名。

如圖19所示,國內票房數據與上映的電影數量逐年遞增,2020年記錄的只是上半年的數據,且由於受疫情影響,票房與數量驟減。這說明在不發生重大事件的情況下,國內電影市場規模正在不斷擴大。

對電影數據根據類型進行聚合,繪製散點圖21,可以發現:

提取導演/演員姓名,對導演/演員字段進行聚合,計算每個導演/演員的票房總和,上映電影均分、以及執導/參與電影數目進行計算,作出票房總和前30名的導演/演員,可得圖22,23,圖中導演/演員標號反映了票房排名,具體每位導演/演員的上映影片數量、均分、每部電影評價人數、平均時長與總票房在表5、表6中給出。

最後根據電影票房進行排名,得到票房排名前20的電影如表格7所示,可以看到絕大部分上榜電影都是中國電影,索引序號為3、10、12、14、18、19為美國電影,這也反映了除國產電影之外,好萊塢大片佔據較大的市場。

本篇報告採集了1990-2020年間豆瓣電影29033組有效數據,從豆瓣電影的評分、時長、地區、類型、演員、導演以及票房等信息進行分析評價,主要有以下結論:

自學python可以做什麼兼職

很多朋友都會說,我身邊有朋友或者同學是做程序員的。但是他們具體的工作內容,其實很多人是不了解的,這幾年隨着一些影視作品的出現,裡面的主演有的從事開發工程師,大家初步有了一個印象。如果我不想去公司坐班,自己通過這個技能怎麼來賺錢。(推薦學習:Python視頻教程)

首先在web領域,你可以用Python來做開發,網站,APP,小程序Python都可以用來做。可以自己在家通過一些豬八戒網,程序員兼職網,來做一些web外包項目。

例如:幫超市一個管理系統,幫一些地方性的小企業做一個官方宣傳網站,幫一些做批發生意的做一個小程序或者網站,幫一些公司做APP

當然這個前提是自己自學的技術一定要過硬,可以把自己學的知識點梳理一下,做過的好項目放到網上,讓想外包的人找到你,並且認可你的實力。在web領域常用的後台框架:Django,Flask,Tornado。以及數據庫:mysql,redis

學會Python的好處就是,因為Python是膠水語言實用方面特別多,Python爬蟲這一塊也是非常好的方向,如果你不去上班,爬蟲技能可以讓你在網上找到更多的兼職項目。

現代社會的快速發展,很多諮詢公司需要靠數據來做分析,有時候諮詢公司在某一個行業沒有豐富的數據,就需要在購買,或者讓一個爬蟲工程師幫忙爬某個行業的數據,這一塊的外包項目,近些年尤其多。爬蟲工程師對接太多行業,有時候和地方統計局或者房地產商,幾乎各行各業都需要的數據,我們爬蟲工程師都可以爬取。數據是人工智能的基礎,所以說爬蟲工程師是非常容易接到一些自己做的外包項目(爬取網上的數據)

例如:諮詢公司數據爬取項目,政府統計機構,調查公司,數據分析公司的數據項目,一些媒體機構需要的內容資源的爬取,排行榜一些公司……

Python可以做自動化運維的,幫一些公司在Linux管理服務器集群,很多公司的項目都不是特別大,有時候不會專門找一個運維,會在網上兼職找一個運維工程師,來搭理一下服務器。

數據分析這一塊,找的一些兼職項目報酬應該更多。數據分析適用的行業,金融行業投資理財的分析,針對某一個行業的診斷,都需要數據分析,數據分析在醫療行業應用也特別多,幫一些疾病做診斷。這些行業的兼職項目也非常多,自己只需要在已有的數據基礎上,用學過的數據分析知識來做好項目。

更多Python相關技術文章,請訪問Python教程欄目進行學習!以上就是小編分享的關於自學python可以做什麼兼職的詳細內容希望對大家有所幫助,更多有關python教程請關注環球青藤其它相關文章!

驚艷:近百種數據可視化工具效果展示,總有一款適合你!

導讀 :俗話說“巧婦難為無米之炊”。數據時代,沒有一款好的數據可視化分析工具,光有團隊怎麼行?商場如戰場,數據是把槍。亞馬遜運用大數據為客戶推薦商品信息,阿里用大數據成立了小微金融服務集團,而谷歌更是計劃用大數據接管世界……不知不覺,數據已經成為我們生活中必不可少的利器。本文收集了各個平台各種行業的數據可視化分析工具,讓你不僅大飽眼福,而且還可以讓你事半功倍。

一款免費的新型大數據可視化分析工具,操作簡單,支持多種數據源,上卷下鑽,數據預測,聚類分析,相關性分析,數據聯想,決策樹,地圖,組合圖等功能。

Charting Fonts是將符號字體與字體整合(把符號變成字體),創建出漂亮的矢量化圖標。

Gephi是進行 社會 圖譜數據可視化分析的工具,不但能處理大規模數據集並且Gephi是一個可視化的網絡 探索 平台,用於構建動態的、分層的數據圖表。

CartoDB是一個不可錯過的網站,你可以用CartoDB很輕易就把表格數據和地圖關聯起來,這方面CartoDB是最優秀的選擇。

Google Chart提供了一種非常完美的方式來可視化數據,提供了大量現成的圖標類型,從簡單的線圖表到複雜的分層樹地圖等。它還內置了動畫和用戶交互控制。

D3(Data Driven Documents)是支持SVG渲染的另一種JavaScript庫。但是D3能夠提供大量線性圖和條形圖之外的複雜圖表樣式,例如Voronoi圖、樹形圖、圓形集群和單詞雲等。

Crossfilter既是圖表,又是互動圖形用戶界面的小程序,當你調整一個圖表中的輸入範圍時,其他關聯圖表的數據也會隨之改變

Raphael是創建圖表和圖形的JavaScript庫,與其他庫最大的不同是輸出格式僅限SVG和VML.

R語言是主要用於統計分析、繪圖的語言和操作環境。雖然R主要用於統計分析或者開發統

計相關的軟件,但也有用作矩陣計算。其分析速度可比美GNUOctave甚至商業軟件MATLAB。

如果你需要製作信息圖而不僅僅是數據可視化,Visual.ly是最流行的一個選擇。

Weka是一個能根據屬性分類和集群大量數據的優秀工具,Weka不但是數據分析的強大工具,還能生成一些簡單的圖表。

NodeBox是OS X上創建二維圖形和可視化的應用程序,你需要了解Python程序,NodeBox與Processing類似,但沒有Processing的互動功能。

Processing是數據可視化的招牌工具。你只需要編寫一些簡單的代碼,然後編譯成Java。Processing可以在幾乎所有平台上運行。

Leaflet是一個開源的JavaScript庫,用來開發移動友好地交互地圖。

Openlayers可能是所有地圖庫中可靠性最高的一個。雖然文檔注釋並不完善。且學習曲線非常陡峭,但是對於特定的任務來說,Openlayers能夠提供一些其他地圖庫都沒有的特殊工具。

PolyMaps是一個地圖庫,主要面向數據可視化用戶。PolyMaps在地圖風格化方面有獨到之處,類似CSS樣式表的選擇器。

Timeline即時間軸,用戶通過這個工具可以一目了然的知道自己在何時做了什麼。

jsDraw2DX是一個標準的JavaScript庫,用來創建任意類型的SVG交互式圖形,可生成包括線、矩形、多邊形、橢圓、弧線等圖形。

iCharts提供可一個用於創建並呈現引人注目圖表的託管解決方案。有許多不同種類的圖表可供選擇,每種類型都完全可定製,以適合網站的主題。iCharts有交互元素,可以從Google Doc、Excel表單和其他來源中獲取數據。

Modest Maps是一個輕量級、可擴展的、可定製的和免費的地圖顯示類庫,這個類庫能幫助開發人員在他們自己的項目里能夠與地圖進行交互。

Many Eyes是一個Web應用程序,用來創建、分享和討論用戶上傳圖形數據。

Anychart是一個靈活的基於Flash/JavaScript(HTML5)的圖表解決方案、跨瀏覽器、跨平台。除了圖表功能外,它還有一款收費的交互式圖表和儀錶。

Kartograph不需要任何地圖提供者像Google Maps,用來建立互動式地圖,由兩個libraries組成,從空間數據開放格式,利用向量投影的Python library以及post GIS,並將兩者結合到SVG和JavaScript library,並把這些SVG資料轉變成互動性地圖。

Sigma.js是一個開源的輕量級庫,用來顯示交互式的靜態和動態圖表。

經常使用開源軟件的朋友應該很熟悉ECharts,大家都知道去年春節以及近期央視大規劃報道的百度大數據產品,如百度遷徙、百度司南、百度大數據預測等等,這些產品的數據可視化均是通過ECharts來實現的。

Zoho Reports支持豐富的功能幫助不同的用戶解決各種個性化需求,支持SQL查詢、類四暗自表格界面等。

Quantum GIS(QDIS)是一個用戶界面友好、開源代碼的GIS客戶端程序,支持數據的可視化、管理、編輯與分析和印刷地圖的製作。

Tableau Public是一款桌面可視化工具,用戶可以創建自己的數據可視化,並將交互性數據可視化發布到網頁上。

Paper.js是一個開源向量圖表敘述架構,能夠在HTML5 Canvas 運作,對於初學者來說它是很容易學習的,其中也有很多專業面向可以提供中階及高階使用者。

Dundas Chart處於行業領先地位的NET圖表處理控件,於2009年被微軟收購,並將圖表產品的一部分功能集成到Visual Studio中。

TimeFlow Analytical Timeline是為了暫時性資料的視覺化工具,現在有alpha版本因此有機會可以發現差錯,提供以下不同的呈現方式:時間軸、日曆、柱狀圖、表格等。

Gantti是一個開源的PHP類,幫助用戶即時生成Gantti圖表。使用Gantti創建圖表無需使用JavaScript,純HTML-CSS3實現。圖表默認輸出非常漂亮,但用戶可以自定義樣式進行輸出(SASS樣式表)。

Smoothie Charts是一個十分小的動態流數據圖表路。通過推送一個webSocket來顯示實時數據流。Smoothie Charts只支持Chorme和Safari瀏覽器,並且不支持刻印文字或餅圖,它很擅長顯示流媒體數據。

Flot是一個優秀的線框圖表庫,支持所有支持canvas的瀏覽器(目前主流的瀏覽器如火狐、IE、Chrome等都支持)。

Pizza Pie Charts是個響應式餅圖圖表,基於Adobe Snap SVG框架,通過HTML標記和CSS來替代JavaScript對象,更容易集成各種先進的技術。

Fusion Charts Suit XT是一款跨平台、跨瀏覽器的JavaScript圖表組件,為你提供令人愉悅的JavaScript圖表體驗。它是最全面的圖表解決方案,包含90+圖表類型和眾多交互功能,包括3D、各種儀錶、工具提示、向下鑽取、縮放和滾動等。它擁有完整的文檔以及現成的演示,可以幫助你快速創建圖表。

Protovis是一個可視化JavaScript圖表生成工具。

Arbor.Js提供有效率、以力導向的版面配置演算法,抽象畫圖表組織以及篩選更新的處理。

Highchart.js是單純由JavaScript所寫的圖表資料庫,提供簡單的方法來增加互動性圖表來表達你的網站或網站應用程式。目前它能支援線圖、樣條函數圖。

Circos最初主要用於基因組序列相關數據的可視化,目前已應用於多個領域,例如:影視作品中的人物關係分析,物流公司的訂單來源和流向分析等,大多數關係型數據都可以嘗試用Circos來可視化。

NodeXLDE 主要功能是社交網絡可視化。

BirdEye是Decearative Visual Analytics,它屬於一個群體專案,為了要提升設計和廣泛的開源資料視覺化發展,並且為了Adobe Flex建視覺分析圖庫,這個動作以敘述性的資料庫為主,讓使用者能夠建立多元資料視覺化界面來分析以及呈現資訊。

Visualize Free是一個建立在高階商業後台集游InetScoft開發的視覺化軟體免費的視覺分析工具,可從多元變量資料篩選並看其趨勢,或是利用簡單地點及方法來切割資料或是小範圍的資料。

OpenStreetMap是一個世界地圖,由像您一樣的人們所構築,可依據開放協議自由使用。

OpenHeatMap簡單易用,用戶可以用它上傳數據、創建地圖、交流信息。它可以把數據(如Google Spreadsheet的表單)轉化為交互式的地圖應用,並在網上分享。

GeoCommons可以使用戶構建富交互可視化應用來解決問題,即使他們沒有任何傳統地圖使用經驗。你可以將實 社會 化數據或者GeoCommons保存的超5萬份開源數據在地圖上可視化,創造帶交互的可視化分析作品,並將作品嵌入網站、博客或分享到社交網絡上。

來源: 悟空智能 科技

原創文章,作者:USYW,如若轉載,請註明出處:https://www.506064.com/zh-hant/n/132261.html

(0)
打賞 微信掃一掃 微信掃一掃 支付寶掃一掃 支付寶掃一掃
USYW的頭像USYW
上一篇 2024-10-03 23:50
下一篇 2024-10-03 23:51

相關推薦

  • Python周杰倫代碼用法介紹

    本文將從多個方面對Python周杰倫代碼進行詳細的闡述。 一、代碼介紹 from urllib.request import urlopen from bs4 import Bea…

    編程 2025-04-29
  • Python計算陽曆日期對應周幾

    本文介紹如何通過Python計算任意陽曆日期對應周幾。 一、獲取日期 獲取日期可以通過Python內置的模塊datetime實現,示例代碼如下: from datetime imp…

    編程 2025-04-29
  • Python列表中負數的個數

    Python列表是一個有序的集合,可以存儲多個不同類型的元素。而負數是指小於0的整數。在Python列表中,我們想要找到負數的個數,可以通過以下幾個方面進行實現。 一、使用循環遍歷…

    編程 2025-04-29
  • Python中引入上一級目錄中函數

    Python中經常需要調用其他文件夾中的模塊或函數,其中一個常見的操作是引入上一級目錄中的函數。在此,我們將從多個角度詳細解釋如何在Python中引入上一級目錄的函數。 一、加入環…

    編程 2025-04-29
  • 如何查看Anaconda中Python路徑

    對Anaconda中Python路徑即conda環境的查看進行詳細的闡述。 一、使用命令行查看 1、在Windows系統中,可以使用命令提示符(cmd)或者Anaconda Pro…

    編程 2025-04-29
  • python強行終止程序快捷鍵

    本文將從多個方面對python強行終止程序快捷鍵進行詳細闡述,並提供相應代碼示例。 一、Ctrl+C快捷鍵 Ctrl+C快捷鍵是在終端中經常用來強行終止運行的程序。當你在終端中運行…

    編程 2025-04-29
  • 蝴蝶優化算法Python版

    蝴蝶優化算法是一種基於仿生學的優化算法,模仿自然界中的蝴蝶進行搜索。它可以應用於多個領域的優化問題,包括數學優化、工程問題、機器學習等。本文將從多個方面對蝴蝶優化算法Python版…

    編程 2025-04-29
  • Python清華鏡像下載

    Python清華鏡像是一個高質量的Python開發資源鏡像站,提供了Python及其相關的開發工具、框架和文檔的下載服務。本文將從以下幾個方面對Python清華鏡像下載進行詳細的闡…

    編程 2025-04-29
  • Python程序需要編譯才能執行

    Python 被廣泛應用於數據分析、人工智能、科學計算等領域,它的靈活性和簡單易學的性質使得越來越多的人喜歡使用 Python 進行編程。然而,在 Python 中程序執行的方式不…

    編程 2025-04-29
  • Python字典去重複工具

    使用Python語言編寫字典去重複工具,可幫助用戶快速去重複。 一、字典去重複工具的需求 在使用Python編寫程序時,我們經常需要處理數據文件,其中包含了大量的重複數據。為了方便…

    編程 2025-04-29

發表回復

登錄後才能評論