我將一次完整的數據分析流程主要分為六個環節,包括明確分析目的、數據獲取、數據處理、數據分析、數據可視化、提出建議推動落地

一、明確分析目的
做任何事情都有其對應的目的,數據分析也是如此。每一次分析前,都必須要先明確做這次分析的目的是什麼,只有先明確了目的,後面的分析才能圍繞其展開。常見的數據分析目標包括以下三種類型:
波動解釋型:某天的銷售額突然下降了,某天的新用戶留存突然降低了,這時候往往需要分析師去解釋波動的原因,分析較為聚焦,主要是找到波動的原因。
數據復盤型:類似於月報、季報,在互聯網領域常見於app某某功能上線了一段時間後,數據分析師往往需要復盤一下這個功能的表現情況,看看有沒有什麼問題。
專題探索型:對某個主題發起的專項探索,比如新用戶流失、營收分析等等
二、數據獲取
在明確的分析目標後,就可以根據目標去獲取所需要的數據,數據獲取主要可以分為外部數據和內部數據兩類:
外部數據
想要獲取外部數據,一是可以從公開的數據網站上查詢,比如對於戰略分析師,在研究進入某個地區或某個國家的策略時,往往就需要獲取對應地區、國家的數據
國家數據:數據來源中華人民共和國國家統計局,包含了我國經濟民生等多個方面的數據,並且在月度、季度、年度都有覆蓋,全面又權威。 中國統計信息網:國家統計局的官方網站,彙集了海量的全國各級政府各年度的國民經濟和社會發展統計信息,建立了以統計公報為主,統計年鑒、階段發展數據、統計分析、經濟新聞、主要統計指標排行等。 github:一個非常全面的數據獲取渠道,包含各個細分領域的資料庫資源,自然科學和社會科學的覆蓋都很全面,適合做研究和數據分析的人員
第二種獲取外部數據的方法就是爬蟲,這種方法會更加靈活,不過現在做爬蟲會有一定的法律風險。
內部數據
內部數據是企業自身內部的數據,對於互聯網行業,用戶行為的數據是通過埋點的形式上報獲取,最終儲存在hive表中,作為數據分析師,需要用sql去把數據提取出來。

三、數據處理
數據處理階段主要的目的是解決數據質量的問題,在數據採集環節中,內部的數據往往質量較好,但是外部數據,比如爬蟲獲取的數據,數據往往會比較雜亂,俗稱「臟數據」,需要進行數據清洗,包括補全缺失值、刪去異常值、重複值、進行數據轉換等等
1 、異常值處理
什麼是異常值?下面就是一個很明顯的異常值的例子,這種異常值在我們進行分析時候,比如回歸分析,這種值往往都要刪掉,不然會對結果產生很大的影響。但是並不是所有情況異常值都要刪掉,不同領域對異常值的處理方法不同,比如在風控領域,反而要重點關注異常值,因為大部分用戶都是正常的,異常值可能就是作弊用戶。

圖片來自網路
2、補全缺失值
有缺失值怎麼辦,補上。常見的補缺失值的辦法包括:
- 通過其他信息填補,比如通過身份證補充生日、籍貫等
- 將樣本進行分類,然後以該類中樣本的均值、中位數補全
四、數據分析
數據處理好了之後,就可以開始分析,根據你的分析目標,要選擇合適的分析方法。常見的分析方法包括:
描述性分析
描述性分析主要是對所收集的數據進行分析,得出反映客觀現象的各種數量特徵的一種分析方法,它包括數據的集中趨勢分析、數據離散程度分析、數據的頻數分布分析等,描述性分析是對數據進一步分析的基礎。
推斷性分析
推斷性分析是研究如何根據樣本數據來推斷總體樣本數量特徵,它是在對樣本數據進行描述統計分析的基礎上,對研究總體的數量特徵做出推斷。常見的分析方法有假設檢驗、相關分析、回歸分析、時間序列分析等方法。
探索性分析
探索性分析主要是通過一些分析方法從大量的數據中發現未知且有價值信息的過程,它不受研究假設和分析模型的限制,儘可能地尋找變數之間的關聯性。常見的分析方法有聚類分析、因子分析、對應分析等方法。
五、數據可視化
通過數據分析得出結論後,還需要用圖表展示出來,俗話說得好,「文不如表,表不如圖”,用圖表可以更清晰展現你的結論。

六、提出建議並推動落地
基於你的分析目標得出結論後,數據分析師還應根據你的結論提出相對應的改進建議,並推動建議落地,這樣才能完成一個完整的數據分析閉環。比如你發現新用戶流失高的原因是因為某個新用戶引導的節點有問題,那麼可以提出對應的建議,比如產品應該如何改進這個節點。
在你的策略實施後,發現新用戶的流失率顯著下降,這樣就完成了一次完整的數據分析,通過分析改進了業務。
原創文章,作者:投稿專員,如若轉載,請註明出處:https://www.506064.com/zh-tw/n/316760.html