這5個方面分析產品數據「產品數據分析從哪方面入手」

如何分析用戶數據和產品數據?

通過具體的項目案例,學習面對數據和業務問題,如何去展開分析。

下面是社群會員的作業,通過給出項目的修改意見,通過本項目提高你的分析思維。


一.數據介紹

該數據集是由 Machine Learning Repository 在基於一個英國電商公司從2010年月12號到2011年9月12號的真實的交易數據集進行改造的。 該電商主要銷售的商品是各類禮品, 主要客戶是來自不同國家的的分銷商。

數據來源

數據集大小:4198764*8

數據集字段含義: InvoiceNo(發票號碼), StockCode(貨物代碼),Description(貨物描述), Quantity(數量), InvoiceDate(發票日期), UnitePrice(單價), CustomerID(客戶賬號),Country(客戶所在國家)

通過下面步驟來分析該數據集:

如何分析用戶數據和產品數據?

二. 提出問題

根據對數據的初步了解發現數據主要包括用戶類數據和產品類數據。

用戶類數據包括用戶ID ,用戶的所在國家,用戶的購買次數(訂單數),用戶的購買時間,用戶購買量。

產品類數據主要包括產品ID, 產品的描述, 產品的單價。

分析思路如下:

如何分析用戶數據和產品數據?

根據思維導圖提出以下問題:

1.客戶可以進行那些分類?哪些客戶最具價值? 哪些客戶最值得挽留?

2.客戶分佈在哪些國家?客戶最多的國家?客戶主要分佈區域?

3.客戶在哪時間段比較活躍?

4.top 10 暢銷產品有哪些? 季節的變化是否對產品的銷售有影響?那個季度或者月份的銷售額最好?

5.最暢銷產品單價分佈區域?

三.清洗數據

1.選擇子集

只選擇對數據分析有意義的字段,無意義的字段進行暫時隱藏。通過觀察發現每一個產品都有獨特的StockCode(貨物代碼), 可以將該列進行隱藏。

如何分析用戶數據和產品數據?

2.列名重命名

下載的數據列名是英文,為了方便分析,將列名更改成大眾所熟悉的中文名稱。

如何分析用戶數據和產品數據?

3.刪除重複值

根據唯一的列來刪除重複值,5226個重複值被刪除

如何分析用戶數據和產品數據?

4.缺失值處理和異常值處理

零值和負值:在單價列中,我發現存在15879 行0值和負值,不符合數據銷售邏輯。 通過對貨物描述的查看, 發現大部分的單價為0的記錄是對有缺陷貨物的處理或者是禮品。 此類數據對所提出問題的分析無用,所以進行刪除。

如何分析用戶數據和產品數據?
如何分析用戶數據和產品數據?

在數量列中, 發現有9288 個記錄是負值, 發票號由首字母和數字組成,推測此類記錄為退貨記錄. 決定此類數據進行單獨存儲。

如何分析用戶數據和產品數據?

空值: 通過filter 功能發現, 客戶ID缺失的客戶主要集中在UK,France, HongKong , Israel, Bahrain, Portugal, Swithzerland, Eire 和不確定國家。查看數據集發現,客戶缺失數集的同一商品的單位價格高於有客戶賬號的價格, 在這裡推測無賬戶進行的交易為零售交易。所以我將這一部分的數據移除出另外的表中。

如何分析用戶數據和產品數據?
如何分析用戶數據和產品數據?

5.一致化處理

1)貨號

通過過濾貨號發現, 總共由三個列別組成, 純數字類, 數字加字母類別,純字母類。

如何分析用戶數據和產品數據?

通過查看描述發現:純數字類為不同的商品,數字加字母類為同種類商品的不同顏色或者形狀,純字母類為郵寄費或者銀行費用等。所以,純字母類別的數據與我們研究的問題無關,可以刪除。並將數字類貨號轉化成文本形式。

如何分析用戶數據和產品數據?

2)發票號

發票號不需要進行計算直接轉換成文本格式。選中發票號全列,右擊編輯格式,選擇文本格式。

如何分析用戶數據和產品數據?

6.補充必要數列

計算公司的季度以及月度銷售額,所以需要增加每張發票每個商品的合計額。 通過插入函數,計算數量和單價的合計。並雙擊單元格右下角,運用到全列。

如何分析用戶數據和產品數據?

三.構建模型

數據清洗完以後,就可以根據前面提出的問題和分析思路來分析了。

如何分析用戶數據和產品數據?

1、客戶可以進行那些分類?哪些客戶最具價值? 哪些客戶最值得挽留?

回答這個問題需要使用RFM模型對所有的客戶進行客戶價值分類。RFM模型:

R(Recency):是指最近一次消費

F(Frequency):是指消費頻率

M(Monetary):是指消費金額

首先計算出R值,F值和M值。 客戶最近一次購買產品距離2011 年12月9號的天數,此時間段購買的次數 , 以及單個客戶的購買總額。 其次,再對各個值進行標準化。

其次,再設置R、F、M值的參考值。 在此次分析中我選擇了平均值為參考值。 然後, 將標準化的的R、F、M值與其參考值進行比較, 大於為1,小於為0. 最後,對客戶價值進行分類。

客戶價值分類,模型按 (2*2*2) 分為以下標準的8類。

如何分析用戶數據和產品數據?

通過對數據按照上面所說方式建模得出以下模型:

如何分析用戶數據和產品數據?

【作業點評】選擇哪個圖表的判斷標準是能不能一眼看的懂這張圖形的含義。這裡圖表選擇條形圖不對,因為很難一下子區別出來。因為這裡圖表是對RFM模型可視化,像這種存在前後轉換關係的,如果用條形圖不排序,就很難區分出來。但是如果排序的話,就會打亂前後轉換關係前後順序。單一對比,用條形圖和柱形圖都沒事,如果涉及前後轉化關係,條形圖就不合適了。這裡更適合的是三維象限圖,如果你會做的,是更好的。如果不會坐,也可以選擇用柱形圖。

通過上面圖表可以看出,該電商缺乏有價值的客人。重要價值客戶, 交易金額大, 交易頻繁且最近交易的客人只佔27位, 佔比0.62%。

重要喚回,挽留和深耕客戶佔比很低,總佔比不到1%; 而一般維持客戶卻佔比百分之30.41%,此類客人雖然交易次數較多但是貢獻不大。

由此說明該電商缺乏交易累積金額較高的客戶。但值得慶幸的是, 該電商吸引新客戶的能力較強且具備比較大的潛力客戶的基礎。新客戶佔總比百分之38.55%, 潛力客戶佔總比百分之15.38%。

通過對模型的分析,我建議該電商可以針對不同的客戶群體進行針對性市場調研,根據調研結果的市場營銷活動。

例如:對重要價值,喚回,挽留和深耕客戶,需要提升公司的服務質量和產品質量 以及價格優勢等,刺激其購買衝動,增加客戶忠誠度。對於一般維持客戶和潛力客戶, 通過市場促銷手段提升客戶的交易額度,讓其轉化為重要客戶。 對於流失的客戶,需要進行回訪,找到其流失原因。

【作業點評】這塊的建議數據支撐在哪裡?你提到了市場營銷活動,但是沒從數據上看到哪裡體現出了市場營銷活動出問題了。客戶佔比,是怎麼得出他們的佔比是不好的?是和誰對比得出的結果?

2.客戶分佈在哪些國家?客戶最多的國家?客戶主要分佈區域?

通過對客戶的分佈創建地圖,得出以下分佈圖:

如何分析用戶數據和產品數據?

從圖表中可以看出,該電商的客戶主要分佈在西歐和北美等發達國家。 其中客戶主要以英國客戶為主, 客戶數為3943,佔比90.37%。

為了分析除了本土(英國)以外,其他國家客戶的佔比,我把英國的客戶除去,得到其他國家客戶佔比:

如何分析用戶數據和產品數據?

由上圖看出該電商的大部分客戶除了在英國本土外, 其餘大部分集主要集中在西歐。

所以,我建議,在維持好英國本土市場的同時,可以適當開發歐洲市場,特別是西歐市場。

通過對各國銷售的對比發現,該電商的主要客戶位於英國本土,國際客人佔比很少。 但是歐洲市場是一個很大的市場,目標客戶群體更大。且 英國的地理位置也方便該電商在歐洲的推廣。

歐洲市場與英國市場基本由相同的消費習慣, 開發阻力較小,比較容易成。 例如,通過市場推廣搜索,參加小禮品的交易展覽,專業推廣平台,提升該公司的國外市場特別的知名度。

【作業點評】這兩個佔比那麼高的原因是為什麼呢?需要進一步拉取數據來進行分析背後的原因。

3.客戶在哪時間段比較活躍?

將客戶的的發票個數根據不同時間段分析用戶的活躍度

如何分析用戶數據和產品數據?

假定該問題以訂單數的多少了衡量成交量。以小時為單位對時間進行分組,發現客戶的成交時間主要位於英國的06到20 點 。 訂單量從九點這個時間開始大量增加,一直到12點的時間段達到頂峰。成交量最多的是十點到下午兩點期間。

根據此圖表給出的建議是,提高網站在11點到下午三點之間的網絡流量,準備充足的的客服人員來應對每日瀏覽高峰期。這個時間段必須要保證網頁的瀏覽順暢以及客服的服務質量。

【作業點評】這裡的邏輯不對。用戶活躍與客服有什麼關係?客服處理的是售後問題,而不是流量問題。

4.top 10 暢銷產品有哪些? 季節的變化是否對產品的銷售有影響?那個季度或者月份的銷售額最好?

如何分析用戶數據和產品數據?

根據營業額分佈情況來看,最好的季度是2011年的第三季度,佔總比29.1%。 最好的三個月份是9、10和11月,這三個月銷售額佔總銷售額的36%。 這是因為,西方的重大節日基本集中在十一月底到一月初。 通常大家會提前準備節日禮物,所以經銷商們會提前準備好禮物。

另外從銷售最好的產品分佈來看。圖形的大小代表銷售數量的多少, 顏色的深淺代表銷售額的多少。 銷售數量最多的產品是84077,85099B,22197,84077和84879, 銷售額最多的產品是22423,85123A,47566, 85099B,和84879。

看到了總的銷售情況以後我想分析一下,季節變化對產品銷售情況是否有影響:

如何分析用戶數據和產品數據?

從分佈情況看出, 產品85099B的季節變化對其影響相對較底, 它在每個季度都銷售的很好。而在第一季度第二季度, 85123A的銷售量相對較高。第三季度, 除了85099B 以外銷售最好的產品是84879 和22197. 而在第四季度, 銷售量和銷售利潤最好的是23084.

從上面的圖表, 建議該公司八月中下旬開始提高庫存和加強市場推廣來應對隨之到來的銷售旺季,以滿足客戶需求提高客戶的滿意度。另外, 該公司每個季度應該具有針對性的在網站推廣和促銷其熱門產品, 以吸引用戶購買。

5.最暢銷產品單價分佈區域?

將產品的單價與數量建立模型,得出以下圖表:

如何分析用戶數據和產品數據?

從上圖可以看出,價格為1.65的產品最受歡迎。 該電商的目標客戶為低端客戶, 購買的產品主要位於0.5-5英鎊之間。 由此我建議,增加1-3英鎊產品的多樣性,有利於增加客戶的消費額度, 同時也能吸引更加多的目標客戶。

原創文章,作者:投稿專員,如若轉載,請註明出處:https://www.506064.com/zh-hk/n/318618.html

(0)
打賞 微信掃一掃 微信掃一掃 支付寶掃一掃 支付寶掃一掃
投稿專員的頭像投稿專員
上一篇 2025-01-12 11:59
下一篇 2025-01-12 11:59

相關推薦

發表回復

登錄後才能評論