Excel數據分析工具庫是個很強大的工具,可以滿足基本的統計分析,這裡介紹用Excel數據分析工具庫中的回歸做回歸分析。
本節知識點:
- Excel數據分析工具庫—回歸
- 線性回歸和非線性回歸
- 簡單線性回歸和多重線性回歸
- 邏輯斯蒂回歸
一、什麼是回歸分析(Regression)
1、定義
確定兩種或兩種以上變數間相關關係的一種統計分析方法。通過數據間相關性分析的研究,進一步建立自變數(i=1,2,3,…)與因變數Y之間的回歸函數關係,即回歸分析模型,從而預測數據的發展趨勢。
2、分類
- 按照涉及的變數的多少,分為一元回歸和多元回歸分析;
- 按照因變數的多少,可分為簡單回歸分析和多重回歸分析;
- 按照自變數和因變數之間的關係類型,可分為線性回歸分析和非線性回歸分析。
二、線性回歸
1、簡單線性回歸
簡單線性回歸又叫一元線性回歸,即回歸模型中只有一個自變數和一個因變數,其回歸方程可以表示為:
Y=a+bx+

其中,Y表示因變數,x表示自變數,a是 常數,b是斜率,

是隨機誤差。
2、最小二乘法:
如何確定參數a和b,則要用最小二乘法來實現。通過最小化誤差的平方和尋找數據的最佳函數匹配,即使得觀測點和估計點的距離的平方和最小。
3、線性回歸分析的步驟:
- 確定自變數和因變數
- 繪製散點圖,確定回歸模型類型
- 估計模型參數,建立回歸模型:最小二乘法進行模型參數估計
- 對回歸模型進行檢驗
- 利用回歸模型進行預測
4、多重線性回歸
定義:一個因變數與多個自變數的線性回歸問題,是一元線性回歸的推廣。其回歸方程可以寫為:

多重線性回歸方程中回歸係數的估計也是用到最小二乘法
三、用Excel做回歸分析
我們研究銷售額Y和推廣費用X1之間的關係,數據如下:

首先我們用數據分析—相關係數分析計算一下自變數和因變數之間的相關係數為0.95157,為強相關。

繪製散點圖如下:

然後,我們用數據分析庫里的回歸來做分析

注意Y值和X值輸入區域,X值是自變數,Y是因變數。

四、線性回歸方程的檢驗
評價回歸擬合程度好壞(重要):

1、 先看回歸統計表,Multiple R即相關係數R的值,和我們之前做相關分析得到的值一樣,大於0.8表示強正相關。
2、 回歸統計表中的R Square是R平方值,R平方即R的平方,又可以叫判定係數、擬合優度,取值範圍是[0,1],R平方值越大,表示模型擬合的越好。一般大於70%就算擬合的不錯,60%以下的就需要修正模型了。這個案例里R平方0.9054,相當不錯。
3、 Adjusted R是調整後的R方,這個值是用來修正因自變數個數增加而導致模型擬合效果過高的情況,多用于衡量多重線性回歸。
4、 第二張表,方差分析表,df是自由度,SS是平方和,MS是均方,F是F統計量,Significance F是回歸方程總體的顯著性檢驗,其中我們主要關注F檢驗的結果,即Significance F值,F檢驗主要是檢驗因變數與自變數之間的線性關係是否顯著,用線性模型來描述他們之間的關係是否恰當,越小越顯著。這個案例里F值很小,說明因變數與自變數之間顯著。
5、 殘差是實際值與預測值之間的差,殘差圖用於回歸診斷,回歸模型在理想條件下的殘差圖是服從正態分布的。
6、 第三張表我們重點關注P-value,也就是P值,用來檢驗回歸方程係數的顯著性,又叫T檢驗,T檢驗看P值,是在顯著性水平α(常用取值0.01或0.05)下F的臨界值,一般以此來衡量檢驗結果是否具有顯著性,如果P值>0.05,則結果不具有顯著的統計學意義,如果0.01<P值<0.05,則結果具有顯著的統計學意義,如果P<=0.01,則結果具有極其顯著的統計學意義。T檢驗是看某一個自變數對於因變數的線性顯著性,如果該自變數不顯著,則可以從模型中剔除。
7、 從第三張表的第一列我們可以得到這個回歸模型的方程:y=4361.486+1.198017x,此後對於每一個輸入的自變數x,都可以根據這個回歸方程來預測出因變數Y。
這裡簡單總結了一下什麼是回歸分析,如何用excel做線性回歸分析,以及如何評價回歸方程擬合程度的好壞。入門很簡單,精通還很遙遠,我們都在學習中。
原創文章,作者:投稿專員,如若轉載,請註明出處:https://www.506064.com/zh-tw/n/203224.html
微信掃一掃
支付寶掃一掃