回歸分析
回歸分析(regression analysis)是確定兩種或兩種以上變數(shù)間相互依賴的定量關(guān)系的一種統(tǒng)計分析方法。運用十分廣泛,回歸分析按照涉及的自變量的多少,可分為一元回歸分析和多元回歸分析;按照自變量和因變量之間的關(guān)系類型,可分為線性回歸分析和非線性回歸分析。如果在回歸分析中,只包括一個自變量和一個因變量,且二者的關(guān)系可用一條直線近似表示,這種回歸分析稱為一元線性回歸分析。如果回歸分析中包括兩個或兩個以上的自變量,且因變量和自變量之間是線性關(guān)系,則稱為多元線性回歸分析。
方差齊性
線性關(guān)系
效應(yīng)累加
變量無測量誤差
變量服從多元正態(tài)分布
觀察獨立
模型完整(沒有包含不該進入的變量、也沒有漏掉應(yīng)該進入的變量)
誤差項獨立且服從(0,1)正態(tài)分布。
現(xiàn)實數(shù)據(jù)常常不能完全符合上述假定。因此,統(tǒng)計學家研究出許多的回歸模型來解決線性回歸模型假定過程的約束。
研究一 個或多個隨機變量Y1 ,Y2 ,…,Yi與另一些變量X1、X2,…,Xk之間的關(guān)系的統(tǒng)計方法。又稱多重回歸分析。通常稱Y1,Y2,…,Yi為因變量,X1、X2,…,Xk為自變量。回歸分析是一類數(shù)學模型,特別當因變量和自變量為線性關(guān)系時,它是一種特殊的線性模型。最簡單的情形是一個自變量和一個因變量,且它們大體上有線性關(guān)系,這叫一元線性回歸,即模型為Y=a+bX+ε,這里X是自變量,Y是因變量,ε是隨機誤差,通常假定隨機誤差的均值為0,方差為σ^2(σ^2大于0)σ2與X的值無關(guān)。若進一步假定隨機誤差遵從正態(tài)分布,就叫做正態(tài)線性模型。一般的情形,差有k個自變量和一個因變量,因變量的值可以分解為兩部分:一部分是由自變量的影響,即表示為自變量的函數(shù),其中函數(shù)形式已知,但含一些未知參數(shù);另一部分是由于其他未被考慮的因素和隨機性的影響,即隨機誤差。當函數(shù)形式為未知參數(shù)的線性函數(shù)時,稱線性回歸分析模型;當函數(shù)形式為未知參數(shù)的非線性函數(shù)時,稱為非線性回歸分析模型。當自變量的個數(shù)大于1時稱為多元回歸,當因變量個數(shù)大于1時稱為多重回歸。
回歸分析的主要內(nèi)容為:①從一組數(shù)據(jù)出發(fā)確定某些變量之間的定量關(guān)系式,即建立數(shù)學模型并估計其中的未知參數(shù)。估計參數(shù)的常用方法是最小二乘法。②對這些關(guān)系式的可信程度進行檢驗。③在許多自變量共同影響著一個因變量的關(guān)系中,判斷哪個(或哪些)自變量的影響是顯著的,哪些自變量的影響是不顯著的,將影響顯著的自變量選入模型中,而剔除影響不顯著的變量,通常用逐步回歸、向前回歸和向后回歸等方法。④利用所求的關(guān)系式對某一生產(chǎn)過程進行預測或控制。回歸分析的應(yīng)用是非常廣泛的,統(tǒng)計軟件包使各種回歸方法計算十分方便。
回歸分析的應(yīng)用
相關(guān)分析研究的是現(xiàn)象之間是否相關(guān)、相關(guān)的方向和密切程度,一般不區(qū)別自變量或因變量。而回歸分析則要分析現(xiàn)象之間相關(guān)的具體形式,確定其因果關(guān)系,并用數(shù)學模型來表現(xiàn)其具體關(guān)系。比如說,從相關(guān)分析中我們可以得知“質(zhì)量”和“用戶滿意度”變量密切相關(guān),但是這兩個變量之間到底是哪個變量受哪個變量的影響,影響程度如何,則需要通過回歸分析方法來確定。
一般來說,回歸分析是通過規(guī)定因變量和自變量來確定變量之間的因果關(guān)系,建立回歸模型,并根據(jù)實測數(shù)據(jù)來求解模型的各個參數(shù),然后評價回歸模型是否能夠很好的擬合實測數(shù)據(jù);如果能夠很好的擬合,則可以根據(jù)自變量作進一步預測。