① logistic回歸分析步驟是什麼
logistic回歸分析是一種廣義的線性回歸分析模型,常用於數據挖掘,疾病自動診斷,經濟預測等領域。例如,探討引發疾病的危險因素,並根據危險因素預測疾病發生的概率等。
多重線性回歸直接將w『x+b作為因變數,即y =w『x+b,而logistic回歸則通過函數L將w『x+b對應一個隱狀態p,p =L(w『x+b),然後根據p 與1-p的大小決定因變數的值。如果L是logistic函數,就是logistic回歸,如果L是多項式函數就是多項式回歸。
Logistic回歸模型的適用條件
1、因變數為二分類的分類變數或某事件的發生率,並且是數值型變數。但是需要注意,重復計數現象指標不適用於Logistic回歸。
2、殘差和因變數都要服從二項分布。二項分布對應的是分類變數,所以不是正態分布,進而不是用最小二乘法,而是最大似然法來解決方程估計和檢驗問題。
3、自變數和Logistic概率是線性關系。
以上內容參考:網路-logistic回歸
② logistic回歸分析是什麼
logistic回歸分析是一種廣義的線性回歸分析模型,常用於數據挖掘,疾病自動診斷,經濟預測等領域。例如,探討引發疾病的危險因素,並根據危險因素預測疾病發生的概率等。
logistic回歸是一種廣義線性回歸(generalized linear model),因此與多重線性回歸分析有很多相同之處。它們的模型形式基本上相同,都具有 w『x+b,其中w和b是待求參數,其區別在於他們的因變數不同;
多重線性回歸直接將w『x+b作為因變數,即y =w『x+b,而logistic回歸則通過函數L將w『x+b對應一個隱狀態p,p =L(w『x+b),然後根據p 與1-p的大小決定因變數的值。如果L是logistic函數,就是logistic回歸,如果L是多項式函數就是多項式回歸。
(2)logistic回歸模型分析股票擴展閱讀:
Logistic回歸模型的適用條件
1、因變數為二分類的分類變數或某事件的發生率,並且是數值型變數。但是需要注意,重復計數現象指標不適用於Logistic回歸。
2、殘差和因變數都要服從二項分布。二項分布對應的是分類變數,所以不是正態分布,進而不是用最小二乘法,而是最大似然法來解決方程估計和檢驗問題。
3、自變數和Logistic概率是線性關系
4、各觀測對象間相互獨立。
③ 如何利用logistic回歸模型來預測
logistic回歸模型,主要是用來對多因素影響的事件進行概率預測,它是普通多元線性回歸模型的進一步擴展,logistic模型是非線性模型。比如說我們曾經做過的土地利用評價,就分別用多元線性回歸模型和logistic模型進行試驗。影響耕地的因素假設有高程、土壤類型、當地人口數量和gdp總量,把上述四種因素作為自變數,某塊地是否為耕地的概率為p,即應變數。然後根據已經有的樣本數據,求出logistic模型的系數,一般用最大似然法結合牛頓—拉斐遜法解系數,求出f(p)=g(高程,土壤,人口,gdp)的一個回歸函數,即logistic模型,然後把全地區的數據代入上式,求出每個地方是否為耕地的概率,用來對土地利用的評價提供科學的依據。希望我的答案能讓你滿意,我以前就是做這方面研究的。
④ 如何利用logistic回歸模型來預測
二元logit回歸
1.打開數據,依次點擊:analyse--regression--binarylogistic,打開二分回歸對話框。
2.將因變數和自變數放入格子的列表裡,上面的是因變數,下面的是自變數(單變數拉入一個,多因素拉入多個)。
3.設置回歸方法,這里選擇最簡單的方法:enter,它指的是將所有的變數一次納入到方程。其他方法都是逐步進入的方法。
4.等級資料,連續資料不需要設置虛擬變數。多分類變數需要設置虛擬變數。
虛擬變數ABCD四類,以a為參考,那麼解釋就是b相對於a有無影響,c相對於a有無影響,d相對於a有無影響。
5.選項裡面至少選擇95%CI。
點擊ok。
統計專業研究生工作室原創,請勿復雜粘貼
⑤ 什麼是logistic回歸模型
logistic回歸與多重線性回歸一樣,在應用之前也是需要分析一下資料是否可以採用logistic回歸模型。並不是說因變數是分類變數我就可以直接採用logistic回歸,有些條件仍然是需要考慮的。
首要的條件應該是需要看一下自變數與因變數之間是什麼樣的一種關系。多重線性回歸中,要求自變數與因變數符合線性關系。而logistic回歸則不同,它要求的是自變數與logit(y)符合線性關系,所謂logit實際上就是ln(P/1-P)。也就是說,自變數應與ln(P/1-P)呈線性關系。當然,這種情形主要針對多分類變數和連續變數。對於二分類變數就無所謂了,因為兩點永遠是一條直線。
這里舉一個例子。某因素y與自變數x之間關系分析,y為二分類變數,x為四分類變數。如果x的四分類直接表示為1,2,3,4。則分析結果為p=0.07,顯示對y的影響在0.05水準時無統計學意義,而如果將x作為虛擬變數,以1為參照,產生x2,x3,x4三個變數,重新分析,則結果顯示:x2,x3,x4的p值分別為0.08,0.05和0.03。也就是說,盡管2和1相比無統計學意義,但3和1相比,4和1相比,均有統計學意義。
為什麼會產生如此結果?實際上如果仔細分析一下,就可以發現,因為x與logit(y)並不是呈線性關系。而是呈如下圖的關系:
這就是導致上述差異的原因。從圖中來看,x的4與1相差最大,其次是2,3與1相差最小。實際分析結果也是如此,上述分析中,x2,x3,x4產生的危險度分別為3.1,2.9,3.4。
因此,一開始x以1,2,3,4的形式直接與y進行分析,默認的是認為它們與logit(p)呈直線關系,而實際上並非如此,因此掩蓋了部分信息,從而導致應有的差異沒有被檢驗出來。而一旦轉換為虛擬變數的形式,由於虛擬變數都是二分類的,我們不再需要考慮其與logit(p)的關系,因而顯示出了更為精確的結果。
最後強調一下,如果你對自變數x與y的關系不清楚,在樣本含量允許的條件下,最好轉換為虛擬變數的形式,這樣不至於出現太大的誤差。
如果你不清楚應該如何探索他們的關系,也可以採用虛擬變數的形式,比如上述x,如果轉換的虛擬變數x2,x3,x4他們的OR值呈直線關系,那x基本上可以直接以1,2,3,4的形式直接與y進行分析。而我們剛才也看到了,x2,x3,x4的危險度分別為3.1,2.9,3.4。並不呈直線關系,所以還是考慮以虛擬變數形式進行分析最好。
總之,虛擬變數在logistic回歸分析中是非常有利的工具,善於利用可以幫助你探索出很多有用的信息。
統計的分析策略是一個探索的過程,只要留心,你就會發現在探索數據關系的過程中充滿了樂趣,因為你能發現別人所發現不了的隱藏的信息。希望大家多學點統計分析策略,把統計作為一種藝術,在分析探索中找到樂趣。
樣本量的估計可能是臨床最頭疼的一件事了,其實很多的臨床研究事前是從來不考慮樣本量的,至少我接觸的臨床研究大都如此。他們大都是想到就開始做,但是事後他們會尋求研究中樣本量的依據,尤其是在投文章被審稿人提問之後。可能很少有人想到研究之前還要考慮一下樣本夠不夠的問題。其實這也難怪,臨床有臨床的特點,很多情況下是很難符合統計學要求的,尤其一些動物試驗,可能真的做不了很多。這種情況下確實是很為難的。
本篇文章僅是從統計學角度說明logistic回歸所需的樣本量的大致估計,不涉及臨床特殊問題。
其實不僅logistic回歸,所有的研究一般都需要對樣本量事前有一個估計,這樣做的目的是為了盡可能地得出陽性結果。比如,你事前沒有估計,假設你做了20例,發現是陰性結果。如果事前估計的話,可能會提示你需要30例或25例可能會得出陽性結果,那這時候你會不會後悔沒有事前估計?當然,你可以補實驗,但是不管從哪方面角度來講,補做的實驗跟一開始做得實驗可能各種條件已經變化,如果你在雜志中說你的實驗是補做的,那估計發表的可能性就不大了。
一般來說,簡單的研究,比如組間比較,包括兩組和多組比較,都有比較成熟的公式計算一下你到底需要多少例數。這些在多數的統計學教材和流行病學教材中都有提及。而對於較為復雜的研究,比如多重線性回歸、logistic回歸之類的,涉及多個因素。這種方法理論上也是有計算公式的,但是目前來講,似乎尚無大家公認有效的公式,而且這些公式大都計算繁瑣,因此,現實中很少有人對logistic回歸等這樣的分析方法採用計算的方法來估計樣本量。而更多地是採用經驗法。
其實關於logistic回歸的樣本量在部分著作中也有提及,一般來講,比較有把握的說法是:每個結局至少需要10例樣品。這里說得是每個結局。例如,觀察胃癌的危險因素,那就是說,胃癌是結局,不是你的總的例數,而是胃癌的例數就需要這么多,那總的例數當然更多。比如我有7個研究因素,那我就至少需要70例,如果你是1:1的研究,那總共就需要140例。如果1:2甚至更高的,那就需要的更多了。
而且,樣本量的大小也不能光看這一個,如果你的研究因素中出現多重共線性等問題,那可能需要更多的樣本,如果你的因變數不是二分類,而是多分類,可能也需要更大的樣本來保證你的結果的可靠性。
理論上來講,logistic回歸採用的是最大似然估計,這種估計方法有很多優點,然而,一個主要的缺點就是,必須有足夠的樣本才能保證它的優點,或者說,它的優點都是建立在大樣本的基礎上的。一般來講,logistic回歸需要的樣本量要多於多重線性回歸。
最後仍然需要說一句,目前確實沒有很好的、很權威的關於logistic回歸樣本量的估計方法,更多的都是根據自己的經驗以及分析過程中的細節發現。如果你沒有太大的把握,就去請教統計老師吧,至少他能給你提出一些建議。
⑥ logistic回歸分析模型
是1/(1+exp(-x))吧,分子分母同時乘以exp(x)就是你後面的exp(x)/(1+exp(x))了。
P=1/(1+exp(-x))是一條S型的非線性概率函數,logistic函數只是中間的一種特殊情況。Y=Ln【p/(1-p)】=logit(Y)=b+bx,通過logit變換後的模型叫logistic回歸模型。
Ln【p/(1-p)】=b+bx,兩側取e指數就是p/(1-p)=exp(b+bx),解出來就是p=exp(b+bx)/(1+exp(b+bx)),又回到了第一個公式。
⑦ 如何利用logistic回歸模型來預測
二元logit回歸
打開數據,依次點擊:analyse--regression--binarylogistic,打開二分回歸對話框。
2.將因變數和自變數放入格子的列表裡,上面的是因變數,下面的是自變數(單變數拉入一個,多因素拉入多個)。
3.設置回歸方法,這里選擇最簡單的方法:enter,它指的是將所有的變數一次納入到方程。其他方法都是逐步進入的方法。
4.等級資料,連續資料不需要設置虛擬變數。多分類變數需要設置虛擬變數。
虛擬變數ABCD四類,以a為參考,那麼解釋就是b相對於a有無影響,c相對於a有無影響,d相對於a有無影響。
5.選項裡面
因子分析
1輸入數據。
2點Analyze 下拉菜單,選Data Rection 下的Factor 。
3打開Factor Analysis後,將數據變數逐個選中進入Variables 對話框中。
4單擊主對話框中的Descriptive按扭,打開Factor Analysis: Descriptives子對話框,在Statistics欄中選擇Univariate Descriptives項要求輸出個變數的均值與標准差,在Correlation Matrix 欄內選擇Coefficients項,要求計算相關系數矩陣,單擊Continue按鈕返回Factor Analysis主對話框。
5單擊主對話框中的Extraction 按鈕,打開如下圖所示的Factor Analysis: Extraction 子對話框。在Method列表中選擇默認因子抽取方法——Principal Components,在Analyze 欄中選擇默認的Correlation Matrix 項要求從相關系數矩陣出發求解主成分,在Exact 欄中選擇Number of Factors;6, 要求顯示所有主成分的得分和所能解釋的方差。單擊Continue按鈕返回Factor Analysis主對話框。
6單擊主對話框中的OK 按鈕,輸出結果。