㈠ Logistic回歸分析的時候,R2(決定系數)非常小,為什麼求高人指點!急!
你把不顯著的變數去掉試試,或者直接用線性回歸模型,很可能R2會提高的
㈡ logistic回歸分析是什麼
logistic回歸分析是一種廣義的線性回歸分析模型,常用於數據挖掘,疾病自動診斷,經濟預測等領域。例如,探討引發疾病的危險因素,並根據危險因素預測疾病發生的概率等。
logistic回歸是一種廣義線性回歸(generalized linear model),因此與多重線性回歸分析有很多相同之處。它們的模型形式基本上相同,都具有 w『x+b,其中w和b是待求參數,其區別在於他們的因變數不同;
多重線性回歸直接將w『x+b作為因變數,即y =w『x+b,而logistic回歸則通過函數L將w『x+b對應一個隱狀態p,p =L(w『x+b),然後根據p 與1-p的大小決定因變數的值。如果L是logistic函數,就是logistic回歸,如果L是多項式函數就是多項式回歸。
(2)logistic回歸分析股票R擴展閱讀:
Logistic回歸模型的適用條件
1、因變數為二分類的分類變數或某事件的發生率,並且是數值型變數。但是需要注意,重復計數現象指標不適用於Logistic回歸。
2、殘差和因變數都要服從二項分布。二項分布對應的是分類變數,所以不是正態分布,進而不是用最小二乘法,而是最大似然法來解決方程估計和檢驗問題。
3、自變數和Logistic概率是線性關系
4、各觀測對象間相互獨立。
㈢ 如何用 R 做 logistic 回歸
Logistic回歸主要分為三類,一種是因變數為二分類得logistic回歸,這種回歸叫做二項logistic回歸,一種是因變數為無序多分類得logistic回歸,比如傾向於選擇哪種產品,這種回歸叫做多項logistic回歸。還有一種是因變數為有序多分類的logistic回歸,比如病重的程度是高,中,低呀等等,這種回歸也叫累積logistic回歸,或者序次logistic回歸。 二值logistic回歸: 選擇分析——回歸——二元logistic,打開主面板,因變數勾選你的二分類變數,這個沒有什麼疑問,然後看下邊寫著一個協變數。有沒有很奇怪什麼叫做協變數?在二元logistic回歸里邊可以認為協變數類似於自變數,或者就是自變數。把你的自變數選到協變數的框框里邊。 細心的朋友會發現,在指向協變數的那個箭頭下邊,還有一個小小的按鈕,標著a*b,這個按鈕的作用是用來選擇交互項的。我們知道,有時候兩個變數合在一起會產生新的效應,比如年齡和結婚次數綜合在一起,會對健康程度有一個新的影響,這時候,我們就認為兩者有交互效應。那麼我們為了模型的准確,就把這個交互效應也選到模型里去。我們在右邊的那個框框里選擇變數a,按住ctrl,在選擇變數b,那麼我們就同時選住這兩個變數了,然後點那個a*b的按鈕,這樣,一個新的名字很長的變數就出現在協變數的框框里了,就是我們的交互作用的變數。 然後在下邊有一個方法的下拉菜單。默認的是進入,就是強迫所有選擇的變數都進入到模型里邊。除去進入法以外,還有三種向前法,三種向後法。一般默認進入就可以了,如果做出來的模型有變數的p值不合格,就用其他方法在做。再下邊的選擇變數則是用來選擇你的個案的。一般也不用管它。 選好主面板以後,單擊分類(右上角),打開分類對話框。在這個對話框里邊,左邊的協變數的框框里邊有你選好的自變數,右邊寫著分類協變數的框框則是空白的。你要把協變數里邊的字元型變數和分類變數選到分類協變數里邊去(系統會自動生成啞變數來方便分析,什麼事啞變數具體參照前文)。這里的字元型變數指的是用值標簽標注過得變數,不然光文字,系統也沒法給你分析啊。選好以後,分類協變數下邊還有一個更改對比的框框,我們知道,對於分類變數,spss需要有一個參照,每個分類都通過和這個參照進行比較來得到結果,更改對比這個框框就是用來選擇參照的。默認的對比是指示符,也就是每個分類都和總體進行比較,除了指示符以外還有簡單,差值等。這個框框不是很重要,默認就可以了。 點擊繼續。然後打開保存對話框,勾選概率,組成員,包含協方差矩陣。點擊繼續,打開選項對話框,勾選分類圖,估計值的相關性,迭代歷史,exp(B)的CI,在模型中包含常數,輸出——在每個步驟中。如果你的協變數有連續型的,或者小樣本,那還要勾選Hosmer-Lemeshow擬合度,這個擬合度表現的會較好一些。 繼續,確定。 然後,就會輸出結果了。主要會輸出六個表。 第一個表是模型系數綜合檢驗表,要看他模型的p值是不是小於0.05,判斷我們這個logistic回歸方程有沒有意義。 第二個表示模型匯總表。這個表裡有兩個R^2,叫做廣義決定系數,也叫偽R^2,作用類似於線性回歸里的決定系數,也是表示這個方程能夠解釋模型的百分之多少。由於計算方法不同,這兩個廣義決定系數的值往往不一樣,但是出入並不會很大。 在下邊的分類表則表述了模型的穩定性。這個表最後一行百分比校正下邊的三個數據列出來在實際值為0或者1時,模型預測正確的百分比,以及模型總的預測正確率。一般認為預測正確概率達到百分之五十就是良好(標准真夠低的),當然正確率越高越好。 在然後就是最重要的表了,方程中的變數表。第一行那個B下邊是每個變數的系數。第五行的p值會告訴你每個變數是否適合留在方程里。如果有某個變數不適合,那就要從新去掉這個變數做回歸。根據這個表就可以寫出logistic方程了:P=Exp(常量+a1*變數1+a2*變數2.。。。)/(1+Exp(常量+a1*變數1+a2*變數2.。。。))。如果大家學過一點統計,那就應該對這個形式的方程不陌生。提供變數,它最後算出來會是一個介於0和1的數,也就是你的模型里設定的值比較大的情況發生的概率,比如你想推算會不會治癒,你設0治癒,1為沒有治癒。那你的模型算出來就是沒有治癒的概率。如果你想直接計算治癒的概率,那就需要更改一下設定,用1去代表治癒。 此外倒數後兩列有一個EXP(B),也就是OR值,哦,這個可不是或者的意思,OR值是優勢比。在線性回歸里邊我們用標准化系數來對比兩個自變數對於因變數的影響力的強弱,在logistic回歸里邊我們用優勢比來比較不同的情況對於因變數的影響。舉個例子。比如我想看性別對於某種病是否好轉的影響,假設0代表女,1代表男,0代表不好轉,1代表好轉。發現這個變數的OR值為2.9,那麼也就是說男人的好轉的可能是女人好轉的2.9倍。注意,這里都是以數值較大的那個情況為基準的。而且OR值可以直接給出這個倍數。如果是0,1,2各代表一類情況的時候,那就是2是1的2.9倍,1是0的2.9倍,以此類推。OR值對於方程沒什麼貢獻,但是有助於直觀的理解模型。在使用OR值得時候一定要結合它95%的置信區間來進行判斷。 此外還有相關矩陣表和概率直方圖,就不再介紹了。 多項logistic回歸: 選擇分析——回歸——多項logistic,打開主面板,因變數大家都知道選什麼,因變數下邊有一個參考類別,默認的第一類別就可以。再然後出現了兩個框框,因子和協變數。很明顯,這兩個框框都是要你選因變數的,那麼到底有什麼區別呢?嘿嘿,區別就在於,因子里邊放的是無序的分類變數,比如性別,職業什麼的,以及連續變數(實際上做logistic回歸時大部分自變數都是分類變數,連續變數是比較少的。),而協變數里邊放的是等級資料,比如病情的嚴重程度啊,年齡啊(以十年為一個年齡段撒,一年一個的話就看成連續變數吧還是)之類的。在二項logistic回歸里邊,系統會自動生成啞變數,可是在多項logistic回歸里邊,就要自己手動設置了。參照上邊的解釋,不難知道設置好的啞變數要放到因子那個框框里去。 然後點開模型那個對話框,哇,好恐怖的一個對話框,都不知道是幹嘛的。好,我們一點點來看。上邊我們已經說過交互作用是幹嘛的了,那麼不難理解,主效應就是變數本身對模型的影響。明確了這一點以後,這個對話框就沒有那麼難選了。指定模型那一欄有三個模型,主效應指的是只做自變數和因變數的方程,就是最普通的那種。全因子指的是包含了所有主效應和所有因子和因子的交互效應的模型(我也不明白為什麼只有全因子,沒有全協變數。這個問題真的很難,所以別追問我啦。)第三個是設定/步進式。這個是自己手動設置交互項和主效應項的,而且還可以設置這個項是強制輸入的還是逐步進入的。這個概念就不用再啰嗦了吧啊? 點擊繼續,打開統計量對話框,勾選個案處理摘要,偽R方,步驟摘要,模型擬合度信息,單元格可能性,分類表,擬合度,估計,似然比檢驗,繼續。打開條件,全勾,繼續,打開選項,勾選為分級強制條目和移除項目。打開保存,勾選包含協方差矩陣。確定(總算選完了)。 結果和二項logistic回歸差不多,就是多了一個似然比檢驗,p值小於0.05認為變數有意義。然後我們直接看參數估計表。假設我們的因變數有n個類,那參數估計表會給出n-1組的截距,變數1,變數2。我們我們用Zm代表Exp(常量m+am1*變數1+am2*變數2+。。。),那麼就有第m類情況發生的概率為Zn/1+Z2+Z3+……+Zn(如果我們以第一類為參考類別的話,我們就不會有關於第一類的參數,那麼第一類就是默認的1,也就是說Z1為1)。 有序回歸(累積logistic回歸): 選擇菜單分析——回歸——有序,打開主面板。因變數,因子,協變數如何選取就不在重復了。選項對話框默認。打開輸出對話框,勾選擬合度統計,摘要統計,參數估計,平行線檢驗,估計響應概率,實際類別概率,確定,位置對話框和上文的模型對話框類似,也不重復了。確定。 結果里邊特有的一個表是平行線檢驗表。這個表的p值小於0.05則認為斜率系數對於不同的類別是不一樣的。此外參數估計表得出的參數也有所不同。假設我們的因變數有四個水平,自變數有兩個,那麼參數估計表會給出三個閾值a1,a2,a3(也就是截距),兩個自變數的參數m,n。計算方程時,首先算三個Link值,Link1=a1+m*x1+n*x2,Link2=a2+m*x1+n*x2,Link3=a3+m*x1+n*x2,(僅有截距不同)有了link值以後,p1=1/(1+exp(link1)),p1+p2=1/(1+exp(link2)),p1+p2+p3=1/(1+exp(link3)),p1+p2+p3+p4=1.. 通過上邊的這幾個方程就能計算出各自的概率了。 Logistic回歸到這里基本就已經結束了。大家一定要記熟公式,弄混可就糟糕了。
㈣ 如何在R語言中使用Logistic回歸模型
Logistic回歸在做風險評估時,一般採用二值邏輯斯蒂回歸(Binary Logistic Regression)。以滑坡災害風險評估為例。1、滑坡發生與否分別用0和1表示(1表示風險發生,0表示風險未發生);2、確定影響滑坡風險的影響因子,這個根據區域具體情況而定,一般包括:地層岩性、植被、降水、地貌、斷層、人類活動等等。如果是其他風險的話也根據具體情況而定(咨詢專家就可以知道)。3、構建回歸分析的樣本。Logistic回歸也是統計學裡面的內容,所以必須得構建統計分析的樣本。以構建滑坡風險統計分析的樣本為例,先找出滑坡發生的地區,同時計算滑坡發生地區的各個影響因子的指標值。再選擇滑坡未發生的地區,同時計算滑坡未發生地區各個影響因子的指標值。這樣,就構建了統計樣本,自變數為各個影響因子的指標值,應變數為0和1,。把樣本導入SPSS裡面進行分析,就可以構建自變數和因變數之間的非線性關系模型,然後用這個模型繼續求解其他區域滑坡風險的概率值。
希望我的答案對你能有幫助!
㈤ logistic回歸的案例分析
關於富士康跳樓曲線的Logistic回歸分析。
正常人都能知道這絕對不是偶然,至於這背後有什麼?我一開始也不甚清楚。
然後一篇突如其來的實驗報告被發還給我,然後看著我親手繪制的磁滯回線。有了主意。
首先,我查到了有記載以來,所有富士康員工自殺的日期:
列出如下表格:(以07年6月18號,第一例自殺案例為原點,至今(10年5月25日)1072天) 自殺時間x/d 0 75 272 758 794 950 997 1003 1015 1023 1024 1024 1053 1051 1072 累計自殺人數y 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 在MATLAB中容易做出散點圖:
可見這是一個指數增長的曲線。
對此我認為自殺和流行病一樣,自殺也是一種病,而且是一種可以傳染的疾病。
因此其增長曲線與對數增長很接近。
對其做指數函數擬合:
General model Exp2:
f(x) = a*exp(b*x) + c*exp(d*x)
Coefficients (with 95% confidence bounds):
a = 7.569e-007 (-6.561e-006, 8.075e-006)
b = 0.01529 (0.006473, 0.0241)
c = 1.782 (0.5788, 2.984)
d = 0.001075 (2.37e-005, 0.002125)
Goodness of fit:
SSE: 8.846
R-square: 0.9684
Adjusted R-square: 0.9598
RMSE: 0.8968
可見相關度0.96也是非常高的。
然而和所有疾病一樣,一旦其事件引起了人們的關注,則各方的反饋作用,將阻礙其繼續上升。
因此,和很多流行病分析一樣,該曲線很有可能呈S型。對於該曲線的分析,使用Logistic回歸。
首先我們假設Logis(B,x)=F(x),之中B為參數數組,則由經驗和可能的微分方程關系,回歸曲線應該為
S(x)=m*Logis(B,x+t)/(n+Logis(B,x+t))格式
由於當Logis(B,x)較小時S(x)=Logis(B,x),則可以認為f(x)的參數可以直接引入S(x)作為一種近似,而對於m,n的確定,我以1為間隔,畫出m*n=40*20的所有曲線,
選出其中最吻合的的一條(m=22 n=20 t=50):
㈥ Logistic回歸分析計算方法
logistic回歸又稱logistic回歸分析,主要在流行病學中應用較多,比較常用的情形是探索某疾病的危險因素,根據危險因素預測某疾病發生的概率,等等。例如,想探討胃癌發生的危險因素,可以選擇兩組人群,一組是胃癌組,一組是非胃癌組,兩組人群肯定有不同的體征和生活方式等。這里的因變數就是是否胃癌,即「是」或「否」,為兩分類變數,自變數就可以包括很多了,例如年齡、性別、飲食習慣、幽門螺桿菌感染等。自變數既可以是連續的,也可以是分類的。通過logistic回歸分析,就可以大致了解到底哪些因素是胃癌的危險因素。
生態學中的蟲口模型(亦即Logistic映射)可用來描述
x(n+1)=u*x(n)*(1-x(n)),u屬於[0,4],x屬於(0,1)這是1976年數學生態學家R. May在英國的《自然》雜志上發表的一篇後來影響甚廣的綜述中所提出的,最早的一個由倍周期分岔通向混沌的一個例子。後來經過Feigenbaum研究得出:一個系統一旦發生倍周期分岔,必然導致混沌。他還發現並確定了該系統由信周期分岔通向混沌的兩個普適常數(也稱為Feigenbaum常數)。對於一維 Logistic映射,研究的比較早也比較詳細,比如該映射之所以產生混沌,有人歸納出它具有兩個基本性質、逆瀑布、周期3窗口、U序列等等。但是一維Logistic映射僅有一個自由度,利用它只能產生一條線或一條曲線,而做圖像,至少需要兩個或以上個自由度,為此,孫海堅等人給出了LMGS定義。王興元還擴展了LMGS定義,在此基礎上,就可以分析2維及其以上的系統,分析圖形與吸引子的結構特徵,探討了圖形與吸引子之間的聯系;並由一維可觀察計算系統混沌定量判據的方法,計算了吸引子的 Lyapunov指數和Lyaounov維數。[1]二維 Logistic映射起著從一維到高維的銜接作用,對二維映射中混沌現象的研究有助於認識和預測更復雜的高維動力系統的性態。王興元教授通過構造一次藕合和二次禍合的二維Logistic映射研究了二維Logistic映射通向混沌的道路,分析了其分形結構和吸引盆的性質,指出選擇不同的控制參數,二維映射可分別按Feigenbaum途徑等走向混沌,並且指出在控制參數空間中的較大的區域,其通向混沌的道路與Hopf分岔有關,在這些途徑上可觀察到鎖相和准周期運動。二維滯後Logistic映射x(n+1)=y(n)y(N+1)=u*y(n)*(1-x(n)), u屬於(0,2.28),[x,y]屬於(0,1)該系統走向混沌的道路正是驗證了二維Logistic映射與Neimark-Sacker分岔有密切的關系,對於研究其他的具有滯後的系統具有重要的意義。[1]
㈦ 用sas9.2擬合logistic 結果分析表中R是什麼意思啊表上面寫著R=1,服不符合曲線啊急求超人解答。
R稱為相關系數或回歸系數, 而R^2則是決定系數或復相關系數或復回歸系數,一般R^2值要小於R的值, 但總的原則是: R或R^2的值范圍在0~1之間, R或R^2的值越接近1擬合效果越好; 若R或R^2的值等於1則為優級(即線性函數關系).
在回歸分析或相關分析中, R或R^2是衡量變數與參數(自變數)間的回歸或相關的線性或擬合關系優劣的主要特徵指標
㈧ 怎麼用R構建分層logistic回歸模型
自己看過一些資料後,確定r中不能像Sas一樣在logistic回歸程序中增加一個選項來實現分層logistic回歸。可能的做法是將數據集按照分層變數拆分成幾個亞數據集,然後再採用普通logistic回歸來分析。這樣來看的話,R相對Sas還是有一些局限的,細微的功能上不如Sas