利用sklearn分析股票_如何用Python和機器學習炒股賺錢

⑴ 如何用Python和機器學習炒股賺錢

相信很多人都想過讓人工智慧來幫你賺錢，但到底該如何做呢？瑞士日內瓦的一位金融數據顧問 Gaëtan Rickter 近日發表文章介紹了他利用 Python 和機器學習來幫助炒股的經驗，其最終成果的收益率跑贏了長期處於牛市的標准普爾 500 指數。雖然這篇文章並沒有將他的方法完全徹底公開，但已公開的內容或許能給我們帶來如何用人工智慧炒股的啟迪。

我終於跑贏了標准普爾 500 指數 10 個百分點！聽起來可能不是很多，但是當我們處理的是大量流動性很高的資本時，對沖基金的利潤就相當可觀。更激進的做法還能得到更高的回報。

這一切都始於我閱讀了 Gur Huberman 的一篇題為《Contagious Speculation and a Cure for Cancer: A Non-Event that Made Stock Prices Soar》的論文。該研究描述了一件發生在 1998 年的涉及到一家上市公司 EntreMed（當時股票代碼是 ENMD）的事件：

「星期天《紐約時報》上發表的一篇關於癌症治療新葯開發潛力的文章導致 EntreMed 的股價從周五收盤時的 12.063 飆升至 85，在周一收盤時接近 52。在接下來的三周，它的收盤價都在 30 以上。這股投資熱情也讓其它生物科技股得到了溢價。但是，這個癌症研究方面的可能突破在至少五個月前就已經被 Nature 期刊和各種流行的報紙報道過了，其中甚至包括《泰晤士報》！因此，僅僅是熱情的公眾關注就能引發股價的持續上漲，即便實際上並沒有出現真正的新信息。」

在研究者給出的許多有見地的觀察中，其中有一個總結很突出：

「（股價）運動可能會集中於有一些共同之處的股票上，但這些共同之處不一定要是經濟基礎。」

我就想，能不能基於通常所用的指標之外的其它指標來劃分股票。我開始在資料庫裡面挖掘，幾周之後我發現了一個，其包含了一個分數，描述了股票和元素周期表中的元素之間的「已知和隱藏關系」的強度。

我有計算基因組學的背景，這讓我想起了基因和它們的細胞信號網路之間的關系是如何地不為人所知。但是，當我們分析數據時，我們又會開始看到我們之前可能無法預測的新關系和相關性。

如果你使用機器學習，就可能在具有已知和隱藏關系的上市公司的寄生、共生和共情關系之上搶佔先機，這是很有趣而且可以盈利的。最後，一個人的盈利能力似乎完全關乎他在生成這些類別的數據時想出特徵標簽（即概念（concept））的強大組合的能力。

我在這類模型上的下一次迭代應該會包含一個用於自動生成特徵組合或獨特列表的單獨演算法。也許會基於近乎實時的事件，這可能會影響那些具有隻有配備了無監督學習演算法的人類才能預測的隱藏關系的股票組。

⑵ Python課程內容都學習什麼啊

賀聖軍Python輕松入門到項目實戰（經典完整版）（超清視頻）網路網盤

鏈接: https://pan..com/s/1C9k1o65FuQKNe68L3xEx3w

提取碼: ja8v 復制這段內容後打開網路網盤手機App，操作更方便哦

若資源有問題歡迎追問~

⑶ 怎樣用 Python 進行數據分析

做數據分析，首先你要知道有哪些數據分析的方法，然後才是用Python去調用這些方法
那Python有哪些庫類是能做數據分析的，很多，pandas，sklearn等等
所以你首先要裝一個anaconda套件，它包含了幾乎所有的Python數據分析工具，
之後再學怎麼分析。

⑷ 如何使用sklearn庫處理多維數據

①由樣本數據得到的線性回歸方程y=bx+a，則回歸直線必過樣本點的中心（.x，.y），正確；②利用平均數與方差公式，可知將一組數據都加上同一個常數後，平均數等於原平均數加上這個常數，方差不變，正確；③相關指數R2可以刻畫回歸模型的擬合效果，所以在回歸分析中當相關指數R2=1時，表明變數x，y是確定關系，正確．故選A

⑸ 零基礎入門學習Python去哪兒

對於零基礎學習Python開發的小夥伴，小蝸這里整理了一份Python全棧開發學習路線，可參照這份大綱來進行學習~
第一階段：專業核心基礎

階段目標：
1. 熟練掌握Python的開發環境與編程核心知識
2. 熟練運用Python面向對象知識進行程序開發
3. 對Python的核心庫和組件有深入理解
4. 熟練應用SQL語句進行資料庫常用操作
5. 熟練運用Linux操作系統命令及環境配置
6. 熟練使用MySQL，掌握資料庫高級操作
7. 能綜合運用所學知識完成項目

知識點：
Python編程基礎、Python面向對象、Python高級進階、MySQL資料庫、Linux操作系統。
1、Python編程基礎，語法規則，函數與參數，數據類型，模塊與包，文件IO，培養扎實的Python編程基本功，同時對Python核心對象和庫的編程有熟練的運用。
2、Python面向對象，核心對象，異常處理，多線程，網路編程，深入理解面向對象編程，異常處理機制，多線程原理，網路協議知識，並熟練運用於項目中。
3、類的原理，MetaClass，下劃線的特殊方法，遞歸，魔術方法，反射，迭代器，裝飾器，UnitTest，Mock。深入理解面向對象底層原理，掌握Python開發高級進階技術，理解單元測試技術。
4、資料庫知識，範式，MySQL配置，命令，建庫建表，數據的增刪改查，約束，視圖，存儲過程，函數，觸發器，事務，游標，PDBC，深入理解資料庫管理系統通用知識及MySQL資料庫的使用與管理。為Python後台開發打下堅實基礎。
5、Linux安裝配置，文件目錄操作，VI命令，管理，用戶與許可權，環境配置，Docker，Shell編程Linux作為一個主流的伺服器操作系統，是每一個開發工程師必須掌握的重點技術，並且能夠熟練運用。

第二階段：PythonWEB開發

階段目標：
1. 熟練掌握Web前端開發技術，HTML，CSS，JavaScript及前端框架
2. 深入理解Web系統中的前後端交互過程與通信協議
3. 熟練運用Web前端和Django和Flask等主流框架完成Web系統開發
4. 深入理解網路協議，分布式，PDBC，AJAX，JSON等知識
5. 能夠運用所學知識開發一個MiniWeb框架，掌握框架實現原理
6. 使用Web開發框架實現貫穿項目

知識點：
Web前端編程、Web前端高級、Django開發框架、Flask開發框架、Web開發項目實戰。
1、Web頁面元素，布局，CSS樣式，盒模型，JavaScript，JQuery與Bootstrap掌握前端開發技術，掌握JQuery與BootStrap前端開發框架，完成頁面布局與美化。
2、前端開發框架Vue，JSON數據，網路通信協議，Web伺服器與前端交互熟練使用Vue框架，深入理解HTTP網路協議，熟練使用Swagger，AJAX技術實現前後端交互。
3、自定義Web開發框架，Django框架的基本使用，Model屬性及後端配置，Cookie與Session，模板Templates，ORM數據模型，Redis二級緩存，RESTful，MVC模型掌握Django框架常用API，整合前端技術，開發完整的WEB系統和框架。
4、Flask安裝配置，App對象的初始化和配置，視圖函數的路由，Request對象，Abort函數，自定義錯誤，視圖函數的返回值，Flask上下文和請求鉤子，模板，資料庫擴展包Flask-Sqlalchemy，資料庫遷移擴展包Flask-Migrate，郵件擴展包Flask-Mail。掌握Flask框架的常用API，與Django框架的異同，並能獨立開發完整的WEB系統開發。

第三階段：爬蟲與數據分析

階段目標：
1. 熟練掌握爬蟲運行原理及常見網路抓包工具使用，能夠對HTTP及HTTPS協議進行抓包分析
2. 熟練掌握各種常見的網頁結構解析庫對抓取結果進行解析和提取
3. 熟練掌握各種常見反爬機制及應對策略，能夠針對常見的反爬措施進行處理
4. 熟練使用商業爬蟲框架Scrapy編寫大型網路爬蟲進行分布式內容爬取
5. 熟練掌握數據分析相關概念及工作流程
6. 熟練掌握主流數據分析工具Numpy、Pandas和Matplotlib的使用
7. 熟練掌握數據清洗、整理、格式轉換、數據分析報告編寫
8. 能夠綜合利用爬蟲爬取豆瓣網電影評論數據並完成數據分析全流程項目實戰

知識點：
網路爬蟲開發、數據分析之Numpy、數據分析之Pandas。
1、爬蟲頁面爬取原理、爬取流程、頁面解析工具LXML，Beautifulfoup，正則表達式，代理池編寫和架構、常見反爬措施及解決方案、爬蟲框架結構、商業爬蟲框架Scrapy，基於對爬蟲爬取原理、網站數據爬取流程及網路協議的分析和了解，掌握網頁解析工具的使用，能夠靈活應對大部分網站的反爬策略，具備獨立完成爬蟲框架的編寫能力和熟練應用大型商業爬蟲框架編寫分布式爬蟲的能力。
2、Numpy中的ndarray數據結構特點、numpy所支持的數據類型、自帶的數組創建方法、算術運算符、矩陣積、自增和自減、通用函數和聚合函數、切片索引、ndarray的向量化和廣播機制，熟悉數據分析三大利器之一Numpy的常見使用，熟悉ndarray數據結構的特點和常見操作，掌握針對不同維度的ndarray數組的分片、索引、矩陣運算等操作。
3、Pandas裡面的三大數據結構，包括Dataframe、Series和Index對象的基本概念和使用，索引對象的更換及刪除索引、算術和數據對齊方法，數據清洗和數據規整、結構轉換，熟悉數據分析三大利器之一Pandas的常見使用，熟悉Pandas中三大數據對象的使用方法，能夠使用Pandas完成數據分析中最重要的數據清洗、格式轉換和數據規整工作、Pandas對文件的讀取和操作方法。
4、matplotlib三層結構體系、各種常見圖表類型折線圖、柱狀圖、堆積柱狀圖、餅圖的繪制、圖例、文本、標線的添加、可視化文件的保存，熟悉數據分析三大利器之一Matplotlib的常見使用，熟悉Matplotlib的三層結構，能夠熟練使用Matplotlib繪制各種常見的數據分析圖表。能夠綜合利用課程中所講的各種數據分析和可視化工具完成股票市場數據分析和預測、共享單車用戶群里數據分析、全球幸福指數數據分析等項目的全程實戰。

第四階段：機器學習與人工智慧

階段目標：
1. 理解機器學習相關的基本概念及系統處理流程
2. 能夠熟練應用各種常見的機器學習模型解決監督學習和非監督學習訓練和測試問題，解決回歸、分類問題
3. 熟練掌握常見的分類演算法和回歸演算法模型，如KNN、決策樹、隨機森林、K-Means等
4. 掌握卷積神經網路對圖像識別、自然語言識別問題的處理方式，熟悉深度學習框架TF裡面的張量、會話、梯度優化模型等
5. 掌握深度學習卷積神經網路運行機制，能夠自定義卷積層、池化層、FC層完成圖像識別、手寫字體識別、驗證碼識別等常規深度學習實戰項目

知識點：
1、機器學習常見演算法、sklearn數據集的使用、字典特徵抽取、文本特徵抽取、歸一化、標准化、數據主成分分析PCA、KNN演算法、決策樹模型、隨機森林、線性回歸及邏輯回歸模型和演算法。熟悉機器學習相關基礎概念，熟練掌握機器學習基本工作流程，熟悉特徵工程、能夠使用各種常見機器學習演算法模型解決分類、回歸、聚類等問題。
2、Tensorflow相關的基本概念，TF數據流圖、會話、張量、tensorboard可視化、張量修改、TF文件讀取、tensorflow playround使用、神經網路結構、卷積計算、激活函數計算、池化層設計，掌握機器學習和深度學習之前的區別和練習，熟練掌握深度學習基本工作流程，熟練掌握神經網路的結構層次及特點，掌握張量、圖結構、OP對象等的使用，熟悉輸入層、卷積層、池化層和全連接層的設計，完成驗證碼識別、圖像識別、手寫輸入識別等常見深度學習項目全程實戰。

⑹ python sklearn中怎樣預測給定的新數據

最近在拿 sklearn 做中文文本分類器，
網上找到的例子都是拿帶標簽的數據，二八劃分後，八成用於訓練模型，兩成用於測試，
然後分析測試結果看精確度。
現在，我已經使用訓練數據做好了模型訓練（存在文本分類器的對象了），
拿一段之前數據集裡面沒有的文本數據，使用訓練好的文本分類器做類別預測，
問題是如何拿到預測的類別的名稱呢。。。
代碼如下：
# cls 是之前已經訓練好的文本分類器對象
pred = clf.predict(X_new)

怎樣從預測結果 pred （ ndarray ）獲取到分類的類別名稱呢？
我有嘗試過如下的方式去獲取：
label_list = list()

⑺ sklearn 線性回歸如何得出回歸結果的置信區間

sklearn的LinearRegression類不提供題主說的置信區間的功能，整個sklearn也沒有這個功能。想要求出預測的置信區間有兩種可選的辦法：
1，自己編程實現置信區間的功能；
2，轉而使用基於python的statsmodels模塊，這個模塊可以提供置信區間，P值等統計方面的指標分析。

看題主的問題，題主的背景應該是統計或經濟類專業吧。sklearn的面向對象是機器學習的使用者，這裡面的大多數人來自計算機領域，他們更關心模型的預測性能，而不太關心模型的統計指標分析。statsmodels則兼顧模型的預測性和可解釋性。

⑻ 使用python+sklearn的決策樹方法預測是否有信用風險

import numpy as np11
import pandas as pd11
names=("Balance,Duration,History,Purpose,Credit amount,Savings,Employment,instPercent,sexMarried,Guarantors,Residence ration,Assets,Age,concCredit,Apartment,Credits,Occupation,Dependents,hasPhone,Foreign,lable").split(',')11
data=pd.read_csv("Desktop/sunshengyun/data/german/german.data",sep='\s+',names=names)11
data.head()11

Balance
Duration
History
Purpose
Credit amount
Savings
Employment
instPercent
sexMarried
Guarantors
…
Assets
Age
concCredit
Apartment
Credits
Occupation
Dependents
hasPhone
Foreign
lable

0
A11 6 A34 A43 1169 A65 A75 4 A93 A101 … A121 67 A143 A152 2 A173 1 A192 A201 1

1
A12 48 A32 A43 5951 A61 A73 2 A92 A101 … A121 22 A143 A152 1 A173 1 A191 A201 2

2
A14 12 A34 A46 2096 A61 A74 2 A93 A101 … A121 49 A143 A152 1 A172 2 A191 A201 1

3
A11 42 A32 A42 7882 A61 A74 2 A93 A103 … A122 45 A143 A153 1 A173 2 A191 A201 1

4
A11 24 A33 A40 4870 A61 A73 3 A93 A101 … A124 53 A143 A153 2 A173 2 A191 A201 2

5 rows × 21 columns
data.Balance.unique()11
array([『A11』, 『A12』, 『A14』, 『A13』], dtype=object)data.count()11
Balance 1000 Duration 1000 History 1000 Purpose 1000 Credit amount 1000 Savings 1000 Employment 1000 instPercent 1000 sexMarried 1000 Guarantors 1000 Residence ration 1000 Assets 1000 Age 1000 concCredit 1000 Apartment 1000 Credits 1000 Occupation 1000 Dependents 1000 hasPhone 1000 Foreign 1000 lable 1000 dtype: int64#部分變數描述性統計分析
data.describe()1212

Duration
Credit amount
instPercent
Residence ration
Age
Credits
Dependents
lable

count
1000.000000 1000.000000 1000.000000 1000.000000 1000.000000 1000.000000 1000.000000 1000.000000

mean
20.903000 3271.258000 2.973000 2.845000 35.546000 1.407000 1.155000 1.300000

std
12.058814 2822.736876 1.118715 1.103718 11.375469 0.577654 0.362086 0.458487

min
4.000000 250.000000 1.000000 1.000000 19.000000 1.000000 1.000000 1.000000

25%
12.000000 1365.500000 2.000000 2.000000 27.000000 1.000000 1.000000 1.000000

50%
18.000000 2319.500000 3.000000 3.000000 33.000000 1.000000 1.000000 1.000000

75%
24.000000 3972.250000 4.000000 4.000000 42.000000 2.000000 1.000000 2.000000

max
72.000000 18424.000000 4.000000 4.000000 75.000000 4.000000 2.000000 2.000000

data.Duration.unique()11
array([ 6, 48, 12, 42, 24, 36, 30, 15, 9, 10, 7, 60, 18, 45, 11, 27, 8, 54, 20, 14, 33, 21, 16, 4, 47, 13, 22, 39, 28, 5, 26, 72, 40], dtype=int64)data.History.unique()11
array([『A34』, 『A32』, 『A33』, 『A30』, 『A31』], dtype=object)data.groupby('Balance').size().order(ascending=False)11
c:\python27\lib\site-packages\ipykernel\__main__.py:1: FutureWarning: order is deprecated, use sort_values(…) if __name__ == 『__main__』: Balance A14 394 A11 274 A12 269 A13 63 dtype: int64data.groupby('Purpose').size().order(ascending=False)11
c:\python27\lib\site-packages\ipykernel\__main__.py:1: FutureWarning: order is deprecated, use sort_values(…) if __name__ == 『__main__』: Purpose A43 280 A40 234 A42 181 A41 103 A49 97 A46 50 A45 22 A44 12 A410 12 A48 9 dtype: int64data.groupby('Apartment').size().order(ascending=False)11
c:\python27\lib\site-packages\ipykernel\__main__.py:1: FutureWarning: order is deprecated, use sort_values(…) if __name__ == 『__main__』: Apartment A152 713 A151 179 A153 108 dtype: int64import matplotlib.pyplot as plt
%matplotlib inline
data.plot(x='lable', y='Age', kind='scatter',
alpha=0.02, s=50);12341234
![png](output_13_0.png)data.hist('Age', bins=15);11
![png](output_14_0.png)target=data.lable11
features_data=data.drop('lable',axis=1)11
numeric_features = [c for c in features_data if features_data[c].dtype.kind in ('i', 'f')] # 提取數值類型為整數或浮點數的變數11
numeric_features11
[『Duration』, 『Credit amount』, 『instPercent』, 『Residence ration』, 『Age』, 『Credits』, 『Dependents』]numeric_data = features_data[numeric_features]11
numeric_data.head()11

Duration
Credit amount
instPercent
Residence ration
Age
Credits
Dependents

0
6 1169 4 4 67 2 1

1
48 5951 2 2 22 1 1

2
12 2096 2 3 49 1 2

3
42 7882 2 4 45 1 2

4
24 4870 3 4 53 2 2

categorical_data = features_data.drop(numeric_features, axis=1)11
categorical_data.head()11

Balance
History
Purpose
Savings
Employment
sexMarried
Guarantors
Assets
concCredit
Apartment
Occupation
hasPhone
Foreign

0
A11 A34 A43 A65 A75 A93 A101 A121 A143 A152 A173 A192 A201

1
A12 A32 A43 A61 A73 A92 A101 A121 A143 A152 A173 A191 A201

2
A14 A34 A46 A61 A74 A93 A101 A121 A143 A152 A172 A191 A201

3
A11 A32 A42 A61 A74 A93 A103 A122 A143 A153 A173 A191 A201

4
A11 A33 A40 A61 A73 A93 A101 A124 A143 A153 A173 A191 A201

categorical_data_encoded = categorical_data.apply(lambda x: pd.factorize(x)[0]) # pd.factorize即可將分類變數轉換為數值表示
# apply運算將轉換函數應用到每一個變數維度
categorical_data_encoded.head(5)123123

Balance
History
Purpose
Savings
Employment
sexMarried
Guarantors
Assets
concCredit
Apartment
Occupation
hasPhone
Foreign

0
0 0 0 0 0 0 0 0 0 0 0 0 0

1
1 1 0 1 1 1 0 0 0 0 0 1 0

2
2 0 1 1 2 0 0 0 0 0 1 1 0

3
0 1 2 1 2 0 1 1 0 1 0 1 0

4
0 2 3 1 1 0 0 2 0 1 0 1 0

features = pd.concat([numeric_data, categorical_data_encoded], axis=1)#進行數據的合並
features.head()
# 此處也可以選用one-hot編碼來表示分類變數，相應的程序如下：
# features = pd.get_mmies(features_data)
# features.head()1234512345

Duration
Credit amount
instPercent
Residence ration
Age
Credits
Dependents
Balance
History
Purpose
Savings
Employment
sexMarried
Guarantors
Assets
concCredit
Apartment
Occupation
hasPhone
Foreign

0
6 1169 4 4 67 2 1 0 0 0 0 0 0 0 0 0 0 0 0 0

1
48 5951 2 2 22 1 1 1 1 0 1 1 1 0 0 0 0 0 1 0

2
12 2096 2 3 49 1 2 2 0 1 1 2 0 0 0 0 0 1 1 0

3
42 7882 2 4 45 1 2 0 1 2 1 2 0 1 1 0 1 0 1 0

4
24 4870 3 4 53 2 2 0 2 3 1 1 0 0 2 0 1 0 1 0

X = features.values.astype(np.float32) # 轉換數據類型
y = (target.values == 1).astype(np.int32) # 1:good,2:bad1212
from sklearn.cross_validation import train_test_split # sklearn庫中train_test_split函數可實現該劃分

X_train, X_test, y_train, y_test = train_test_split(
X, y, test_size=0.2, random_state=0) # 參數test_size設置訓練集佔比
1234512345
from sklearn.tree import DecisionTreeClassifier
from sklearn.cross_validation import cross_val_score

clf = DecisionTreeClassifier(max_depth=8) # 參數max_depth設置樹最大深度

# 交叉驗證，評價分類器性能，此處選擇的評分標準是ROC曲線下的AUC值，對應AUC更大的分類器效果更好
scores = cross_val_score(clf, X_train, y_train, cv=3, scoring='roc_auc')
print("ROC AUC Decision Tree: {:.4f} +/-{:.4f}".format(
np.mean(scores), np.std(scores)))123456789123456789
ROC AUC Decision Tree: 0.6866 +/-0.0105

#利用learning curve，以樣本數為橫坐標，訓練和交叉驗證集上的評分為縱坐標，對不同深度的決策樹進行對比（判斷是否存在過擬合或欠擬合）
from sklearn.learning_curve import learning_curve

def plot_learning_curve(estimator, X, y, ylim=(0, 1.1), cv=3,
n_jobs=1, train_sizes=np.linspace(.1, 1.0, 5),
scoring=None):
plt.title("Learning curves for %s" % type(estimator).__name__)
plt.ylim(*ylim); plt.grid()
plt.xlabel("Training examples")
plt.ylabel("Score")
train_sizes, train_scores, validation_scores = learning_curve(
estimator, X, y, cv=cv, n_jobs=n_jobs, train_sizes=train_sizes,
scoring=scoring)
train_scores_mean = np.mean(train_scores, axis=1)
validation_scores_mean = np.mean(validation_scores, axis=1)

plt.plot(train_sizes, train_scores_mean, 'o-', color="r",
label="Training score")
plt.plot(train_sizes, validation_scores_mean, 'o-', color="g",
label="Cross-validation score")
plt.legend(loc="best")
print("Best validation score: {:.4f}".format(validation_scores_mean[-1]))2223
clf = DecisionTreeClassifier(max_depth=None)
plot_learning_curve(clf, X_train, y_train, scoring='roc_auc')
# 可以注意到訓練數據和交叉驗證數據的得分有很大的差距，意味著可能過度擬合訓練數據了123123
Best validation score: 0.6310

clf = DecisionTreeClassifier(max_depth=10)
plot_learning_curve(clf, X_train, y_train, scoring='roc_auc')1212
Best validation score: 0.6565

clf = DecisionTreeClassifier(max_depth=8)
plot_learning_curve(clf, X_train, y_train, scoring='roc_auc')1212
Best validation score: 0.6762

clf = DecisionTreeClassifier(max_depth=5)
plot_learning_curve(clf, X_train, y_train, scoring='roc_auc')1212
Best validation score: 0.7219

clf = DecisionTreeClassifier(max_depth=4)
plot_learning_curve(clf, X_train, y_train, scoring='roc_auc')1212
Best validation score: 0.7226

⑼ python sklearn主成分分析法各個特徵向量是啥意思

主成分分析（PCA）是一種基於變數協方差矩陣對數據進行壓縮降維、去噪的有效方法。
PCA的思想是將n維特徵映射到k維上（k<n），這k維特徵稱為主元，是舊特徵的線性組合，這些線性組合最大化樣本方差，盡量使新的k個特徵互不相關。

利用sklearn分析股票

與利用sklearn分析股票相關的內容