股票市場的聚類分析法_股票概念的聚類用什麼模型

Ⅰ 股票市場的分析方法

股票市場的分析方法主要有如下三種：基本分析法，技術分析法、演化分析法，其中基本分析主要應用於投資標的物的選擇上，技術分析和演化分析則主要應用於具體投資操作的時間和空間判斷上，作為提高證券投資分析有效性和可靠性的有益補充。
(1)基本分析：基本分析法是以傳統經濟學理論為基礎，以企業價值作為主要研究對象，通過對決定企業內在價值和影響股票價格的宏觀經濟形勢、行業發展前景、企業經營狀況等進行詳盡分析，以大概測算上市公司的長期投資價值和安全邊際，並與當前的股票價格進行比較，形成相應的投資建議。基本分析認為股價波動不可能被准確預測，而只能在有足夠安全邊際的情況下買入股票並長期持有。主要教材：《證券分析》等。
(2)技術分析：技術分析法是以傳統證券學理論為基礎，以股票價格作為主要研究對象，以預測股價波動趨勢為主要目的，從股價變化的歷史圖表入手，對股票市場波動規律進行分析的方法總和。技術分析認為市場行為包容消化一切，股價波動可以定量分析和預測，如道氏理論、波浪理論、江恩理論等。主要教材：《證券投資技術分析》等。
(3)演化分析：演化分析法是以演化證券學理論為基礎，將股市波動的生命運動特性作為主要研究對象，從股市的代謝性、趨利性、適應性、可塑性、應激性、變異性和節律性等方面入手，對市場波動方向與空間進行動態跟蹤研究，為股票交易決策提供機會和風險評估的方法總和。演化分析認為股價波動無法准確預測，因此它屬於模糊分析范疇，並不試圖為股價波動軌跡提供定量描述和預測，而是著重為投資人建立一種科學觀察和理解股市波動邏輯的全新的分析框架。主要教材：《股市真面目》等。

Ⅱ 聚類分析法

聚類分析，亦稱群分析或點分析，是研究多要素事物分類問題的數量方法。其基本原理是，根據樣本自身的屬性，用數學方法按照某些相似性或差異性指標，定量地確定樣本之間的親疏關系，並按親疏關系的程度對樣本進行聚類（徐建華，1994）。

聚類分析方法，應用在地下水中，是在各種指標和質量級別標准約束條件下，通過樣品的各項指標監測值綜合聚類，以判別地下水質量的級別。常見的聚類分析方法有系統聚類法、模糊聚類法和灰色聚類法等。

（一）系統聚類法

系統聚類法的主要步驟有：數據標准化、相似性統計量計算和聚類。

1.數據標准化

在聚類分析中，聚類要素的選擇是十分重要的，它直接影響分類結果的准確性和可靠性。在地下水質量研究中，被聚類的對象常常是多個要素構成的。不同要素的數據差異可能很大，這會對分類結果產生影響。因此當分類要素的對象確定之後，在進行聚類分析之前，首先對聚類要素進行數據標准化處理。

假設把所考慮的水質分析點（G）作為聚類對象（有m個），用i表示（i=1，2，…，m）；把影響水質的主要因素作為聚類指標（有n個），用j表示（j=1，2，…，n），它們所對應的要素數據可用表4-3給出。在聚類分析中，聚類要素的數據標准化的方法較多，一般採用標准差法和極差法。

表4-3 聚類對象與要素數據

對於第j個變數進行標准化，就是將x_ij變換為x′_ij。

（1）總和標准化

區域地下水功能可持續性評價理論與方法研究

這種標准化方法所得的新數據x′_ij滿足

區域地下水功能可持續性評價理論與方法研究

（2）標准差標准化

區域地下水功能可持續性評價理論與方法研究

式中：

；

由這種標准化方法所得的新數據x′_ij，各要素的平均值為0，標准差為1，即有

區域地下水功能可持續性評價理論與方法研究

（3）極差標准化

區域地下水功能可持續性評價理論與方法研究

經過這種標准化所得的新數據，各要素的極大值為1，極小值為0，其餘的數值均在［0，1］閉區間內。

上述式中：x_ij為j變數實測值；x_j為j變數的樣本平均值；s_j為樣本標准差。

2.相似性統計量

系統聚類法要求給出一個能反映樣品間相似程度的一個數字指標，需要找到能量度相似關系的統計量，這是系統聚類法的關鍵。

相似性統計量一般使用距離系數和相似系數進行計算。距離系數是把樣品看成多維空間的點，用點間的距離來表示研究對象的緊密關系，距離越小，表明關系越密切。相似系數值表明樣本和變數間的相似程度。

（1）距離系數

常採用歐幾里得絕對距離，其中i樣品與j樣品距離d_ij為

區域地下水功能可持續性評價理論與方法研究

d_ij越小，表示i，j樣品越相似。

（2）相似系數

常見的相似系數有夾角餘弦和相關系數，計算公式為

1）夾角餘弦

區域地下水功能可持續性評價理論與方法研究

在式（4-20）中：-1≤cosθ_ij≤1。

2）相關系數

區域地下水功能可持續性評價理論與方法研究

式中：d_ij為i樣品與j樣品的歐幾里得距離；cosθ_ij為i樣品與j樣品的相似系數；r_ij為i樣品與j樣品的相關系數；x_ik為i樣品第k個因子的實測值或標准化值；x_jk為j樣品第k個因子的實測值或標准化值；

為i樣品第k個因子的均值，

；

為j樣品第k個因子的均值，

；n為樣品的數目；k為因子（變數）數。

3.聚類

在選定相似性統計量之後，根據計算結果構成距離或相似性系數矩陣（n×n），然後通過一定的方法把n個樣品組合成不同等級的分類單位，對類進行並類，即將最相似的樣品歸為一組，然後，把次相似的樣品歸為分類級別較高的組。聚類主要有直接聚類法、距離聚類法（最短距離聚類法、最遠距離聚類法）。

（1）直接聚類法

直接聚類法，是根據距離或相似系數矩陣的結構一次並類得到結果，是一種簡便的聚類方法。它首先把各個分類對象單獨視為一類，然後根據距離最小或相似系數最大的原則，依次選出一對分類對象，並成新類。如果一對分類對象正好屬於已歸的兩類，則把這兩類並為一類。每一次歸並，都劃去該對象所在的列與列序相同的行。經過n-1次把全部分類對象歸為一類，最後根據歸並的先後順序作出聚類分析譜系圖。

（2）距離聚類法

距離聚類法包括最短距離聚類法和最遠距離聚類法。最短距離聚類法具有空間壓縮性，而最遠距離聚類法具有空間擴張性。這兩種聚類方法關於類之間的距離計算可以用一個統一的公式表示：

區域地下水功能可持續性評價理論與方法研究

當γ=-0.5時，式（4-22）計算類之間的距離最短；當γ=0.5時，式（4-22）計算類之間的距離最遠。

最短、最遠距離法，是在原來的n×n距離矩陣的非對角元素中找出d_pq=min（d_ij）或d_pq=max（d_ij），把分類對象G_p和G_q歸並為一新類G_r，然後按計算公式：

d_pq=min（d_pk，d_qk）（k≠ p，q）（4-23）

d_pq=max（d_pk，d_qk）（k≠ p，q）（4-24）

計算原來各類與新類之間的距離，這樣就得到一個新的（n-1）階的距離矩陣；再從新的距離矩陣中選出最小或最大的d_ij，把G_i和G_j歸並成新類；再計算各類與新類的距離，直至各分類對象被歸為一類為止。最後綜合整個聚類過程，作出最短距離或最遠距離聚類譜系圖（圖4-1）。

圖4-1 地下水質量評價的聚類譜系圖

（二）模糊聚類法

模糊聚類法是普通聚類方法的一種拓展，它是在聚類方法中引入模糊概念形成的。該方法評價地下水質量的主要步驟，包括數據標准化、標定和聚類3個方面（付雁鵬等，1987）。

1.數據標准化

在進行聚類過程中，由於所研究的各個變數絕對值不一樣，所以直接使用原始數據進行計算就會突出絕對值大的變數，而降低絕對值小的變數作用，特別是在進行模糊聚類分析中，模糊運算要求必須將數據壓縮在［0，1］之間。因此，模糊聚類計算的首要工作是解決數據標准化問題。數據標准化的方法見系統聚類分析法。

2.標定與聚類

所謂標定就是計算出被分類對象間的相似系數r_ij，從而確定論域集U上的模糊相似關系R_ij。相似系數的求取，與系統聚類分析法相同。

聚類就是在已建立的模糊關系矩陣R_ij上，給出不同的置信水平λ（λ∈［0，1］）進行截取，進而得到不同的分類。

聚類方法較多，主要有基於模糊等價關系基礎上的聚類與基於最大樹的聚類。

（1）模糊等價關系方法

所謂模糊等價關系，是指具有自反性（r_ii=1）、對稱性（r_ij=r_ji）與傳遞性（R·R⊆R）的模糊關系。

基於模糊等價關系的模糊聚類分析方法的基本思想是：由於模糊等價關系R是論域集U與自己的直積U×U上的一個模糊子集，因此可以對R進行分解，當用λ-水平對R作截集時，截得的U×U的普通子集R_λ就是U上的一個普通等價關系，也就是得到了關於U中被分類對象元素的一種。當λ由1下降到0時，所得的分類由細變粗，逐漸歸並，從而形成一個動態聚類譜系圖（徐建華，1994）。此類分析方法的具體步驟如下。

第一步：模糊相似關系的建立，即計算各分類對象之間相似性統計量。

第二步：將模糊相似關系R改造為模糊等價關系R′。模糊等價關系要求滿足自反性、對稱性與傳遞性。一般而言，模糊相似關系滿足自反性和對稱性，但不滿足傳遞性。因此，需要採用傳遞閉合的性質將模糊相似關系改造為模糊等價關系。改造的方法是將相似關系R自乘，即

R²=R·R

R⁴=R²·R²

︙

這樣計算下去，直到：R^2k=R^k·R^k=R^k，則R′=R^k便是一個模糊等價關系。

第三步：在不同的截集水平下進行聚類。

（2）最大樹聚類方法

基於最大樹的模糊聚類分析方法的基本思路是：最大樹是一個不包含迴路的連通圖（圖4-2）；選取λ水平對樹枝進行截取，砍去權重低於λ 的枝，形成幾個孤立的子樹，每一棵子樹就是一個類的集合。此類分析方法的具體步驟如下。

圖4-2 最大聚類支撐樹圖

第一步：計算分類對象之間的模糊相似性統計量r_ij，構建最大樹。

以所有被分類的對象為頂點，當兩點間r_ij不等於0時，兩點間可以用樹干連接，這種連接是按r_ij從大到小的順序依次進行的，從而構成最大樹。

第二步：由最大樹進行聚類分析。

選擇某一λ值作截集，將樹中小於λ值的樹干砍斷，使相連的結點構成一類，即子樹，當λ由1到0時，所得到的分類由細變粗，各結點所代表的分類對象逐漸歸並，從而形成一個動態聚類譜系圖。

在聚類方法中，模糊聚類法比普通聚類法有較大的突破，簡化了運算過程，使聚類法更易於掌握。

（三）灰色聚類法

灰色聚類是根據不同聚類指標所擁有的白化數，按幾個灰類將聚類對象進行歸納，以判斷該聚類對象屬於哪一類。

灰色聚類應用於地下水水質評價中，是把所考慮的水質分析點作為聚類對象，用i表示（i=1，2，…，n）；把影響水質的主要因素作為聚類指標，用j表示（j=1，2，…，m），把水質級別作為聚類灰數（灰類），用k表示（k=1，2，3）即一級、二級、三級3個灰類（羅定貴等，1995）。

灰色聚類的主要步驟：確定聚類白化數、確定各灰色白化函數f_jk、求標定聚類權重η_jk、求聚類系數和按最大原則確定聚類對象分類。

1.確定聚類白化數

當各灰類白化數在數量上相差懸殊時，為保證各指標間的可比性與等效性，必須進行白化數的無量綱化處理。即給出第i個聚類對象中第j個聚類指標所擁有的白化數，i=1，2，…，n；j=1，2，…，m。

2.確定各灰色白化函數

建立滿足各指標、級別區間為最大白化函數值（等於1），偏離此區間愈遠，白化函數愈小（趨於0）的功效函數f_ij（x）。根據監測值C_ki，可在圖上（圖4-3）解析出相應的白化函數值f_jk（C_ik），j=1，2，…，m；k=1，2，3。

3.求標定聚類權重

根據式（4-25），計算得出聚類權重η_jk的矩陣（n×m）。

區域地下水功能可持續性評價理論與方法研究

式中：η_jk為第j個指標對第k個灰類的權重；λ_jk為白化函數的閾值（根據標准濃度而定）。

圖4-3 白化函數圖

註：圖4-3白化函數f（x）∈［0，1］，具有下述特點：①平頂部分，表示該量的最佳程度。這部分的值為最佳值，即系數（權）為1，f（x）=max=1（峰值），x∈［x₂，x₃］。②白化函數是單調變化的，左邊部分f（x）=L（x），單調增，x∈（x₁，x₂］，稱為白化的左支函數；右邊部分f（x）=R（x），單調減，x∈［x₃，x₄），稱為白化的右支函數。③白化函數左右支函數對稱。④白化函數，為了簡便，一般是直線。⑤白化函數的起點和終點，一般來說是人為憑經驗確定。

4.求聚類系數

σ_ik=∑f_jk（d_ij）η_jk （4-26）

式中：σ_ik為第i個聚類對象屬於第k個灰類的系數，i=1，2，…，n；k=1，2，3。

5.按最大原則確定聚類對象分類

由σ_ik構造聚類向量矩陣，行向量最大者，確定k樣品屬於j級對應的級別。

用灰色聚類方法進行地下水水質評價，能最大限度地避免因人為因素而造成的「失真、失效」現象。

聚類方法計算相對復雜，但是計算結果與地下水質量標准級別對應性明顯，能夠較全面反映地下水質量狀況，也是較高層次定量研究地下水質量的重要方法。

Ⅲ 如何用MATLAB對股票數據做聚類分析

直接調kmeans函數。
k = 3;%類別數
idx = kmeans(X, k);%idx就是每個樣本點的標號。

Ⅳ 常用的聚類方法有哪幾種

聚類分析的演算法可以分為劃分法、層次法、基於密度的方法、基於網格的方法、基於模型的方法。

1、劃分法，給定一個有N個元組或者紀錄的數據集，分裂法將構造K個分組，每一個分組就代表一個聚類，K<N。

2、層次法，這種方法對給定的數據集進行層次似的分解，直到某種條件滿足為止。

3、基於密度的方法，基於密度的方法與其它方法的一個根本區別是：它不是基於各種各樣的距離的，而是基於密度的。這樣就能克服基於距離的演算法只能發現「類圓形」的聚類的缺點。

4、圖論聚類方法解決的第一步是建立與問題相適應的圖，圖的節點對應於被分析數據的最小單元，圖的邊（或弧）對應於最小處理單元數據之間的相似性度量。

5、基於網格的方法，這種方法首先將數據空間劃分成為有限個單元的網格結構,所有的處理都是以單個的單元為對象的。

6、基於模型的方法，基於模型的方法給每一個聚類假定一個模型，然後去尋找能夠很好的滿足這個模型的數據集。

(4)股票市場的聚類分析法擴展閱讀：

在商業上，聚類可以幫助市場分析人員從消費者資料庫中區分出不同的消費群體來，並且概括出每一類消費者的消費模式或者說習慣。

它作為數據挖掘中的一個模塊，可以作為一個單獨的工具以發現資料庫中分布的一些深層的信息，並且概括出每一類的特點，或者把注意力放在某一個特定的類上以作進一步的分析；並且，聚類分析也可以作為數據挖掘演算法中其他分析演算法的一個預處理步驟。

許多聚類演算法在小於 200 個數據對象的小數據集合上工作得很好；但是，一個大規模資料庫可能包含幾百萬個對象，在這樣的大數據集合樣本上進行聚類可能會導致有偏的結果。

許多聚類演算法在聚類分析中要求用戶輸入一定的參數，例如希望產生的簇的數目。聚類結果對於輸入參數十分敏感。參數通常很難確定，特別是對於包含高維對象的數據集來說。這樣不僅加重了用戶的負擔，也使得聚類的質量難以控制。

Ⅳ 聚類分析方法應用於哪些問題的研究

1.聚類分析的特點
聚類分析（cluster analysis）是根據事物本身的特性研究個體的一種方法,目的在於將相似的事物歸類.它的原則是同一類中的個體有較大的相似性,不同類的個體差異性很大.這種方法有三個特徵：適用於沒有先驗知識的分類.如果沒有這些事先的經驗或一些國際、國內、行業標准,分類便會顯得隨意和主觀.這時只要設定比較完善的分類變數,就可以通過聚類分析法得到較為科學合理的類別；可以處理多個變數決定的分類.例如,要根據消費者購買量的大小進行分類比較容易,但如果在進行數據挖掘時,要求根據消費者的購買量、家庭收入、家庭支出、年齡等多個指標進行分類通常比較復雜,而聚類分析法可以解決這類問題；聚類分析法是一種探索性分析方法,能夠分析事物的內在特點和規律,並根據相似性原則對事物進行分組,是數據挖掘中常用的一種技術.
這種較成熟的統計學方法如果在市場分析中得到恰當的應用,必將改善市場營銷的效果,為企業決策提供有益的參考.其應用的步驟為：將市場分析中的問題轉化為聚類分析可以解決的問題,利用相關軟體（如SPSS、SAS等）求得結果,由專家解讀結果,並轉換為實際操作措施,從而提高企業利潤,降低企業成本.
2.應用范圍
聚類分析在客戶細分中的應用

消費同一種類的商品或服務時,不同的客戶有不同的消費特點,通過研究這些特點,企業可以制定出不同的營銷組合,從而獲取最大的消費者剩餘,這就是客戶細分的主要目的.常用的客戶分類方法主要有三類：經驗描述法,由決策者根據經驗對客戶進行類別劃分；傳統統計法,根據客戶屬性特徵的簡單統計來劃分客戶類別；非傳統統計方法,即基於人工智慧技術的非數值方法.聚類分析法兼有後兩類方法的特點,能夠有效完成客戶細分的過程.
例如,客戶的購買動機一般由需要、認知、學習等內因和文化、社會、家庭、小群體、參考群體等外因共同決定.要按購買動機的不同來劃分客戶時,可以把前述因素作為分析變數,並將所有目標客戶每一個分析變數的指標值量化出來,再運用聚類分析法進行分類.在指標值量化時如果遇到一些定性的指標值,可以用一些定性數據定量化的方法加以轉化,如模糊評價法等.除此之外,可以將客戶滿意度水平和重復購買機會大小作為屬性進行分類；還可以在區分客戶之間差異性的問題上納入一套新的分類法,將客戶的差異性變數劃分為五類：產品利益、客戶之間的相互作用力、選擇障礙、議價能力和收益率,依據這些分析變數聚類得到的歸類,可以為企業制定營銷決策提供有益參考.
以上分析的共同點在於都是依據多個變數進行分類,這正好符合聚類分析法解決問題的特點；不同點在於從不同的角度尋求分析變數,為某一方面的決策提供參考,這正是聚類分析法在客戶細分問題中運用范圍廣的體現.

聚類分析在實驗市場選擇中的應用

實驗調查法是市場調查中一種有效的一手資料收集方法,主要用於市場銷售實驗,即所謂的市場測試.通過小規模的實驗性改變,以觀察客戶對產品或服務的反應,從而分析該改變是否值得在大范圍內推廣.
實驗調查法最常用的領域有：市場飽和度測試.市場飽和度反映市場的潛在購買力,是市場營銷戰略和策略決策的重要參考指標.企業通常通過將消費者購買產品或服務的各種決定因素（如價格等）降到最低限度的方法來測試市場飽和度.或者在出現滯銷時,企業投放類似的新產品或服務到特定的市場,以測試市場是否真正達到飽和,是否具有潛在的購買力.前述兩種措施由於利益和風險的原因,不可能在企業覆蓋的所有市場中實施,只能選擇合適的實驗市場和對照市場加以測試,得到近似的市場飽和度；產品的價格實驗.這種實驗往往將新定價的產品投放市場,對顧客的態度和反應進行測試,了解顧客對這種價格的是否接受或接受程度；新產品上市實驗.波士頓矩陣研究的企業產品生命周期圖表明,企業為了生存和發展往往要不斷開發新產品,並使之向明星產品和金牛產品順利過渡.然而新產品投放市場後的失敗率卻很高,大致為66%到90%.因而為了降低新產品的失敗率,在產品大規模上市前,運用實驗調查法對新產品的各方面（外觀設計、性能、廣告和推廣營銷組合等）進行實驗是非常有必要的.
在實驗調查方法中,最常用的是前後單組對比實驗、對照組對比實驗和前後對照組對比實驗.這些方法要求科學的選擇實驗和非實驗單位,即隨機選擇出的實驗單位和非實驗單位之間必須具備一定的可比性,兩類單位的主客觀條件應基本相同.
通過聚類分析,可將待選的實驗市場（商場、居民區、城市等）分成同質的幾類小組,在同一組內選擇實驗單位和非實驗單位,這樣便保證了這兩個單位之間具有了一定的可比性.聚類時,商店的規模、類型、設備狀況、所處的地段、管理水平等就是聚類的分析變數

Ⅵ 股票概念的聚類用什麼模型

所有股票分析軟體都有這個功能，輸入想看概念板塊，如煤炭輸入MT小寫就可以看到了

Ⅶ 聚類分析法（CA）

3.2.3.1 技術原理

聚類分析又稱群分析（CA），它是研究（對樣品或指標）分類問題的一種多元統計方法。首先認為所研究的樣品或指標（變數）之間存在著程度不同的相似性（親疏關系），根據一批樣品的多個觀測指標具體找出一些能夠度量樣品或指標之間相似程度的統計量，以這些統計量為劃分類型的依據，把一些相似程度較大的樣品（或指標）聚合為一類，把另一些彼此之間相似程度較大的樣品（或指標）聚合為另一類，根據分類對象不同，可分為對樣品分類的Q型聚類分析和對指標分類的R型聚類分析兩種類型。聚類分析可用SPSS軟體直接實現，在水質時空變異、水化學類型分區中得到廣泛的應用。聚類分析的功能是建立一種分類方法，它將一批樣品或變數，按照它們在性質上的親疏、相似程度進行分類，聚類分析的內容十分豐富，按其聚類的方法可分為以下幾種：系統聚類法、調優法、最優分割法、模糊聚類法等。

聚類分析根據分類對象的不同又分為R型和Q型兩大類，R型是對變數（指標）進行分類，Q型是對樣品進行分類。為了對樣品（或變數）進行分類，就必須研究它們之間的關系，描述樣品間親疏相似程度的統計量很多，目前用得最多的是距離和相似系數。距離方法主要有：閔科夫斯基（Minkowski）距離、絕對值距離、歐氏距離等。

樣品間的親疏程度除了用距離描述外，也可用相似系數來表示，相似系數的構造主要有以下兩種方法：對於定量變數，我們通常採用的相似系數有x_i和x_j之間的夾角餘弦和相關系數。

3.2.3.2 方法流程

目前使用最多的聚類方法是系統聚類法，其基本思想是：先將n個樣品各自看成一類，共有n個類，然後計算類與類間的距離，選擇距離最小的兩類合並成一個新類，使總類數減少為n-1，接著再計算這n-1類兩兩間的距離，從中找出距離最近的兩類合並，總類數又減少一個，剩下n-2個類，照此下去，每合並一次，減少一類，直至所有樣品都合並成一類為止。在並類的過程當中，可以根據聚類的先後以及並類時兩類間的距離，畫出能直觀反映各樣品間相近和疏遠程度的聚類圖（也稱譜系圖），根據這張聚類圖有可能找到最合適的分類方案。系統聚類法的聚類原則決定於樣品間的距離（或相似系數）及類間距離的定義，類間距離的不同定義就產生了不同的系統聚類分析方法，類間距離的定義方法主要有最短距離法、最長距離法、中間距離法、重心法、類平均法。在合理地選定（或定義）樣品間的距離以後，再適當定義類間的距離，就確定了一種聚類規則，之後按照系統聚類法的一般步驟加以聚類（圖3.4）。

圖3.4 聚類分析技術流程圖

3.2.3.3 適用范圍

聚類分析能夠將變數及樣本按照相應的規則進行分類，在大樣本多參數數據降維方面具有相對的優勢，尤其是對於在時間、空間上具有復雜變化的數據，聚類分析能夠根據變數和樣本的相關性和相似性，將數據有效地劃分為不同的類別，並通過樹狀圖反映出樣品隨距離或變數間相似性變化的情況，為查清變數和樣品之間關系提供了依據，也為查明污染來源奠定了基礎。

股票市場的聚類分析法

與股票市場的聚類分析法相關的內容