聚類(lèi)分析的主要步驟
1.數(shù)據(jù)預(yù)處理,
2.為衡量數(shù)據(jù)點(diǎn)間的相似度定義一個(gè)距離函數(shù),
3.聚類(lèi)或分組,
4.評(píng)估輸出。
數(shù)據(jù)預(yù)處理包括選擇數(shù)量,類(lèi)型和特征的標(biāo)度,它依靠特征選擇和特征抽取,特征選擇選擇重要的特征,特征抽取把輸入的特征轉(zhuǎn)化為一個(gè)新的顯著特征,它們經(jīng)常被用來(lái)獲取一個(gè)合適的特征集來(lái)為避免“維數(shù)災(zāi)”進(jìn)行聚類(lèi),數(shù)據(jù)預(yù)處理還包括將孤立點(diǎn)移出數(shù)據(jù),孤立點(diǎn)是不依附于一般數(shù)據(jù)行為或模型的數(shù)據(jù),因此孤立點(diǎn)經(jīng)常會(huì)導(dǎo)致有偏差的聚類(lèi)結(jié)果,因此為了得到正確的聚類(lèi),我們必須將它們剔除。
既然相類(lèi)似性是定義一個(gè)類(lèi)的基礎(chǔ),那么不同數(shù)據(jù)之間在同一個(gè)特征空間相似度的衡量對(duì)于聚類(lèi)步驟是很重要的,由于特征類(lèi)型和特征標(biāo)度的多樣性,距離度量必須謹(jǐn)慎,它經(jīng)常依賴于應(yīng)用,例如,通常通過(guò)定義在特征空間的距離度量來(lái)評(píng)估不同對(duì)象的相異性,很多距離度都應(yīng)用在一些不同的領(lǐng)域,一個(gè)簡(jiǎn)單的距離度量,如Euclidean距離,經(jīng)常被用作反映不同數(shù)據(jù)間的相異性,一些有關(guān)相似性的度量,例如PMC和SMC,能夠被用來(lái)特征化不同數(shù)據(jù)的概念相似性,在圖像聚類(lèi)上,子圖圖像的誤差更正能夠被用來(lái)衡量?jī)蓚(gè)圖形的相似性。