近期,計(jì)算機(jī)與信息科學(xué)學(xué)院2021級(jí)本科生彭杰在中科院1區(qū)Top期刊《Applied Soft Computing》上發(fā)表學(xué)術(shù)論文“Density-based clustering with boundary samples verification”,陳勇副教授為通訊作者。

在機(jī)器學(xué)習(xí)領(lǐng)域,基于密度的聚類(lèi)方法是一個(gè)重要研究方向。傳統(tǒng)密度聚類(lèi)技術(shù)主要通過(guò)分析數(shù)據(jù)的局部密度來(lái)對(duì)樣本進(jìn)行分類(lèi)。然而,當(dāng)處理邊緣區(qū)域樣本時(shí),這些方法面臨著較大挑戰(zhàn),如在低密度邊界樣本易被誤判為噪聲,在密度相近且鄰近的兩個(gè)群簇之間準(zhǔn)確劃分邊界點(diǎn)的困難。

該研究提出了一種基于K最近鄰的密度聚類(lèi)邊界樣本改進(jìn)方法,通過(guò)深入分析樣本與其K最近鄰的空間關(guān)系及其與新形成的簇之間的連接性,有效識(shí)別邊界樣本。在所有簇完全形成后,進(jìn)一步根據(jù)樣本的K最近鄰調(diào)整其分類(lèi)標(biāo)簽,從而顯著提高對(duì)邊界樣本的分類(lèi)精度。該研究通過(guò)在18個(gè)公開(kāi)數(shù)據(jù)集上進(jìn)行的廣泛實(shí)驗(yàn),驗(yàn)證了所提出方法的有效性。實(shí)驗(yàn)結(jié)果清楚地展示了該方法在處理邊界樣本方面的獨(dú)特優(yōu)勢(shì),能夠有效提升聚類(lèi)的準(zhǔn)確性和魯棒性。
原文鏈接