好長時間忙的沒寫博客了。看到有人問spark的knn,想着做推薦入門總用的knn算法,順便寫篇博客。 knn算法的大致如下: 1)算距離:給定測試對象,計算它與訓練集中的每個對象的距離 2)找鄰居:圈定距離最近的k個訓練對象,作為測試對象的近鄰 3)做分類:根據這k個近鄰歸屬的主要類別,來對測試對象分類