大數據發展過程的關鍵要素
數據源的三個層次:
1 緯度較少、數據量小
2 緯度豐富、數據量巨大(大數據)。
3 數據正確、及時、具有代表性 樣本數據=總體數據(全數據)。
對業務目標而言,數據是否“全”才是關鍵。
全數據:足以能夠全面反映事物形態的數據集合。
全數據下,樣本數據=總體數據,數據足夠正確、足夠新、足夠代表性。
當期,雖然大數據量很大、緯度很多、處理速度極快、能夠全量處理,但是大數據並沒有解決“全”的問題。
例如,“小而全的數據”:對於一個餐飲店的菜品銷售分析。其店內產生的數據(客户訂單、菜品評價),數據量每天的新增量
僅在每天2千條左右,而且只有訂單和評價數據,存儲數據庫也是傳統關係式數據庫。對“店內菜品分析而言”
擁有這些數據已經夠“全”,解決其業務問題。而更“大”的其他數據,對其沒有貢獻。
再如,“大而不全的數據”:對於信貸問題,要發現不可信人員。往往的思路是,試圖通過對用户的線上行為、消費情況、以往銀行記錄
進行識別判斷。而現實情況卻是,該類人羣會刻意的迴避“線上行為”,如盜用他人銀行卡、民間高利貸等“線下行為”,這些隱蔽行為
無法獲取到。
數據處理技術的三個層次:
1 檢索、查詢
2 統計、分類技術、異常數據分析、關聯性分析
3 趨勢預測
數據管理的三個層次:
1 保證數據可用
2 保證數據可控
3 保證數據可信
首要問題是有數據可用,這在數據匱乏的“小數據”時代最為重要。
“大數據”時代則要防止數據迅速膨脹帶來的數據失控問題,避免成為一堆大而亂的數據垃圾。
“全數據”強調的是,不盲目追求“大”,而是從業務應用的角度,保證數據的正確、及時。
數據價值的三個層次:
1 展示事物發展過程
2 描述事物發展本質
3 預測事物發展趨勢
對事物的發展過程加以數字化的展現,使用分類、關聯等技術發現事物發展過程中的規律、模式。
對事物的發展趨勢加以預測。
數據源層次越高、處理技術層次越高、數據管理層次越高,帶來的數據價值越大。
大數據向下一形態發展的關鍵技術:
1 非結構化數據處理、異構數據融合,數據安全和共享技術
2 數據科學技術
3 大數據治理技術