
1. 概述
1.1. 本輪人工智能熱潮在算法或模型方面並無革命性的重大突破,就算是聽起來很新的深度學習概念也早在20世紀80年代就已經出現
1.2. 大數據,它為深度學習算法提供海量的訓練數據做支撐,讓深度學習如虎添翼,大顯神威
1.3. 高性能計算,尤其是通用計算GPU給予神經網絡和深度學習強大的計算力支持,使得以前無法完成的計算或者無法在短時間內完成的計算成為可能
1.4. 人工智能近幾年突飛猛進的發展與大數據的存儲、處理、分析技術的發展是分不開的
-
1.4.1. 大數據處理的核心都是利用已知的知識去預測未知的情形
-
1.4.2. 其預測質量取決於大數據處理過程中所採用的算法和訓練數據集
-
1.4.3. 算法決定了預測準確率的上限
- 1.4.3.1. 算法一旦確定,整個數據處理模型準確率的理論上限已經確定
-
1.4.4. 模型訓練離不開訓練數據集,數據的數量和品質決定了能在多大程度上逼近算法的理論上限
-
1.4.5. 未來數據智能的發展焦點在於如何快速處理大量數據
2. 大數據時代
2.1. 早在人類還居住在樹上時,人類就已經開始和數據打交道
2.2. 整個人類的發展歷史,就是人類不斷地嘗試去記錄以及去測量自身和世界的過程,無論是古時候發明算盤、阿拉伯數字,還是近代發明二進制計算機,都是人類記錄自身和世界的活動
2.3. 人類對於記錄、存儲數據的需求一直沒有減弱
2.4. 人工智能的發展離不開電子計算機的發展,而電子計算機的發展也伴隨着數據採集、存儲、處理方式的革新
2.5. 在過去,我們受數據採集、存儲、計算能力的限制,只能通過抽樣的方式獲取小部分數據,因此無法得到完整的、全局的、細節的規律
2.6. 現在有了大數據,可以把全部的歷史數據都收集起來,利用計算機統計其規律,進而預測將發生的事情,這就是大數據機器學習
2.7. 機器學習是當下處理大數據的重要途徑,它可以將多種優勢凝聚起來,面對實際問題選擇最為合適的解決途徑
2.8. 人類希望人工智能做得更多,未來數據智能的應用場景將向更廣更深演進
2.9. 數據智能的技術發展方向或許還得從根本的數據、算法和算力三駕馬車上去尋找突破
2.10. 大數據爆發式增長
-
2.10.1. 人類最近兩年所產生的數據相當於之前歷史上所有數據量的總和
-
2.10.2. 數據源的擴大是最根本的推動力
-
2.10.2.1. 在消費領域,智能設備正以驚人的速度發展
-
2.10.2.2. 在工業領域,工業界正在將測量分析推向智能終端,數據採集設備的數量正快速增長,同時傳感器也在日益智能化
-
2.10.2.3. 隨着未來超高速5G無線網絡的推出,無限的設備會被接入互聯網,互聯網將會進一步泛化,形成萬物互聯的物聯網(IoT)
-
3. 芯片與框架提升算力
3.1. 人工智能近來的發展離不開人工神經網絡的發展
3.2. 在過去,如此大量的數據很難被處理
3.3. 如今,以Hadoop體系為代表的分佈式系統將神經網絡的計算變成了可能
3.4. 特別是圖形處理器(GPU)的並行式計算模式成為神經網絡計算的基石
3.5. 形形色色專用於計算神經網絡的人工智能芯片被設計製造出來
-
3.5.1. 以GPU、現場可編程門陣列(FPGA)、專用集成電路(ASIC)為代表的人工智能計算芯片,成為本輪人工智能發展的核心驅動力
-
3.5.2. 人工智能正在由各種人工智能芯片來提供基礎計算能力
-
3.5.3. 深度學習既要求計算芯片支持對存儲介質中海量數據的高效存取,還要求其能支持一些特定人工智能計算需求
-
3.5.4. GPU成為目前深度學習算法應用中的首要選擇
-
3.5.5. FPGA可以實現應用場景的高度定製,屬於一種半定製化芯片
-
3.5.6. ASIC是不可配置的高度定製專用計算芯片,其性能也是最優的
- 3.5.6.1. 谷歌公司為運行TensorFlow框架專門設計的張量處理單元(TPU),相應的還有寒武紀的神經網絡處理單元(NPU),都是ASIC的典型代表
3.6. 軟件框架部分,目前人工智能軟件框架呈現出百花齊放的態勢
-
3.6.1. 軟件框架是整個技術體系的核心,用於實現對人工智能算法的封裝、數據的調用以及計算資源的調度使用
-
3.6.2. 軟件框架好比人工智能應用開發的操作系統,為開發者提供編程環境和算法庫,並按需分配人工智能芯片等硬件資源,目的是構建人工智能系統開發和運行的軟件環境
-
3.6.3. TensorFlow、Keras、Caffe、PyTorch、CNTK、Theano、SciKit-Learn
4. 貼近應用革新算法
4.1. 人工智能中的“決策樹”“K近鄰”等算法已經基本成熟,未來將主要以深度神經網絡為主導
4.2. 深度神經網絡是目前唯一能夠使得自然語言處理、生成式對抗網絡以及深度強化學習不斷髮展的基本遵循
4.3. 生成式對抗網絡(GAN)
-
4.3.1. 指由一個不斷產生數據的神經網絡模塊與一個持續判別所產生數據是否真實的神經網絡模塊組成的神經網絡架構,創造出近似真實的原創圖像、聲音和文本數據的技術
-
4.3.2. 有望大幅提升機器翻譯、人臉識別、信息檢索的精度和準確性,隨着三維模型數據序列能力的提升,未來將在自動駕駛、安防監控等領域產生可觀的應用價值
4.4. 膠囊網絡(CapsNet)
-
4.4.1. 由深度學習先驅傑弗裏·辛頓在2017年提出的概念,旨在克服當前圖像識別方法(主要是卷積神經網絡)的缺陷
-
4.4.2. 指在深度神經網絡中構建多層神經元模塊,用以發現並存儲物體詳細空間位置和姿態等信息的技術
-
4.4.3. 一種新興的深層神經網絡形式,可以以類似人腦的方式處理信息
-
4.4.4. 在樣本數據較少的情形下,快速識別不同情境下的同一對象,在人臉識別、圖像識別、字符識別等領域具有廣闊的應用前景
4.5. 遷移學習
-
4.5.1. 機器學習,尤其是深度學習,最大的障礙是用於訓練神經模型的大量標記數據的可用性
-
4.5.2. 只有標註精良且數量巨大的訓練數據集才能獲得良好的深度學習效果
-
4.5.3. 元學習(meta-learning)有一個非常重要的理念,是在較少樣本量的情況下,讓機器能夠自己學會學習
-
4.5.4. 原理就是合成新數據並將任務A的訓練模型轉移到任務B
-
4.5.4.1. 遷移學習,就是將學習從一個任務遷移到另一個任務
-
4.5.4.2. 一次性學習,即只需一次學習就能將模型應用於其他場景
-