此分類用於記錄吳恩達深度學習課程的學習筆記。
課程相關信息鏈接如下:
- 原課程視頻鏈接:[雙語字幕]吳恩達深度學習deeplearning.ai
- github課程資料,含課件與筆記:吳恩達深度學習教學資料
- 課程配套練習(中英)與答案:吳恩達深度學習課後習題與答案
本篇為第四課的第二週內容,2.1到2.2的內容。
本週為第四課的第二週內容,這一課所有內容的中心只有一個:計算機視覺。應用在深度學習裏,就是專門用來進行圖學習的模型和技術,是在之前全連接基礎上的“特化”,也是相關專業裏的一個重要研究大類。
這一整節課都存在大量需要反覆理解的內容和機器學習、數學基礎。 因此我會盡可能的補足基礎,用比喻和實例來演示每個部分,從而幫助理解。
第二週的內容是對一些經典網絡模型結構和原理的介紹,自然會涉及到相應的文獻論文。因此,我也會在相應的模型下附上提出該模型的論文鏈接。
本篇的內容關於一些早期經典的卷積網絡模型,雖然距離這些模型的提出已經有了很長的時間,但這些模型的設計思想和原理邏輯仍有很強的學習和應用價值。
1.LeNet-5
首先,提出 LeNet-5 模型的這篇論文發佈於 1998 年,距離現在已經很遠了,所以網絡的設計中也存在一些現在看來“不合理”的地方。
但是,這篇論文在今天最重要的價值,並不在於具體的參數配置或層級細節,而在於它系統性地提出並驗證了卷積神經網絡的基本建模範式,即通過“卷積-池化-全連接”的層級結構,實現從局部特徵到全局語義的逐級抽象邏輯。這一邏輯思想為後續卷積網絡的發展奠基併產生了深遠影響。
現在來詳細看看這個模型:
這就是它的網絡結構,在現在看來甚至有些簡單,但在當時的意義顯示是重大的,LeNet-5 的一個成功應用領域就是我們之前演示多分類模型時使用的手寫數字圖像識別。在本週的實踐部分我會再次用它來進行演示。
現在,再説説 LeNet-5 的建模邏輯。
這就是 LeNet-5 的偉大之處所在,用一句偏學術的話來總結:LeNet-5説明視覺理解可以通過層級化的特徵組合來實現,並用神經網絡提供了一種可學習的實現方式。
最後,這是 LeNet-5 原論文的期刊索引鏈接:Gradient-Based Learning Applied to Document Recognition 期刊索引,你可以通過 Zotero 等文獻管理軟件把論文抓取到你的軟件進行管理。
當然,如果你不想這麼麻煩,也可以通過這個鏈接直接查看PDF:Gradient-Based Learning Applied to Document Recognition
2.AlexNet
提出 AlexNet 模型的論文發佈於 2012 年,當時的計算機視覺正面臨大規模圖像分類的挑戰。相比 LeNet-5,AlexNet 的網絡更深、更大,但仍受到當時算力和經驗的限制,這些設計細節雖然有侷限,卻不妨礙它成為現代深度卷積網絡的里程碑。
在那之前,人們更傾向於使用解釋性更強的傳統機器學習算法來完成視覺任務,而 AlexNet 的出現讓業界看到深度學習的巨大潛力。它系統性地展示了深度卷積神經網絡在大規模視覺任務中的可行性,通過更深的卷積-池化-全連接結構,並結合 ReLU 激活、Dropout、數據增強以及 GPU 並行訓練 等技術,有效解決了大規模分類訓練難題,讓人們更願意嘗試使用深度學習來解決實際任務。
此外,AlexNet 還使用了一種技術叫做局部響應歸一化,簡單來説就是對每個通道上同一位置的數進行歸一化,但是現在已經被淘汰了,所以就不多説了。
其中一種代替它的技術就是我們之前説過的batch歸一化。
PyTorch 裏提供了 AlexNet 模型,並去除了局部響應歸一化,同樣,我會在本週的實踐部分演示這個模型的效果。
最後,這是 AlexNet 原論文的會議索引鏈接:ImageNet Classification with Deep Convolutional Neural Networks 會議索引,你可以通過 Zotero 等文獻管理軟件把論文抓取到你的軟件進行管理。
當然,如果你不想這麼麻煩,也可以通過這個鏈接直接查看PDF:ImageNet Classification with Deep Convolutional Neural Networks
3.VGG-16
提出 VGG16 模型的論文發佈於 2015 年,當時計算機視覺領域已經在深度卷積網絡上取得了顯著進展,但如何設計更深、更有效的網絡仍是關鍵問題。相比 AlexNet,VGG16 的網絡更加深層(共有 16 個權重層),通過堆疊小卷積核(3×3)的方式取代大卷積核,實現更強的特徵表達能力,同時保持了結構的簡單性。
來看看它的結構:
VGG16 讓當時的業界第一次看到,卷積網絡可以比 AlexNet 更深、更強,但仍可訓練。
並且,VGG16的深層小卷積結構使得提取的特徵通用且強大,讓他更適合作為遷移學習的遷移來源。
PyTorch 裏同樣提供了 VGG16 模型,我也會在本週的實踐部分演示這個模型的效果。
最後,這是 VGG16 原論文的會議索引鏈接:Very Deep Convolutional Networks for Large-Scale Image Recognition 會議索引,你可以通過 Zotero 等文獻管理軟件把論文抓取到你的軟件進行管理。
當然,如果你不想這麼麻煩,也可以通過這個鏈接直接查看PDF:Very Deep Convolutional Networks for Large-Scale Image Recognition