博客 / 詳情

返回

吳恩達深度學習課程三: 結構化機器學習項目 第二週:誤差分析與學習方法(一)誤差分析與快速迭代

此分類用於記錄吳恩達深度學習課程的學習筆記。
課程相關信息鏈接如下:

  1. 原課程視頻鏈接:[雙語字幕]吳恩達深度學習deeplearning.ai
  2. github課程資料,含課件與筆記:吳恩達深度學習教學資料
  3. 課程配套練習(中英)與答案:吳恩達深度學習課後習題與答案

本篇為第三課的第二週內容,2.1到2.3的內容。


本週為第三課的第二週內容,本週的內容關於在上週的基礎上繼續展開,並拓展介紹了幾種“學習方法”,可以簡單分為誤差分析和學習方法兩大部分。
其中,對於後者的的理解可能存在一些難度。同樣,我會更多地補充基礎知識和實例來幫助理解。
本篇的內容關於誤差分析與快速迭代,是在上週的優化策略上的再一次完善。

1.如何誤差分析?

誤差分析,一個在理工科裏常見的詞,我們就不多介紹了,在這裏更關鍵的是,如何在DL領域進行科學的誤差分析?
我們繼續用課程裏的例子來進行介紹:
image.png
就像例子裏所説,我們找到了一個誤差原因,可是我們並不知道花費大量時間解決這個問題後指標能上升多少,這個問題到底佔全部誤差的多少?如何找到最大問題?這就是誤差分析的科學所在。
由此,我們繼續往下看:
image.png
image.png
錯誤現象除此之外還有很多,比如濾鏡,標籤標註錯誤等等。
總之,在誤差分析中,我們可以找一組錯誤樣例並統計不同錯誤類型的樣本佔比,就可以找到更需要優先被解決的問題。
下面的內容,我們再展開一些需要細化的方面和其他策略。

2. 標籤標註錯誤

之前,我們都一直默認數據集是一定正確的。
具體説一下,在監督學習中,每個數據對應其標籤,所有貓圖像對應一個標籤,其他類同理,不會出現一個貓的標籤確是狗的情況。
但實際上,圖片的標籤也是人工標註的,因此,出現這種錯誤並不奇怪,我們由此來展開這種情況帶來的影響和相應的處理措施。
來看這個例子:
image.png
因此,總結來説,這種標註錯誤在訓練集中的影響往往不大。

另外,這裏要專門強調一點
穩健性是指系統或模型在面對變化或干擾時保持有效性和穩定性的能力,就像面對此時的標註錯誤。
你也可以叫他健壯性,穩定性等等可以表達這類含義的詞。
但是在論文裏或者其他學術相關的地方我們一般統一叫它魯棒性
這種叫法是源於英文中的“robustness”一詞,是它的音譯,來更準確地傳達英文原意。
所以,如果你在別的地方看到了魯棒性,請記住:魯棒性就是穩健性,穩健性就是魯棒性。
(如果你看了這節的視頻課程,會發現彈幕因為這個問題吵起來了)

我們繼續:
image.png

3.快速迭代

實際上這部分的思想和軟件工程中的敏捷開發有些相似,適用於模型的構建初期階段,很容易理解,就不多展開了。
image.png

4.總結

概念 原理 比喻
誤差分析(Error Analysis) 從錯誤樣本中統計不同類型錯誤的佔比,以確定最影響性能、最值得優先解決的問題。 就像你做完一張考卷後,不是盲目重學一整本書,而是先數一數:數學丟分多,語文只錯一道,那就先補數學。
數據集標註錯誤(Label Error) 訓練集中少量“貓被標成狗”這類錯誤通常不會使模型崩潰,但過多會導致模型混亂。 就像有人偶爾喊錯你名字你也能反應過來,但如果十個人裏有一半都叫你錯名,你就不知道誰是誰了。
魯棒性(Robustness) 模型在面對噪聲、標註問題、輸入擾動等情況下仍保持穩定性能的能力。 像一個聽力很好的朋友:周圍很吵他也能準確聽懂你説話,就是很“魯棒”。
快速迭代(Rapid Iteration) 不用一次做出完美模型,而是做—>訓練—>看結果—>修正—>繼續的循環,類似敏捷開發。 像畫畫:先畫草稿確定構圖,再慢慢精細化,而不是一開始就拼命畫細節。
user avatar
0 位用戶收藏了這個故事!

發佈 評論

Some HTML is okay.