ETL測試分為離線ETL和實時ETL測試。

實時ETL的測試點:

    鏈路數據的一致性

  主要驗證每個鏈路節點數據消費的一致性,重點確保整個鏈路各個節點的數據處理和消費情況一致,也就是通過對數據消費的分時、分頻率對比完成一致性驗證。

  

離線使用hanlp裏的模型需要什麼操作_鏈路

 

natural-flow:自然消費的數據流,是源於線上真實的數據消息通道,即自然頻率的數據消費,以該模式進行測試更貼合實際業務情景;

    high-frequency:高頻數據流,採用超出真實峯值或者其他設定值的數據頻次輸送給實時消費鏈路,在壓測或者檢測鏈路穩定性中是一個常用的測試策略;

    low-frequency:低頻數據流,採用明顯低於真實值或者特定的低頻次數據輸送給實時消費鏈路。如果數據鏈路中有基於數據量的批量處理策略會暴露的比較明顯,比如批量處理的閾值是 100,那麼在業務低峯時很有可能達不到策略閾值,這批數據就會遲遲不更新,這個批量處理策略可能不是合理。同時低頻次的消費對於實時鏈路處理的一些資源、鏈接的最低可用度這些層面的檢查也是有意義的。

    步驟:先通過不同數據流頻率將數據輸送實時鏈路消費,然後取不同抽樣時間間隔的數據進行對比分析,確保數據的一致性(如count uniq sum )。

    鏈路數據的完整性

  從源頭處理到前端展示,不能因為數據邏輯權限、存儲異常和前端展現異常等導致數據丟失,經典如下:

   在原始數據中,若出現“背壓”,會導致數據源消息積壓。如果積壓嚴重,會導致資源耗盡,可能早點成數據丟失;

      在數據處理階段,如果數據未按照需求進行處理,會導致目標有效數據丟失; 

  在數據存儲階段,如果存儲容量已經滿了,會造成新數據無法繼續寫入,最終會導致數據丟失。

    鏈路數據的及時性

      數據及時性,顧名思義就是測試數據需要按時產出。及時性重點關注的三個要素是:定時調度時間、優先級以及數據deadline。其中任務的優先級決定了它獲取數據計算資源的多少,影響了任務執行時長。數據deadline則是數據最晚產出時間的統一標準,需要嚴格遵守。

    數據的快速恢復驗證

    在數據傳輸過哦成中,如果因為系統異常中斷,會停留在某一環節,在系統恢復後,需要確認停止的數據可以快速恢復流轉,且處理正確,無數據遺漏和數據重複消費。

數據的消費性能----還沒想清楚。。。。。

    實時數據處理本身是一套全鏈路數據計算服務,性能測試比較重要。還未理解

    數據流轉過程中關鍵節點的監控