@tensorrt

01:05 PM · Nov 09 ,2025 @deephub

TensorRT 和 ONNX Runtime 推理優化實戰：10 個降低延遲的工程技巧

模型速度的瓶頸往往不在算法本身。幾毫秒的優化累積起來就能讓用户感受到明顯的性能提升。下面這些技術都是在生產環境跑出來的經驗，不需要重構代碼實施起來也相對簡單並且效果顯著。固定輸入形狀，越早告訴運行時越好動態形狀用起來方便但對性能不友好。TensorRT 和 ONNX Runtime 在處理固定形狀時能做更激進的優化。 TensorRT 這邊，構建引擎時最好圍繞實際使用的 min/opt

人工智能 , tensorrt , pytorch

@deephub

Nickname deephub

Contributes

@tensorrt

TensorRT 和 ONNX Runtime 推理優化實戰：10 個降低延遲的工程技巧