前言 TeleTron是基於Megatron-LM二開的項目主要對視頻訓練做了大量優化 1.Ulysses Context Parallel (上下文並行)原理 下面的例子主要展示的是 Image Tokens(最複雜的部分)。 TeleTron 中 DiT 模型處理長序列的核心機制:如何通過 SeqAllToA