博客 / 列表

中昊芯英 - DeepSeek-V3.2的DSA稀疏注意力技術:在TPU平台上的效能革命與適配實踐

9 月 29 日,DeepSeek 最新發布的DeepSeek-V3.2-Exp模型引入了自主研發的DeepSeek Sparse Attention(DSA)稀疏注意力機制,在幾乎不影響模型性能的前提下,實現了長文本訓練和推理效率的大幅提升。本文旨在深入解析 DSA 的技術原理,並重點探討中昊芯英「剎那®」TPU 平台如何憑藉其片上緩存與高度並行矩陣計算單元,在 Lightning Indexe

機器學習 , tensorflow , 神經網絡 , 自然語言處理 , 人工智能