摘要:憑藉對雙向上下文進行建模的能力,與基於自迴歸語言建模的預訓練方法相比,基於BERT的基於自動編碼的預訓練實現了更好的性能。然而,依賴於對輸入使用掩碼,BERT忽略了屏蔽位置之間的依賴性,並且受到預訓練 - 微調差異的影響。根據這些優點和缺點,我們提出了XLNet,一種廣義自迴歸預訓練方法,它(1)通過最大化分解階的所有排列的預期可能性來學習雙向上下文,並且(2)由於其自迴歸性,克服了BERT的侷限性。此外,XLNet將最先進的自迴歸模型Transformer-XL的創意整合到預訓練中。根據實驗,XLNet在20個任務上的表現優於BERT,且都有大幅度提升,並在18個任務中實現最先進的結果,包括問答,自然語言推理,情感分析和文檔排名。

無監督表示學習在自然語言處理領域非常成功[7,19,24,25,10]。通常,這些方法首先在大規模標記的文本語料庫上預先訓練神經網絡,然後對下游任務的模型或表示進行微調。在這個共享的高層次思想下,文獻中探討了不同的無監督預訓練目標。其中,自迴歸(AR)語言建模和自動編碼(AE)是兩個最成功的預訓練目標.