亚洲一区精品自拍_2021年国内精品久久_男同十八禁gv在线观看_免费观看a级性爱黄片

當(dāng)前位置:文章中心>技術(shù)教程
公告通知 新聞快遞 技術(shù)教程 產(chǎn)品展示

ICLR2022頂會論文分享-PoNet:使用多粒度Pooling結(jié)構(gòu)替代attention的網(wǎng)絡(luò)

發(fā)布時間:2022-02-18 點擊數(shù):1120
    
簡介: 近年來,在機(jī)器學(xué)習(xí)范疇Transformer模型已成為最先進(jìn)的(SOTA) 序列建模模型,包含在自然言語處理 (NLP)、核算機(jī)視覺、語音處理、基因組數(shù)據(jù)等都有著廣泛的運用。


image.png


近年來,在機(jī)器學(xué)習(xí)范疇Transformer模型已成為最先進(jìn)的(SOTA) 序列建模模型,包含在自然言語處理 (NLP)、核算機(jī)視覺、語音處理、基因組數(shù)據(jù)等都有著廣泛的運用。

Transformer 成功的關(guān)鍵原因在于它的自我留意(self-attention)機(jī)制,核算輸入表征的每個方位之間的點積。Transformer被證明在學(xué)習(xí)上下文表征方面非常有用,它成為最主要的骨干模型,例如 BERT和 RoBERTa。這些預(yù)練習(xí)言語模型展現(xiàn)了強(qiáng)壯的搬遷學(xué)習(xí)才能,并在廣泛NLP使命中完成了 SOTA。

然而,因為Transformer模型中的self-attention機(jī)制相對于語句長度的復(fù)雜度是二次的(O(N^2)),因而在核算速度和顯存空間方面都限制了它在長序列中的運用。咱們提出了一種具有線性復(fù)雜度 (O(N)) 的核算模型 PoNet ,運用 pooling 網(wǎng)絡(luò)代替 self-attention 機(jī)制對語句詞匯進(jìn)行混合,從而捕捉上下文信息。

試驗表明,PoNet 在長文本測驗 Long Range Arena (LRA) 榜[1] 上在準(zhǔn)確率上比 Transformer 高 2.28 個點,在GPU上運轉(zhuǎn)速度是Transformer的 9 倍,顯存占用只有 1/10。此外,試驗也展現(xiàn)了 PoNet 的搬遷學(xué)習(xí)才能,PoNet-Base 在 GLUE 基準(zhǔn)上達(dá)到了 BERT-Base 的 95.7% 的準(zhǔn)確性。

|| 模型

受到用于視覺使命的外部留意EA[2]的啟示,咱們將其簡化為 多層感知器  softmax,并觀察到 softmax 經(jīng)過分母項將序列信息融入到 token 中供給了上下文建模才能。然而,softmax 涉及到指數(shù)的核算,這仍然是很慢的。因而,咱們考慮運用池化法作為代替辦法,以明顯下降的復(fù)雜度來捕捉語境信息。

模型主要由三個不同粒度的 pooling 組成,一個大局的pooling模塊(GA),分段的segment max-pooling模塊(SMP),和局部的max-pooling模塊(LMP),對應(yīng)捕捉不同粒度的序列信息:


 在第一階段,GA沿著序列長度進(jìn)行均勻得到語句的大局表征g。為了加強(qiáng)對大局信息的捕捉,GA在第二階段對g和輸入練習(xí)核算cross-attention。因為g的長度為1,因而總的核算復(fù)雜度仍為O(N)。

 SMP按每個分段求取最大值,以捕獲中等顆粒度的信息。

 LMP沿著序列長度的方向核算滑動窗口max-pooling。

 然后經(jīng)過池化交融(PF)將這些池化特征聚合起來。因為GA的特征在整個token序列是同享的,SMP的特征在segment內(nèi)部也是同享的,直接將這些特征加到原始token上會使得token趨同(向量加法),而這種token表征同質(zhì)化的影響將會下降比如語句對分類使命的性能。因而,咱們在PF層將原始的token于對應(yīng)的GA,SMP特征核算元素乘法得到新的特征,使得不同的token對應(yīng)了不同的特征。

image.png


|| 試驗結(jié)果

長序列使命

Long Range Arena(LRA) 是用來評價捕捉長距離依賴關(guān)系的基準(zhǔn)測驗。在LRA上,PoNet取得了比Transformer更好的分?jǐn)?shù)。

image.png

在速度和顯存方面,僅次于FNet[3],明顯優(yōu)于Transformer。

image.png

搬遷學(xué)習(xí)

咱們用大規(guī)模語料庫對PoNet進(jìn)行預(yù)練習(xí),然后測驗它在下流使命上的性能。下圖是預(yù)練習(xí)的  MLM[4] 和 SSO[5] 兩個子使命的練習(xí)曲線,能夠看到,咱們的模型在 MLM 上略弱小于 BERT ,在 SSO 上與 BERT 還有必定的差距,兩個使命上都明顯要優(yōu)于 FNet 。

image.png

GLUE

PoNet取得了76.80的AVG分?jǐn)?shù),達(dá)到了 BERT 在 GLUE 上的準(zhǔn)確率(80.21)的95.7%,相對來說比 FNet 要好4.5%。這些性能比較與圖2中顯示的預(yù)練習(xí)準(zhǔn)確率一致。

image.png

長文本使命

咱們還評價了預(yù)練習(xí)的 PoNet 在四個長文本分類數(shù)據(jù)集上的性能。從表4能夠看出,PoNet-Base 在 HND 和 Arxiv 上優(yōu)于 BERT-Base,在 IMDb 和 Yelp-5 上的F1分?jǐn)?shù)達(dá)到了 BERT-Base 的99%。

image.png

融化分析

下面的融化試驗也證明晰每個組件的重要性。一起與 L_MN(MLM+NSP),L_OM(MLM) 也說明晰預(yù)練習(xí)使命運用 MLM+SSO 的必要性。

image.png

|| 總結(jié)

咱們提出了一個運用多粒度的 Pooling 結(jié)構(gòu)來代替 attention 的網(wǎng)絡(luò)(PoNet),它能夠捕捉到不同層次的上下文信息,讓序列的 token 之間能夠得到有用的交互。試驗表明,PoNet 既完成了有競爭力的長距離依賴性建模才能,又完成了強(qiáng)壯的搬遷學(xué)習(xí)才能,而且具有線性的時刻和顯存復(fù)雜度。


|| Future Work

未來的作業(yè)包含進(jìn)一步優(yōu)化模型結(jié)構(gòu)和預(yù)練習(xí),以及將 PoNet 運用于包含生成使命在內(nèi)的更廣泛的使命。咱們希望PoNet模型能夠?qū)μ骄扛咝У男蛄薪DP凸┙o一些啟示。