快捷搜索:  as

谷歌将AutoML应用于Transformer架构,翻译结果飙升!

为了探索AutoML在序列域中的利用是否能够取得的成功,谷歌的钻研团队在进行基于进化的神经架构搜索(NAS)之后,应用了翻译作为一样平常的序列义务的代理,并找到了Evolved Transformer这一新的Transformer架构。Evolved Transformer不仅实现了最先辈的翻译结果,与原始的Transformer比拟,它还展示了说话建模的改进机能。

自几年前推出以来,Google的Transformer架构已经利用于从制作奇幻小说到编写音乐和声的各类寻衅。紧张的是,Transformer的高机能已经证实,当利用于序列义务(例如说话建模和翻译)时,前馈神经收集可以与递归神经收集一样有效。虽然用于序列问题的Transformer和其他前馈模型越来越受迎接,但它们的架构险些完全是手动设计的,与谋略机视觉领域形成光显比较。AutoML措施已经找到了最先辈的模型,其机能优于手工设计的模型。当然,我们想知道AutoML在序列域中的利用是否同样成功。

在进行基于进化的神经架构搜索(NAS)之后,我们应用翻译作为一样平常的序列义务的代理,我们找到了Evolved Transformer,这是一种新的Transformer架构,它展示了对各类自然说话处置惩罚(NLP)义务的有盼望的改进。Evolved Transformer不仅实现了最先辈的翻译结果,而且与原始的Transformer比拟,它还展示了说话建模的改进机能。我们是将此新模型作为Tensor2Tensor的部分宣布,它可用于任何序列问题。

开拓技巧

要开始进化NAS,我们有需要开拓新技巧,由于用于评估每个架构的“适应性”的义务——WMT'14英语-德语翻译——谋略量很大年夜。这使得搜索比在视觉领域中履行的类似搜索加倍昂贵,这可以使用较小的数据集,如CIFAR-10。

这些技巧中的第一种是温启动——在初始进化种群中播种Transformer架构而不是随机模型。这有助于在我们认识的搜索空间区域中进行搜索,从而使其能够更快地找到更好的模型。

第二种技巧是我们开拓的一种称为渐进动态障碍(PDH)(Progressive Dynamic Hurdles )的新措施,这种算法增强了进化搜索,以便为最强的候选者分配更多的资本,这与先前的事情相反,此中NAS的每个候选模型被分配相同的评估时的资本量。假如模型显着不好,PDH容许我们提前终止对模型的评估,从而使有出路的架构得到更多资本。

Evolved Transformer简介

应用这些措施,我们在翻译义务长进行了大年夜规模的NAS,并发清楚明了Evolved Transformer(ET)。与大年夜多半序列到序列(seq2seq)神经收集体系布局一样,它有一个编码器,将输入序列编码为嵌入,解码器应用这些嵌入构造输出序列;在翻译的环境下,输入序列是要翻译的句子,输出序列是翻译。

演化变压器最有趣的特性是其编码器和解码器模块底部的卷积层,在两个地方都以类似的分支模式添加(即输入在加到一路之前经由过程两个零丁的卷积层)。

Evolved Transformer与原始Transformer编码器架构的对照。留意模块底部的分支卷积布局,它自力地在编码器和解码器中形成。

这一点分外有趣,由于在NAS时代编码器和解码器架构不共享,是以自力发明该架构对编码器和解码器都很有用,这阐清楚明了该设计的上风。虽然最初的Transformer完全依附于自我关注,但Evolved Transformer是一种混杂体,使用了自我关注和广泛卷积的上风。

对Evolved Transformer的评估

为了测试这种新架构的有效性,我们首先将它与我们在搜索时代应用的英语-德语翻译义务的原始Transformer进行了对照。我们发明在所有参数尺寸下,Evolved Transformer具有更好的BLEU和 perplexity performance,拥有最大年夜增益与移动设备兼容(约700万个参数),证清楚明了参数的有效应用。在更大年夜的尺寸上,Evolved Transformer在WMT'14 En-De上达到了最先辈的机能,BLEU得分为29.8,SacreBLEU得分为29.2。

不合尺寸的WMT'14 En-De Evolved Transformer与原Transformer的对照。机能的最大年夜前进发生在较小的尺寸上,而ET在较大年夜的尺寸上也显示出强度,优于最大年夜的Transformer,参数削减37.6%(要对照的模型用绿色圈出)。

为了测试普遍性,我们还在其他NLP义务上将ET与Transformer进行了对照。首先,我们钻研了应用不合说话对的翻译,发明ET体现提升,其边缘与英语-德语相似; 再次,因为其有效应用参数,对付中型模型察看到了最大年夜的提升。我们还对照了应用LM1B进行说话建模的两种模型的解码器,并且看到机能提升近2个perplexity。

未来事情

这些结果是探索体系布局搜索在前馈序列模型中利用的第一步。Evolved Transformer 作为Tensor2Tensor的一部分已开源,在那里它可以用于任何序列问题。为了前进可重复性,我们还开源了我们用于搜索的搜索空间,以及实施渐进动态障碍的Colab。我们等候着看到钻研团体用新模型做了什么,并盼望其他人能够使用这些新的搜索技巧!

您可能还会对下面的文章感兴趣: