ip所在归属地 ip385( 二 )


注意力机制是合适的词对齐方法吗?
词对齐(word alignment)的概念在 SMT 和 NMT 中是非常不同的 。我们对注意力向量(attention vectors/软对齐矩阵)的序列和使用 fast-align 获得的词对齐进行比较 。

ip所在归属地 ip385

文章插图
注意力状态(attention states)和 fast-align 对齐点除了德语-英语或多或少都有点相关性 。
挑战六:束搜索
为了增大束参数(beam parameter)常常需要回报递减(diminishing returns),这些分数的增加通常预示着更大的射束 。

ip所在归属地 ip385

文章插图
增加束尺寸并没有持续地改善翻译质量 。最优的束尺寸从 4(捷克语到英语)到大约 30(英语到罗马尼亚语)不等 。质量降低的主要原因是射束越宽,翻译的长度越短 。
总结
最后虽然神经机器翻译有这些困难,当我们不能否认的是它十分高效 。并且神经机器翻译仍然已经克服了大量的挑战,最显著的是 NMT 在领域外和低资源条件下的翻译十分出色 。

ip所在归属地 ip385

文章插图
论文地址:
https://arxiv.org/pdf/1706.03872.pdf
【ip所在归属地 ip385】摘要:我们探索了神经机器翻译的六大挑战:领域误匹配、训练数据的总量、生僻单词、长句子、词对齐和束搜索(beam search) 。我们同样展示了基于短语统计机器翻译质量的不足和改进之处 。


特别声明:本站内容均来自网友提供或互联网,仅供参考,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。