(资料图片仅供参考)
首先,看下LSTM的几点优势:
而即便是LSTM出现之后,仍然存在一定的问题,为了解决这些问题,开始出现Attention机制。主要优势在于:
更好地捕捉长距离依赖关系:在LSTM中,信息需要从前向后依次传递,因此随着序列长度的增加,LSTM的性能会逐渐降低。而在Attention机制中,每个时间步骤都可以自适应地聚焦于最相关的部分,因此可以更好地捕捉长距离依赖关系。更好地处理变长输入序列:在LSTM中,输入序列需要进行填充或截断,使其长度相同。这会浪费大量的计算资源和内存,同时也会影响模型性能。而在Attention机制中,输入序列可以是变长的,因为注意力权重可以根据输入序列的长度动态计算。更好地处理多个输入序列:在LSTM中,通常需要将多个输入序列进行拼接或者堆叠。这样会使得模型的计算量和内存占用增加。而在Attention机制中,每个输入序列都可以单独计算注意力权重,因此可以更好地处理多个输入序列。Attention机制可以自适应地聚焦于最相关的部分,更好地捕捉长距离依赖关系,更好地处理变长输入序列和多个输入序列。这使得Attention机制成为处理序列数据的一种非常有效的方法。
从Attention机制开始,其实RNN的发展或者说神经网络的发展才逐步的走向快速发展的时期,用一个不恰当的比喻:从SimpleRNN到LSTM再到Attention,相当于刚出生的婴儿到咿呀学语,现在终于会走路了。。。。等到下一期我再继续介绍Attentioin机制如何跟LSTM结合改善,再到Self-Attention(自注意力记住),再到Transformer再到GPT,才算是从走到跑,到幼儿园,小学。。。。
2017年Google发表论文《attention is all you need》,彻底引爆了attention的机制,然后出现了多头自注意力等。然后Transformer出现了,然后就是BERT,然后就是大家熟悉的GPT出现啦,今天带大家走马观花的了解一下发展过程,其实说来简单,但是这里每一步都少不了前辈学者们断探索和努力。
很有幸我们可以生在这个时代,见证这个时代!
变革时刻在发生。。。。
标签: