keep reading, keep writing, keep coding
我想,坚持把博客给写下去
the-rise-of-decoder-only-model the-rise-of-decoder-only-model
Bert是由encoder-only训练而来,T5由encoder-decoder训练而来,不过都是需要有大量的训练语料才能够训练而来. 近
Transformer相关技术问题 Transformer相关技术问题
Bert为什么没有Decoder模块 Decoder是否存在其实是依赖于预测目标依赖什么数据的? 以下的tokens表示为预测目标 传
深入理解Transformer(一): 基础 深入理解Transformer(一): 基础
Transformer在2017年被提出时,作为一种序列转换工具将一个序列转换为另一个符号序列,最流行的例子是翻译,比如从英语到德语。它还被