keep reading, keep writing, keep coding
人生有限,做自己喜欢的事
the-rise-of-decoder-only-model the-rise-of-decoder-only-model
Bert是由encoder-only训练而来,T5由encoder-decoder训练而来,不过都是需要有大量的训练语料才能够训练而来. 近
Transformer相关技术问题 Transformer相关技术问题
Bert为什么没有Decoder模块 Decoder是否存在其实是依赖于预测目标依赖什么数据的? 以下的tokens表示为预测目标 传
深入理解Transformer(一): 基础 深入理解Transformer(一): 基础
Transformer在2017年被提出时,作为一种序列转换工具将一个序列转换为另一个符号序列,最流行的例子是翻译,比如从英语到德语。它还被
Prompt 综述 Prompt 综述
Prompt已然成为新的模型训练方式,方法日新月异,所以全面 介绍 三要素 Prompt Template Answer Search
2022-06-12
Cross Attention Cross Attention
Cross Attention是用来处理两个不同Sequence时的SelfAttention变体。 介绍 属于Transformer常见
数据结构在机器学习中的思考 数据结构在机器学习中的思考
当不同任务下的数据结构统一后,如训练数据、验证数据以及测试数据,模型的训练、切换、验证、测试等不同阶段都可以实现高效自动化。 介绍 做过模
2022-03-23
NLP 高频面试题目 NLP 高频面试题目
NLP 大专题 统计及其学习 AUC、ROC Precision、Recall L1、L2正则化规律 NCE Loss Word2Vec
2021-09-21
Few-shot Intent Classification and Slot Filling with Retrieved Examples Few-shot Intent Classification and Slot Filling with Retrieved Examples
使用基于检索式的方法建模意图识别和槽填充。个人认为这种方法比较符合人类的思维方式,通过拿SupportSet召回最相思的Span,从而根据这
如何快速做算法实验 如何快速做算法实验
每个算法工程师都必须要有自己熟悉的一套code toolkit,包含各种不同的任务,开放不同模块的接口,能够快速复现出sota方法,同时最重
2021-05-11
1 / 2