prefill和decode
frc99 中本葱

Overview

prefill阶段:对输入的 prompts 进行处理

decode阶段:利用自回归的方式来生成 tokens

一个请求会经过一次prefill,和多次decode,每生成一个token就进行一次decode。

prefill是计算密集型的,由于涉及自注意力等大型矩阵计算;decode是IO密集型的,每次仅处理一个token,但需要频繁读取KV cache。

prefill的输入

prefill输入是一个[B,L,H],其中B是Batch Size,指的是请求的数量;L是Length,指的是输入prompt的长度,H是embeding的维度。

decode的输入

decode的输入是[B,1,H],由于decode输入是上一个输出的 token,因此L是1

由 Hexo 驱动 & 主题 Keep