prefill和decode | 格物致知

prefill阶段：对输入的 prompts 进行处理

decode阶段：利用自回归的方式来生成 tokens

一个请求会经过一次prefill，和多次decode，每生成一个token就进行一次decode。

prefill是计算密集型的，由于涉及自注意力等大型矩阵计算；decode是IO密集型的，每次仅处理一个token，但需要频繁读取KV cache。

prefill输入是一个[B,L,H]，其中B是Batch Size，指的是请求的数量；L是Length，指的是输入prompt的长度，H是embeding的维度。

decode的输入是[B,1,H],由于decode输入是上一个输出的 token，因此L是1