구차니의 잡동사니 모음

llm transformer

좀 더 자세히 써있는 내용

어떻게 문장을 넣나 했더니

임베딩한 벡터를 1차원씩 넣어주고

결과로 나온 것과 입력 1차원씩 합쳐서 계속 넣어주고

뺄때는 최대 토큰 갯수 혹은

EOS(End of Sequence)가 나올때 까지

출력 벡터가 나오면 다시 그걸 이어서 출력단에 다시 넣어주면

전체 계산하는게 아니라 출력단만 빠르게 계산되어 결과가 쭈욱 나오는듯.

참.. 마법같네

llama.cpp build / cuda compute capability (0)	2026.04.25
llama.cpp ubuntu vulkan 1080ti 11GB * 2 실패 (0)	2026.04.25
nvidia-smi를 통한 소비전력 제한과 토큰 생성속도 (1)	2026.04.24
llama-server web ui (0)	2026.04.24
llama.cpp on windows / cuda vs vulkan (0)	2026.04.24