좀 더 자세히 써있는 내용
어떻게 문장을 넣나 했더니
임베딩한 벡터를 1차원씩 넣어주고
결과로 나온 것과 입력 1차원씩 합쳐서 계속 넣어주고
뺄때는 최대 토큰 갯수 혹은
EOS(End of Sequence)가 나올때 까지
출력 벡터가 나오면 다시 그걸 이어서 출력단에 다시 넣어주면
전체 계산하는게 아니라 출력단만 빠르게 계산되어 결과가 쭈욱 나오는듯.
참.. 마법같네
'프로그램 사용 > ai 프로그램' 카테고리의 다른 글
| llama.cpp windows cuda12 1080 ti 11GB * 2 테스트 (0) | 2026.04.25 |
|---|---|
| llama.cpp build / cuda compute capability (0) | 2026.04.25 |
| nvidia-smi를 통한 소비전력 제한과 토큰 생성속도 (1) | 2026.04.24 |
| llama-server web ui (0) | 2026.04.24 |
| llama.cpp on windows / cuda vs vulkan (0) | 2026.04.24 |
