llama-swap 구현 (채팅)

/v1/chat/completions 통해서 문맥을 유지할때 어떻게 구현되나 했더니

llama-swap 에서 대화내용을 보니 이해된다.

assistant에 ai 대답을 넣는다고만 해서 복수개면 어떻게 하나 했는데

UI 상으로는 이렇게 나오고

로그 상으로는 아래와 같이 나온다

1번 째 질문 "하이하이"

2번 쩨 질문 "엉 왜 refused"

그리고 이전 대화를 messages의 배열에 순서대로 넣으면

가장 마지막 대화를 기준으로 답을 주게 되는걸려나?

당연(?) 하지만 reasoning은 빼고 순수 응답 내용만 assistant에 넣어서 보낸다.

mogrify를 이용한 이미지 증강, 배경색 설정 (0)	2026.06.25
local llm - mcp (0)	2026.06.20
gemma4-e4b mtp..? (0)	2026.06.18
openai api 변경에 따른 llama.cpp / llama-swap 리포트 차이 (0)	2026.06.18
llama-swap 버전 업데이트! (0)	2026.06.18