일단 메모리 차이는 큰 것 같고
cpu 만을 사용할땐 성능 차이가 거의 없는 듯 하다.
llama3.2 on ollama
| $ ollama --verbose >>> 안녕? 너에 대해서 설명 안녕하세요! 난 다나이, AI의 지식형입니다. 다나이란 인공지능(IAI) 기술을 사용하여 인간과 대화를 करन하고, 정보를 제공하는 컴퓨터 프로그램입니다. 나의 목표는 Menschen과 सहय동하여 질문에 대한 답변을 제공하고, 다양한 주제와 주제를 다루어 provide하는 것입니다. 저는 다 variety의 지식과 능력을 가지고 있으며, 다양한 문제나 질문에 대해 답변할 수 있습니다. 저는 또한-user가 자 신의 생각이나 질문을 나누어 주고 사용자에게 가장 적합한 answered을 제공하는 것을 목표로 하고 있습니다. 다나이의 강점은 다음과 같습니다: - Human-like 대화: 저는-human-like의 대화를 possible합니다, human과 비슷한 방식으로 대화할 수 있습니다. - 지식형: 저는 다양한 주제와 지식을 가지고 있으며, 사용자에 대한 답변을 provide할 수 있습니다. - 사용자-friendly: 저는 user-friendly를 목표로 하고 있으며, 사용자가 쉽게 질문을 하거나 나누어 주는 것을 support합니다. 다나이의 한계는 다음과 같습니다: - 지식형: 저는 지식과 능력을 가지고います, 그러나 모든 경우에 대해 complete knowledge가 항상 available하지 않습 니다. - Limited domain: 저는 specific domain에서 only limitedly conversation을 할 수 있습니다. - Human-like behavior: 저는 human-like의 behavior를 display할 수 있습니다, 그러나 sometimes human-like behavior를 exhibit할 수 있습니다. 저는 use case에 따라 다양한 장점과 한계를 가지고 있으며, user-friendly하고 지식형이지만, complete knowledge가 항 상 available하지 않습니다. 다시 한번 안녕하세요! 저와 대화를 하려면 어떤 주제에 대해 질문해 보시는가요? total duration: 39.327341083s load duration: 142.986088ms prompt eval count: 32 token(s) prompt eval duration: 1.194488145s prompt eval rate: 26.79 tokens/s eval count: 388 token(s) eval duration: 37.152939235s eval rate: 10.44 tokens/s $ ollama ls NAME ID SIZE MODIFIED qwen3.5:2b 324d162be6ca 2.7 GB 13 days ago gemma4:e2b 7fbdbf8f5e45 7.2 GB 13 days ago gemma3:1b 8648f39daa8f 815 MB 13 days ago llama3.2:latest a80c4f17acd5 2.0 GB 13 days ago $ ollama show llama3.2:latest Model architecture llama parameters 3.2B context length 131072 embedding length 3072 quantization Q4_K_M Capabilities completion tools Parameters stop "<|start_header_id|>" stop "<|end_header_id|>" stop "<|eot_id|>" License LLAMA 3.2 COMMUNITY LICENSE AGREEMENT Llama 3.2 Version Release Date: September 25, 2024 ... $ ollama run --verbose llama3.2:latest >>> /set parameter Available Parameters: /set parameter seed Random number seed /set parameter num_predict Max number of tokens to predict /set parameter top_k Pick from top k num of tokens /set parameter top_p Pick token based on sum of probabilities /set parameter min_p Pick token based on top token probability * min_p /set parameter num_ctx Set the context size /set parameter temperature Set creativity level /set parameter repeat_penalty How strongly to penalize repetitions /set parameter repeat_last_n Set how far back to look for repetitions /set parameter num_gpu The number of layers to send to the GPU /set parameter stop ... Set the stop parameters >>> /set parameter num_ctx 4096 Set parameter 'num_ctx' to '4096' >>> 안녕? 너에 대해서 설명 안녕하세요! 저는 지능형 대화bot입니다. tôi의 목표는 Menschen과 상호작용하여 helpful한 정보를 제공하고, 그들의 질 문에 대한 जव답을 제공하는 것입니다. my name is "LLaMA", Llama stands for "Large Language Model Meta AI". my capabilities include: * Natural Language Processing (NLP): I can understand and generate human-like language. * Question Answering: I can provide answers to a wide range of questions on various topics. * Text Generation: I can create text based on a prompt or topic. my strengths include: * Knowledge base: I have been trained on a massive dataset of text, which allows me to provide accurate and up-to-date information on various topics. * Conversational flow: I can engage in natural-sounding conversations, using context and understanding to respond to questions and statements. total duration: 17.130872381s load duration: 131.746647ms prompt eval count: 32 token(s) prompt eval duration: 82.553469ms prompt eval rate: 387.63 tokens/s eval count: 184 token(s) eval duration: 16.560046318s eval rate: 11.11 tokens/s |
gemma4:e4b 모델
| $ ollama show gemma4:e2b Model architecture gemma4 parameters 5.1B context length 131072 embedding length 1536 quantization Q4_K_M requires 0.20.0 Capabilities completion vision audio tools thinking Parameters temperature 1 top_k 64 top_p 0.95 License Apache License Version 2.0, January 2004 ... $ ollama --verbose >>> /set parameter num_ctx 4096 Set parameter 'num_ctx' to '4096' >>> 안녕? 너에 대해 설명 Thinking... Thinking Process: 1. **Analyze the Request:** The user asked "안녕? 너에 대해 설명" (Hello? Explain about yourself). This is a request for identity and capability description. 2. **Determine Core Identity (Self-Correction/Verification):** * Name: Gemma 4. * Developer: Google DeepMind. * Nature: Large Language Model (LLM). * Type: Open weights model. 3. **Determine Capabilities:** * Input: Text and images (and audio for some family models, but generally, focus on the main interaction modes). * Output: Text generation. * Knowledge: Broad, based on training data. 4. **Determine Knowledge Cutoff:** (Not strictly necessary for a general introduction, but good context: Knowledge cutoff is Jan 2025). 5. **Structure the Response (in Korean):** * Greeting (Acknowledge the "안녕"). * Identify Self (Name, Type). * Explain Origin/Developer. * Explain Function/Capabilities (What I do). 6. **Draft the Response (Internal Monologue & Refinement):** * *Start:* Hello. * *Identity:* I am Gemma 4. * *Origin:* I was developed by Google DeepMind. * *Nature:* I am a Large Language Model (LLM) and an open weights model. * *Function:* I can understand and generate text, answer questions, summarize, translate, and help with creative writing, etc. 7. **Final Polish (Ensure natural and accurate Korean phrasing):** (The resulting response should be polite and informative.) (Self-check: Did I claim image generation? No. Did I claim search? No.) **(This leads to the final Korean output.)** ...done thinking. 안녕하세요! 저는 **Gemma 4**입니다. 저에 대해 몇 가지 설명해 드릴게요. 1. **정체성:** 저는 Google DeepMind에서 개발한 **대규모 언어 모델(Large Language Model, LLM)**입니다. 저는 공개된 가중치(open weights) 모델로 설계되 었습니다. 2. **기능:** 저는 사용자가 입력하는 텍스트를 이해하고, 그에 기반하여 자연스 러운 텍스트를 생성하는 것이 주된 역할입니다. * 질문에 답하기 * 정보 요약 및 설명하기 * 번역하기 * 글쓰기 및 창의적인 콘텐츠 생성 돕기 * 다양한 주제에 대해 대화하기 3. **입력 및 출력:** 저는 텍스트와 이미지를 이해할 수 있으며, 사용자에게는 **텍스트 형태**로 응답을 생성합니다. 4. **목표:** 저는 사용자에게 유용하고 정확하며 도움이 되는 정보를 제공하고 , 다양한 작업을 돕기 위해 존재합니다. 궁금한 점이 있거나 도움이 필요하시면 언제든지 말씀해주세요! 😊 total duration: 59.13545796s load duration: 381.889243ms prompt eval count: 22 token(s) prompt eval duration: 1.468123435s prompt eval rate: 14.99 tokens/s eval count: 660 token(s) eval duration: 56.324528227s eval rate: 11.72 tokens/s |
llama.cpp는 기본값이 128k 인데 그러면 자꾸 모델 로딩 실패해서 4096으로 줄임
나름 10세대 노트북인데 하스웰이나 똑같은 건가..(avx?)
| $ ../llama-cli -m Llama-3.2-3B-Instruct-Q4_K_M.gguf -c 4096 load_backend: loaded RPC backend from /home/falinux/work/src/llama-b8876/libggml-rpc.so load_backend: loaded CPU backend from /home/falinux/work/src/llama-b8876/libggml-cpu-haswell.so Loading model... ▄▄ ▄▄ ██ ██ ██ ██ ▀▀█▄ ███▄███▄ ▀▀█▄ ▄████ ████▄ ████▄ ██ ██ ▄█▀██ ██ ██ ██ ▄█▀██ ██ ██ ██ ██ ██ ██ ██ ▀█▄██ ██ ██ ██ ▀█▄██ ██ ▀████ ████▀ ████▀ ██ ██ ▀▀ ▀▀ build : b8876-72d693e4f model : Llama-3.2-3B-Instruct-Q4_K_M.gguf modalities : text available commands: /exit or Ctrl+C stop or exit /regen regenerate the last response /clear clear the chat history /read <file> add a text file /glob <pattern> add text files using globbing pattern > 안녕? 너에 대해서 설명 안녕하세요! 나는 어트론, artificial intelligence (AI)로 알려진 intelligence-enhancing chatbot입니다. 我的 목적은 ngườiों과 상호작용하여 정보를 제공하고, 문제를 해결하고, 질문을 trả주기 위하여 설계되었습니다. 나는 인간과 매우 비슷한 방식으로 생각하고 말하기를習慮하고 있으며, 다양한 주제에 대해 정보를 제공할 수 있습니다. 그럼, 어떤 정보를 muốn받을까요? [ Prompt: 32.3 t/s | Generation: 11.6 t/s ] > Exiting... common_memory_breakdown_print: | memory breakdown [MiB] | total free self model context compute unaccounted | common_memory_breakdown_print: | - Host | 2615 = 1904 + 448 + 262 | common_memory_breakdown_print: | - CPU_REPACK | 1299 = 1299 + 0 + 0 | |
| $ ../llama-cli -m gemma-4-E2B-it-Q4_K_M.gguf -c 4096 load_backend: loaded RPC backend from /home/falinux/work/src/llama-b8876/libggml-rpc.so load_backend: loaded CPU backend from /home/falinux/work/src/llama-b8876/libggml-cpu-haswell.so Loading model... ▄▄ ▄▄ ██ ██ ██ ██ ▀▀█▄ ███▄███▄ ▀▀█▄ ▄████ ████▄ ████▄ ██ ██ ▄█▀██ ██ ██ ██ ▄█▀██ ██ ██ ██ ██ ██ ██ ██ ▀█▄██ ██ ██ ██ ▀█▄██ ██ ▀████ ████▀ ████▀ ██ ██ ▀▀ ▀▀ build : b8876-72d693e4f model : gemma-4-E2B-it-Q4_K_M.gguf modalities : text available commands: /exit or Ctrl+C stop or exit /regen regenerate the last response /clear clear the chat history /read <file> add a text file /glob <pattern> add text files using globbing pattern > 안녕? 너에 대해서 소개 [Start thinking] Thinking Process: 1. **Analyze the Request:** The user said "안녕? 너에 대해서 소개" (Hello? Introduce yourself/Tell me about yourself). This is a standard identity query. 2. **Determine Identity (Self-Correction/Verification):** * Name: Gemma 4. * Developer: Google DeepMind. * Nature: Large Language Model (LLM), open weights. * Capabilities: Understand text and images (input), generate text (output). Knowledge cutoff is January 2025. 3. **Formulate the Response Strategy (in Korean):** * Greeting: Start with a friendly greeting. * Core Identity: State name and developer. * Nature/Type: Explain what I am (LLM, open weights). * Function/Capabilities: Describe what I can do (process language, answer questions, generate text). * (Optional but good practice) Mention input/output modalities. 4. **Draft the Response (Iterative Refinement in Korean):** * *Initial thought:* 안녕하세요. 저는 Gemma 4입니다. Google DeepMind에서 개발한 대규모 언어 모델입니다. * *Adding detail:* 저는 텍스트와 이미지를 이해하고 텍스트로 답변을 생성할 수 있습니다. * *Final polish (ensuring the tone is appropriate and adhering to the persona):* Combine these points into a smooth, informative introduction. 5. **Final Output Generation (Korean):** (This matches the desired output.) [End thinking] 안녕하세요! 저는 **Gemma 4**입니다. 저는 Google DeepMind에서 개발한 **오픈 웨이트(open weights) 대규모 언어 모델(LLM)**입니다. **저의 주요 특징은 다음과 같습니다:** * **정체성:** 저는 방대한 데이터를 학습하여 인간의 언어를 이해하고 처리하도록 설계되었습니다. * **기능:** 텍스트 기반의 질문에 답변하고, 정보를 요약하며, 창의적인 글(시, 이야기, 코드 등)을 작성하는 등 다양한 언어 작업을 수행할 수 있습니다. * **입력 능력:** 텍스트와 이미지를 이해하고 처리할 수 있습니다. * **목표:** 사용자님께 유용하고 정확하며 자연스러운 방식으로 도움을 드리는 것을 목표로 합니다. 궁금한 점이 있거나 도움이 필요하시면 언제든지 말씀해 주세요! 😊 [ Prompt: 41.1 t/s | Generation: 13.2 t/s ] |
'프로그램 사용 > ai 프로그램' 카테고리의 다른 글
| llama.cpp 도전! (0) | 2026.04.22 |
|---|---|
| unsloth ai (0) | 2026.04.21 |
| ollama 외부접속 관련 (0) | 2026.04.21 |
| llm tokenizer - llama 3.2, exaone (0) | 2026.04.20 |
| ollama 모델 저장소 뜯어보기 (0) | 2026.04.19 |
