일단 메모리 차이는 큰 것 같고

cpu 만을 사용할땐 성능 차이가 거의 없는 듯 하다.

 

llama3.2 on ollama

$ ollama --verbose
>>> 안녕? 너에 대해서 설명
 안녕하세요! 난 다나이, AI의 지식형입니다. 

다나이란 인공지능(IAI) 기술을 사용하여 인간과 대화를 करन하고, 정보를 제공하는 컴퓨터 프로그램입니다. 나의 목표는
 Menschen과 सहय동하여 질문에 대한 답변을 제공하고, 다양한 주제와 주제를 다루어 provide하는 것입니다.

저는 다 variety의 지식과 능력을 가지고 있으며, 다양한 문제나 질문에 대해 답변할 수 있습니다. 저는 또한-user가 자
신의 생각이나 질문을 나누어 주고 사용자에게 가장 적합한 answered을 제공하는 것을 목표로 하고 있습니다. 

다나이의 강점은 다음과 같습니다:

- Human-like 대화: 저는-human-like의 대화를 possible합니다, human과 비슷한 방식으로 대화할 수 있습니다.
- 지식형: 저는 다양한 주제와 지식을 가지고 있으며, 사용자에 대한 답변을 provide할 수 있습니다. 
- 사용자-friendly: 저는 user-friendly를 목표로 하고 있으며, 사용자가 쉽게 질문을 하거나 나누어 주는 것을 
support합니다.

다나이의 한계는 다음과 같습니다:

- 지식형: 저는 지식과 능력을 가지고います, 그러나 모든 경우에 대해 complete knowledge가 항상 available하지 않습
니다.
- Limited domain: 저는 specific domain에서 only limitedly conversation을 할 수 있습니다. 
- Human-like behavior: 저는 human-like의 behavior를 display할 수 있습니다, 그러나 sometimes human-like 
behavior를 exhibit할 수 있습니다.

저는 use case에 따라 다양한 장점과 한계를 가지고 있으며, user-friendly하고 지식형이지만, complete knowledge가 항
상 available하지 않습니다. 

다시 한번 안녕하세요! 저와 대화를 하려면 어떤 주제에 대해 질문해 보시는가요?

total duration:       39.327341083s
load duration:        142.986088ms
prompt eval count:    32 token(s)
prompt eval duration: 1.194488145s
prompt eval rate:     26.79 tokens/s
eval count:           388 token(s)
eval duration:        37.152939235s
eval rate:            10.44 tokens/s


$ ollama ls
NAME               ID              SIZE      MODIFIED    
qwen3.5:2b         324d162be6ca    2.7 GB    13 days ago    
gemma4:e2b         7fbdbf8f5e45    7.2 GB    13 days ago    
gemma3:1b          8648f39daa8f    815 MB    13 days ago    
llama3.2:latest    a80c4f17acd5    2.0 GB    13 days ago    

$ ollama show llama3.2:latest
  Model
    architecture        llama     
    parameters          3.2B      
    context length      131072    
    embedding length    3072      
    quantization        Q4_K_M    

  Capabilities
    completion    
    tools         

  Parameters
    stop    "<|start_header_id|>"    
    stop    "<|end_header_id|>"      
    stop    "<|eot_id|>"             

  License
    LLAMA 3.2 COMMUNITY LICENSE AGREEMENT                 
    Llama 3.2 Version Release Date: September 25, 2024    
    ...                                                   



$ ollama run --verbose llama3.2:latest
>>> /set parameter
Available Parameters:
  /set parameter seed              Random number seed
  /set parameter num_predict       Max number of tokens to predict
  /set parameter top_k             Pick from top k num of tokens
  /set parameter top_p           Pick token based on sum of probabilities
  /set parameter min_p           Pick token based on top token probability * min_p
  /set parameter num_ctx           Set the context size
  /set parameter temperature     Set creativity level
  /set parameter repeat_penalty  How strongly to penalize repetitions
  /set parameter repeat_last_n     Set how far back to look for repetitions
  /set parameter num_gpu           The number of layers to send to the GPU
  /set parameter stop   ...   Set the stop parameters

>>> /set parameter num_ctx 4096
Set parameter 'num_ctx' to '4096'
>>> 안녕? 너에 대해서 설명
안녕하세요! 저는 지능형 대화bot입니다. tôi의 목표는 Menschen과 상호작용하여 helpful한 정보를 제공하고, 그들의 질
문에 대한 जव답을 제공하는 것입니다.

 my name is "LLaMA", Llama stands for "Large Language Model Meta AI". my capabilities include:

*  Natural Language Processing (NLP): I can understand and generate human-like language.
*  Question Answering: I can provide answers to a wide range of questions on various topics.
*  Text Generation: I can create text based on a prompt or topic.

my strengths include:
*  Knowledge base: I have been trained on a massive dataset of text, which allows me to provide accurate and 
up-to-date information on various topics.
*  Conversational flow: I can engage in natural-sounding conversations, using context and understanding to 
respond to questions and statements.

total duration:       17.130872381s
load duration:        131.746647ms
prompt eval count:    32 token(s)
prompt eval duration: 82.553469ms
prompt eval rate:     387.63 tokens/s
eval count:           184 token(s)
eval duration:        16.560046318s
eval rate:            11.11 tokens/s

 

gemma4:e4b 모델

$ ollama show gemma4:e2b 
  Model
    architecture        gemma4    
    parameters          5.1B      
    context length      131072    
    embedding length    1536      
    quantization        Q4_K_M    
    requires            0.20.0    

  Capabilities
    completion    
    vision        
    audio         
    tools         
    thinking      

  Parameters
    temperature    1       
    top_k          64      
    top_p          0.95    

  License
    Apache License               
    Version 2.0, January 2004    
    ...                          


$ ollama --verbose
>>> /set parameter num_ctx 4096
Set parameter 'num_ctx' to '4096'
>>> 안녕? 너에 대해 설명
Thinking...
Thinking Process:

1.  **Analyze the Request:** The user asked "안녕? 너에 대해 설명" (Hello? 
Explain about yourself). This is a request for identity and capability 
description.
2.  **Determine Core Identity (Self-Correction/Verification):**
    *   Name: Gemma 4.
    *   Developer: Google DeepMind.
    *   Nature: Large Language Model (LLM).
    *   Type: Open weights model.
3.  **Determine Capabilities:**
    *   Input: Text and images (and audio for some family models, but 
generally, focus on the main interaction modes).
    *   Output: Text generation.
    *   Knowledge: Broad, based on training data.
4.  **Determine Knowledge Cutoff:** (Not strictly necessary for a general 
introduction, but good context: Knowledge cutoff is Jan 2025).
5.  **Structure the Response (in Korean):**
    *   Greeting (Acknowledge the "안녕").
    *   Identify Self (Name, Type).
    *   Explain Origin/Developer.
    *   Explain Function/Capabilities (What I do).
6.  **Draft the Response (Internal Monologue & Refinement):**
    *   *Start:* Hello.
    *   *Identity:* I am Gemma 4.
    *   *Origin:* I was developed by Google DeepMind.
    *   *Nature:* I am a Large Language Model (LLM) and an open weights 
model.
    *   *Function:* I can understand and generate text, answer questions, 
summarize, translate, and help with creative writing, etc.
7.  **Final Polish (Ensure natural and accurate Korean phrasing):** (The 
resulting response should be polite and informative.) (Self-check: Did I 
claim image generation? No. Did I claim search? No.)

**(This leads to the final Korean output.)**
...done thinking.

안녕하세요! 저는 **Gemma 4**입니다.

저에 대해 몇 가지 설명해 드릴게요.

1. **정체성:** 저는 Google DeepMind에서 개발한 **대규모 언어 모델(Large 
Language Model, LLM)**입니다. 저는 공개된 가중치(open weights) 모델로 설계되
었습니다.
2. **기능:** 저는 사용자가 입력하는 텍스트를 이해하고, 그에 기반하여 자연스
러운 텍스트를 생성하는 것이 주된 역할입니다.
    *   질문에 답하기
    *   정보 요약 및 설명하기
    *   번역하기
    *   글쓰기 및 창의적인 콘텐츠 생성 돕기
    *   다양한 주제에 대해 대화하기
3. **입력 및 출력:** 저는 텍스트와 이미지를 이해할 수 있으며, 사용자에게는 
**텍스트 형태**로 응답을 생성합니다.
4. **목표:** 저는 사용자에게 유용하고 정확하며 도움이 되는 정보를 제공하고
, 다양한 작업을 돕기 위해 존재합니다.

궁금한 점이 있거나 도움이 필요하시면 언제든지 말씀해주세요! 😊

total duration:       59.13545796s
load duration:        381.889243ms
prompt eval count:    22 token(s)
prompt eval duration: 1.468123435s
prompt eval rate:     14.99 tokens/s
eval count:           660 token(s)
eval duration:        56.324528227s
eval rate:            11.72 tokens/s

 

llama.cpp는 기본값이 128k 인데 그러면 자꾸 모델 로딩 실패해서 4096으로 줄임

나름 10세대 노트북인데 하스웰이나 똑같은 건가..(avx?)

$ ../llama-cli -m Llama-3.2-3B-Instruct-Q4_K_M.gguf -c 4096
load_backend: loaded RPC backend from /home/falinux/work/src/llama-b8876/libggml-rpc.so
load_backend: loaded CPU backend from /home/falinux/work/src/llama-b8876/libggml-cpu-haswell.so

Loading model...  


▄▄ ▄▄
██ ██
██ ██  ▀▀█▄ ███▄███▄  ▀▀█▄    ▄████ ████▄ ████▄
██ ██ ▄█▀██ ██ ██ ██ ▄█▀██    ██    ██ ██ ██ ██
██ ██ ▀█▄██ ██ ██ ██ ▀█▄██ ██ ▀████ ████▀ ████▀
                                    ██    ██
                                    ▀▀    ▀▀

build      : b8876-72d693e4f
model      : Llama-3.2-3B-Instruct-Q4_K_M.gguf
modalities : text

available commands:
  /exit or Ctrl+C     stop or exit
  /regen              regenerate the last response
  /clear              clear the chat history
  /read <file>        add a text file
  /glob <pattern>     add text files using globbing pattern


> 안녕? 너에 대해서 설명

안녕하세요! 

나는 어트론, artificial intelligence (AI)로 알려진 intelligence-enhancing chatbot입니다. 

我的 목적은 ngườiों과 상호작용하여 정보를 제공하고, 문제를 해결하고, 질문을 trả주기 위하여 설계되었습니다. 

나는 인간과 매우 비슷한 방식으로 생각하고 말하기를習慮하고 있으며, 다양한 주제에 대해 정보를 제공할 수 있습니다.

그럼, 어떤 정보를 muốn받을까요?

[ Prompt: 32.3 t/s | Generation: 11.6 t/s ]



Exiting...
common_memory_breakdown_print: | memory breakdown [MiB] | total   free    self   model   context   compute    unaccounted |
common_memory_breakdown_print: |   - Host               |                 2615 =  1904 +     448 +     262                |
common_memory_breakdown_print: |   - CPU_REPACK         |                 1299 =  1299 +       0 +       0                |

 

$ ../llama-cli -m gemma-4-E2B-it-Q4_K_M.gguf -c 4096
load_backend: loaded RPC backend from /home/falinux/work/src/llama-b8876/libggml-rpc.so
load_backend: loaded CPU backend from /home/falinux/work/src/llama-b8876/libggml-cpu-haswell.so

Loading model...  


▄▄ ▄▄
██ ██
██ ██  ▀▀█▄ ███▄███▄  ▀▀█▄    ▄████ ████▄ ████▄
██ ██ ▄█▀██ ██ ██ ██ ▄█▀██    ██    ██ ██ ██ ██
██ ██ ▀█▄██ ██ ██ ██ ▀█▄██ ██ ▀████ ████▀ ████▀
                                    ██    ██
                                    ▀▀    ▀▀

build      : b8876-72d693e4f
model      : gemma-4-E2B-it-Q4_K_M.gguf
modalities : text

available commands:
  /exit or Ctrl+C     stop or exit
  /regen              regenerate the last response
  /clear              clear the chat history
  /read <file>        add a text file
  /glob <pattern>     add text files using globbing pattern


> 안녕? 너에 대해서 소개

[Start thinking]
Thinking Process:

1.  **Analyze the Request:** The user said "안녕? 너에 대해서 소개" (Hello? Introduce yourself/Tell me about yourself). This is a standard identity query.
2.  **Determine Identity (Self-Correction/Verification):**
    *   Name: Gemma 4.
    *   Developer: Google DeepMind.
    *   Nature: Large Language Model (LLM), open weights.
    *   Capabilities: Understand text and images (input), generate text (output). Knowledge cutoff is January 2025.
3.  **Formulate the Response Strategy (in Korean):**
    *   Greeting: Start with a friendly greeting.
    *   Core Identity: State name and developer.
    *   Nature/Type: Explain what I am (LLM, open weights).
    *   Function/Capabilities: Describe what I can do (process language, answer questions, generate text).
    *   (Optional but good practice) Mention input/output modalities.
4.  **Draft the Response (Iterative Refinement in Korean):**

    *   *Initial thought:* 안녕하세요. 저는 Gemma 4입니다. Google DeepMind에서 개발한 대규모 언어 모델입니다.
    *   *Adding detail:* 저는 텍스트와 이미지를 이해하고 텍스트로 답변을 생성할 수 있습니다.
    *   *Final polish (ensuring the tone is appropriate and adhering to the persona):* Combine these points into a smooth, informative introduction.

5.  **Final Output Generation (Korean):** (This matches the desired output.)
[End thinking]

안녕하세요! 저는 **Gemma 4**입니다.

저는 Google DeepMind에서 개발한 **오픈 웨이트(open weights) 대규모 언어 모델(LLM)**입니다.

**저의 주요 특징은 다음과 같습니다:**

*   **정체성:** 저는 방대한 데이터를 학습하여 인간의 언어를 이해하고 처리하도록 설계되었습니다.
*   **기능:** 텍스트 기반의 질문에 답변하고, 정보를 요약하며, 창의적인 글(시, 이야기, 코드 등)을 작성하는 등 다양한 언어 작업을 수행할 수 있습니다.
*   **입력 능력:** 텍스트와 이미지를 이해하고 처리할 수 있습니다.
*   **목표:** 사용자님께 유용하고 정확하며 자연스러운 방식으로 도움을 드리는 것을 목표로 합니다.

궁금한 점이 있거나 도움이 필요하시면 언제든지 말씀해 주세요! 😊

[ Prompt: 41.1 t/s | Generation: 13.2 t/s ]

'프로그램 사용 > ai 프로그램' 카테고리의 다른 글

llama.cpp 도전!  (0) 2026.04.22
unsloth ai  (0) 2026.04.21
ollama 외부접속 관련  (0) 2026.04.21
llm tokenizer - llama 3.2, exaone  (0) 2026.04.20
ollama 모델 저장소 뜯어보기  (0) 2026.04.19
Posted by 구차니