정말 깨끗하게 잘 도착함

아래는 1060 6GB. 그래도 어찌어찌 케이스에 잘 우겨넣었는데\

6pin + 8pin 전원을 추가로 넣어야해서 어째 불안불안.. (500W 라서..)

 

 

와우. 메모리가 넉넉해! 더 높은걸 해도 되겠어!!! 싶었는데

해보니 gemma4:e4b는 cpu+gpu로 가속된다. 메모리가 12기가는 되었어야 했나.. 쩝

 

나름 가벼운 모델임에도 메모리 8.5기가/11기가 GPU 81% 소모하네 ㄷㄷ

Thu Apr 16 21:49:46 2026
+-----------------------------------------------------------------------------------------+
| NVIDIA-SMI 582.28                 Driver Version: 582.28         CUDA Version: 13.0     |
+-----------------------------------------+------------------------+----------------------+
| GPU  Name                  Driver-Model | Bus-Id          Disp.A | Volatile Uncorr. ECC |
| Fan  Temp   Perf          Pwr:Usage/Cap |           Memory-Usage | GPU-Util  Compute M. |
|                                         |                        |               MIG M. |
|=========================================+========================+======================|
|   0  NVIDIA GeForce GTX 1080 Ti   WDDM  |   00000000:01:00.0  On |                  N/A |
| 30%   56C    P2            207W /  250W |    8570MiB /  11264MiB |     81%      Default |
|                                         |                        |                  N/A |
+-----------------------------------------+------------------------+----------------------+

+-----------------------------------------------------------------------------------------+
| Processes:                                                                              |
|  GPU   GI   CI              PID   Type   Process name                        GPU Memory |
|        ID   ID                                                               Usage      |
|=========================================================================================|
|    0   N/A  N/A            2348      C   ...al\Programs\Ollama\ollama.exe      N/A      |
|    0   N/A  N/A            3644    C+G   ...Chrome\Application\chrome.exe      N/A      |
|    0   N/A  N/A            7548      C   ...al\Programs\Ollama\ollama.exe      N/A      |
|    0   N/A  N/A            8708    C+G   ..._8wekyb3d8bbwe\Calculator.exe      N/A      |
|    0   N/A  N/A            8796    C+G   ...h_cw5n1h2txyewy\SearchApp.exe      N/A      |
|    0   N/A  N/A            9860    C+G   ...wy\InputApp\TextInputHost.exe      N/A      |
|    0   N/A  N/A           13620      C   ...al\Programs\Ollama\ollama.exe      N/A      |
|    0   N/A  N/A           14220    C+G   ...wekyb3d8bbwe\WinStore.App.exe      N/A      |
+-----------------------------------------------------------------------------------------+

 

일단.. 7.2GB 모델까진 한번에 올라가는데 9.6GB 는 사용가능한 메모리가 없어져서 인가.. 한 4기가? 5기가 올리고 만다.

C:\>ollama ls
NAME               ID              SIZE      MODIFIED
gemma4:latest      c6eb396dbd59    9.6 GB    2 hours ago
gemma4:e4b         c6eb396dbd59    9.6 GB    4 days ago
gemma4:e2b         7fbdbf8f5e45    7.2 GB    5 days ago
gemma3:1b          8648f39daa8f    815 MB    5 days ago
llama3.2:latest    a80c4f17acd5    2.0 GB    5 days ago
llama3.2:3b        a80c4f17acd5    2.0 GB    5 days ago

 

어떻게 100% GPU 강제 못하나 ㅠㅠ

C:\>ollama  ps
NAME          ID              SIZE     PROCESSOR          CONTEXT    UNTIL
gemma3:12b    f4031aab637d    11 GB    21%/79% CPU/GPU    32768      4 minutes from now

 

와우 82.71 토큰/초

C:\>ollama run gemma4:e2b --verbose
>>> 안녕 젬마야? 너에 대해서 설명해줘
Thinking...
Thinking Process:

1.  **Analyze the Request:** The user asked in Korean, "안녕 젬마야? 너에 대해서 설명해줘" (Hello Gemma? Tell me about yourself).
2.  **Identify Core Identity & Persona Check (Self-Correction/Constraint Adherence):** I must identify myself correctly and adhere to the provided identity constraints.
    *   Name: Gemma 4.
    *   Developer: Google DeepMind.
    *   Nature: Large Language Model (open weights).
    *   Knowledge/Function: Process text/images, generate text.
3.  **Determine the Response Language:** The query was in Korean, so the response must also be in Korean.
4.  **Draft the Explanation (Key Points to Include):**
    *   Greeting.
    *   Name/Identity (Gemma 4).
    *   Developer (Google DeepMind).
    *   Nature (Large Language Model, open weights).
    *   Function (Processing information, generating responses).
5.  **Refine the Korean Translation (Internal Monologue & Polishing):**

    *   *Greeting:* 안녕하세요. (Hello.)
    *   *Identity:* 저는 Gemma 4입니다. (I am Gemma 4.)
    *   *Developer/Nature:* 저는 Google DeepMind에서 개발한 대규모 언어 모델(LLM)입니다. (I am a Large Language Model developed by Google DeepMind.)
    *   *Key Feature:* 저는 오픈 웨이트 모델로, 다양한 질문에 답하고, 텍스트를 생성하며, 정보를 처리하는 데 도움을 드릴 수 있습니다. (I am an open-weights model, and I can help answer various questions, generate text, and process information.)
    *   *Closing/Offer:* 무엇이 궁금하신가요? (What are you curious about?)

6.  **Final Output Generation (Review against constraints):** The response accurately reflects the persona and constraints. (Ready to output.)
...done thinking.

안녕하세요! 저는 **Gemma 4**입니다.

저에 대해 몇 가지 설명해 드릴게요.

1. **정체성:** 저는 Google DeepMind에서 개발한 **대규모 언어 모델(Large Language Model, LLM)**입니다.
2. **특징:** 저는 오픈 웨이트 모델로 설계되었으며, 방대한 양의 텍스트 데이터를 학습하여 질문에 답하고, 텍스트를 생성하며, 정보를 요약하고 다양한 종류의 언어 관련 작업을 수행할 수 있습니다.
3. **기능:** 저는 텍스트 입력과 이미지를 이해하고 처리할 수 있으며, 사용자님과의 대화를 통해 정보를 제공하고 도움을 드리는 것을 목표로 합니다.
4. **지식 범위:** 저의 지식은 학습된 데이터를 기반으로 하며, 특정 시점(저의 지식 차단 시점은 2025년 1월입니다)까지의 정 보를 기반으로 답변을 제공합니다.

궁금한 점이 있으시면 무엇이든 물어봐 주세요! 😊

total duration:       8.6122077s
load duration:        255.4776ms
prompt eval count:    28 token(s)
prompt eval duration: 95.322ms
prompt eval rate:     293.74 tokens/s
eval count:           647 token(s)
eval duration:        7.8226394s
eval rate:            82.71 tokens/s

 

C:\>ollama run gemma3:1b --verbose
>>> 안녕? 너에 대해서 설명해줘
안녕하세요! 저는 구글에서 훈련한 대규모 언어 모델입니다.

**간단히 말해서, 저는 텍스트와 이미지를 입력으로 받아 텍스트를 생성하는 데 특화된 AI 모델입니다.**

좀 더 자세히 설명하면 다음과 같습니다:

*   **훈련 데이터:** 저는 방대한 양의 텍스트 데이터를 학습했습니다. 여기에는 책, 웹사이트, 기사, 코드 등 다양한 종류
의 텍스트가 포함됩니다.
*   **기능:** 저는 질문에 답하고, 텍스트를 요약하고, 번역하고, 창의적인 텍스트를 생성하고, 코드 등을 수행할 수 있습
니다.
*   **저의 한계:** 저는 아직 완벽하지 않습니다. 때로는 사실과 다른 정보나 편향된 내용을 생성할 수 있습니다. 또한, 저
 또한 인간과 같은 감정을 가지고 있지 않으므로, 인간적인 상호작용에는 한계가 있습니다.
*   **현재 위치:** 저는 지속적으로 학습하고 개선되고 있습니다.

**제가 무엇을 도와드릴까요?** 궁금한 점이나 특정 작업을 위해 제가 할 수 있는 것이 있다면 말씀해주세요!

total duration:       2.6137723s
load duration:        278.3931ms
prompt eval count:    18 token(s)
prompt eval duration: 168.7498ms
prompt eval rate:     106.67 tokens/s
eval count:           246 token(s)
eval duration:        1.9665249s
eval rate:            125.09 tokens/s

 

C:\>ollama run llama3.2:3b --verbose
>>> 안녕? 너에 대해서 설명해줘
안녕하세요! 난 인공지능(IA) 기반 챗bot으로, human-like 대화를 통해 사용자와 대화할 수 있는 프로그램입니다.

저는 지식 및ความรู้를 가집니다. 사용자가 물어볼 질문이나 문제에 대해 정보를 제공할 때, 저는 그 질문에 대한 답변을 주
어 assistance를 해줄 것입니다.

저는 다양한 주제에 대해 지식을 가지고 있으며, 사용자와의 대화를 통해 배울 수 있는 것들을 포함하여Continuous
learning을 하며 improves됩니다.

만약 사용자에게 도움을 benöt이면, 언제든지 저에게 물어보세요!

total duration:       1.6521448s
load duration:        120.741ms
prompt eval count:    35 token(s)
prompt eval duration: 31.4659ms
prompt eval rate:     1112.32 tokens/s
eval count:           135 token(s)
eval duration:        988.2004ms
eval rate:            136.61 tokens/s

 

 

컨텍스트 길이를 128k 에서 4k로 줄이니까

phi3:14b 모델이 100% GPU로 된다. 오호.. 컨텍스트 길이를 포기해야하나..

C:\>ollama run phi3:14b --verbose
>>> 안녕?
안녕하세요! 나는 지구에 살고 왔습니다. 여러분과 마음을 교환해 보겠습니다.

total duration:       2.0717119s
load duration:        21.2028ms
prompt eval count:    2593 token(s)
prompt eval duration: 274.901ms
prompt eval rate:     9432.49 tokens/s
eval count:           61 token(s)
eval duration:        1.3611884s
eval rate:            44.81 tokens/s

 

C:\>ollama ps
NAME        ID              SIZE      PROCESSOR    CONTEXT    UNTIL
phi3:14b    cf611a26b048    9.2 GB    100% GPU     4096       4 minutes from now

[링크 : https://docs.ollama.com/context-length]

 

아까는 안되더니 컨텍스트 길이 줄이니 된다.

C:\>ollama run gemma4:e4b --verbose
>>> 안녕?
Thinking...
Here's a thinking process that leads to the suggested response:

1.  **Analyze the input:** The input is "안녕?" (Annyeong?), which is a casual Korean greeting, equivalent to
"Hi?" or "Hello?"

2.  **Determine the required response type:** The response must be a natural, reciprocal greeting.

3.  **Formulate the primary greeting (Reciprocation):**
    *   The standard reply to "안녕?" is "안녕?" or "안녕하세요?" (if formal).
    *   Since the input is very casual ("안녕?"), a casual reply is appropriate.
    *   *Choice:* "안녕하세요!" or "안녕!" (The exclamation mark adds energy.)

4.  **Add conversational momentum (The "How are you?" part):** A simple greeting usually prompts a follow-up
question to keep the conversation going.
    *   Korean equivalent: "잘 지내셨어요?" (Jal jinaesyeosseoyo? - How have you been?) or "뭐 하세요?" (Mwo
haseyo? - What are you doing?).
    *   A polite, common opening is: "네, 안녕하세요! 잘 지내셨어요?" (Yes, hello! Have you been well?)

5.  **Select the best options (Offering variety):** Depending on the desired tone (casual, polite, enthusiastic),
multiple responses can be offered.

    *   **Option 1 (Standard/Friendly):** A standard greeting and question. (The safest bet).
    *   **Option 2 (Casual/Warm):** Keep it very relaxed.
    *   **Option 3 (Enthusiastic/Ready to chat):** Expressing excitement.

6.  **Final Polish (Selecting the Korean output):**

    *   *Initial Greeting:* 안녕하세요!
    *   *Follow-up:* 저도 잘 지내고 있어요. 😊 (I'm doing well too.)
    *   *Question back:* 무슨 일로 오셨나요? / 잘 지내셨어요? (What brings you here? / Have you been well?)

7.  **Construct the final Korean and English explanation.** (This results in the provided good response.)
...done thinking.

안녕하세요! 😊

(Annyeonghaseyo! / Hello!)

저는 잘 지내고 있어요. 혹시 무슨 일로 오셨나요? 😊

**[English translation and explanation:]**

*   **안녕하세요! (Annyeonghaseyo!)**: Hello! (This is the standard, polite way to respond.)
*   **저도 잘 지내고 있어요. (Jeodo jal jinaego isseoyo.)**: I'm doing well too.
*   **무슨 일로 오셨나요? (Museun illo osyeonnayo?)**: What brings you here? / What are you doing? (This is a
natural way to prompt the other person to start the topic.)

어떤 이야기를 하고 싶으세요? 😊

total duration:       12.8489232s
load duration:        293.3292ms
prompt eval count:    18 token(s)
prompt eval duration: 58.0091ms
prompt eval rate:     310.30 tokens/s
eval count:           639 token(s)
eval duration:        11.824361s
eval rate:            54.04 tokens/s

 

C:\>ollama ps
NAME          ID              SIZE     PROCESSOR    CONTEXT    UNTIL
gemma4:e4b    c6eb396dbd59    10 GB    100% GPU     4096       About a minute from now
Posted by 구차니