정말 깨끗하게 잘 도착함
아래는 1060 6GB. 그래도 어찌어찌 케이스에 잘 우겨넣었는데\
6pin + 8pin 전원을 추가로 넣어야해서 어째 불안불안.. (500W 라서..)

와우. 메모리가 넉넉해! 더 높은걸 해도 되겠어!!! 싶었는데
해보니 gemma4:e4b는 cpu+gpu로 가속된다. 메모리가 12기가는 되었어야 했나.. 쩝
나름 가벼운 모델임에도 메모리 8.5기가/11기가 GPU 81% 소모하네 ㄷㄷ
| Thu Apr 16 21:49:46 2026 +-----------------------------------------------------------------------------------------+ | NVIDIA-SMI 582.28 Driver Version: 582.28 CUDA Version: 13.0 | +-----------------------------------------+------------------------+----------------------+ | GPU Name Driver-Model | Bus-Id Disp.A | Volatile Uncorr. ECC | | Fan Temp Perf Pwr:Usage/Cap | Memory-Usage | GPU-Util Compute M. | | | | MIG M. | |=========================================+========================+======================| | 0 NVIDIA GeForce GTX 1080 Ti WDDM | 00000000:01:00.0 On | N/A | | 30% 56C P2 207W / 250W | 8570MiB / 11264MiB | 81% Default | | | | N/A | +-----------------------------------------+------------------------+----------------------+ +-----------------------------------------------------------------------------------------+ | Processes: | | GPU GI CI PID Type Process name GPU Memory | | ID ID Usage | |=========================================================================================| | 0 N/A N/A 2348 C ...al\Programs\Ollama\ollama.exe N/A | | 0 N/A N/A 3644 C+G ...Chrome\Application\chrome.exe N/A | | 0 N/A N/A 7548 C ...al\Programs\Ollama\ollama.exe N/A | | 0 N/A N/A 8708 C+G ..._8wekyb3d8bbwe\Calculator.exe N/A | | 0 N/A N/A 8796 C+G ...h_cw5n1h2txyewy\SearchApp.exe N/A | | 0 N/A N/A 9860 C+G ...wy\InputApp\TextInputHost.exe N/A | | 0 N/A N/A 13620 C ...al\Programs\Ollama\ollama.exe N/A | | 0 N/A N/A 14220 C+G ...wekyb3d8bbwe\WinStore.App.exe N/A | +-----------------------------------------------------------------------------------------+ |
일단.. 7.2GB 모델까진 한번에 올라가는데 9.6GB 는 사용가능한 메모리가 없어져서 인가.. 한 4기가? 5기가 올리고 만다.
| C:\>ollama ls NAME ID SIZE MODIFIED gemma4:latest c6eb396dbd59 9.6 GB 2 hours ago gemma4:e4b c6eb396dbd59 9.6 GB 4 days ago gemma4:e2b 7fbdbf8f5e45 7.2 GB 5 days ago gemma3:1b 8648f39daa8f 815 MB 5 days ago llama3.2:latest a80c4f17acd5 2.0 GB 5 days ago llama3.2:3b a80c4f17acd5 2.0 GB 5 days ago |
어떻게 100% GPU 강제 못하나 ㅠㅠ
| C:\>ollama ps NAME ID SIZE PROCESSOR CONTEXT UNTIL gemma3:12b f4031aab637d 11 GB 21%/79% CPU/GPU 32768 4 minutes from now |
와우 82.71 토큰/초
| C:\>ollama run gemma4:e2b --verbose >>> 안녕 젬마야? 너에 대해서 설명해줘 Thinking... Thinking Process: 1. **Analyze the Request:** The user asked in Korean, "안녕 젬마야? 너에 대해서 설명해줘" (Hello Gemma? Tell me about yourself). 2. **Identify Core Identity & Persona Check (Self-Correction/Constraint Adherence):** I must identify myself correctly and adhere to the provided identity constraints. * Name: Gemma 4. * Developer: Google DeepMind. * Nature: Large Language Model (open weights). * Knowledge/Function: Process text/images, generate text. 3. **Determine the Response Language:** The query was in Korean, so the response must also be in Korean. 4. **Draft the Explanation (Key Points to Include):** * Greeting. * Name/Identity (Gemma 4). * Developer (Google DeepMind). * Nature (Large Language Model, open weights). * Function (Processing information, generating responses). 5. **Refine the Korean Translation (Internal Monologue & Polishing):** * *Greeting:* 안녕하세요. (Hello.) * *Identity:* 저는 Gemma 4입니다. (I am Gemma 4.) * *Developer/Nature:* 저는 Google DeepMind에서 개발한 대규모 언어 모델(LLM)입니다. (I am a Large Language Model developed by Google DeepMind.) * *Key Feature:* 저는 오픈 웨이트 모델로, 다양한 질문에 답하고, 텍스트를 생성하며, 정보를 처리하는 데 도움을 드릴 수 있습니다. (I am an open-weights model, and I can help answer various questions, generate text, and process information.) * *Closing/Offer:* 무엇이 궁금하신가요? (What are you curious about?) 6. **Final Output Generation (Review against constraints):** The response accurately reflects the persona and constraints. (Ready to output.) ...done thinking. 안녕하세요! 저는 **Gemma 4**입니다. 저에 대해 몇 가지 설명해 드릴게요. 1. **정체성:** 저는 Google DeepMind에서 개발한 **대규모 언어 모델(Large Language Model, LLM)**입니다. 2. **특징:** 저는 오픈 웨이트 모델로 설계되었으며, 방대한 양의 텍스트 데이터를 학습하여 질문에 답하고, 텍스트를 생성하며, 정보를 요약하고 다양한 종류의 언어 관련 작업을 수행할 수 있습니다. 3. **기능:** 저는 텍스트 입력과 이미지를 이해하고 처리할 수 있으며, 사용자님과의 대화를 통해 정보를 제공하고 도움을 드리는 것을 목표로 합니다. 4. **지식 범위:** 저의 지식은 학습된 데이터를 기반으로 하며, 특정 시점(저의 지식 차단 시점은 2025년 1월입니다)까지의 정 보를 기반으로 답변을 제공합니다. 궁금한 점이 있으시면 무엇이든 물어봐 주세요! 😊 total duration: 8.6122077s load duration: 255.4776ms prompt eval count: 28 token(s) prompt eval duration: 95.322ms prompt eval rate: 293.74 tokens/s eval count: 647 token(s) eval duration: 7.8226394s eval rate: 82.71 tokens/s |
| C:\>ollama run gemma3:1b --verbose >>> 안녕? 너에 대해서 설명해줘 안녕하세요! 저는 구글에서 훈련한 대규모 언어 모델입니다. **간단히 말해서, 저는 텍스트와 이미지를 입력으로 받아 텍스트를 생성하는 데 특화된 AI 모델입니다.** 좀 더 자세히 설명하면 다음과 같습니다: * **훈련 데이터:** 저는 방대한 양의 텍스트 데이터를 학습했습니다. 여기에는 책, 웹사이트, 기사, 코드 등 다양한 종류 의 텍스트가 포함됩니다. * **기능:** 저는 질문에 답하고, 텍스트를 요약하고, 번역하고, 창의적인 텍스트를 생성하고, 코드 등을 수행할 수 있습 니다. * **저의 한계:** 저는 아직 완벽하지 않습니다. 때로는 사실과 다른 정보나 편향된 내용을 생성할 수 있습니다. 또한, 저 또한 인간과 같은 감정을 가지고 있지 않으므로, 인간적인 상호작용에는 한계가 있습니다. * **현재 위치:** 저는 지속적으로 학습하고 개선되고 있습니다. **제가 무엇을 도와드릴까요?** 궁금한 점이나 특정 작업을 위해 제가 할 수 있는 것이 있다면 말씀해주세요! total duration: 2.6137723s load duration: 278.3931ms prompt eval count: 18 token(s) prompt eval duration: 168.7498ms prompt eval rate: 106.67 tokens/s eval count: 246 token(s) eval duration: 1.9665249s eval rate: 125.09 tokens/s |
| C:\>ollama run llama3.2:3b --verbose >>> 안녕? 너에 대해서 설명해줘 안녕하세요! 난 인공지능(IA) 기반 챗bot으로, human-like 대화를 통해 사용자와 대화할 수 있는 프로그램입니다. 저는 지식 및ความรู้를 가집니다. 사용자가 물어볼 질문이나 문제에 대해 정보를 제공할 때, 저는 그 질문에 대한 답변을 주 어 assistance를 해줄 것입니다. 저는 다양한 주제에 대해 지식을 가지고 있으며, 사용자와의 대화를 통해 배울 수 있는 것들을 포함하여Continuous learning을 하며 improves됩니다. 만약 사용자에게 도움을 benöt이면, 언제든지 저에게 물어보세요! total duration: 1.6521448s load duration: 120.741ms prompt eval count: 35 token(s) prompt eval duration: 31.4659ms prompt eval rate: 1112.32 tokens/s eval count: 135 token(s) eval duration: 988.2004ms eval rate: 136.61 tokens/s |
컨텍스트 길이를 128k 에서 4k로 줄이니까
phi3:14b 모델이 100% GPU로 된다. 오호.. 컨텍스트 길이를 포기해야하나..
| C:\>ollama run phi3:14b --verbose >>> 안녕? 안녕하세요! 나는 지구에 살고 왔습니다. 여러분과 마음을 교환해 보겠습니다. total duration: 2.0717119s load duration: 21.2028ms prompt eval count: 2593 token(s) prompt eval duration: 274.901ms prompt eval rate: 9432.49 tokens/s eval count: 61 token(s) eval duration: 1.3611884s eval rate: 44.81 tokens/s |
| C:\>ollama ps NAME ID SIZE PROCESSOR CONTEXT UNTIL phi3:14b cf611a26b048 9.2 GB 100% GPU 4096 4 minutes from now |
[링크 : https://docs.ollama.com/context-length]
아까는 안되더니 컨텍스트 길이 줄이니 된다.
| C:\>ollama run gemma4:e4b --verbose >>> 안녕? Thinking... Here's a thinking process that leads to the suggested response: 1. **Analyze the input:** The input is "안녕?" (Annyeong?), which is a casual Korean greeting, equivalent to "Hi?" or "Hello?" 2. **Determine the required response type:** The response must be a natural, reciprocal greeting. 3. **Formulate the primary greeting (Reciprocation):** * The standard reply to "안녕?" is "안녕?" or "안녕하세요?" (if formal). * Since the input is very casual ("안녕?"), a casual reply is appropriate. * *Choice:* "안녕하세요!" or "안녕!" (The exclamation mark adds energy.) 4. **Add conversational momentum (The "How are you?" part):** A simple greeting usually prompts a follow-up question to keep the conversation going. * Korean equivalent: "잘 지내셨어요?" (Jal jinaesyeosseoyo? - How have you been?) or "뭐 하세요?" (Mwo haseyo? - What are you doing?). * A polite, common opening is: "네, 안녕하세요! 잘 지내셨어요?" (Yes, hello! Have you been well?) 5. **Select the best options (Offering variety):** Depending on the desired tone (casual, polite, enthusiastic), multiple responses can be offered. * **Option 1 (Standard/Friendly):** A standard greeting and question. (The safest bet). * **Option 2 (Casual/Warm):** Keep it very relaxed. * **Option 3 (Enthusiastic/Ready to chat):** Expressing excitement. 6. **Final Polish (Selecting the Korean output):** * *Initial Greeting:* 안녕하세요! * *Follow-up:* 저도 잘 지내고 있어요. 😊 (I'm doing well too.) * *Question back:* 무슨 일로 오셨나요? / 잘 지내셨어요? (What brings you here? / Have you been well?) 7. **Construct the final Korean and English explanation.** (This results in the provided good response.) ...done thinking. 안녕하세요! 😊 (Annyeonghaseyo! / Hello!) 저는 잘 지내고 있어요. 혹시 무슨 일로 오셨나요? 😊 **[English translation and explanation:]** * **안녕하세요! (Annyeonghaseyo!)**: Hello! (This is the standard, polite way to respond.) * **저도 잘 지내고 있어요. (Jeodo jal jinaego isseoyo.)**: I'm doing well too. * **무슨 일로 오셨나요? (Museun illo osyeonnayo?)**: What brings you here? / What are you doing? (This is a natural way to prompt the other person to start the topic.) 어떤 이야기를 하고 싶으세요? 😊 total duration: 12.8489232s load duration: 293.3292ms prompt eval count: 18 token(s) prompt eval duration: 58.0091ms prompt eval rate: 310.30 tokens/s eval count: 639 token(s) eval duration: 11.824361s eval rate: 54.04 tokens/s |
| C:\>ollama ps NAME ID SIZE PROCESSOR CONTEXT UNTIL gemma4:e4b c6eb396dbd59 10 GB 100% GPU 4096 About a minute from now |
'프로그램 사용 > ai 프로그램' 카테고리의 다른 글
| 사람의 욕심은 끝이없고 - ollama multiple GPU support (0) | 2026.04.17 |
|---|---|
| 트랜스포머 모델 입/출력 (0) | 2026.04.12 |
| ollama 소스코드 (0) | 2026.04.12 |
| ollama 데이터 파일 구조 및 내용 (0) | 2026.04.12 |
| ollama /set parameter num_gpu 테스트 (0) | 2026.04.12 |
