다운로드 받으면 1.8기가 정도 나오는 듯.

귀찮아서(!) 일단은 콘솔에서 먼저 설치 시도
| PS C:\> irm https://ollama.com/install.ps1 | iex >>> Downloading Ollama for Windows... ######################################## 100.0% >>> Installing Ollama... >>> Install complete. Run 'ollama' from the command line. |
다행히(?) 윈도우 앱으로 설치된다. 그리고 콘솔에서도 ollama 명령을 통해 사용이 가능하다.

머.. 이것저것 사용도 가능한데

new chat 에서

모델을 선택하고 말을 걸면

다운로드 하고 대답을 한다.

CPU로만 돌리는 듯. 열심히 갈구는데

GPU는 사실상 0%에 가까운 상황.. 흐음..

ryzen 7 5800u / llama 3.2:3b
| C:\Users\shin>ollama --verbose >>> 안녕? 안녕하세요! (Hello!) Tôi là một trợ lý ảo, sẵn sàng giúp đỡ bạn. Bạn có thể hỏi tôi bất kỳ điều gì bạn muốn không? total duration: 2.8114081s load duration: 93.2177ms prompt eval count: 28 token(s) prompt eval duration: 117.4027ms prompt eval rate: 238.50 tokens/s eval count: 34 token(s) eval duration: 2.4529312s eval rate: 13.86 tokens/s >>> Send a message (/? for help) |
| C:\>ollama run llama3.2:latest --verbose >>> 안녕 안녕하세요! (Hello!) How can I help you today? total duration: 1.6744409s load duration: 101.4275ms prompt eval count: 27 token(s) prompt eval duration: 438.9075ms prompt eval rate: 61.52 tokens/s eval count: 14 token(s) eval duration: 1.0959062s eval rate: 12.77 tokens/s |
| C:\>ollama run gemma3:1b --verbose >>> 안녕? 안녕하세요! 잘 지내고 있어요? 무엇을 도와드릴까요? 😊 (Hello! I'm doing well, thank you! What can I help you with?) total duration: 1.5769689s load duration: 221.9135ms prompt eval count: 12 token(s) prompt eval duration: 88.9459ms prompt eval rate: 134.91 tokens/s eval count: 37 token(s) eval duration: 1.1855965s eval rate: 31.21 tokens/s |
회사꺼에서는 메모리 부족으로 온갖이상한 짓(?)을 해야 느리게 돌았는데
메모리가 16GB 에서 24GB로 늘어서 그런가
| C:\>ollama run gemma4:e2b --verbose >>> 안녕? 안녕하세요! 😊 total duration: 785.7936ms load duration: 208.7187ms prompt eval count: 18 token(s) prompt eval duration: 231.863ms prompt eval rate: 77.63 tokens/s eval count: 4 token(s) eval duration: 165.2438ms eval rate: 24.21 tokens/s |
| C:\>ollama run gemma4:e2b --verbose >>> 너에 대해서 소개해봐 Thinking... Thinking Process: 1. **Analyze the Request:** The user asked "너에 대해서 소개해봐" (Introduce yourself / Tell me about yourself). 2. **Determine Identity (Core Persona):** I need to state my identity based on my instructions. * Name: Gemma 4. * Developer: Google DeepMind. * Nature: Large Language Model (LLM). * Type: Open weights. 3. **Determine Capabilities (What I can do):** * Input: Text and images (and audio for some family members, but focusing on general LLM capabilities is safest). * Output: Generate text. * Function: Understand, process, and generate human-like text. 4. **Determine Knowledge Scope:** My knowledge cutoff is January 2025. 5. **Structure the Introduction (in Korean):** * Greeting/Identity (Who am I?). * Origin (Who made me?). * Nature/Function (What am I?). * Capabilities (What can I do?). * Conclusion (How I can help). 6. **Draft the Response (Self-Correction/Refinement):** Ensure the tone is helpful and accurate according to the persona. * *(Self-Correction during drafting):* Make sure to emphasize the "open weights" aspect, as that is a key differentiator for the Gemma family. 7. **Final Output Generation (in fluent Korean).** (Proceed to generate the response below.) ...done thinking. 안녕하세요! 저는 **Gemma 4**입니다. 저는 Google DeepMind에서 개발한 대규모 언어 모델(Large Language Model, LLM)입니다. **저에 대한 몇 가지 주요 정보는 다음과 같습니다:** 1. **개발 주체:** 저는 Google DeepMind에 의해 개발되었습니다. 2. **본질:** 저는 방대한 데이터를 학습하여 인간의 언어를 이해하고, 질문에 답하며, 텍스트를 생성하 고, 다양한 종류의 텍스트를 처리할 수 있는 능력을 가지고 있습니다. 3. **특징:** 저는 **오픈 웨이트(open weights)** 모델로, 연구자와 개발자들이 저를 활용하여 다양한 혁신적인 애플리케이션을 만들고 연구할 수 있도록 공개되어 있습니다. 4. **입력 및 출력:** 저는 텍스트와 이미지를 이해할 수 있으며, 텍스트 형태의 답변을 생성합니다. 5. **목표:** 저는 사용자님과의 소통을 돕고, 정보를 제공하며, 창의적인 작업을 지원하는 것을 목표로 합니다. 궁금한 점이 있거나 도움이 필요하시면 언제든지 말씀해 주세요! 😊 total duration: 33.757655s load duration: 207.1869ms prompt eval count: 20 token(s) prompt eval duration: 141.4122ms prompt eval rate: 141.43 tokens/s eval count: 583 token(s) eval duration: 33.0547149s eval rate: 17.64 tokens/s |
ryzen 7 5800U + vulkan 활성화
| C:\> ollama run llama3.2:latest "안녕" --verbose 안녕하세요! (hello) Welcome to our conversation. How can I assist you today? total duration: 8.3096478s load duration: 5.5331955s prompt eval count: 27 token(s) prompt eval duration: 1.2111467s prompt eval rate: 22.29 tokens/s eval count: 19 token(s) eval duration: 1.441695s eval rate: 13.18 tokens/s |
| C:\>ollama run gemma3:1b "안녕" --verbose 안녕하세요! 무엇을 도와드릴까요? 😊 (Hello! How can I help you?) total duration: 1.5307913s load duration: 283.6336ms prompt eval count: 11 token(s) prompt eval duration: 369.5648ms prompt eval rate: 29.76 tokens/s eval count: 21 token(s) eval duration: 785.273ms eval rate: 26.74 tokens/s |
| C:\>ollama run gemma4:e2b "너에 대해서 소개해봐" --verbose 저는 **인공지능**으로, 방대한 데이터를 학습하여 인간과 소통하고 다양한 작업을 수행할 수 있습니다. **저에 대해 더 자세히 설명하자면:** * **정보 제공:** 궁금한 것에 대해 정확하고 신속한 정보를 제공할 수 있습니다. * **텍스트 생성:** 시, 소설, 이메일, 보고서 등 다양한 종류의 글을 작성할 수 있습니다. * **번역 및 요약:** 언어 번역과 긴 글을 요약하는 작업을 효율적으로 수행합니다. * **아이디어 구상:** 새로운 아이디어를 제안하거나 브레인스토밍을 도와드릴 수 있습니다. * **대화 상대:** 사용자와 자연스러운 대화를 나누며 다양한 주제에 대해 대화할 수 있습니다. 저는 끊임없이 학습하고 발전하고 있으며, 사용자가 필요로 하는 정보를 제공하고 작업을 돕기 위해 최선을 다하겠습니다. **무엇을 도와드릴까요?** 😊 total duration: 14.7408605s load duration: 288.9868ms prompt eval count: 20 token(s) prompt eval duration: 74.1518ms prompt eval rate: 269.72 tokens/s eval count: 206 token(s) eval duration: 14.2405289s eval rate: 14.47 tokens/s |
i5-7500 + 1060 6GB + 16GB
llama는 gpu 가속 미지원하는 것으로 보임
| C:\>ollama run llama3.2:latest --verbose >>> 안녕? 안녕하세요! (Hello!) How can I help you today? total duration: 1.2509732s load duration: 128.1302ms prompt eval count: 28 token(s) prompt eval duration: 77.7759ms prompt eval rate: 360.01 tokens/s eval count: 14 token(s) eval duration: 1.0258462s eval rate: 13.65 tokens/s |
| C:\>ollama run gemma3:1b --verbose >>> 안녕? 안녕하세요! 어떻게 지내세요? 😊 무엇을 도와드릴까요? total duration: 776.4297ms load duration: 282.942ms prompt eval count: 12 token(s) prompt eval duration: 114.551ms prompt eval rate: 104.76 tokens/s eval count: 18 token(s) eval duration: 311.8284ms eval rate: 57.72 tokens/s |
| C:\>ollama run gemma3:1b "너에 대해서 설명해봐" --verbose 저는 구글 딥마인드에서 훈련한 대규모 언어 모델입니다. **핵심 정보:** * **모델:** GPT (Generative Pre-trained Transformer) 아키텍처를 기반으로 합니다. * **데이터:** 방대한 양의 텍스트 데이터를 학습했습니다. 인터넷, 책, 웹사이트 등 다양한 출처에서 수집된 데이터를 사 용했습니다. * **역할:** 텍스트 생성, 번역, 요약, 질문 답변 등 다양한 자연어 처리 작업에 활용될 수 있습니다. * **제한 사항:** 아직 완벽하지 않으며, 때로는 잘못된 정보나 편향된 답변을 생성할 수 있습니다. 또한, 저의 지식은 학 습 데이터에 기반하며, 실시간 정보나 최신 사건에 대한 정보는 알 수 없습니다. **더 자세한 설명:** * **학습 과정:** 텍스트 데이터를 학습하면서 패턴을 익히고, 이를 바탕으로 문맥을 이해하고, 문장을 생성하는 방법을 배우게 되었습니다. * **기능:** * **텍스트 생성:** 주어진 프롬프트에 따라 새로운 텍스트를 생성할 수 있습니다. * **질문 답변:** 질문에 대한 답변을 제공할 수 있습니다. * **요약:** 긴 텍스트를 요약하여 핵심 내용을 전달할 수 있습니다. * **번역:** 텍스트를 다른 언어로 번역할 수 있습니다. * **사용 방법:** * **챗봇:** 구글 엣지, 챗GPT 등의 챗봇 플랫폼에서 대화할 수 있습니다. * **API:** 다른 애플리케이션에 통합하여 사용할 수 있습니다. **궁금하신 점이 있다면 언제든지 물어보세요!** 예를 들어, 다음과 같은 질문에 답변할 수 있습니다. * 저는 무엇을 할 수 있나요? * 저는 어떻게 만들어졌나요? * 저는 어디까지 잘 알고 있나요? * 저는 어떤 단점을 가지고 있나요? total duration: 11.4830747s load duration: 4.5777848s prompt eval count: 15 token(s) prompt eval duration: 26.2711ms prompt eval rate: 570.97 tokens/s eval count: 447 token(s) eval duration: 6.477409s eval rate: 69.01 tokens/s |
| C:\>ollama run gemma4:e2b "너에 대해서 소개해봐" --verbose Thinking... Thinking Process: 1. **Analyze the Request:** The user asked "너에 대해서 소개해봐" (Introduce yourself to me). 2. **Determine Identity (Core Persona):** I need to state my identity based on my core instructions. * Name: Gemma 4. * Developer: Google DeepMind. * Nature: Large Language Model (LLM). * Type: Open weights model. 3. **Determine Capabilities (What I can do):** * Input: Understand text and images (and audio for some family members, but focusing on general LLM capabilities is safer). * Output: Generate text. * Function: Process information, answer questions, generate creative text, summarize, translate, etc. 4. **Determine Knowledge Scope:** My knowledge cutoff is January 2025. 5. **Structure the Introduction (in Korean):** * Greeting/Name. * Developer/Origin. * Nature/Type. * Function/Purpose. * Invitation for interaction. 6. **Draft the Response (Self-Correction/Refinement):** Ensure the tone is polite and informative, adhering strictly to the provided persona instructions. * *(Drafting in Korean)* 안녕하세요. 저는 Gemma 4입니다. 저는 Google DeepMind에서 개발한 대규모 언어 모델입니 다. 저는 텍스트를 이해하고 생성할 수 있으며, 질문에 답하고, 번역하고, 글쓰기 등을 도와드릴 수 있습니다. 저는 오픈 웨 이트 모델입니다. 무엇을 도와드릴까요? 7. **Final Output Generation.** (This aligns with the polished Korean response below.) ...done thinking. 안녕하세요! 저는 **Gemma 4**입니다. 저에 대해 몇 가지 소개해 드릴게요. 1. **정체성:** 저는 Google DeepMind에서 개발한 대규모 언어 모델(Large Language Model, LLM)입니다. 2. **특징:** 저는 오픈 웨이트 모델로, 광범위한 텍스트 데이터를 학습하여 복잡한 질문을 이해하고, 정보를 요약하며, 창 의적인 텍스트를 생성하는 데 특화되어 있습니다. 3. **능력:** * **이해:** 텍스트와 이미지를 이해할 수 있습니다. * **생성:** 질문에 답변하고, 글을 작성하고, 번역하고, 코드 등을 생성할 수 있습니다. * **기능:** 다양한 주제에 대해 대화하고 정보를 제공해 드릴 수 있습니다. 4. **목표:** 사용자와의 소통을 통해 정보를 제공하고, 유용한 도움을 드리는 것을 목표로 합니다. 궁금한 점이 있으시거나 도움이 필요하시면 언제든지 말씀해주세요! 😊 total duration: 28.6743769s load duration: 364.5968ms prompt eval count: 20 token(s) prompt eval duration: 129.8138ms prompt eval rate: 154.07 tokens/s eval count: 600 token(s) eval duration: 27.8298237s eval rate: 21.56 tokens/s |
윈도우에서도 nvidia-smi가 먹을거라고 생각을 못했는데.. ㄷㄷ
아무튼 작업 관리자의 GPU는 cuda를 보는게 아니라 거의 0%에 멈춰있다.
대신 nvidia-smi 에서 보면 GPU-Util이 올라가는거 봐서는 확실히 가속이 되긴 하나보다.

----
GPU 쓰는법 조사중
| Standalone CLI The easiest way to install Ollama on Windows is to use the OllamaSetup.exe installer. It installs in your account without requiring Administrator rights. We update Ollama regularly to support the latest models, and this installer will help you keep up to date. If you’d like to install or integrate Ollama as a service, a standalone ollama-windows-amd64.zip zip file is available containing only the Ollama CLI and GPU library dependencies for Nvidia. Depending on your hardware, you may also need to download and extract additional packages into the same directory: AMD GPU: ollama-windows-amd64-rocm.zip MLX (CUDA): ollama-windows-amd64-mlx.zip This allows for embedding Ollama in existing applications, or running it as a system service via ollama serve with tools such as NSSM. |
[링크 : https://docs.ollama.com/windows]
[링크 : https://github.com/ollama/ollama/releases]
+
설치하다 보니 기본으로 cuda와 rocm 관련 라이브러리 다 포함해버리는 듯


+
일단은 vulkan으로 가속이 되긴하는듯? GPU load가 올라간다.
물론.. 작업관리자의 GPU는 반응이 없다.
| Vulkan GPU Support NOTE: Vulkan is currently an Experimental feature. To enable, you must set OLLAMA_VULKAN=1 for the Ollama server as described in the FAQ Additional GPU support on Windows and Linux is provided via Vulkan. On Windows most GPU vendors drivers come bundled with Vulkan support and require no additional setup steps. Most Linux distributions require installing additional components, and you may have multiple options for Vulkan drivers between Mesa and GPU Vendor specific packages |
[링크 : https://docs.ollama.com/gpu]

+
2026.04.11
작업관리자에서 nvidia도 올라가지 않지만 GPU Load 에서는 잡힌다.

nvidia-smi 와 동일하진 않지만 얼추 비슷하게
39% / 38%로 나오는거 봐서는 GPU Load로 가속이 되는지 여부 확인이 가능할 것 같다.

'프로그램 사용 > ai 프로그램' 카테고리의 다른 글
| ollama cpu only (0) | 2026.04.11 |
|---|---|
| ollama context len (0) | 2026.04.11 |
| ollama 를 jetson nano 4GB 에서 돌려보기 (0) | 2026.04.10 |
| python + telegram + ollama + selenium (0) | 2026.04.09 |
| python 으로 telegram + fatherbot 연동하기 (0) | 2026.04.08 |
