llama나 gemma 받으려니 먼가 모르겠어서 만만한(?) ms의 phi3를 받아서 분석!
(gemma나 llama 는 저장소 접근권한 요청.. gate model 이라고 뜨는데 언제 승인되려나)
[링크 : https://huggingface.co/docs/transformers/model_doc/phi3]
| ~/.cache/huggingface/hub/models--microsoft--Phi-3-mini-4k-instruct/snapshots/f39ac1d28e925b323eae81227eaba4464caced4e$ ls -al 합계 12 drwxrwxr-x 2 minimonk minimonk 4096 4월 19 21:58 . drwxrwxr-x 3 minimonk minimonk 4096 4월 19 21:58 .. lrwxrwxrwx 1 minimonk minimonk 52 4월 19 21:58 added_tokens.json -> ../../blobs/178968dec606c790aa335e9142f6afec37288470 lrwxrwxrwx 1 minimonk minimonk 52 4월 19 21:58 config.json -> ../../blobs/b9b031fadda61a035b2e8ceb4362cbf604002b21 lrwxrwxrwx 1 minimonk minimonk 52 4월 19 21:58 special_tokens_map.json -> ../../blobs/c6a944b4d49ce5d79030250ed6bdcbb1a65dfda1 lrwxrwxrwx 1 minimonk minimonk 52 4월 19 21:58 tokenizer.json -> ../../blobs/88ec145f4e7684c009bc6d55df24bb82c7d3c379 lrwxrwxrwx 1 minimonk minimonk 76 4월 19 21:58 tokenizer.model -> ../../blobs/9e556afd44213b6bd1be2b850ebbbd98f5481437a8021afaf58ee7fb1818d347 lrwxrwxrwx 1 minimonk minimonk 52 4월 19 21:58 tokenizer_config.json -> ../../blobs/67aa82cddb4d66391ddf31ff99f059239bd2d1e7 |
tokenizer.json 열어보니 아래처럼 토큰이 나오는데..
어우.. 이런 추세(?) 라면 한글은 한글짜 단위로 토큰이라 난리가 나겠는데?
gpt 도움으로 저런 희한한 문자열 코드 기반으로 검색이 되는걸 알았네 ㄷㄷ
| $ grep -P '\p{Hangul}' tokenizer.json "이": 30393, "의": 30708, "다": 30709, "스": 30784, "사": 30791, "지": 30811, "리": 30826, "기": 30827, "정": 30852, "아": 30860, "한": 30877, "시": 30889, "대": 30890, "가": 30903, "로": 30906, "인": 30918, "하": 30944, "수": 30970, "주": 30981, "동": 31000, "자": 31013, "에": 31054, "니": 31063, "는": 31081, "서": 31093, "김": 31102, "성": 31126, "어": 31129, "도": 31136, "고": 31137, "일": 31153, "상": 31158, "전": 31170, "트": 31177, "소": 31189, "라": 31197, "원": 31198, "보": 31199, "나": 31207, "화": 31225, "구": 31231, "신": 31262, "부": 31279, "연": 31285, "을": 31286, "영": 31288, "국": 31293, "장": 31299, "제": 31306, "우": 31327, "공": 31334, "선": 31345, "오": 31346, "은": 31354, "미": 31362, "경": 31378, "문": 31406, "조": 31408, "마": 31417, "해": 31435, "여": 31457, "산": 31458, "비": 31487, "드": 31493, "를": 31517, "요": 31527, "유": 31533, "진": 31536, "천": 31563, "년": 31571, "세": 31578, "민": 31582, "호": 31603, "그": 31607, "현": 31680, "군": 31699, "무": 31716, "위": 31724, "안": 31734, "박": 31736, "용": 31737, "단": 31746, "면": 31747, "남": 31754, "강": 31774, "씨": 31781, "개": 31789, "들": 31804, "차": 31817, "학": 31822, "만": 31826, "터": 31856, "식": 31895, "과": 31906, "타": 31925, "종": 31930, "내": 31940, "중": 31941, "방": 31945, "월": 31950, "회": 31953, "모": 31962, "바": 31963, "음": 31966, "교": 31972, "재": 31973, "명": 31976, "합": 31980, "역": 31987, "백": 31989, "왕": 31996, |
'프로그램 사용 > ai 프로그램' 카테고리의 다른 글
| llm tokenizer (0) | 2026.04.17 |
|---|---|
| llama.cpp (0) | 2026.04.17 |
| lm studio (0) | 2026.04.17 |
| 사람의 욕심은 끝이없고 - ollama multiple GPU support (0) | 2026.04.17 |
| ollama with 1080 Ti (0) | 2026.04.16 |











