음.. tokenizer.json에 대한 접근이 신청 20분 만에 떨어졌었나 보다. (아몰라 잘래 하고 가버렸...)
llama가 한글에 대한 토큰이 하나도 없는데 어떻게 인식을 하지 신기하네..?
정규표현식을 보면 ? 가 있는데 매칭안되면 그냥 한글자 뽑아 버리는듯.. ㅎㄷㄷ
| { "version": "1.0", "truncation": null, "padding": null, "added_tokens": [ { "id": 128000, "content": "<|begin_of_text|>", "single_word": false, "lstrip": false, "rstrip": false, "normalized": false, "special": true }, { "id": 128001, "content": "<|end_of_text|>", "single_word": false, "lstrip": false, "rstrip": false, "normalized": false, "special": true }, ], "normalizer": null, "pre_tokenizer": { "type": "Sequence", "pretokenizers": [ { "type": "Split", "pattern": { "Regex": "(?i:'s|'t|'re|'ve|'m|'ll|'d)|[^\\r\\n\\p{L}\\p{N}]?\\p{L}+|\\p{N}{1,3}| ?[^\\s\\p{L}\\p{N}]+[\\r\\n]*|\\s*[\\r\\n]+|\\s+(?!\\S)|\\s+" }, "behavior": "Isolated", "invert": false }, { "type": "ByteLevel", "add_prefix_space": false, "trim_offsets": true, "use_regex": false } ] }, // ... "model": { "type": "BPE", "dropout": null, "unk_token": null, "continuing_subword_prefix": null, "end_of_word_suffix": null, "fuse_unk": false, "byte_fallback": false, "ignore_merges": true, "vocab": { "!": 0, "\"": 1, "#": 2, "$": 3, "%": 4, // ... "ÙĨب": 127996, "ĠвÑĭÑģокой": 127997, "ãĥ¼ãĥ¼": 127998, "éͦ": 127999 }, "merges": [ "Ġ Ġ", "Ġ ĠĠĠ", // ... "ãĥ¼ ãĥ¼", "ãĥ¼ãĥ ¼", "éĶ ¦" ] } } |
[링크 : https://huggingface.co/meta-llama/Llama-3.2-1B/tree/main]
엥.. exaone은 그래도 LG에서 만들어서 한글 토큰들이 있을 줄 알았는데 없네?
그럼.. 한글은 '자동차' 면은 자/동/차 총 3개 토큰을 먹는건가?
| $ grep -P '\p{Hangul}' exa_tokenizer.json "content": "리앙쿠르", "content": "훈민정음", "content": "애국가", "리앙쿠르": 94, "훈민정음": 99, "애국가": 100, |
[링크 : https://huggingface.co/LGAI-EXAONE/EXAONE-4.5-33B/tree/main]
'프로그램 사용 > ai 프로그램' 카테고리의 다른 글
| ollama 모델 파일 뜯어보기 (0) | 2026.04.19 |
|---|---|
| llm tokenizer - phi3 (0) | 2026.04.19 |
| llm tokenizer (0) | 2026.04.17 |
| llama.cpp (0) | 2026.04.17 |
| lm studio (0) | 2026.04.17 |
