입력 문장을 전부 입력하는게 아니라

입력 받은 문장을 임베딩하고 그걸 positional encoding 이라는걸 거쳐서

일종의 벡터값으로 입력을 받는 것으로 보인다.

 

 

[링크 : https://jkim83.tistory.com/517]

 

토큰화 및 입력 임베딩
문자, 숫자, 구두점과 같은 글자 단위는 인간이 언어를 표현하는 기본 단위이지만, AI 모델이 사용하는 언어의 최소 단위는 토큰(token)입니다. 각 토큰은 고유한 ID 번호를 부여받으며, LLM은 단어 자체나 토큰 자체가 아니라 이 ID 번호를 통해 어휘 “데이터베이스”를 탐색합니다. 이러한 언어의 토큰화는 텍스트를 처리하는 데 필요한 계산량을 크게 줄여줍니다.

트랜스포머의 어텐션 레이어에 입력할 쿼리 및 키 벡터를 생성하기 위해, 모델은 각 토큰에 대한 초기 문맥 없는 벡터 임베딩이 필요합니다. 이러한 초기 토큰 임베딩은 학습 중에 새롭게 학습되거나, 사전학습된 단어 임베딩 모델에서 가져올 수 있습니다.

위치 인코딩
단어의 순서와 위치는 그 의미론적 의미에 큰 영향을 미칠 수 있습니다. RNN의 직렬적 구조는 각 토큰의 위치 정보를 자연스럽게 보존하지만, 트랜스포머 모델은 어텐션 메커니즘이 이를 고려할 수 있도록 명시적으로 위치 정보를 추가해야 합니다.

위치 인코딩을 사용하면 모델은 입력이 어텐션 메커니즘에 들어가기 전에 상대적 위치에서 파생된 각 토큰의 임베딩에 값 벡터를 추가합니다. 두 토큰이 가까울수록 포지션 벡터는 더 유사해지고, 그에 따라 위치 정보 추가로 인해 정렬 점수가 더 높아집니다. 이렇게 하여 모델은 인접한 토큰에 더 많은 주의를 기울이도록 학습하게 됩니다.

[링크 : https://www.ibm.com/kr-ko/think/topics/transformer-model]

 

의미를 찾는 셀프어텐션
문장을 예로 들어 살펴보겠습니다.

그녀는 주전자의 물을 컵에 따랐다. 그것이 가득 찰 때까지.

여기서 ‘그것’이 컵을 의미한다는 사실을 우리는 쉽게 알 수 있습니다. 그럼 다음의 문장을 보죠.

그녀는 주전자의 물을 컵에 따랐다. 그것이 텅 빌 때까지.

여기서 ‘그것’은 물론 주전자를 의미하겠죠.

구글 브레인(Google Brain)의 수석 연구원으로 앞서 소개한 2017년 논문의 연구를 이끈 아시시 바스와니(Ashish Vaswani)에 따르면 “의미는 사물 간 관계의 결과이고, 셀프어텐션은 관계를 배우는 일반적 방법”입니다.

그는 “기계 번역은 단어 사이의 가깝고 먼 관계들을 파악해야 하는 셀프어텐션의 확립에 좋은 수단이 되어줬습니다”며, “이제 셀프어텐션은 강력하고 유연한 학습의 도구로 완전히 자리매김했습니다”라고 덧붙였습니다.

[링크 : https://blogs.nvidia.co.kr/blog/what-is-a-transformer-model/]

[링크 : https://www.hpe.com/kr/ko/what-is/transformer-model.html]

 

[링크 : https://github.com/ukairia777/tensorflow-transformer/blob/main/Transformer_Korean_Chatbot.ipynb]

[링크 : https://wikidocs.net/31379]

'프로그램 사용 > ai 프로그램' 카테고리의 다른 글

ollama 소스코드  (0) 2026.04.12
ollama 데이터 파일 구조 및 내용  (0) 2026.04.12
ollama /set parameter num_gpu 테스트  (0) 2026.04.12
ollama cli 도움말  (0) 2026.04.12
ollama cpu only  (0) 2026.04.11
Posted by 구차니