nvidia tensor core

하드웨어/Display 장비

구차니 2026. 5. 21. 11:32

싼거 샀다 피보는 중 ㅋㅋㅋ

cuda core는 fp32나 fp64 행렬 단일 연산(곱/덧셈 등..) 에 특화 되어있고

tensor core는 복잡 정밀도의 (AxB) + C 에 대한 연산에 특화되어있는 것으로 보인다.

cuda core 로는

AxB 를 먼저 수행하고(fp32) 거기에 +C를 해서 두번의 연산이 필요했다면

tensor 코어는 (A x B) + C 에 대해서 한번에 하드웨어 적으로 퉤~(물론 정밀도 희생)

복합정밀도, 복합 행렬 연산(FMA - Fused Multiply Add)

2026.05.22

최소한 암페어(30 시리즈) 는 가야 BF16 지원하니까 정상적인(?) 성능이 나올 듯.

볼타(2017): FP1/FP16 혼합 정밀도를 갖춘 32세대 Tensor 코어를 도입하여 Pascal보다 5배 빠른 학습을 제공합니다. GPUs.
튜링(2018): 객체 감지와 같은 실시간 추론 작업을 위해 INT8/INT4 지원이 추가되었습니다.
암페어(2020): BF16 및 TF32 포맷으로 확장되어 GPT-3와 같은 조개 매개변수 모델에 대한 학습이 가속화되었습니다.
호퍼(2022): FP8 정밀도 도입으로 대규모 언어 모델의 처리량이 두 배로 늘어났습니다.LLM들).
블랙웰(2024):5세대 텐서 코어는 FP4와 마이크로스케일링 형식을 도입하여 Hopper에 비해 GPT-MoE(매개변수 30조 개)와 같은 대규모 모델의 성능이 최대 1.8배 더 빨라졌습니다.