하드웨어/Display 장비

nvidia tensor core

구차니 2026. 5. 21. 11:32

싼거 샀다 피보는 중 ㅋㅋㅋ

 

cuda core는 fp32나 fp64 행렬 단일 연산(곱/덧셈 등..) 에 특화 되어있고

tensor core는 복잡 정밀도의 (AxB) + C 에 대한 연산에 특화되어있는 것으로 보인다.

 

cuda core 로는 

AxB 를 먼저 수행하고(fp32) 거기에 +C를 해서 두번의 연산이 필요했다면

tensor 코어는 (A x B) + C 에 대해서 한번에 하드웨어 적으로 퉤~(물론 정밀도 희생)

 

복합정밀도, 복합 행렬 연산(FMA - Fused Multiply Add)

[링크 : https://comsys-pim.tistory.com/5]

[링크 : https://www.reddit.com/r/nvidia/comments/1hxmvm4/what_exactly_can_cuda_cores_do_that_tensor_cores/?tl=ko]

[링크 : https://youtu.be/h9Z4oGN89MU?t=1611]

 

+

2026.05.22

 

최소한 암페어(30 시리즈) 는 가야 BF16 지원하니까 정상적인(?) 성능이 나올 듯.

  • 볼타(2017): FP1/FP16 혼합 정밀도를 갖춘 32세대 Tensor 코어를 도입하여 Pascal보다 5배 빠른 학습을 제공합니다. GPUs.
  • 튜링(2018): 객체 감지와 같은 실시간 추론 작업을 위해 INT8/INT4 지원이 추가되었습니다.
  • 암페어(2020): BF16 및 TF32 포맷으로 확장되어 GPT-3와 같은 조개 매개변수 모델에 대한 학습이 가속화되었습니다.
  • 호퍼(2022): FP8 정밀도 도입으로 대규모 언어 모델의 처리량이 두 배로 늘어났습니다.LLM들).
  • 블랙웰(2024):5세대 텐서 코어는 FP4와 마이크로스케일링 형식을 도입하여 Hopper에 비해 GPT-MoE(매개변수 30조 개)와 같은 대규모 모델의 성능이 최대 1.8배 더 빨라졌습니다.

[링크 : https://blogs.novita.ai/ko/what-are-tensor-cores-the-key-to-supercharging-your-ai-models/]