Shanghai Neardi Technology Co., Ltd. sales@neardi.com 86-021-20952021
RK3588을 사용하여 엣지 AI 프로젝트를 진행한다고 상상해 보세요. 카메라 비디오 스트림은 실시간 얼굴 인식 및 차량 감지를 수행해야 하며, UI 표시, 데이터 업로드 및 비즈니스 로직 처리도 지원해야 합니다. 다음과 같은 점을 알 수 있습니다. 프레임에 객체가 많으면 프레임 드롭이 발생하고, 대형 모델은 원활하게 실행되지 않으며, 온도가 급격히 상승합니다.
이 시점에서 사람들은 보통 이렇게 말합니다. "모델이 너무 큽니다. RK3588의 6TOPS로는 부족합니다."
하지만 정말 컴퓨팅 파워가 부족한 걸까요? 4TOPS 모델을 실행하는데도 6TOPS NPU에서 프레임 드롭과 지연이 발생하는 이유가 궁금했던 적이 있나요? 그 답은 NPU 컴퓨팅 파워의 세 가지 차원에 있습니다.최대 성능(TOPS), 정밀도(INT8/FP16), 그리고 효율성(대역폭).
다양한 칩들이 NPU 사양을 강조하는 것을 볼 수 있으며, 핵심 매개변수가 눈에 띄게 표시됩니다. NPU 컴퓨팅 파워: X TOPS. 예를 들어 RK3588-6TOPS, RK3576-6TOPS, RK1820-20TOPS, Hi3403V100-10TOPS, Hi3519DV500-2.5TOPS, Jetson Orin Nano-20/40TOPS, Jetson Orin NX-70/100TOPS 등이 있습니다.
테라: 10¹²를 나타냅니다.
초당 연산: NPU가 1초 동안 수행할 수 있는 총 AI 연산 횟수를 의미합니다. 간단히 말해, 1 TOPS는 NPU가 초당 1조(10¹²)번의 연산을 실행할 수 있음을 의미합니다.
![]()
MAC 유닛의 총 개수가 신경망 컴퓨팅의 핵심입니다. 컨볼루션 레이어와 완전 연결 레이어에서 주요 계산은 입력 데이터를 가중치로 곱한 다음 결과를 합산하는 것입니다.
NPU의 설계 철학은 매우 큰 병렬 MAC 유닛 배열을 갖는 것입니다. NPU 칩은 수천 개 또는 수만 개의 MAC 유닛을 포함할 수 있으며, 이는 대규모 병렬 컴퓨팅을 달성하기 위해 동시에 작동할 수 있습니다.
MAC 유닛이 많을수록 NPU가 단일 클럭 사이클 내에 완료할 수 있는 계산량이 많아집니다.
클럭 주파수: NPU 칩과 MAC 유닛이 초당 작동하는 사이클 수를 결정합니다(헤르츠, Hz 단위로 측정). 주파수가 높을수록 MAC 어레이가 단위 시간당 더 많은 곱셈-누산 연산을 수행할 수 있습니다. 제조업체에서 TOPS를 발표할 때는 NPU의 최대 작동 주파수(즉, 최대 달성 가능한 주파수)를 사용합니다.
MAC당 연산: 완전한 MAC 연산은 실제로 1번의 곱셈과 1번의 덧셈을 포함합니다. 전통적인 FLOPS(초당 부동 소수점 연산) 계산 방식에 맞춰, 많은 컴퓨팅 표준은 1번의 MAC 연산을 2번의 기본 연산(곱셈 1번, 덧셈 1번)으로 계산합니다.
정밀도 팩터: NPU의 MAC 유닛은 저정밀도 데이터(예: INT8) 처리에 최적화되어 있습니다.
INT8 vs FP32의 단순화된 속도 향상 비율: 32비트 / 8비트 = 4이므로, 단일 FP32 유닛은 INT8 계산으로 전환될 때 이론적으로 한 사이클에 4배 더 많은 연산을 수행할 수 있습니다. 따라서 제조업체의 TOPS가 INT8을 기준으로 계산되는 경우, 정밀도 관련 속도 향상 비율을 곱해야 합니다. 이것이 INT8 TOPS가 FP32 TOPS보다 훨씬 높은 이유입니다.
TOPS는 최대 이론적 컴퓨팅 파워를 측정합니다. 실제 응용 프로그램에서는 데이터 전송, 메모리 제약 및 모델 구조와 같은 요인으로 인해 NPU의 실제 유효 컴퓨팅 파워는 이 최대값보다 낮은 경우가 많습니다.
![]()
컴퓨팅 파워는 NPU가 얼마나 빨리 실행되는지 알려주고, 계산 정밀도는 NPU가 얼마나 세밀하게 작동하는지 알려줍니다. 정밀도는 NPU 성능의 또 다른 핵심 차원으로, 계산 중 사용되는 비트 수와 데이터의 표현 범위를 결정합니다.
동일한 TOPS 수준에서 INT8의 실제 계산 속도는 FP32보다 훨씬 빠릅니다. 이는 NPU의 MAC 유닛이 한 번에 더 많은 8비트 데이터를 처리하고 더 많은 연산을 수행할 수 있기 때문입니다.
제조업체에서 주장하는 NPU TOPS는 일반적으로 INT8 정밀도를 기반으로 합니다. 비교할 때는 동일한 정밀도에서 TOPS를 비교하고 있는지 확인하십시오.
![]()
NPU가 20 TOPS(INT8)를 주장하는 것을 보면 다음을 이해해야 합니다.
NPU의 컴퓨팅 파워(TOPS)는 속도를 나타내는 지표이며, 계산 정밀도(예: INT8)는 효율성과 적용 가능성의 핵심입니다. 최종 사용자 장치의 경우, 제조업체는 허용 가능한 정밀도 손실을 유지하면서 INT8 TOPS를 최대화하여 저전력 및 고효율 AI 추론 성능을 달성하는 것을 목표로 합니다.