logo

Shanghai Neardi Technology Co., Ltd. sales@neardi.com 86-021-20952021

Shanghai Neardi Technology Co., Ltd. 회사 프로파일
소식
> 소식 >
회사 뉴스 RK3588의 6TOPS 병목과 NPU 컴퓨팅 능력에 대한 진실에 대한 심층적인 해석

RK3588의 6TOPS 병목과 NPU 컴퓨팅 능력에 대한 진실에 대한 심층적인 해석

2025-12-15
Latest company news about RK3588의 6TOPS 병목과 NPU 컴퓨팅 능력에 대한 진실에 대한 심층적인 해석

RK3588을 사용하여 엣지 AI 프로젝트를 진행한다고 상상해 보세요. 카메라 비디오 스트림은 실시간 얼굴 인식 및 차량 감지를 수행해야 하며, UI 표시, 데이터 업로드 및 비즈니스 로직 처리도 지원해야 합니다. 다음과 같은 점을 알 수 있습니다. 프레임에 객체가 많으면 프레임 드롭이 발생하고, 대형 모델은 원활하게 실행되지 않으며, 온도가 급격히 상승합니다.

이 시점에서 사람들은 보통 이렇게 말합니다. "모델이 너무 큽니다. RK3588의 6TOPS로는 부족합니다."

하지만 정말 컴퓨팅 파워가 부족한 걸까요? 4TOPS 모델을 실행하는데도 6TOPS NPU에서 프레임 드롭과 지연이 발생하는 이유가 궁금했던 적이 있나요? 그 답은 NPU 컴퓨팅 파워의 세 가지 차원에 있습니다.최대 성능(TOPS), 정밀도(INT8/FP16), 그리고 효율성(대역폭).

다양한 칩들이 NPU 사양을 강조하는 것을 볼 수 있으며, 핵심 매개변수가 눈에 띄게 표시됩니다. NPU 컴퓨팅 파워: X TOPS. 예를 들어 RK3588-6TOPS, RK3576-6TOPS, RK1820-20TOPS, Hi3403V100-10TOPS, Hi3519DV500-2.5TOPS, Jetson Orin Nano-20/40TOPS, Jetson Orin NX-70/100TOPS 등이 있습니다.

TOPS란 무엇일까요? 왜 모두가 그것에 대해 이야기하는 걸까요?

테라: 10¹²를 나타냅니다.

초당 연산: NPU가 1초 동안 수행할 수 있는 총 AI 연산 횟수를 의미합니다. 간단히 말해, 1 TOPS는 NPU가 초당 1조(10¹²)번의 연산을 실행할 수 있음을 의미합니다.

TOPS는 어떻게 계산될까요?

에 대한 최신 회사 뉴스 RK3588의 6TOPS 병목과 NPU 컴퓨팅 능력에 대한 진실에 대한 심층적인 해석  0

MAC 유닛의 총 개수가 신경망 컴퓨팅의 핵심입니다. 컨볼루션 레이어와 완전 연결 레이어에서 주요 계산은 입력 데이터를 가중치로 곱한 다음 결과를 합산하는 것입니다.

NPU의 설계 철학은 매우 큰 병렬 MAC 유닛 배열을 갖는 것입니다. NPU 칩은 수천 개 또는 수만 개의 MAC 유닛을 포함할 수 있으며, 이는 대규모 병렬 컴퓨팅을 달성하기 위해 동시에 작동할 수 있습니다.

MAC 유닛이 많을수록 NPU가 단일 클럭 사이클 내에 완료할 수 있는 계산량이 많아집니다.

클럭 주파수: NPU 칩과 MAC 유닛이 초당 작동하는 사이클 수를 결정합니다(헤르츠, Hz 단위로 측정). 주파수가 높을수록 MAC 어레이가 단위 시간당 더 많은 곱셈-누산 연산을 수행할 수 있습니다. 제조업체에서 TOPS를 발표할 때는 NPU의 최대 작동 주파수(즉, 최대 달성 가능한 주파수)를 사용합니다.

MAC당 연산: 완전한 MAC 연산은 실제로 1번의 곱셈과 1번의 덧셈을 포함합니다. 전통적인 FLOPS(초당 부동 소수점 연산) 계산 방식에 맞춰, 많은 컴퓨팅 표준은 1번의 MAC 연산을 2번의 기본 연산(곱셈 1번, 덧셈 1번)으로 계산합니다.

정밀도 팩터: NPU의 MAC 유닛은 저정밀도 데이터(예: INT8) 처리에 최적화되어 있습니다.

INT8 vs FP32의 단순화된 속도 향상 비율: 32비트 / 8비트 = 4이므로, 단일 FP32 유닛은 INT8 계산으로 전환될 때 이론적으로 한 사이클에 4배 더 많은 연산을 수행할 수 있습니다. 따라서 제조업체의 TOPS가 INT8을 기준으로 계산되는 경우, 정밀도 관련 속도 향상 비율을 곱해야 합니다. 이것이 INT8 TOPS가 FP32 TOPS보다 훨씬 높은 이유입니다.

TOPS는 최대 이론적 컴퓨팅 파워를 측정합니다. 실제 응용 프로그램에서는 데이터 전송, 메모리 제약 및 모델 구조와 같은 요인으로 인해 NPU의 실제 유효 컴퓨팅 파워는 이 최대값보다 낮은 경우가 많습니다.

컴퓨팅 파워는 속도에 관한 것이고, 정밀도는 "세밀함"에 관한 것입니다.

에 대한 최신 회사 뉴스 RK3588의 6TOPS 병목과 NPU 컴퓨팅 능력에 대한 진실에 대한 심층적인 해석  1

컴퓨팅 파워는 NPU가 얼마나 빨리 실행되는지 알려주고, 계산 정밀도는 NPU가 얼마나 세밀하게 작동하는지 알려줍니다. 정밀도는 NPU 성능의 또 다른 핵심 차원으로, 계산 중 사용되는 비트 수와 데이터의 표현 범위를 결정합니다.

동일한 TOPS 수준에서 INT8의 실제 계산 속도는 FP32보다 훨씬 빠릅니다. 이는 NPU의 MAC 유닛이 한 번에 더 많은 8비트 데이터를 처리하고 더 많은 연산을 수행할 수 있기 때문입니다.

제조업체에서 주장하는 NPU TOPS는 일반적으로 INT8 정밀도를 기반으로 합니다. 비교할 때는 동일한 정밀도에서 TOPS를 비교하고 있는지 확인하십시오.

에 대한 최신 회사 뉴스 RK3588의 6TOPS 병목과 NPU 컴퓨팅 능력에 대한 진실에 대한 심층적인 해석  2

고정밀도(일반적으로 훈련에 사용)
  • FP32(단정밀도 부동 소수점, 32비트): 가장 큰 수치 범위와 정밀도를 제공합니다. 전통적인 GPU 및 PC 컴퓨팅에서 일반적으로 사용됩니다. 모델은 일반적으로 정확성을 보장하기 위해 훈련 단계에서 FP32를 채택합니다.
  • FP16/BF16(반정밀도 부동 소수점, 16비트): 특정 수준의 정밀도를 유지하면서 데이터 볼륨을 절반으로 줄여 더 빠른 계산과 메모리 절약을 가능하게 합니다.
저정밀도(일반적으로 추론에 사용)
  • INT8(8비트 정수): 현재 엣지 측 NPU의 추론 성능을 평가하는 업계 표준입니다. 모델 가중치와 활성화 값을 고정밀도(예: FP32)에서 8비트 정수로 변환하는 프로세스를 양자화라고 합니다.
  • INT4(낮은 비트 너비): 전력 소비 및 지연 시간에 대한 요구 사항이 매우 높은 시나리오에 적합하며, 모델 정밀도 손실을 제어하는 데 더 높은 요구 사항을 부과합니다.
NPU의 실제 성능을 이해하는 방법?

NPU가 20 TOPS(INT8)를 주장하는 것을 보면 다음을 이해해야 합니다.

  • 최대 컴퓨팅 파워는 초당 20조 번의 연산입니다.
  • 이 컴퓨팅 파워는 8비트 정수(INT8) 정밀도로 측정됩니다. 즉, 훈련이 아닌 AI 추론(예: 이미지 인식, 음성 처리 등)에 주로 사용됩니다.
  • 최종 성능은 응용 프로그램에 따라 다릅니다. 실제 사용자 경험(예: 얼굴 잠금 해제 속도, 실시간 번역 지연 시간)은 NPU의 TOPS뿐만 아니라 다음에도 의존합니다.
    • 모델 양자화 품질: 양자화된 INT8 모델이 충분한 정확도를 유지하는지 여부.
    • 메모리 대역폭: 데이터 입출력 속도.
    • 소프트웨어 스택 및 드라이버: 모델 배포를 위해 칩 제조업체에서 제공하는 툴체인 및 드라이버의 최적화 수준.

NPU의 컴퓨팅 파워(TOPS)는 속도를 나타내는 지표이며, 계산 정밀도(예: INT8)는 효율성과 적용 가능성의 핵심입니다. 최종 사용자 장치의 경우, 제조업체는 허용 가능한 정밀도 손실을 유지하면서 INT8 TOPS를 최대화하여 저전력 및 고효율 AI 추론 성능을 달성하는 것을 목표로 합니다.

이벤트
연락처
연락처: Mr. Cola
지금 연락하세요
우편으로 보내세요