엘론 머스크의 대담한 도박, 자체 슈퍼컴 제작에 1조 투자한다

10억 달러(약 1조원) 투자 소식에 4% 하락한 주가 22TFLOPS의 FP32 성능 제공하는 테슬라 자체설계 D1칩 반도체 한계 뛰어넘는 스케일아웃 방식 최적화

160X600_GIAI_AIDSNote
테슬라의 도조 캐비넷/사진=테슬라

일론 머스크 테슬라 CEO는 차세대 슈퍼컴퓨터 도조 개발에 내년까지 10억 달러(1조2,787억원)를 투입한다고 발표했다. 머스크의 깜짝 발표에 테슬라 주가가 4% 이상 하락했다. 블룸버그의 보도에 따르면 머스크는 19일(현지시간)에 열린 컨퍼런스 콜에서 이 소식을 전했다.

‘훈련장’이라는 뜻의 일본어에서 차용해 이름 지어진 도조는 말 그대로 AI 훈련용 슈퍼컴퓨터다. 일론 머스크는 도조가 FSD(Full Self Driving) 구현에 있어 핵심 역할을 할 것이라고 강조했으나 여러 전문가들은 실질적인 효과에 의문을 표하는 형편이다.

AI 훈련장, 도조(どうじょう, 道場)

2021년 테슬라의 AI 데이 행사에서 도조가 처음 등장했다. 도조는 테슬라가 독자적으로 구축한 슈퍼컴퓨터 플랫폼으로, 차량에서 나오는 비디오 데이터를 활용한 AI 머신 러닝, 특히 비디오 훈련(Training)특화 목적으로 설계됐다. 당시 테슬라는 비디오 데이터를 활용하는 신경망 훈련은 FSD 실현에 필수라며 도조가 큰 도움이 될 것이라고 설명했다.

오토파일럿과 FSD 베타를 이용하는 고객에게서 수집한 3억 마일 분량의 주행 영상 데이터를 활용해 AI를 학습시킬 수 있다는 점은 테슬라의 독보적인 강점으로 꼽힌다. 경쟁사들 대비 압도적인 분량의 데이터를 확보하고 있기 때문이다. 도조가 예상대로의 성능을 보여줄 경우 테슬라는 데이터 물량과 더불어 AI학습 역량에서도 시장 선도적인 위치를 확보할 수 있다.

테슬라의 도조 훈련 타일/사진=테슬라

도조의 선구적인 설계

도조는 부품 단위에서부터 기존 슈퍼컴퓨터와 차별화된다. 대규모 머신 러닝에 필요한 막대한 데이터를 효율적으로 처리하는 병렬 컴퓨팅 방식에 최적화하기 위해 반도체 단위에서부터 새롭게 설계됐기 때문이다. 이 최첨단 설계는 △컴퓨팅 △네트워킹 △I/O(입/출력) 실리콘 △SA(명령 세트 아키텍처) △전력 공급 △패키징 △냉각 등 여러 영역에 걸쳐 있다.

초기 제품은 0.5세제곱피트 상자 크기의 독립형 컴퓨팅 클러스터 도조 트레이닝 타일(Dojo Training Tile)이다. 트레이닝 타일은 15kW 수냉식 패키지 내에서 FP32(32비트 부동 소수점) 성능으로 556TFLOPS를 처리하도록 설계됐다. 이 유닛의 핵심은 TSMC의 7nm 공정에서 작동하는 500억 개의 트랜지스터 다이(Die,집적회로)인 테슬라의 D1이다. 각 D1은 400W의 열 설계 전력(TDP)을 유지하면서 22TFLOPS의 FP32 성능을 제공할 수 있다.

가네시 벤카타라마난(Ganesh Venkataramanan) 테슬라 하드웨어 엔지니어링 수석 디렉터는 “밀리미터 제곱당 트랜지스터 수로 보면 현존하는 기술 중 가장 정교한 기술일 수 있다”고 말했다. 천문학적 수준의 컴퓨팅 통합을 촉진하기 위해 테슬라는 TSMC의 시스템 온 웨이퍼 기술(system-on-wafer)을 활용해 25개의 D1을 하나로 묶었다. 그 결과 대기 시간을 줄이면서도 대역폭이 높은 스케일 아웃에 최적화된 퍼포먼스를 보일 수 있었다.

벤카타라마난은 이러한 트레이닝 타일이 전체 데이터 센터 또는 건물 전체를 구성할 수 있지만, 컴퓨팅 결과를 처리하기 위해서는 여전히 호스트 CPU가 필요하다고 설명했다. 같은 이유로 테슬라는 호스트 CPU와 트레이닝 프로세서 사이의 통로 역할을 하는 도장 인터페이스 프로세서(DIP)를 개발했다. 또한 DIP는 초당 400기가비트(Gbit/s)로 작동하는 공유 고대역폭 메모리(HBM)와 고속 네트워크 인터페이스 카드(NIC)의 역할을 겸한다.

출처=2023 Q2 Tesla Quarterly Update

자동차 회사가 반도체 설계까지 하는 이유

테슬라의 핵심 기업 가치는 완전 자율주행(FSD)의 실현에 있다. FSD 실현을 위해서는 AI기술의 발전이 필수다. 현재 AI 발전의 추세는 ‘다다익선’으로 정리되고 있다. 모델의 크기를 키우고 막대한 데이터를 쏟아붓는 방식이다. 그러나 반도체 성능은 성장의 한계에 부딪힌 상황으로 엔지니어들은 거대 AI 모델을 훈련하기 위한 또 다른 방법을 찾아냈다. 여러 개의 GPU를 병렬로 통합하여 계산을 가속하는 일종의 병렬 컴퓨팅 방식으로 스케일아웃이라고 불린다.

금세 또다른 문제가 발견됐다. 병렬 컴퓨팅 방식에서는 각 장치간의 대역폭 한계가 곧 연산 속도 개선의 한계가 됐다. 가령 500개의 수학 문제를 학생 1명이 푸는 것과 10명이 푸는 상황을 생각해 볼 수 있다. 당연히 10명이 더 빠를 것이다. 반면 5만개의 문제를 1,000명이 풀기 위해서는 문제 풀이는 차치하고 문제를 나눠주고 수거하는 것도 일이다.

테슬라의 해결책은 바로 D1 칩이다. 이 칩을 구성하는 가장 작은 단위부터 문제 분산 방식 개선을 위해 디자인됐다. 서비스, 인프라, 하드웨어, 소프트웨어를 아우르는 테슬라의 풀스택 엔지니어링 역량 덕분에 가능한 해결책이다. 전문가들은 AI라는 거대한 환경에서 최고 수준의 AI 소프웨어 역량부터 기초적인 반도체 칩까지 모든 스택을 갖춘 기업은 테슬라와 구글뿐이라고 설명한다.

반면 GM이나 포드 같은 기존 자동차 제조업체는 아직 어느 분야에서도 실력을 입증하지 못하고 있다. 국내에서는 KT가 테슬라처럼 풀 스택을 달성하기 위해 노력하고 있지만 독자 개발이 아닌 레벨리온 등 다수 기업들과의 제휴를 통한 방식이라고 알려졌다.

완전 자율 주행에 1조원 베팅하기

테슬라의 남다른 기술력에도 불구하고 도조에 대한 비관적인 평가도 많다. 지난 4월 GER은 이 프로젝트가 “성공 가능성이 전혀 없다”고 비판했다. 시장도 비관적인 전망을 공유했다. 10억 달러 투자 발표 이후 테슬라의 주가는 시간외 거래에서 4% 이상 하락했다. 이러한 역풍에도 불구하고 테슬라는 머스크의 10억 달러 투자 결정을 내놨다.

크게 보면 테슬라는 지속적으로 자체 부품과 소프트웨어를 개발하고 생산해왔다. 자체 반도체와 슈퍼컴퓨터를 개발하는 것도 테슬라 특유의 자체 개발 행보의 연장선상으로 볼 수 있다. 많은 사람들의 의심에도 불구하고 테슬라는 그간 많은 성공을 이뤄왔다. 과연 테슬라의 1조원짜리 투자가 이번에도 성공할 수 있을까.