SK하이닉스 "GPU, AI 추론서 활용도 낮아…PIM이 대안" [소부장반차장]

실시간
뉴스

반도체

SK하이닉스 "GPU, AI 추론서 활용도 낮아…PIM이 대안" [소부장반차장]

디지털데일리 발행일 2024-05-30 15:16:57

고성현 기자

URL복사

임의철 SK하이닉스 솔루션AT 펠로우가 컴퓨팅과 메모리를 결합한 솔루션에 대해 설명하고 있다.

[디지털데일리 고성현 기자] SK하이닉스가 지능형 메모리(Processing-in-Memory, PIM)를 통한 인공지능(AI) 반도체 시장 진출을 추진한다. AI 영역 내 메모리의 중요성이 커지는 만큼, 이에 대응할 수 있는 전략 제품을 내놓고 활용 분야를 넓히겠다는 취지다.

특히 GPGPU의 활용도가 떨어지는 추론(Inference) 영역에 집중하겠다는 출사표도 내놨다. 이를 위해 PIM의 활용도를 높일 수 있는 온디바이스AI에 진출하는 것은 물론, 장기적으로 AI 데이터센터까지 확대할 수 있는 에코시스템을 확장할 계획이다.

임의철 SK하이닉스 솔루션AT 펠로우(Fellow)는 30일 서울 양재 엘타워에서 열린 'AI-PIM 반도체 워크숍'에서 연사로 나서 "초거대언어모델(LLM) 크기가 커지면서 컴퓨팅 파워가 막대하게 높아지면서 소형언어모델(SLM)을 비롯한 대안이 나오고 있다"며 "결국 AI 데이터센터가 수익을 내기 위해서는 값비싼 운영 비용을 줄이는 구조가 돼야 한다"고 말했다.

임 펠로우는 "AI 챗봇 서비스는 질문을 입력하고 이를 토큰 단위로 이해하는 프롬프트 단계와 답변을 생성하는 응답(Response) 단계로 나뉜다"며 "프롬프트 단계에서는 병렬 처리가 유리한 GPU, 컴퓨팅 바운드지만 응답 단계에서는 메모리의 성능에 좌우되는 경향이 있다"고 설명했다.

질문을 입력하는 단계에서는 토큰화된 문장·단어 등을 벡터 영역에 접근하기 위한 병렬 처리가 유리하게 작용한다. 반면 이를 응답하는 단계에서는 토큰을 생성할 때마다 수억, 수십억개에 달하는 파라미터(Parameter)를 읽어야 하는 탓에 기억장치인 메모리의 역할이 더욱 크다는 의미로 풀이된다.

임 펠로우는 "AI 모델 크기가 350GB일 때, 80GB·대역폭 3TB/s를 가진 5개 GPU는 토큰 한 개당 23ms(350GB/15TB/s)의 시간을 소요하며, (앞서 예시로 든 출력값) 261개 토큰을 기준으로는 6초 가량이 걸리게 된다"고 전했다.

이어 "학습(Training)의 경우 데이터를 1000개 이상 쌓아놓고 처리하기 때문에 GPU의 성능을 충분히 활용할 수 있다"며 "반면 추론은 요청 하나가 들어올 때마다 처리를 한다. 이때는 메모리 대역폭에 영향을 받기 때문에, 아무리 GPU 성능(TFLOPS)이 높더라도 대략 0.3%의 성능만 사용할 수밖에 없는 것"이라고 덧붙였다.

임 펠로우는 AI모델이 거대하면 거대할수록 GPU 등 AI칩보다 메모리의 역할이 중요하다고 강조했다. 파라미터 개수가 늘면 늘수록 응답·추론을 위한 성능이 메모리에 좌우되는 경향이 커지고 있어서다. 데이터 등을 집단화(Batch)해 응답하는 속도를 높이는 방식을 사용할 수는 있으나, GPU의 모든 성능을 끌어내기에 한계가 있다는 이유에서다.

그는 "구글의 BERT는 파라미터 개수가 3.4억개로 작은 편에 속해 컴퓨팅이 관여하는 비중이 95% 가량된다. 하지만 GPT2(파라미터 3.5억개)는 메모리가 관여하는 비중이 45%로 올라갔고 GPT3(130억개)부터는 80%, 파라미터 1750억개의 GPT3에서는 92%까지 올라간다"고 설명했다.

그러면서 "뱅크(Bank)별로 프로세싱유닛을 적용한 PIM을 활용하면 젠V(GENV, 매트릭스x벡터 연산) 기준으로 (175B GPT3의) 메모리 비중 92%를 처리할 수 있다"며 "또 데이터의 어마어마한 이동이 없어지기 때문에 성능 개선과 에너지 효율 개선까지 가능할 것"이라고 강조했다.

이러한 추론용 가속기의 단점을 메꿔 줄 대안으로는 'AiM'를 꼽았다. AiM은 지난 2022년 SK하이닉스가 GDDR6를 기반으로 개발한 지능형 메모리다. 이를 활용하면 막대한 컴퓨팅 비용을 메꾸는 한편 성능도 올릴 수 있어, 추론용에 한정해 엔비디아의 GPU를 대체할 수 있다는 설명이다.

PIM 상용화를 위해서는 관련 생태계 구축이 급선무라고 언급했다. 임 펠로우는 "PIM을 적용하려면 GPU·NPU 시스템 안에 PIM과 관련된 로직(Logic)을 탑재해야만 한다. GPU 업계가 AI 시장의 헤게모니를 갖고 있는 만큼 이러한 방안이 적용되지 않고 있는 상황"이라고 했다.

임 펠로우는 "SK하이닉스는 AiM을 기반으로 한 가속기 카드 'AiMX'를 개발해 별도의 칩 수정 없이 진행할 수 있도록 했다"며 "지난해 FPGA를 탑재한 카드의 데모를 진행하며 성능을 확인했다"며 "관련된 SDK, 에뮬레이터까지 개발한 상황인 만큼 관련된 PIM 생태계(Ecosystem)를 구축하려고 노력하고 있다"고 말했다.