[re:Invent2024] “정확성·저비용·저지연…아마존베드록, ‘골든 트라이앵글’ 갖췄다”

실시간
뉴스

e비즈*솔루션

[re:Invent2024] “정확성·저비용·저지연…아마존베드록, ‘골든 트라이앵글’ 갖췄다”

디지털데일리 발행일 2024-12-05 01:00:00

라스베이거스(미국)=권하영 기자

URL복사

[인터뷰] AWS 셰리 마커스 생성형AI서비스 응용과학 디렉터

아마존웹서비스(AWS)의 셰리 마커스 생성형AI서비스 응용과학 디렉터가 3일(현지시간) 미국 네바다주 라스베이거스의 베네시안 호텔에서 열린 ‘AWS 리인벤트 2024(AWS re:Invent 2024)’에서 한국 기자들과 인터뷰를 진행하고 있다. [Ⓒ 디지털데일리]

[디지털데일리 권하영기자] “생성형 인공지능(AI)에 대해 고객이 원하는 건 정확하고, 빠르며, 저렴한 AI 모델입니다. 우리는 모델에 대한 선택권을 제공하는 동시에 고객이 이러한 ‘골든 트라이앵글(Golden Triangle)’을 만들 수 있게 하는 겁니다.”

아마존웹서비스(AWS)의 셰리 마커스 생성형AI서비스 응용과학 디렉터는 3일(이하 현지시간) 미국 네바다주 라스베이거스의 베네시안 호텔에서 열린 ‘AWS 리인벤트 2024(AWS re:Invent 2024)’에서 <디지털데일리>와의 인터뷰를 통해 이같이 말했다. 마커스 디렉터는 AWS 안팎에서 인정받는 AI와 머신러닝(ML) 분야 전문가다.

AWS는 지난 2일부터 연례 기술 컨퍼런스로 AWS 리인벤트 2024를 개최하고 있다. 둘째날 AWS의 맷 가먼 최고경영자(CEO) 기조연설에서 자사 핵심 생성형 AI 서비스인 ‘아마존 베드록’의 주요 신규 기술이 발표된 가운데, 마커스 디렉터가 이러한 업데이트의 핵심 메시지를 이 같이 전한 것이다.

아마존 베드록은 아마존 자체 AI 모델은 물론 주요 AI 파트너사들의 파운데이션모델들을 동시에 제공함으로써 고객이 여러 모델들을 조합해 맞춤 애플리케이션을 만들 수 있는 생성형 AI 개발도구로, 이날 가먼 CEO가 밝힌 아마존 베드록의 주요 신기술은 크게 3가지다.

먼저, ‘자동화 추론 검증(Automated Reasoning Checks)’ 기능을 선보였다. 이는 자동화된 추론을 통해 AI의 답변을 배포 전에 수학적으로 검증함으로써 반드시 ‘정답’만을 답변하게 하는 기술로 요약된다. 생성형 AI의 대표적인 부작용인 할루시네이션(Hallucination, 거짓정보생성)을 해소하기 위한 조치다. AWS는 이에 앞서 검색증강생성(RAG) 기반으로 생성형 AI 환각을 감지하고 차단하는 ‘문맥 근거 검증(Contextual Grounding Checks)’ 기술도 아마존 베드록에 추가한 바 있다.

마커스 디렉터는 “이 두 가지에 대해 좋고 나쁘고를 비교하긴 어려운 게, 예를 들어 ‘미국 역대 대통령 중 누가 최고인가’를 물었을 때 자동화 추론 검증은 아예 그에 대한 대답을 할 수 없지만 RAG 기반에서는 좀 더 상관성 있는 정보를 제공하게 될 것”이라며 “이번에 발표한 자동화 추론 검증의 경우, (정확한 답변을 보장한다는 점에서) 공공·금융 등 분야에서 효율성이 높아질 수 있을 것”이라고 설명했다.

두번째는 ‘멀티-에이전트 콜라보레이션(Multi-Agent Collaboration)’ 기술이다. 쉽게 말해 아마존 베드록으로 생성한 여러 업무별 AI 에이전트들이 서로 정보를 공유하고 교류할 수 있도록 하는 것으로, 특화 업무를 전담하는 AI 에이전트들과 두뇌 역할의 수퍼-에이전트(Super-Agent)가 이들을 조율하는 방식으로 구상됐다.

마커스 디렉터는 “AI 에이전트는 말하자면 효율성을 극대화하기 위한 것”이라며 “예를 들어 금융 애플리케이션을 운영하는 금융사들은 데이터를 아주 빠르게 추출하길 원하는데, 특정 AI 에이전트가 각자 포맷이 다른 수백개 소스에서 데이터를 추출해 수퍼-에이전트에게 보고하는 식으로 효율성을 높일 수 있다”고 소개했다.

마지막으로는 ‘모델 증류(Model Distillation)’ 기술이 있다. 대규모 모델의 특정 지식을 더 작은 모델로 이전하는 것인데, 쉽게 말해 ‘큰 모델’이 ‘작은 모델’을 공부시키는 것과 같다.

마커스 디렉터는 “모델 증류를 활용하게 되면, 메타의 ‘라마’ 같은 아주 큰 모델을 활용해서 파인튜닝을 하고 기능을 추가해 작은 모델로 지식을 전파할 수 있고, 이를 통해 비용은 줄이면서 업무 속도는 빨라진다”는 점을 강조했다. 이로써 큰 모델의 지식과 정확도는 유지하면서, 작은 모델의 속도와 저렴함을 얻을 수 있는 것이다. AWS에 따르면 최대 500% 빠르고 75% 저렴한 수준이다.

종합해보면 이번 업데이트는 마커스 디렉터가 언급한 대로, 생성형 AI에 대해 정확도를 높이면서도 레이턴시(지연시간) 없이 더 빨라지고 비용은 더 효율적으로 절감하는 이른바 ‘골든 트라이앵글’을 갖추기 위한 노력이었다고 볼 수 있다. 마커스 디렉터는 “고객은 항상 내가 어떤 모델을 써야 하는지, 더 정확하고 빠르면서 저렴한 모델은 무엇인지 궁금해 한다”며 “이런 질문들에 보다 쉽게 답변하기 위해 내놓은 기술”이라고 부연한다.

마커스 디렉터는 AWS의 자체 AI 반도체(칩) 전략에 대해서도 강조했다. AWS는 Arm 기반 CPU ‘그래비톤’에 이어 각각 훈련용·추론용 AI 칩인 ‘트레이니움’ 및 ‘인퍼런시아’ 등 자체 개발 칩 라인업을 확보하고 있는데, 이는 엔비디아의 고성능 GPU가 AI 가속기 시장을 주도하는 가운데 대안적인 AI 칩을 확보하는 전략으로서 AWS 서비스 전반에 적용돼 비용효율성을 크게 높이는 요인이 되고 있다. 실제 이날 리인벤트에서도 ‘트레이니움2’의 정식 출시 및 3세대의 내년 출시가 주요하게 다뤄졌다.

물론 AWS는 동시에 엔비디아와의 파트너십도 공고히 가져가야 하는 숙제를 안고 있다. 아무리 자체 칩 경쟁력이 충분하다고 해도, AI 연산을 위한 초고성능 컴퓨팅파워가 절실한 현 시점에선 시장의 독보적 리더인 엔비디아를 외면할 수 없기 때문이다.

뿐만 아니라, 많은 사람들이 엔비디아가 AI 칩 시장을 주도할 수밖에 없는 이유 중 하나로 자체 AI 프로그래밍 소프트웨어(SW)인 ‘쿠다’에 대한 종속성을 꼽고 있는 만큼, AWS의 AI SW인 ‘뉴런SDK’를 혁신하는 것이 우선적 과제라는 지적도 나온다.

마커스 디렉터는 이에 대해 “우리 팀은 그 문제를 해결하기 위해 적극적으로 노력하고 있다”며 “한명 한명의 고객을 타기팅해 AWS의 뉴런SDK를 사용할 때 얻을 수 있는 가치와 성능, 비용효율성에 대해 알리고 있다”고 강조했다. 또한 “엔비디아는 소중한 파트너로서 15년 이상 협력 관계를 가져가고 있다”면서도 “AWS 역시 가장 좋은 칩셋을 만드는 게 목표”라고 말했다.

이날 리인벤트에서 최초로 공개된 아마존의 새로운 생성형 AI 모델 ‘아마존 노바’에 대해서는 기존의 아마존 AI 모델인 ‘타이탄’에서 진일보한 모델이란 평가를 내놨다. 마커스 디렉터는 “아마존 노바에는 추가적인 데이터 확인 기능이 많이 도입됐고, 타이탄보다 더 다양한 라인업과 규모를 제공하고 있다”며 “학습 기준으로 보면 아마존 노바의 파라미터 수가 타이탄보다 많기 때문에, 노바를 더 확장된 모델로 보는 게 맞다”고 지적했다.

이어 “AI 모델과 관련해서는 (아마존이 투자한 AI 스타트업) 앤스로픽과 긴밀하게 협업하고 있으며, 앤스로픽은 매우 중요한 개발 파트너”라고 덧붙였다.