실시간
뉴스

일반

"AI를 위한 양질의 데이터...대체 뭔가요?" [real! AI Pro]

인간과 AI 소통 가운데 발견되는 '세상에 없는 데이터'

AI 대전환의 시대, 쏟아지는 이슈와 키워드 중 '꼭 알아야 할 것'과 '알아두면 좋은' 것을 구분하기란 쉽지 않습니다. 뜬구름 잡는 이야기도 많습니다. [real! AI Pro]는 이 고민을 현업 전문가들이 직접 선정한 주제와 인사이트를 담아 명쾌하게 정리해드립니다. <편집자주>

[디지털데일리 이건한 기자] AI 시대에는 데이터가 금(Gold)이라는 말, 요즘은 다들 이견이 없어 보입니다. 하지만 금도 14K, 18K, 24K로 급이 나뉘듯 데이터에도 급이 있습니다. 그래서 AI 전문가들도 흔히 "중요한 건 양질의 데이터 확보"라는 말을 하곤 하는데요. 아이러니한 건 그럼 대관절 무엇이 '양질'의 기준이 되는지 구체적으로 설명하는 경우는 찾아보기 어려웠던 것입니다.

오늘은 AI 스타트업 스캐터랩의 이녕우 리더가 그 모호함에 쌓인 갈증을 '세상에 없는 데이터'란 관점에서 시원하게 풀어드립니다. 스캐터랩의 머신러닝(ML) 리드인 이 리더는 현재 '이루다'부터 '제타'에 이르는 스캐터랩의 주요 AI 모델과 대화 경험 개선을 주도하고 있습니다. 개인적으로는 영화 'HER'의 사만다처럼, AI가 사람들과 더욱 깊이 연결되는 미래를 꿈꾼다고 하네요.

(ⓒ 디지털데일리)
(ⓒ 디지털데일리)

■ 뛰어난 영업사원들의 공통점은?

안녕하세요, 이녕우입니다. 지난 10월 앤트로픽(Anthropic, 오픈AI의 라이벌 기업)의 다리오 아모데이 CEO는 한가지 흥미로운 주제의 글을 남겼습니다.

바로 '매우 높은 지능의 강력한 AI가 두각을 나타낼 분야에 대한 예측'이었는데요. 아모데이는 이를 예측하려면 "먼저 AI의 지능을 제한하거나, 보완하는 요인이 무엇인지 생각해야 한다"고 말했습니다. 그리고 이와 연결된 핵심 요인 중 하나가 바로 '데이터'였는데요. 지금도 마찬가지지만 아무리 강력한 AI라도 학습 데이터가 부족한 분야라면 결국 그 잠재력을 온전히 발휘하지 못하기 때문입니다.

특히 요즘은 인간과 굉장히 밀접히 소통하는 대화형 AI 서비스가 증가하고 있는 추세입니다. 특히 이 영역의 AI는 인간에 대한 단순 지식 성질의 데이터뿐 아니라, '감정', '취향' 같이 개인적이면서 판단의 경계는 미묘한 데이터의 확보, 나아가 그것을 올바르게 분석하고 실시간으로 대응하는 역량이 점차 중요해지고 있습니다.

(ⓒ AI 생성 이미지)
(ⓒ AI 생성 이미지)

일례로 뛰어난 영업사원이란, 대부분 고객에게 합리적인 정보를 제공할 뿐 아니라, 각 개인의 세세한 수요까지 파악한 뒤 적절한 설득 전략을 구사하는 이들입니다. 누군가는 그것이 인간적으로 타고난 '센스'나 '수완'이라고 말합니다.

하지만 그 깊은 뿌리를 살펴보면, 영업사원의 성공은 남들이 간과한 고객 데이터와 요구사항을 발견하는 데에서 시작됨을 알 수 있습니다. 심지어 그건 설득을 당한 고객조차 몰랐던 무의식의 데이터일 수 있고요. 이렇게 발견된 데이터, 활용까지 되어 실적으로 연결된 데이터가 바로 그 영업사원만이 가진 '양질의 데이터'인 것입니다.

■ 세상에 없는 데이터? 아직 발견되지 않았을 뿐

AI를 위한 양질의 데이터도 마찬가지입니다. '존재하되 발견되지 않아 세상에 없는 데이터'라고 정의해볼까요? 이때 혹자는 "우리에겐 이미 경쟁사에 없는 데이터가 있습니다"라고 말할 수 있습니다. 하지만 한 가지 조건이 충족되어야 합니다. 혹시 데이터는 AI가 지금보다 고도화된 지능과 추론 능력으로 해결할 수 있는 문제에 속해 있나요? 그렇다면 그 데이터가 양질의 가치를 유지할 수 있는 시간은 그리 길지 않을 것입니다.

실제로 지금도 AI 모델이 발전할수록 단순한 인지, 추론 영역의 문제는 점점 더 쉽게 해결되고 있습니다. 글로벌 기업들도 신형 AI 모델을 내놓으면 대부분 먼저 고난도 수학, 과학, 상식 영역과 관련된 벤치마크 테스트에서 높은 점수를 받았다고 자랑하지요.

그러나 앞으로 우리 삶에서 공생할 AI의 진짜 경쟁력은 단순한 정답 제공을 넘어, 사용자의 미묘한 심리와 선호를 발견하고 대응하는 역량에서 차별화될 겁니다. 또한 AI 기업 역시 '세상에 없는 데이터'에서 다시 실질적으로 문제 해결이 도움이 되는 데이터를 선별하는 능력, 그것을 활용해 AI 모델 성능까지 개선하는 능력이 더욱 중요해지게 됩니다.

■ AI와 대화에서 정답만큼 중요한 것

저는 스캐터랩의 AI 기반 캐릭터 대화 플랫폼인 제타를 통해 앞서 언급된 요소들의 가치를 극대화하는 일을 하고 있습니다. 제타의 특징은 AI 캐릭터와 사용자 간의 롤플레잉(역할지정) 대화를 통해 스토리가 실시간으로 전개되는 점입니다. 기존 영화나 소설처럼 정해진 스토리라인을 따르는 것이 아니라, 사용자가 어떤 말을 하고 AI는 그것에 어떻게 응답하는가에 따라 예측불허한 시나리오가 확장되어 나가는 형태지요.

(ⓒ 제타 공식 홈페이지 갈무리)
(ⓒ 제타 공식 홈페이지 갈무리)

이런 환경에서는 기존 콘텐츠에서 볼 수 없었던 새로운 대화 패턴과 맥락들이 무한히 생겨납니다. 또한 사용자와 AI 간 상호작용도 끝없이 확장되곤 합니다. 저희는 이 과정에서 사용자가 AI에게 느끼는 '효능감', '지루함', '재미' 같은 정성적 가치가 생각보다 AI와의 대화 품질을 결정짓는 측면에서 굉장히 중요한 요소임을 일찍이 알 수 있었습니다.

따라서 저희 연구팀의 주된 목적에는 사용자가 AI와 대화에 더욱 만족하고 몰입할 수 있도록 AI는 사용자가 제안한 모든 시나리오와 반응에 극도의 섬세함을 갖도록 하는 것이 포함됩니다. 이때 단순히 '사용자가 이런 반응을 보였다' 정도의 데이터를 모으는 정도는 아직 세상에 없는 데이터라 말하기에 충분하지 않습니다. 그 데이터 안에도 무수히 많은 노이즈가 포함될 수 있기 때문입니다.

예컨대 사용자 데이터에는 오타, 비문, 피상적인 표현, 짧고 무의미한 문장 등이 포함되곤 합니다. 또한 사용자들은 AI의 답변이 만족스럽지 않음에도 단지 귀찮음 때문에 차선을 택하는 경우도 있습니다. 그런데 이런 데이터들은 사용자의 숨은 의도를 파악하는데 방해가 되어 걸러내야 하는데 단순한 규칙 기반 필터링 이상의 노력을 필요로 합니다.

즉, 어떤 영역은 사람이 직접 다양한 데이터 패턴을 눈으로 직접 확인하며 어떤 데이터가 문제 해결에 실질적으로 도움이 되는 데이터인지, 쓸모없는 데이터인지 정의하는 과정이 필요합니다. 그 수고 속에서 결국 사용자의 진짜 숨은 의도 파악이 가능한 데이터를 AI에게 학습시켜 줄 수 있게 됩니다. 또한 이 과정이 바로 앞서 언급된 '존재했지만 발견하지 못하면 세상에 없는 데이터'로서 양질의 데이터를 얻는 과정이기도 합니다.

물론 이는 단순한 모델 개선 작업보다 훨씬 더디고 고된 과정입니다. 하지만 스캐터랩은 그동안 방대하고 막연한 데이터에서도 사용자가 어느 지점에서 만족하고 불만을 느끼는지 세세히 파악하고, 레이블링(데이터 특징에 따른 표식을 남기는 것)하는 일을 수없이 반복하며 독자적인 노하우 확보에 성공했습니다. 실제로 이렇게 확보한 데이터셋을 모델에 지속적으로 학습하여(Continual Learning) AI가 유의미한 성능 향상을 보이는 점을 직접 목도했기 때문에 자신 있게 이야기할 수 있습니다.

제타의 모든 대화는 성공적이든, 실패처럼 느껴지든 그 자체로 데이터이자 콘텐츠가 되곤 한다 (ⓒ 제타 공식 SNS)
제타의 모든 대화는 성공적이든, 실패처럼 느껴지든 그 자체로 데이터이자 콘텐츠가 되곤 한다 (ⓒ 제타 공식 SNS)

또한 감사하게도 이 일의 일부는 사용자들과 함께 이뤄집니다. 제타는 사용자가 AI와 함께 이야기를 만드는 구조이므로 사용자는 캐릭터의 개성과 상황이 반영된 자연스러운 반응을 기대합니다. 그만큼 타 챗봇과 비교를 불허하는 섬세함이 필요하며, 사용자들도 저희 업데이트로 인한 AI 모델의 미묘한 변화까지 우리보다 더 빠르게 감지하곤 합니다.

이는 모델을 특정한 방향으로 개선하면 예상치 못한 부작용이 발생하는 경우가 있는데, 그 부작용을 오히려 AI와 긴밀히 소통하던 사용자들이 먼저 알아채고 피드백을 주는 경우입니다. 사용자들은 의외로 캐릭터 말투의 섬세한 부분, 표현 하나하나에도 깊이 반응하더군요. 실제 사용자 인터뷰에서도 AI의 미묘한 반응이 주는 감동과 희열에 대해 언급하는 사례들을 찾아볼 수 있는데요. 저희는 결국 이런 미세한 부분마저 데이터로 분석하고, 다시 문제를 해결하기 위한 방향으로 모델 학습을 이어가고 있습니다.

■ 양질의 데이터와 단짝… '자체 개발 AI 모델'

이밖에 오늘은 진짜 양질의 데이터란 무엇인가에 집중해 이야기했지만 기업이 자체 AI 모델을 보유하는 것의 중요성도 간략히 언급하며 글을 마치고자 합니다. 이 역시 스캐터랩이 그간 감성 대화에 특화된 SLM(소형언어모델) 개발과 개선에 집중한 결과로 얻은 인사이트에 기반한 제언이며, 데이터 활용과도 긴밀히 연결되는 주제이기 때문입니다.

AI 모델 개발은 크기와 규모에 따라 꽤 큰 비용이 들지만 작더라도 기업이 자사 서비스를 위한 자체 모델을 서비스 할 때 갖는 이점은 분명합니다. 우선 완성된 외부 AI 모델을 쓰면 시간과 비용은 절감되지만, 반대로 서비스 가운데 발생되는 학습 데이터의 접근 및 활용은 그만큼 제한됩니다. 양질의 데이터를 얻고 쓸 기회가 그만큼 감소하는 것이지요.

또한 사용자 피드백에 대한 즉각적인 모델 업데이트와 문제 수정 역시 자체 모델을 보유한 경우에만 유연하게 이뤄질 수 있습니다. 무엇보다 수익성도 간과할 수 없습니다. 크든 작든 외부 모델을 이용할 때 지불하는 API 사용료는 서비스의 확장, 장기화에 늘 부담 요인으로 작용하기 때문입니다. 반면 자체 모델을 운영할 수 있다면 이처럼 데이터 확보, 운영, 모델 개선, 수익성 개선 측면의 시너지 효과를 모두 얻을 수 있습니다.

즉, AI 스타트업이 양질의 데이터를 확보하는 노하우와 자체 모델 개발 및 운영 역량을 확보하는 것은 기업의 장기적 생존, 나아가 사업에 도움이 되는 부가가치 창출 기회를 그만큼 많이 확보하는 측면에서 분명 큰 도움이 됩니다. 이 점은 앞으로도 AI 기업 간 경쟁력을 가르는 주요한 차별점이 될 것입니다.

디지털데일리 네이버 메인추가
x