실시간
뉴스

일반

한국 AI의 미래, 모델보단 데이터에 주목하라 [real! AI pro]

AI 대전환의 시대, 쏟아지는 이슈와 키워드 중 '꼭 알아야 할 것'과 '알아두면 좋은' 것을 구분하기란 쉽지 않습니다. 뜬구름 잡는 이야기도 많습니다. [real! AI Pro]는 이 고민을 현업 전문가들이 직접 선정한 주제와 인사이트를 담아 명쾌하게 정리해드립니다. <편집자주>

[디지털데일리 이건한 기자] 요즘 국내 인공지능(AI) 업계 사람들을 만나보면 “이제 글로벌 빅테크와 직접적인 LLM(대형언어모델) 경쟁은 쉽지 않다”는 이야기를 공통적으로 하곤 합니다.

안타깝지만, 이는 기술 격차보단 자금력 차이에 기인합니다. 이제는 널리 알려진 것처럼 고성능 LLM 개발과 서비스 운영에는 고성능 GPU가 많을수록 유리합니다. 특히 오픈AI, 마이크로소프트, 메타, 구글 등 소위 '글로벌 AI 빅테크'로 분류되는 회사들은 천문학적인 자금력을 바탕으로 대당 수천만원을 호가하는 AI용 고급 GPU를 매년 수십만대씩 구입하고 있습니다. 또한 그들은 새내기 박사급 AI 연구원도 실력만 있다면 수억원 상당의 연봉을 제시하며 인재도 싹쓸이하는 중입니다.

반면, 이런 상황에서 한국은 어떨까요? 내로라하는 대기업들도 그만한 자금을, 언제 손익분기점에 도달할지도 모르는 AI 사업에 똑같이 투자하기엔 너무나 큰 부담이 따릅니다. 현실적인 '체급 차이'인 셈이고, 이 때문에 결국 대형 AI 모델 경쟁은 점점 '그들만의 리그'가 되고 있는 형국입니다.

현시점 글로벌 AI 산업은 모델, 하드웨어 및 클라우드 인프라, 데이터를 3대축으로 성장 중이다. [ⓒ AI 생성 이미지]
현시점 글로벌 AI 산업은 모델, 하드웨어 및 클라우드 인프라, 데이터를 3대축으로 성장 중이다. [ⓒ AI 생성 이미지]

하지만 한국이 AI 경쟁에서 손 놓기엔 아직 이르다는 평가가 나옵니다. AI의 3대 축을 '모델, 데이터, 인프라'고 규정할 때, LLM과 같은 모델은 그중 하나에 불과하니까요. 여전히 데이터와 인프라의 영역이 있고, 그중 자금 부담이 상대적으로 적은 데이터는 여전히 경쟁해볼 만한 영역입니다.

일례로 반도체만 해도 '시스템반도체'와 '메모리반도체'란 2개의 축 가운데 한국은 후발주자지만 지금은 메모리반도체를 세계에서 가장 잘 하는 나라가 됐습니다. 무엇보다 데이터 부문은 현재 국내에서도 AI 학습용 데이터 수집, 가공, 특화 데이터셋 제작 등에서 두각을 나타내는 여러 토종 기업들이 있기에 더욱 주목할 만한데요. 이 점에서 이번 주제인 AI 산업 내 데이터의 가치와 비즈니스 잠재력, 전략 노하우를 AI 언어데이터 전문회사인 플리토의 이정수 대표가 들려드립니다.

[ⓒ 디지털데일리]
[ⓒ 디지털데일리]

10년 사이 달라진 '데이터 거래'의 위상

안녕하세요, 이정수입니다. 요즘 AI 업계에선 '데이터 비즈니스'란 말이 낯설지 않습니다. 하지만 불과 10년 전만해도 국내에선 디지털 세상에 공개된, 복사 가능한 데이터를 사고 판다는 인식 자체가 어색했던 시기가 있었습니다. 따라서 기술, 과제 연구 시 잘 정제된 관련 데이터셋을 갖추는 것의 이점이 분명했음에도, 기업과 기관 모두 데이터 구매 예산 마련에는 주저하곤 했죠.

반면 해외는 당시부터 고품질 데이터가 미치는 영향을 인정하고, '값어치 있는 데이터는 돈을 주고라도 산다'는 인식 아래 데이터 거래 시장이 활성화되고 있었습니다. 특히 AI에서 양질의 데이터가 중요한 이유는 무엇일까요? 아주 간단한 비유로, 아무리 천재적인 두뇌(모델)를 지닌 아이라도 좋은 교과서(데이터)를 주지 않으면 그 똑똑함을 십분발휘할 수 없다는 진리 때문입니다.

이후 한국에서 데이터에 대한 대대적인 인식 변화는 2016년 초와 2022년 말에 이뤄졌습니다. 2016년은 이세돌과 알파고의 바둑 대국이 화제였죠. 당시에는 국내 연구기관들이 먼저 알파고 AI가 학습한 바둑 기보 데이터의 중요성을 깨닫고, 본격적으로 AI 학습 데이터 수집에 나섰습니다.

다만 그때도 기업은 일부 사내 연구를 제외하면 데이터에 큰 관심을 두지 않았는데요. 그로부터 수년이 더 지난 2022년 11월, 오픈AI가 챗GPT 3.5로 글로벌 센세이션을 일으키자 그제야 기업도 앞다퉈 AI 데이터 학습에 나서기 시작했습니다. 챗GPT처럼 시장에 큰 영향을 미치는 혁신적 AI 서비스의 품질 바탕은 양질의 데이터와 학습의 영향을 받는다는 사실을 드디어 깨달은 겁니다.

어쨌거나, 이렇게 이제 우리 정부와 산학연도 모두 데이터의 중요성을 인지하게 된 점은 다행입니다. 그만큼 앞으로는 국내외 데이터 비즈니스 경쟁력 확보와 빠른 추격을 위한 기술 확보 및 트렌드 집중 공략이 중요해진 시점인데요.

핵심 키워드는 '초개인화 맞춤형 데이터'

제가 지난 10년 이상 플리토에서 축적한 데이터 비즈니스 경험에 미춰볼 때, 지금 이 분야의 핵심 키워드는 '세분화'입니다. 여러분이 최근 자주 들었을 '초개인화' 트렌드와도 맞닿는 이야기인데요. 10년 전에는 일반적이고 대중화된 데이터에 대한 수요가 컸다면, 지금은 초개인화 시대 흐름에 맞는 다중적이면서 세분화된 '특화 데이터' 수요가 압도적으로 커진 상황입니다.

가령 약 8년 전에는 저희가 경쟁하는 언어 데이터 시장 수요처들이 주로 영어와 같은 고자원 언어에 국한하여 범용적인 주제로, 단순 문장 100만개를 만들어달라고 요청하는 정도였습니다.

그러나 지금은 특수 분야의 복합적인 구조를 지닌 문장은 물론, '타갈로그어', '크메르어' 같은 저자원 언어쌍에 대한 요청이 크게 늘었습니다. 국가와 언어장벽을 가리지 않는 요즘 AI 언어모델의 특징적 경쟁력을 높이기 위함입니다.

또한 음성 데이터도 10년 전 '한국어 음성 10초짜리' 수준에서 나아가 '노이즈', '데시벨', '성별', '지역', '국가' 등 다양한 스펙으로 세분화된 데이터를 요구하는 것이 일반적입니다. 이는 어떤 사용자와 시나리오에서도 최적화된 성능이 보장되도록 AI에 대한 수요자들의 요구와 업계의 경쟁 방향이 진화해온 결과물이고요.

이 가운데 요즘 플리토도 다양한 언어 데이터셋 공급, 실시간 통번역 솔루션에서 유의미한 사업 기회를 얻고 있습니다. 저희는 사업 초기부터 전세계 누구나 자신의 언어로 된 번역문을 주고받으며 소통하는 플랫폼을 지향했는데요. 그 가운데 자연스럽게 우리가 저장한 '언어' 그 자체가 데이터가 될 수 있다는 사실을 발견했습니다. 이를 자체 개발한 번역 기술과 결합해 자동 번역 시스템을 구축했고, 여러분도 잘 아는 플리토 번역 플랫폼이 됐습니다.

한발 나아가 최근에는 전문 콘퍼런스 현장에도 실시간 통번역 솔루션을 제공 중입니다. 이런 행사는 대체로 해당 분야의 전문지식과 용어가 다수 포함되는 만큼, 범용 통번역 솔루션으로는 오역이 잦을 수밖에 없습니다. 반면 플리토는 이런 전문 데이터 영역까지 수요에 맞춰 세분화된 데이터셋 구축, 공급 전략을 고도화하며 양질의 실시간 전문 통번역 환경 구현에 성공했습니다. 살짝 자랑하자면, 덕분에 요즘은 각계의 협업 요청이 쏟아져 '즐거운 비명'을 지르고 있기도 합니다.

중동판 CES로 불리는 '자이텍스 2024' 현장에 플리토 실시간 통번역 솔루션이 적용된 모습. [ⓒ 플리토]
중동판 CES로 불리는 '자이텍스 2024' 현장에 플리토 실시간 통번역 솔루션이 적용된 모습. [ⓒ 플리토]

데이터 비즈니스 기회는 '무궁무진' 그 자체

저는 이런 기회가 AI를 적용 가능한 모든 산업에 내재돼 있다고 생각합니다. 지금도 더 똑똑한 생성형 AI 서비스를 출시하고 싶은 욕망은 국내외 기업 모두에 있습니다. 실제로 데이터 투자 격차가 AI 서비스의 성능 차이로 이어지며, 성능 차이는 다시 서비스 이용자 수 차이로 이어지고, 궁극적으로 서비스 신뢰도와 경쟁력 격차로 이어진다는 사실이 명확해졌기 때문입니다.

또한 이처럼 데이터 중요성에 대한 인식이 높아진 지금, 기업들은 이제 단순 텍스트는 물론이고 음성, 영상 등 AI 개발에 필요한 데이터를 백방으로 사들이는 중입니다. 이것은 꼭 언어 데이터에 국한되는 것이 아니라 그들이 필요로 하는 AI 서비스에 특화된 데이터 모두에 해당된다는 점을 기억하길 바랍니다.

다만 그 모든 범주의 데이터를 하나의 기업이 다룰 수 없기에, 각자만의 특화된 데이터 시장을 공략한다면 지금도 충분히 유의미한 비즈니스를 도모해볼 수 있습니다. 특히 국내 데이터 기업들의 기술력과 노하우 수준은 이미 글로벌 시장에서도 상당한 경쟁력을 보이는 수준입니다. 영상, 음성, 합성 등 각 데이터 영역에서 수집·분석·정제하는 프로세스 기술이 탁월하고 속도도 빠른 것으로 평가되죠. 이처럼 수요 기업이 원하는 데이터를 양질로 빠르게 공급할 수 있는 역량은 비즈니스 경쟁에서 분명 우위를 점할 수 있도록 돕는 강점이 됩니다.

게다가 시장 규모도 큽니다. 이때 가급적 국내보단 해외를 겨냥하길 추천합니다. 현재 국내 기업이 만약 연 단위로 데이터 투자에 몇십억원을 한다면, 해외기업은 몇천억원을 퍼부을 만큼 그 격차가 크기 때문입니다. 이 점은 플리토가 언어 데이터 사업의 특성상 초기부터 해외시장을 타깃으로 데이터 영업, 플랫폼 개발, 마케팅 조직 등을 해외 수요에 맞춰 운영하고 대응해본 경험을 토대로 자신 있게 말씀드릴 수 있는 대목입니다.

저희도 데이터 비즈니스 시장이 꽃피지 않았던 과거, 힘든 시기를 보냈습니다. 하지만 지금은 전체 매출의 50% 이상, 데이터 매출의 70% 이상이 글로벌 비즈니스에서 창출되고 있습니다. 특히 생성형 AI 시장의 급성장으로 2023년 수출액은 358만달러로 2022년 대비 43%나 증가했습니다.

2023년 기준, 매년 성장한 플리토 글로벌 데이터 판매 매출이 내수를 따라잡았다. [ⓒ 전자공시 사업보고서]
2023년 기준, 매년 성장한 플리토 글로벌 데이터 판매 매출이 내수를 따라잡았다. [ⓒ 전자공시 사업보고서]

그 가정에서 미국 소재 주요 IT 기업, 커머스 기업, 스위스 소재 기업, 일본 소재 기업을 비롯해 7개국 이상 12개 이상 기업 및 기관과 데이터를 공급 및 판매 계약을 체결했는데요. 여전히 세상은 넓고, 급변 가능성도 있다는 판단 아래 지속적으로 신규 판로 개척을 모색하는 중입니다.

그만큼 국내에서 데이터 비즈니스를 해왔던 국내 기업들이 이제는 글로벌 수요처를 찾아 나설 노력을 기울일 때가 되었다고 봅니다. 충분한 데이터 기술력과 노하우를 갖췄음에도 그동안 글로벌 시장에서의 경험이 약한 것이 우리 기업들의 유일한 약점이었습니다. 지금까지는 대부분 정부기관, 국내기업 수요에 맞춘 비즈니스를 바탕으로 성장하는 것에 익숙했기 때문일 텐데요. 그래서 지금 같은 기회의 시기에 세계를 무대로 한 데이터 판로 개척이 낯설게 다가오는 것 같습니다.

공공 주도에서 글로벌 진출로, 정책도 변화할 때

끝으로 국내 데이터 산업 육성에 대한 작은 제언을 드립니다. 우리 정부는 10여년 전 '공공데이터법'을 제정함으로써, 데이터가 시장에서 거래 가능한 재화임을 인식시키는 첫 단추를 잘 채워주었습니다. 또한 이후 지금까지 정부가 다양한 데이터 수집, 정체, 분석 사업 과제를 추진해준 덕분에, 앞서 언급한 국내 유수의 데이터 기술기업들이 성장할 수 있는 초기 발판도 마련될 수 있었습니다. 이런 정부의 노고에 업계의 한 사람으로서 감사를 드립니다.

하지만 이제는 그동안 축적된 공공데이터가 빠르게 변화 중인 AI 서비스에 얼마나 적합하게 사용될 수 있는지 대대적으로 점검할 시점이 되었습니다. 또한 공공 주도의 데이터 시장 육성에서 나아가, 이제 우리 기업들이 글로벌 시장에서 겨룰 수 있는 힘을 기르도록 정책 지원의 중심을 바꿔야 할 때가 되었다고 느껴집니다. 특히 글로벌 스탠다드에 걸맞게 정부도 보다 합리적인 데이터 단가 설정 및 글로벌 판매 촉진을 위한 징검다리 역할에 더 적극적으로 나서 주길 요청합니다.

또한 지금의 AI 사업 생태계 축은 반도체 기술 중심의 '컴퓨팅 파워', 저장 능력을 위한 '클라우드 서비스', 신뢰성과 품질이 뒷받침된 '데이터 구축'입니다. 재차 강조하지만 이 가운데 데이터만큼은 지금도 우리 기업들이 글로벌 시장에서 충분한 경쟁력이 있으며, 다각적인 지원과 투자에 힘입어 더욱 실질적인 성과로 이어질 수 있습니다. 3대 축에 대한 균형 잡힌 투자가 앞으로도 중요하겠지만, 그중 한국 AI 경쟁력을 미래 핵심 키워드로 '데이터'에 조금 더 주목하기를 바랍니다.

디지털데일리 네이버 메인추가
x