실시간
뉴스

일반

불법 학습 데이터 활용...AI 기업 '망조'의 지름길 [real! AI pro]

AI 대전환의 시대, 쏟아지는 이슈와 키워드 중 '꼭 알아야 할 것'과 '알아두면 좋은' 것을 구분하기란 쉽지 않습니다. 뜬구름 잡는 이야기도 많습니다. [real! AI Pro]는 이 고민을 현업 전문가들이 직접 선정한 주제와 인사이트를 담아 명쾌하게 정리해드립니다. <편집자주>

[디지털데일리 이건한 기자] 최근 인공지능(AI) 업계에서는 데이터가 곧 '금(Gold)'이자, AI 모델의 성능을 좌우하는 핵심 요소란 주장에 대한 이견을 찾아보기 힘듭니다. 그만큼 양질의 원천 데이터를 보유한 기업, 데이터를 잘 다루는 기업에 대한 평가와 기대도 점차 높아지는 시점입니다. 지난 5월 미국의 AI 데이터 전문기업 '스케일AI'가 무려 19조원의 기업가치를 평가받은 일이 상징적이죠.

[ⓒ DALL·E - AI 생성 이미지]
[ⓒ DALL·E - AI 생성 이미지]

하지만 데이터에 대한 관심이 높아지면서 AI용 학습 데이터의 출처를 둔 잡음도 점차 커지는 추세입니다. 뉴욕타임스(NYT)가 오픈AI를 대상으로 자사 뉴스 데이터 무단 수집 및 학습 활용에 대한 소송을 제기(23.12)한 일이 대표적이고, 나아가 온라인에 공개된 데이터가 AI 학습을 위한 '공정이용(Fair Use)' 대상인지에 대한 논쟁도 심화되는 모습입니다.

이 가운데 요즘 AI 업계에서는 데이터 수집 및 활용 절차를 더욱 꼼꼼하게 다듬음으로써 혹시 모를 데이터 관련 리스크에 대응해야 한다는 인식도 높아지고 있는데요.

다만 아직까지 표준화, 법제화된 영역이 아닌 만큼 이에 관한 고민도 함께 커지는 것 같습니다. 과연 기업이 AI 활용 데이터를 안전하게 확보하면서 안정적인 비즈니스로도 연결하기 위해 고려해야 할 점들은 무엇이 있을까요? 국내 AI 데이터 처리 및 분석 전문가인 박찬준 고려대 연구교수에게 들어보겠습니다.

[ⓒ 디지털데일리]
[ⓒ 디지털데일리]

'양질의 데이터' 분류 기준은?

안녕하세요, 박찬준입니다. 요즘 AI 산업에서 데이터 관련 트렌드라면 '양적 팽창'에서 '질적 향상'으로 이동하는 경향이 관찰됩니다. 데이터를 중요하게 보는 동일한 관점에서도 이전에는 방대한 양의 데이터 축적이 AI 성능 향상의 주요 동력으로 여겨졌는데요. 이제는 데이터의 품질이 모델 성능과 더욱 직접적인 상관관계로 연결되는 시점에 이르렀기 때문입니다. 그만큼 '양질의 데이터'는 이제 모든 기업과 연구자들이 확보하고 싶은 핵심 자원이 되었고 이는 '윤리적 문제가 없으면서 모델의 성능을 향상할 수 있는 데이터'라고 설명할 수 있겠습니다.

데이터는 공정이용 대상? 아직 정답은 없다

하지만 출처와 법적 문제까지 없는 데이터를 확보하기란 매우 어렵습니다. 데이터란 기본적으로 굉장히 다양한 저작권자로부터 생성되므로 모든 원작자에게 사용 허가를 받는 일이 표면적으론 불가능하기 때문입니다. 이 때문에 AI 학습 데이터를 공정이용 대상으로 봐야 한다는 목소리도 나오지만, 연구자나 기업 입장에 따른 이견이 적지 않습니다.

개인적으로 공정이용은 매우 복잡한 윤리적, 법적 이슈가 얽힌 문제이므로, 데이터 제공 주체와 활용하는 개발자가 '서로의 권리를 보호하면서도 AI 기술 발전을 도모할 수 있는 균형점'을 찾는 것이 가장 이상적이긴 합니다. 또한 이를 위해 공정이용의 범위를 법적으로 규정하는 일도 필요하지만, 동시에 그로 인해 기술 혁신이 저해되지 않도록 해야 한다는 어려운 숙제가 따릅니다. 결국 시간을 두고 매우 신중한 접근과 해석을 더해가야 할 문제라고 할 수 있죠.

정답은 없어도 길은 있다... '1T 클럽'의 사례

대신 현재 시스템의 한계 속에서도 안전한 데이터 확보를 위한 노력은 이해관계자들의 긴밀한 협력으로 충분한 결실을 만들어낼 수 있습니다. 이와 관련해선 제가 얼마 전까지 근무했던 AI 스타트업 업스테이지의 '1T 클럽(1 Trillion Token Club)'을 좋은 사례로 제시할 수 있겠습니다.

2023년 8월 업스테이지 주도로 발족된 1T 클럽은 텍스트, 책, 기사, 보고서, 논문 등 다양한 포맷에서 '각 1억 단어 이상의 한국어 데이터를 제공하는 파트너사들의 연합체'입니다. 설립 시점부터 20여개 언론사 및 기업과 학계 등 다양한 곳이 회원사로 이름을 올렸죠. 특히 안전한 데이터 확보 및 기여자와 사용자의 공정한 이용 환경 구축이 중요하다는 인식 아래 1T 클럽은 초기부터 수익 분배 방안까지 염두에 둔 것이 특징이었습니다.

그리고 이 계획은 이후 지속적으로 구체화되어 지금은 실제 수익분배까지 실현되고 있는 상황인데요. 그 구조를 축약해 설명하면 다음과 같습니다. 우선 1T 클럽 내 이해관계자들은 크게 데이터를 제공하는 '데이터 제공자(Data Contributors)'와 해당 데이터를 이용해 자신의 서비스를 개선하고 수익을 창출하는 회사인 '데이터 소비자(Data Contributors)'로 구분됩니다. 먼저 데이터 제공자가 플랫폼에 데이터를 제출하면, 해당 데이터는 양질의 데이터로 자동 전처리 과정을 거쳐 수익분배가 가능한 '양질의 데이터'로 거듭나죠. 이후 데이터 제공자는 자신이 기여한 데이터의 양을 기준으로 실제 보상을 수령할 수 있게 됩니다.

1T 클럽의 수익분배 공식. Ti는 기여자 i가 제출한 데이터의 토큰 수, Rapi는 소비자로 생성된 총수익, a는 기여자에게 할당될 수익 비율이며 서비스 운영 비용을 고려하여 결정된다. [ⓒ 1 Trillion Token (1TT) Platform: A Novel Framework for Efficient Data Sharing and Compensation in Large Language Model (24.9)
1T 클럽의 수익분배 공식. Ti는 기여자 i가 제출한 데이터의 토큰 수, Rapi는 소비자로 생성된 총수익, a는 기여자에게 할당될 수익 비율이며 서비스 운영 비용을 고려하여 결정된다. [ⓒ 1 Trillion Token (1TT) Platform: A Novel Framework for Efficient Data Sharing and Compensation in Large Language Model (24.9)

또한 제공자는 자신의 데이터 기여 비율, 기여 토큰 수, 현재 보상 추세에 따른 다음 예상 지급액도 확인할 수 있습니다. 보상 수준은 데이터 소비자의 사용 패턴에 따라서도 변동되는데 이 또한 실시간 확인이 가능하므로, 결국 기여자가 더 나은 데이터를 제공하도록 유도하기도 합니다. 생태계 측면에선 데이터 기여자가 경제적 혜택을 얻고, 데이터 소비자는 출처와 사용권리가 보장된 고품질 데이터를 AI에 적용함으로써 성능과 품질을 높이고 시장 경쟁력까지 확보할 수 있다는 점에서 이상적인 선순환 모델로 평가할 수 있겠습니다.

[ⓒ 1 Trillion Token (1TT) Platform: A Novel Framework for Efficient Data Sharing and Compensation in Large Language Model (24.9)
[ⓒ 1 Trillion Token (1TT) Platform: A Novel Framework for Efficient Data Sharing and Compensation in Large Language Model (24.9)

불법 데이터 사용은 돌이킬 수 없다

이 밖에도 AI 기업이 데이터를 확보할 수 있는 방안은 크게 3가지로 구분됩니다. 첫째, 자체 데이터 구축입니다. 기업이 원하는 데이터를 직접 수집, 필요에 따라 가공함으로써 데이터 품질과 안정성 보장이 가능하죠. 또한 데이터 독점이 가능한 장점이 있지만 많은 비용과 시간이 소요되는 단점도 따릅니다.

둘째, 데이터 구매입니다. 외부에서 정제된 데이터를 구입하는 방법으로, 초기 비용은 발생해도 데이터를 신속하고 합법적으로 확보할 수 있는 장점이 있습니다. 대신 자체 데이터 구축과는 반대로 원하는 수준의 충분한 핏(Fit)을 지닌 데이터를 확보하기 어렵다는 단점이 있을 수 있습니다.

셋째, 공공 데이터 활용입니다. 정부나 공공기관이 제공하는 데이터를 활용하는 방안으로, 비용 부담은 가장 적으면서 신뢰할 수 있는 데이터를 확보할 수 있는 것이 장점입니다. 다만 공공이란 특정 도메인에 한정된 데이터만 얻을 수 있다는 점에서 한계가 있기도 합니다.

이처럼 일장일단이 있지만 합법적인 경로로 데이터를 확보하는 건 대단히 중요합니다. 예컨대 기업이 불법적 경로로 획득한 데이터로 자사 AI 모델을 학습할 경우, 추후 법적 분쟁뿐 아니라 모델의 신뢰성에도 큰 타격을 입을 수 있습니다. 무엇보다 이 경우 기업이나 서비스의 존망과도 직접적으로 연결될 가능성도 있는데요. 확실한 사실은 모델 성능을 유지하면서 이미 학습시킨 특정 데이터만 제거하는 건 기술적으로 매우 어렵다는 점입니다. 나아가 이미 학습된 데이터가 모델에 미친 영향을 완전히 배제하는 것도 불가능하다고 할 수 있습니다.

이런 상황에서 데이터 출처에 문제가 발견된 경우, 기업은 돌이킬 수 없는 이미지 및 재정적 손실로 이어질 수 있다는 사실을 반드시 기억하길 바랍니다. 약간의 시간과 비용이 더 들더라도 처음부터 안전하고 법적으로 문제가 없는 데이터를 사용하는 것이 중요합니다.

[ⓒ DALL·E - AI 생성 이미지]
[ⓒ DALL·E - AI 생성 이미지]

데이터의 미래... 기업과 개인이 준비할 것은?

또한 일부 전문가들은 수년 이내에 학습할 만한 양질의 데이터가 모두 고갈될 것이란 전망을 내놓기도 합니다. 데이터 출처의 합법적을 확보해도 정작 학습 가능한 데이터가 부족한 날이 올 수 있다는 이야기지요.

물론, 이는 아직 확정할 수 없는 미래지만 적어도 이런 상황에 대비하려면 기업도 단순히 데이터 양을 늘리는 것 외에도 '데이터의 효율적 활용' 역시 무게를 두고 준비해야 할 과제가 될 겁니다. 새로운 데이터 수집이 어려워지는 만큼 기존 데이터를 더욱 양질로 정제하고 가공하는 기술 발전이 중요하며, 데이터 증강 기법이나 시뮬레이션 기법을 통해 데이터를 효과적으로 확장하는 방안들이 제시될 수 있습니다.

더불어 데이터 활용의 윤리적, 법적 문제는 앞으로 더욱 중요해질 뿐, 약해지지 않을 것입니다. 따라서 AI 연구자와 기업은 앞으로 대중의 신뢰를 얻기 위해 투명한 데이터 활용 방안도 제시해야 합니다. 신뢰할 수 있는 AI 사용, 개인정보보호에 대한 대중의 인식이 높아질수록 동일한 서비스라면 데이터 투명성이 확실하게 보장된 AI가 그들의 선택을 받을 것이기 때문입니다.

끝으로 AI를 사용하는 대중도 데이터 남용에 대해 너무 지나친 걱정을 할 필요가 없다고 말씀드리고 싶습니다. AI 연구자로서 경험에 의하면 AI 학습용 데이터는 대부분 개인을 식별할 수 없는 형태로 사용되며, 기술적으로도 데이터 보안을 위한 다양한 장치들이 마련돼 있습니다. 따라서 지나친 우려는 불필요하지만, 자신의 데이터 주권을 충분히 인식하고 안전하게 권리를 행사할 수 있는 환경에 데이터를 제공할 수 있도록 AI와 데이터에 대한 이해를 높여가는 것이 더욱 중요하겠습니다.

디지털데일리 네이버 메인추가
x