[디지털데일리 박세아 기자] 카카오브레인이 초거대 인공지능(이하 AI) 연구 개발 저변을 확대하고자 이미지-텍스트 데이터셋을 외부에 공개한다.
카카오브레인은 약 7억4000만 개 이미지-텍스트로 이루어진 데이터셋 코요(Coyo)를 오는 31일 카카오브레인 공식 홈페이지를 통해 공개한다고 30일 밝혔다.
초거대 AI 개발의 기반이자 기업의 핵심 자산인 데이터셋을 외부에 공개하는 것은 이례적이라는 설명이다.
데이터셋은 초거대 AI 모델이 정교한 결과값을 구현하는 데 필요한 핵심 요소 중 하나다. 높은 성능을 위해 많은 기업들이 수작업으로 이미지-텍스트 쌍을 맞추어 데이터셋을 수집한다. 이때 높은 비용과 많은 시간이 투입된다.
카카오브레인은 코요 개발 시, 독자 개발한 기술로 이미지-텍스트를 온라인에서 자동 수집함으로써 투입되는 비용과 시간을 효과적으로 줄이고, 양질 데이터를 선별해 높은 성능을 구현했다. 실제로 글로벌 AI 기업에서 공개한 초거대 AI 모델 재현을 통해 교차 검증을 마치며 데이터 품질을 확인했다는 설명이다.
코요는 카카오브레인이 앞서 공개한 초거대 AI 이미지 생성 모델 'RQ-Transformer'와 AI 아티스트 '칼로(Karlo)' 개발에 적용됐다. 4월에 공개한 RQ-Transformer는 기술 우수성을 종합적으로 인정받아 6월에 열린 세계적 학술대회 CVPR 2022에서 해당 논문 발표 기회를 얻었다. 또 최근 현대미술가 고상우, 삼성전자 갤럭시 북 아트 프로젝트와 협업한 바 있다.
카카오브레인은 현재까지 글로벌로 공개된 데이터셋 중 최상위급 규모인 코요를 세계 최대 수준으로 확대한다는 목표 하에 한국어를 비롯한 다양한 언어로 개발해 나간다. 또한, 내년 상반기 중 코요 데이터셋을 활용한 초거대 AI 모델을 추가 공개한다.
카카오브레인 김일두 대표는 "이번 데이터셋 공개는 초거대 AI 기술 개발에 박차를 가할 중요한 근간이자 이정표가 될 것"이라며 "카카오브레인은 다방면으로 기술 리더십을 선도하고 AI 커뮤니티와 협력하며 AI 생태계 발전에 이바지할 것"이라고 말했다.
Copyright ⓒ 디지털데일리. 무단전재 및 재배포 금지
[인터뷰] “메시지 마케팅 시장, 지속 성장 중”...iM택시가 KT 택한 이유는?
2025-04-07 09:00:00SKT, AI 학습데이터 확보 온힘...’그랜드데이터’ 협력사 확장
2025-04-06 12:25:32’독점공개’ 전략 접은 KT…“OTT에도 지니TV 오리지널 콘텐츠 공급”
2025-04-06 12:20:00통합만 해왔던 미디어+ICT 거버넌스, 올바른 개편 방향은? [IT클로즈업]
2025-04-06 07:00:00머스크의 스페이스X, 8.6조원 규모 美 국방부 위성 사업 수주
2025-04-05 12:47:15[OTT레이더] “이병 성윤모…” 본격 군생활 코미디 드라마가 돌아왔다
2025-04-05 11:08:27[툰설툰설] 야구의 계절이 돌아왔다…'기프트' vs '리듬 앤 베이스볼'
2025-04-06 14:06:37[랜선인싸] 낮엔 의사, 밤엔 AI 크리에이터…'닥터포포'의 아트 세계
2025-04-06 12:22:16[콘텐츠뷰] '내가 죽기 일주일 전'…달콤쌉쌀한 인생의 다크초콜릿
2025-04-06 11:31:38[윤석열 파면] 막 오른 조기대선, 2030 표심에 ‘게임 공약’ 다시 부상하나
2025-04-05 12:46:43[윤석열 파면] "네이버·다음 프로필, 前 대통령"…페북·인스타 소개글은?
2025-04-04 18:23:30엔시티 위시, 엠넷플러스 '숨바꼭질' 두번째 플레이어로 출격
2025-04-04 17:44:41