텍스트로 360도 이미지 생성을…인텔 랩, 새 AI 확산 모델 `LDM3D` 공개

실시간
뉴스

텍스트로 360도 이미지 생성을…인텔 랩, 새 AI 확산 모델 'LDM3D' 공개

디지털데일리 발행일 2023-06-23 13:13:37

백승은 기자

URL복사

[디지털데일리 백승은 기자] 인텔 랩은 블록케이드 랩(Blockade Labs)과 협력해 신규 확산 모델 'LDM3D(Latent Diffusion Model for 3D)'를 공개했다.

이번에 공개한 확산 모델은 생성형 인공지능(AI)을 사용해 사실적인 3D 시각 콘텐츠를 제작하는 용도다. 업계 최초로 확산 프로세스를 사용해 뎁스 맵(depth map)을 생성하며, 선명하고 몰입감 있는 360도 3D 이미지를 생성한다.

인텔은 개방형 생태계를 통해 더 많은 사람들이 AI의 혜택을 누릴 수 있도록 노력하고 있다. 최근 몇 년 간 상당한 발전을 이룬 분야 중 하나는 바로 컴퓨터 비전 분야, 특히 생성형 AI 분야이다. 다만, 현재 고급 생성형 AI 모델 중 상당수는 2D 이미지 생성에 국한되어 있다. 일반적으로 텍스트 프롬프트에서 2D RGB 이미지만 생성하는 기존 확산 모델과 달리, LDM3D를 사용하면 주어진 텍스트 프롬프트에서 이미지와 뎁스 맵 모두 생성할 수 있다.

LDM3D는 4억 개 이상의 이미지 및 캡션을 포함하고 있는 LAION-400M 데이터 베이스의 10,000개 샘플 하위 집합으로 구성된 데이터 세트 기반으로 학습됐다. 팀은 학습 말뭉치(corpus)에 주석을 달기 위해 과거 인텔 랩에서 개발한 고밀도 예측 트랜스포머(DPT) 대규모 추정 모델을 사용했다. DPT 모델은 이미지의 각 픽셀에 대해 정확한 상대적 깊이를 제공한다. LAION-400M 데이터세트는 연구진은 물론 해당 분야에 관심을 가진 커뮤니티가 대규모로 모델 학습을 테스트할 수 있도록 연구 목적으로 구축됐다.

인텔과 블로케이드 연구진은 LDM3D의 잠재력을 선보이기 위해 표준 2D RGB 사진과 뎁스 맵을 활용, 몰입감 높은 상호활동적인 360도 뷰 경험을 제작하는 뎁스퓨전(DepthFusion)을 개발했다. LDM3D와 뎁스퓨전은 다각적 생성형 AI 및 컴퓨터 비전 분야가 더욱 발전할 수 있는 토대를 마련한다.

인텔은 오는 18일부터 22일까지 개최하는 IEEE/CVF 컴퓨터 비전 및 패턴 인식 컨퍼런스(CVPR)에서 해당 연구 결과에 대해 발표할 예정이다. LDM3D 데모 시연 영상은 링크에서 확인할 수 있다. 자세한 내용은 관련 논문에서 확인할 수 있다.