실시간
뉴스

솔루션

[인터뷰] HS효성인포 “챗GPT가 바꾼 데이터 관리...GPU 성능 극대화가 답”

데이터 분산처리로 GPU 활용률 30%→90%

전체 직원 70%가 전문 기술엔지니어

HS효성인포메이션시스템 권동수 전문위원
HS효성인포메이션시스템 권동수 전문위원

[디지털데일리 이안나기자] 챗GPT로 대표되는 생성형AI 등장으로 기업들 데이터 관리 패러다임이 변하고 있다. 기존엔 ‘쓰레기 데이터’로 취급돼 버려졌던 데이터들도 이젠 AI 학습을 위한 중요한 자산으로 인식되기 시작한 것. 대용량 데이터를 효율적으로 저장하고 처리하는 기술의 중요성이 커진 이유다.

HS효성인포메이션시스템 권동수 전문위원은 <디지털데일리>와 만나 “챗GPT 등장 후 기업들의 데이터에 대한 인식이 완전히 달라졌다”며 “파라미터 값이 커질수록 데이터 정확도가 좋아지는 것이 확인되면서, 이젠 더 많은 데이터를 수집하고 활용하는 것이 핵심 과제가 됐다”고 설명했다.

이러한 변화 속에서 주목받는 것이 ‘데이터 레이크하우스’ 아키텍처다. 데이터 레이크하우스는 정형·반정형·비정형 등 모든 형태 데이터를 원본 그대로 저장할 수 있는 ‘데이터 레이크’ 장점과, 정형화된 데이터를 효율적으로 분석할 수 있는 ‘데이터 웨어하우스’ 장점을 결합한 새로운 개념이다.

권 전문위원은 “과거엔 정해진 포맷에 맞는 데이터만 저장하고 나머지는 버렸지만, 이젠 모든 데이터가 잠재적 가치를 지닌다”며 “데이터 레이크하우스는 다양한 형태 데이터를 저장하면서도 필요할 때 즉시 분석할 수 있는 환경을 제공한다”고 설명했다.

HS효성인포메이션시스템은 이러한 시장 변화에 대응해 그래픽처리장치(GPU) 환경에 최적화된 병렬 파일 시스템 ‘HCSF(Hitacho Content Software for File)’를 선보이고 있다. HCSF의 가장 큰 특징은 파일의 부가 정보인 '메타데이터(파일의 부가적 정보)'를 관리하는 방식이다.

HS효성인포메이션시스템 권동수 전문위원
HS효성인포메이션시스템 권동수 전문위원

기존 스토리지 시스템은 파일명, 생성일자 등 메타데이터를 중앙에서 관리했다. 이는 과거 네트워크와 하드웨어 비용이 비쌌던 시절 적합했던 방식이다. 하지만 수조 개 데이터 중 필요한 것만 골라내야 하는 AI시대엔 메타데이터를 읽고 처리할 때 병목현상이 생기게 된다.

HCSF는 이 문제를 새로운 방식으로 해결했다. 메타데이터를 각 저장소 노드에 분산 저장하고, 데이터 요청이 들어오면 여러 노드에서 동시에 GPU로 직접 데이터를 전송하는 방식을 채택한 것이다.

권 전문위원은 “80~90억원을 투자해 GPU를 도입하고도 기존 스토리지 시스템으론 GPU 성능의 30%만 활용하는 셈이다”라며 “HCSF에서 각 노드가 자신이 가진 데이터를 즉시 GPU로 전송하면 GPU 투자 효과를 90% 이상으로 끌어올릴 수 있다”고 강조했다.

HS효성인포메이션시스템 또 다른 강점은 자체 전문인력을 통한 기술 지원이다. 전체 직원 70%가 엔지니어로 구성됐다. 대부분 경쟁사들이 파트너사를 통해 기술 지원을 제공하는 것과 달리 자체 엔지니어들이 직접 고객사를 지원한다.

이러한 방식은 특히 AI 인프라처럼 하드웨어와 소프트웨어가 긴밀히 통합된 시스템에서 유리하다. 일반적으로 시스템에 문제가 발생하면 하드웨어 문제인지 소프트웨어 문제인지 판단하기 어렵고, 여러 파트너사가 관여하면서 책임 소재가 불분명해지기 쉽다. 반면 자체 엔지니어들이 시스템 전반을 이해하고 있어 신속한 원인 파악과 문제 해결이 가능하다.

HCSF는 데이터의 효율적인 생애주기 관리도 지원한다. 자동 티어링 기능을 통해 자주 사용되는 ‘핫 데이터’는 고성능 NVMe SSD에 저장하고, 설정된 기간 내 사용되지 않은 데이터는 자동으로 저비용 스토리지로 이동시킨다. 이를 통해 비용 효율성과 성능을 동시에 확보할 수 있다.

현재 HCSF는 주요 대기업과 금융권 중심으로 도입되고 있다. 특히 최근엔 금융권 관심이 높아지고 있는데, 이는 기업들이 자체 AI 모델 개발을 위한 인프라를 구축하려는 움직임과 관련 있다.

권 전문위원은 “파운데이션 모델은 전 세계 데이터를 모아 만든 모델이라 언어 이해나 추론은 잘하지만, 기업들이 원하는 것은 자사 데이터를 통해서 새로운 상품을 만드는 것”이라며 “결국 데이터가 없으면 아무리 좋은 AI모델도 제대로 활용할 수 없고, 이를 위해선 데이터레이크가 필수”라고 강조했다.

디지털데일리 네이버 메인추가
x