[디지털데일리 백지영기자] KT는 코딩 없이(노코딩)으로 인공지능(AI) 모델링을 할 수 있는 플랫폼 만들면서 오픈소스를 적극 활용했다고 밝혔다. 더 많은 사람들이 보다 쉽게 사용할 수 있는 AI 모델링 도구를 만들기 위해 클라우드와 노코딩으로 방향을 잡고, 데이터만 있으면 언제든 이용이 가능하도록 한 것이다.
이 과정에서 필요한 기술은 모두 오픈소스를 활용해 구현했다. 2020년 6월 구축된 노코드 AI플랫폼은 교육, 과제진행용 등으로 사내직원들에게 서비스하고 있다. 이후 지난해부터는 쿠버네티스를 기반으로 대외사용자를 수용할 수 있는 환경을 구축했으며 연내 5000명까지 동시 수용할 수 있는 규모로 확장할 계획이다.
정보통신산업진흥원(NIPA)과 디지털데일리가 공동 주관으로 22일 개최한 ‘오픈 테크넷 서밋 2022’ 버추얼 컨퍼런스에서 전상윤 KT 팀장은 ‘오픈소스 기반 노코드 AI 플랫폼 개발’이라는 주제발표를 통해 “KT는 AI 민주화를 달성하기 위한 플랫폼을 만들고 있다”며 이같은 내용을 공유했다.
그는 “약 30년 이상 개발을 하고 있는데, 예전과 달라진 것이 있다면 잘 모르거나 새로운 것을 개발하는 상황이 되면 당연하게 어디 쓸만한 오픈소스가 없는지 찾아보는 것”이라며 “이번 AI 플랫폼 개발 프로젝트를 진행하면서도 자연스럽게 여러 오픈소스를 사용했는데, 만약 저 중에 하나만 없었더라도 많은 것을 포기하거나 비용이나 일정이 소모됐을 것”이라고 말했다.
KT는 AI플랫폼 구축 배경으로 전문가 부족과 도구의 부족을 꼽았다. 도구는 많지만 이를 적절히 사용할 수 있는 사람이 부족한 상황에서 더 많은 사람이 더 쉽게 사용할 수 있는 AI모델링 도구 제공이 중요하다고 판단한 것이다. 사용자들의 쉬운 기능 사용을 위해 KT는 클라우드와 노코딩으로 방향성을 잡았다.
전 팀장은 “사용자가 별도의 준비를 하지 않아도 데이터만 있으면 언제라도 AI모델링을 할 수 있는 환경을 제공하고, 여기에 코딩도 없이 할 수 있다면 극적으로 사용을 확대할 수 있다고 봤다”며 “다만 데이터의 경우, 유형에 따라 활용해야 하는 AI 관련 지식이 다양하고 방대한 만큼, 우선 시작은 일반적으로 가장 많이 사용하는 태뷸러(Tabular) 및 텍스트 데이터 위주로 시작했다”고 설명했다.
즉, AI 도입을 저해하는 요소를 제거·완화하기 위한 방안으로 미리 만들어진(레디 메이드) AI모델링 환경을 제공하고 태뷸러 데이터부터 쉽게, 심지어 코딩도 하지 않고, 모델링 할 수 있는 도구를 제공키로 했다.
이를 위해 먼저 노코딩 AI도구를 만드는데 있어선 Sklearn, Pandas, Ludwig과 같은 오픈소스를 활용했다. 그는 “입력항목의 데이터 유형에 따라 네트워크 구조를 설계해야 하는데 AI를 공부하며 자주 접하게 되는 NN, CNN, RNN, LSTM 등등의 알고리즘들을 데이터의 성격을 보고 결정을 해야 한다”며 “이런 알고리즘까지도 대상이 되는 자료형에 대해 선택만 하면 나머지는 오픈소스에서 처리를 해준다”고 말했다.
사용자인터페이스(UI/UX) 부분에선 웹기반으로 코딩을 할 수 있는 오픈소스 도구로 주피터 노트북 등이 잘 알려져 있지만, 주피터 노트북 위젯을 활용할 경우 부자연스럽다는 반응이 많아 웹UI로 전환하는 Voila라는 오픈소스를 활용했다.
또한, 태뷸러 데이터를 위한 도구를 만들기로 한정했음에도 원본 데이터가 존재하는 형태가 다양하고 대부분 바로 사용할 수 없는 경우가 많아, 사용자들이 직관적으로 데이터의 특성을 파악할 수 있도록 도와주는 시각화 도구는 목적과 방식에 따라 다양한 오픈소스들을 골라서 사용할 수 있게 했다.
그는 “데이터 가공을 위한 오픈소스들도 다양하게 존재하고 있어 목적에 맞는 오픈소스를 잘 찾으면 구현하는 노력을 현저히 줄일 수 있음을 절감할 수 있다”고 말했다.
이와 함께 도커 이미지를 쿠버네티스 기반 클라우드 플랫폼을 통해 일반 사용자들이 가장 익숙하게 사용할 수 있는 웹기반으로 제공하는 방식으로 설계해 접근성을 높였다. GPU와 같이 필요한 자원을 한곳에서 통합적으로 관리해서 공유할 수 있어 자원절감 효과도 있었다.
이러한 AI 플랫폼은 2020년 초부터 개발을 시작해 같은해 6월까지 구축을 완료하고 사내직원들에게 서비스를 시작했다. 처음엔 동시 사용자 200명 규모 구성을 했으며 2021년부터 대외사용자 수용 환경도 구축했다. 별도 환경에 500명을 동시에 수용할 수 있는 규모로 만들었지만 고객 및 사업범위가 확대되면서 이를 2500명 수용 규모로 확장했다.
전 팀장은 “짧은 기간에 추가 구축 및 확장을 계속적으로 진행했지만 쿠버네티스 기반으로 구축한 덕분에 스케일아웃에 대한 영향이 거의 없었다”고 말했다. 현재는 연말까지 5000명을 동시수용할 수 있는 규모로 확장 중이다.
그는 “현재 하고 있는 사내 과제지원, 교육, 인증사업 외에 외부 기업에서도 사용요청이 꾸준히 들어오고 있으나 현재는 직접 지원하기보다 우회적인 방법으로만 지원을 하고 있다”며 “다만 외부서비스를 하게 됐을 때 다른 특성을 감안한 아키텍처 구성 및 기술검토 등은 하고 있디”고 설명했다.
향후 오픈소스 활용 계획에 대해선 “태뷸러 및 텍스트 데이터에 제한해 기능을 구성했기 때문에 현재 지원하지 않는 이미지나 시계열자료 등을 차례로 확대 지원할 예정”이라며 “데이터 유형이 달라지면 분석방법부터 모델링 기법까지 달라지기 때문에 오픈소스 활용이 더 높아질 것은 자명해 보인다”고 말했다.
그러면서 “현재 딥러닝만 제공하는 수준에서 머신러닝도 지원하기 위해 오픈소스를 찾고 있으며, 기타 전체적인 시스템 구성의 안정화·자동화에도 좋은 오픈소스를 잘 찾아서 최대한 사용하려고 한다”고 덧붙였다.