실시간
뉴스

e비즈*솔루션

“국내 LLM 서비스 개발…코드스위칭 문제 유의해야”

[ⓒ'이프카카오(if kakao) AI 2024' 온라인중계 화면]
[ⓒ'이프카카오(if kakao) AI 2024' 온라인중계 화면]

[디지털데일리 오병훈기자] “거대언어모델(LLM)을 다루는 과정에서 언어에 집중하는 것이 중요하다고 생각했다. 자연어 명령을 훌륭하게 처리할 수 있는 명령 처리기라는 점이 LLM 핵심이다.”

24일 장원준 카카오 개발자는 개발자 콘퍼런스 '이프카카오(if kakao) AI 2024'에서 열린 ‘서비스에 LLM 부스터 달아주기: 요약부터 AI봇 까지’를 주제로 발표하며 이같이 강조했다.

먼저 그는 LLM에 사용되는 언어에 따라 서비스 품질을 좌우한다는 점을 짚었다. 따라서 한국 시장을 주 무대로하는 서비스 개발자 입장에서는 한국어를 잘 알아듣는 LLM을 만드는 것이 가장 중요하다는 것이 그의 생각이다.

장원준 개발자는 “메타가 개발한 ‘라마3.1’도 벤치마크 ‘한국판AI평가체계(KMMLU)’에서 낮은 점수를 획득했다”며 “코드 스위칭 문제(ML에 다수 언어 혼합 사용 때 처리 과정에 문제가 발생하는 것)를 비롯해 한국어 처리 문제 등이 있어 기존 모델을 서비스에 적용하는 것은 무리가 있다고 판단했다”고 말했다.

이어 “이 모델이 잘못됐다고 보지는 않았다”며 “기존 모델 성능이 영어에서는 괜찮았고, 한국어에서만 문제가 나타났기 때문에 그래서 기존 모델 지식을 그대로 유지하면서 한국어로 ‘언어전환(Language Transfer)’을 진행하기로 했다”고 말했다.

해외 AI 모델에서는 영어에 기반해 개발된 모델이 많은 탓에 다양한 문제가 발생하게 되는데 그 대표적인 것이 ‘코드스위칭’ 문제다. 이는 다중언어 처리와 관련된 문제로, 사람이 생성하는 대화나 글에서 두 가지 이상 언어가 혼합 사용될 때 AI가 이를 제대로 인식·처리하지 못하면서 발생한다. 자연어 처리(NLP), 번역 시스템, 음성 인식 시스템 등을 개발하는 과정에서 해결해야하는 중요한 문제 중 하나다.

이같이 언어 측면 문제에 대해 카카오는 내부적으로 LLM 학습 데이터의 한국어 양을 조절해주는 방법을 통해 해결하기로 했다. 무턱대고 한국어 학습량만 늘릴 경우, 기존 AI 모델이 변형되는 문제가 있는 것으로 판단, 영어와 한국어가 적절한 균형을 이루도록 했다.

이후 카카오는 이같은 방법으로 새롭게 추가되는 파운데이션 LLM 등을 튜닝하며 서비스와 접목할 수 있는 기반을 마련했다. 오픈AI의 챗GPT 등 파운데이션 모델을 사용할 때도 필요한 부분만 한국어로 바꾸는 방향으로 튜닝을 진행했다.

장원준 개발자는 “GPT-4를 사용했을 때, 한국어를 기반으로 테스트했을 때 57%정도 정확도를 보였다. 내부 모델을 파인튜닝했을 때 62%까지 올릴 수 있었고, 추가로 튜닝을 진행해 74%까지 성능을 향상시켰다”며 “이처럼 카카오 내부에서 LLM들을 학습해 한국어를 잘 할 수 있는 모델을 만들고 이를 실제 서비스에 연동해 지표를 추출, 테스트를 진행하고 있다”고 말했다.

이어 “이같은 방법이 계속 유효할 것이라곤 확신할 수 없다”며 “당장 1년 후에는 더 강력한 언어모델(LM)이 등장하게 되면서 인공지능(AI) 학습 방법론 자체가 바뀔 수도 있으니, 서비스 연계 관점에서 늘 고민을 지속해야 한다”고 덧붙였다.

디지털데일리 네이버 메인추가
x