실시간
뉴스

통신*방송

KT, 다국어 벤치마크 공개…"안전성·문화적 민감성 평가"

KT가 글로벌 기업, 공공기관, 학계 등과 함께 대규모 언어모델(LLM)의 안전성과 문화적 민감성 인식 능력을 통합 평가하는 다국어 벤치마크 ‘XL-SafetyBench’를 공개했다고 6월4일 밝혔다. [사진=KT]

[디지털데일리 정혜승기자] KT가 글로벌 민·관·학 10개 기관과 함께 대규모 언어모델(LLM)의 안전성과 문화적 민감성을 통합 평가하는 다국어 벤치마크 'XL-SafetyBench'를 공개했다고 4일 밝혔다.

XL-SafetyBench는 한국·미국·독일·일본·UAE 등 10개국의 언어·문화적 특성을 반영한 5500개 규모의 테스트로 구성됐다. AI 모델이 각국의 사회적 규범과 문화적 민감성을 얼마나 적절히 인지하는지 측정하는 데 초점을 뒀다.

예컨대 흰 국화를 선물로 추천하거나 전세 제도 관련 금융 리스크를 안내하는 답변이 글로벌 기준에선 자연스럽지만 한국에서는 다르게 받아들여지는 사례가 대표적이다.

연구에는 에임인텔리전스·마이크로소프트·한국인공지능안전연구소(AISI)·뮌헨공과대학교·서울대학교 등 국내외 전문가 17명이 참여했다. 에임인텔리전스는 실제 공격 패턴을 반영한 데이터 구축을 맡았고, KT는 핵심 평가 지표 설계와 평가 로직 구현을 담당했다.

벤치마크 데이터셋과 평가 코드는 허깅페이스·깃허브를 통해 공개됐다. 주요 LLM 37종을 대상으로 한 평가 결과 논문도 논문 사전 공개 사이트인 아카이브(arXiv)에 공개됐다.

박재형 KT AX미래기술원 프론티어 AI 랩장(상무)는 "AI 경쟁이 성능 중심에서 안전성·신뢰성 검증 단계로 확대되는 가운데 문화적 민감성 인식 능력을 함께 검증하는 평가 체계가 더욱 중요해질 것"이라고 말했다.

디지털데일리 네이버 메인추가