실시간
뉴스

AI

크라우드웍스, '문서 복잡도 분석 방법' 기술 특허…"업계 최초"

AI 데이터 전처리 솔루션 '알피 날리지 컴파일러' 핵심 기술 특허 출원

크라우드웍스는 '알피 날리지 컴파일러' 솔루션에 적용된 핵심 기술인 '문서 복잡도 분석 기반 문서 자동화 처리 기술'에 대해 특허를 출원했다. [ⓒ 크라우드웍스]
크라우드웍스는 '알피 날리지 컴파일러' 솔루션에 적용된 핵심 기술인 '문서 복잡도 분석 기반 문서 자동화 처리 기술'에 대해 특허를 출원했다. [ⓒ 크라우드웍스]

[디지털데일리 이나연기자] 크라우드웍스가 '문서 복잡도 분석 기반 문서 자동화 처리 기술'에 관한 특허를 출원했다고 22일 밝혔다. 이는 회사 인공지능(AI) 데이터 전처리 솔루션 '알피 널리지 컴파일러(Alpy Knowledge Compiler)'에 적용된 핵심 기술이다.

비정형 데이터 전처리 과정은 검색증강생성(RAG) 기반 AI 에이전트(비서) 개발에 필수적이다. 다만 문서 특징을 고려하지 않고 일괄 자동화를 적용할 경우, 복잡한 문서에서 인식률이 떨어지고 데이터 전처리 품질이 하락하는 문제가 있다.

이번에 크라우드웍스가 출원한 기술은 처리할 문서 복잡도를 정량적으로 분석해 Class 1부터 Class 4까지 4단계로 분류한다. 구조가 단순한 수준 문서는 자동화 전처리를 우선 적용하고, 구조가 복잡해 오류 발생 가능성이 높은 문서는 전문가 파싱을 병행한다. 이를 통해 맥락과 판단을 반영 전처리할 수 있는 기준을 제시한다.

데이터 전처리 자동화 시 오류 발생 가능성을 예측하고 투입 인력과 예산, 일정 등을 효율적으로 관리할 수 있다.

이 기술은 크라우드웍스가 자체 개발한 AI 데이터 전처리 솔루션 알피 날리지 컴파일러에 적용되고 있다. 알피 널리지 컴파일러는 광학문자판독(OCR), 파싱(Parsing), 청킹(Chunking)을 통해 다양한 문서를 AI가 이해할 수 있는 형태 데이터로 변환한다. 워드(Word), PPTX, PDF, 엑셀(Excel) 외에도 한국 기업에서 주로 사용하는 HWP, HWPX 문서 변환도 지원한다.

테이블, 차트, 이미지 등 시각 요소에 대해서도 대형언어모델(LLM)을 활용해서 AI가 이해할 수 있도록 메타데이터를 생성해 비정형 데이터의 효과적인 전처리를 지원한다. 회사 측은 비전언어모델(VLM)을 이용해 문서를 처리하는 기능도 준비 중이다.

김우승 크라우드웍스 대표는 "문서 복잡도 분석을 통해 AI 데이터 전처리 효율성을 높인 것은 국내외 업계 최초 사례로, 이번 특허 출원을 통해 AI 데이터 전문성을 바탕으로 차별화된 경쟁력을 다시 한번 입증했다"라며 "알피 날리지 컴파일러는 이미 데이터 전처리 방식을 고민하던 많은 기업 문의가 이어지고 있다"고 전했다.

디지털데일리 네이버 메인추가
x