
글로벌 빅테크 기업의 LLM은 주로 영어에 특화되어 있죠🔠 LLM을 전 세계 다양한 언어에 최적화 시키려면 각 언어에 맞는 토큰을 추가하고 해당 언어에 특화된 학습도 수개월간 진행해야 하는데요, 새로운 언어를 추가할 때는 기존의 영어 성능이 현저하게 저하되는 경우가 흔하게 발생해 수억 원에 달하는 경제적ㆍ시간적 비용이 발생합니다.
야놀자는 기존 LLM에 한국어 성능을 향상시키며 허깅페이스의 오픈 소스 커뮤니티에서 두각을 드러냈어요. EEVE-Korean은 SentiNeg(문장의 긍ㆍ부정과 미묘한 감정 차이를 인식하는 지표) 테스트에서 95% 이상의 정확도를 보여주었답니다. EEVE-Korean 적용 전과 비교하면 약 40%p 증가한 수치로, 미묘한 뉘앙스 차이까지 이해하는 능력을 갖추며 한국어 능력이 큰 폭으로 향상됐습니다👍️
효율성 측면에서도 우수한 결과를 보여줬습니다! 기존 학습 방법으로 수조 개의 학습 토큰이 필요했다면, 이번 연구를 통해 단 20억 개의 토큰만으로도 비영어권 언어 능력을 크게 향상시킬 수 있음을 입증했습니다. 토큰의 효율성을 높여 학습 속도를 2배 이상 높이고 비용 또한 대폭 절감할 수 있는 것으로 나타났어요.
야놀자 LLM으로 글로벌 여행을 보다 편하게 ✈️
야놀자는 한국어를 시작으로 일본어, 중국어 등 전세계 다양한 언어를 효과적으로 지원하는 다국어 LLM을 개발하기 위해 지속적으로 노력하겠습니다 😃 여가 산업 특성상 국가별 다양한 언어의 데이터를 처리하는 능력이 필수 요소인만큼, 고도화한 LLM을 여행 시장에 접목시켜 고객이 보다 쉽고 편하게 여행을 준비할 수 있도록 지원해 나갈 것입니다. 많은 기대와 관심 부탁드립니다.
야놀자가 개발한 ‘EEVE-Korean’ 모델은 허깅페이스에서 확인 가능하며, 테크니컬 리포트는 링크를 통해 확인해보세요! 📃