카카오, 한국어 감정을 이해하는 멀티모달 AI ‘카나나’ 공개
카카오가 12월 12일, 자사 테크블로그를 통해 한국어와 한국 문화를 깊이 이해하는 멀티모달 인공지능 ‘카나나(Kanana)’ 시리즈의 성능을 공개했습니다. 이번 발표로 카카오는 국내 AI 연구의 중심으로 부상하며, ‘AI 기술 분석 허브’ 역할을 강화하고 있습니다.
‘카나나-o’ – 감정을 읽고 추론하는 한국형 AI
카카오의 카나나-o(Kanana-o)는 텍스트, 음성, 이미지를 동시에 다루는 통합형 멀티모달 언어모델입니다. 벤치마크 결과, 영어 음성 처리 성능은 GPT-4o와 유사한 수준을 보였고 한국어 음성 인식과 감정 인식에서는 월등히 높은 수준을 기록했습니다.
카카오는 기존 멀티모달 모델이 음성 대화에서 답변이 단순해지고 추론력이 떨어지는 한계를 개선하기 위해 지시이행 능력을 고도화했습니다. 또한 고품질 한국어 음성 데이터와 DPO(Direct Preference Optimization)를 적용해 억양, 감정, 호흡까지 정교하게 학습시켜 기쁨·슬픔·분노·공포 등 세밀한 감정 표현이 가능해졌습니다.
‘카나나-v-임베딩’ – 한국형 이미지 이해력의 진화
함께 공개된 ‘카나나-v-임베딩(Kanana-v-embedding)’은 텍스트와 이미지를 동시에 이해하는 멀티모달 임베딩 모델로, 한국적 맥락이 반영된 검색과 추천에 최적화되어 있습니다. ‘경복궁’, ‘붕어빵’ 같은 한국 고유명사뿐 아니라 오타가 포함된 표현도 의미를 파악해 관련 이미지를 찾아낼 수 있는 것이 특징입니다.
이 모델은 현재 카카오 내부 광고 소재 유사도 분석과 심사 시스템에 적용되고 있으며, 향후 검색·콘텐츠 추천 등 다양한 서비스로 확대 적용될 가능성이 큽니다. 카카오 서비스 전반에서 텍스트·이미지 융합 검색 품질을 높이는 핵심 인프라 역할을 할 것으로 전망됩니다.
AI 기술 생태계 중심으로 – 카카오의 차세대 로드맵
카카오는 올해 5월 공개한 카나나 1.5를 기반으로, 온디바이스 환경에서도 작동 가능한 멀티모달 모델 경량화 연구를 진행 중입니다. 또한 고성능·고효율을 목표로 MoE(Mixture of Experts) 구조를 도입한 차세대 모델 ‘카나나-2’ 개발 계획도 밝히며 한국어 AI 경쟁력 강화를 예고했습니다.
카카오 '카나나'가 소프트웨어 혁명이라면, 내 책상 위에는 '하드웨어 혁명'이 필요합니다.
AI가 업무 효율을 2배 높여준다면, 손에 쥐는 이 마우스는 작업 속도를 3배 높여줍니다.
초고속 스크롤과 커스텀 버튼 기능 때문에 IT 업계에서는 이미 '마우스계의 AI'라고 불리죠.
진정한 '일잘러'는 도구 탓을 하지 않습니다.
이미 가장 완벽한 도구를 쓰고 있으니까요. 👇
이 포스팅은 쿠팡 파트너스 활동의 일환으로,
이에 따른 일정액의 수수료를 제공받습니다.
카카오 AI 리더의 메시지
카카오 측은 카나나가 단순 정보 나열을 넘어 사용자의 감정을 이해하고 자연스럽게 대화하는 AI를 지향하며, 실제 서비스 환경에서 사람처럼 상호작용하는 경험을 제공하는 것을 목표로 하고 있다고 밝혔습니다.
카카오 AI 더 보기 – 기술 허브로 이동
카카오가 공개한 카나나 모델 패밀리와 AI 서비스 적용 사례는 카카오 AI 허브와 테크블로그에서 계속 업데이트되고 있습니다.