Skip to main content
참고 이 문서의 범위: 한국어 특화 LLM, 중국계 모델의 한국어 지원, 한국어 NLP 기술 과제, 벤치마크, 정부 정책을 종합 분석합니다. 한국어 RAG 최적화 상세는 한국어 RAG 최적화를 참고하세요.

1. 개요

2026년 초 현재, 한국어 LLM 생태계는 세 가지 축 으로 빠르게 재편되고 있습니다.
  1. 국내 기업의 자체 모델 고도화: NAVER HyperCLOVA X, LG EXAONE, Upstage SOLAR 등
  2. 글로벌 오픈소스 모델의 한국어 성능 급상승: Qwen, DeepSeek, Llama 등
  3. MoE 아키텍처의 주류화: K-EXAONE 236B, Qwen 3.5 397B 등
핵심 배경은 토큰화 효율성 개선, 학습 데이터 다양화, MoE를 통한 비용 효율적 스케일링 입니다.

2. 주요 한국 AI 기업별 동향

2.1 NAVER — HyperCLOVA X

NAVER는 한국어 LLM 시장의 선두주자로, HyperCLOVA X 시리즈를 CLOVA Studio API로 제공합니다. 모델 가중치를 공개하지 않는 폐쇄형 전략을 취하고 있습니다.
항목내용
제공 방식NAVER Cloud CLOVA Studio API
모델 공개비공개 (가중치 미공개)
강점한국어 문화적 맥락 이해 (존비어, 관용 표현, 법률/의료 도메인)
서비스NAVER 검색, 쇼핑, 뉴스 등 자사 서비스에 통합

2.2 LG AI Research — EXAONE 시리즈 (가장 주목할 행보)

K-EXAONE 236B (Active 23B) — 한국어 MoE 플래그십

K-EXAONE은 한국어 최적화 MoE 아키텍처 의 대표 모델입니다.
항목스펙
전체/활성 파라미터236B / 23B
아키텍처Fine-grained MoE + Multi-Token Prediction
Expert 구조128 Expert 중 8개 활성 + 1 Shared Expert
컨텍스트256K 토큰
어휘150K (SuperBPE — 한국어 토큰 효율 ~30% 향상)
AttentionHybrid (3 Sliding Window + 1 Global, 반복)
한국어 벤치마크 성능:
벤치마크점수설명
KMMLU-Pro67.3전문 지식
KoBALT61.8한국어 이해력
CLIcK83.9한국 문화/역사
HRM8K90.9한국어 수학
Ko-LongBench86.8장문 이해
KGC-Safety96.1한국어 안전성

EXAONE-Deep 시리즈 — 추론 특화

모델크기핵심 성과
EXAONE-Deep-32B32B한국 수능 수학 2025 94.5%, AIME 2025 65.8%
EXAONE-Deep-7.8B7.8B경량 추론 모델
EXAONE-Deep-2.4B2.4B엣지/모바일용
LG AI Research는 한국어 평가 데이터셋도 공개: KMMLU-Pro(2,820건), KMMLU-Redux(2,590건), Ko-LongRAG(600건).

2.3 Upstage — SOLAR 시리즈

모델크기핵심
SOLAR-10.7B10.7BDUS(Depth Up-Scaling) 기법, 한국어 특화
Solar Pro Preview22B성능 향상
Solar Open 100B100B2025년 1월 공개
Upstage는 Open Ko-LLM LeaderboardKo-FreshQA Leaderboard 를 운영하며 한국어 LLM 벤치마크 표준화에 기여하고 있습니다.

2.4 NCSOFT — VARCO 시리즈

모델핵심
VARCO-VISION-2.0-14B/1.7B한국어 멀티모달
VARCO-VISION-2.0-1.7B-OCR한국어 OCR 특화
Llama-VARCO-8B-InstructLlama 기반 한국어 텍스트
한국어 비전-언어 벤치마크도 공개: K-MMStar, K-SEED, K-DTCBench, K-LLaVA-W, K-MMBench.

2.5 KRAFTON — Raon (한국어 음성 AI)

모델핵심
Raon-Speech-9BAny-to-Any 음성 AI
Raon-SpeechChat-9B음성 대화
Raon-OpenTTS-0.3B오픈소스 TTS
한국어 음성 AI의 오픈소스 공백을 메우는 역할을 하고 있습니다.

2.6 기타

기업/프로젝트모델핵심
EleutherAIPolyglot-Ko-12.8B863GB 한국어 데이터, Apache 2.0
Kakao BrainKoGPT2024년 이후 업데이트 중단, COYO-700M 데이터셋은 활용
SKTA.X자사 서비스 내재화

3. 중국계 모델의 한국어 지원

3.1 Qwen (Alibaba) — 한국어 공식 지원 최강 오픈소스

모델크기한국어 지원핵심
Qwen 2.5~72B공식 (29+ 언어)128K 컨텍스트, GQA, JSON 출력
Qwen 3.5397B MoE (17B Active)공식멀티모달 통합, ASR/TTS 전문 모델
Qwen은 한국어를 공식 지원 언어 에 포함하고 있으며, 한국어 테이블 이해, 구조화 출력 등에서도 잘 작동합니다. 오픈소스 모델 중 한국어 성능이 가장 높은 선택지 중 하나입니다.

3.2 DeepSeek — 범용 최강, 한국어는 비공식

모델한국어 지원특징
DeepSeek-V3.2 (685B)비공식 (다국어 학습)범용 최강, 코딩/수학
DeepSeek-OCR/OCR-2 (3B)가능한국어 문서 OCR
한국어를 공식 지원하지 않지만, 대규모 다국어 데이터 학습으로 한국어 처리가 가능합니다. 한국 문화 맥락 이해는 국내 모델 대비 열세입니다.
주의 중국 AI 모델 사용 시 주의: 데이터 주권, 콘텐츠 검열, 규제 리스크를 고려해야 합니다. 금융/공공/방위산업 등 민감 도메인에서는 셀프호스팅하더라도 보안 정책 확인이 필수입니다.

4. 한국어 NLP 기술 과제

4.1 토큰화 방식 비교

방식설명장점단점대표 모델
BPE빈도 기반 서브워드범용, OOV 최소형태소 경계 무시GPT, Llama
형태소 기반형태소 단위 분리언어학적 정확분석기 의존, 느림HyperCLOVA X
자소(Jamo) 단위초성/중성/종성 분리미등록어 강력시퀀스 3배연구 모델
SuperBPEBPE 확장, 다국어 최적화한국어 효율 30%↑검증 초기K-EXAONE
한국어 전용 토크나이저는 범용 대비 동일 비용으로 약 1.5~2배 더 많은 한국어 텍스트 를 처리할 수 있습니다.

4.2 한국어 RAG 최적화 과제

과제상세해결 방향
불규칙 띄어쓼기청킹 어려움형태소 분석기 전처리
조사 변화BM25 매칭 방해어간 추출, 하이브리드 검색
임베딩 모델한국어 특화 모델 부족BGE-M3, multilingual-e5 활용
한국어 RAG용 임베딩 모델 추천:
모델차원최대 길이특징
BGE-M3 (BAAI)10248192Dense+Sparse+Multi-Vector, 100+ 언어
multilingual-e5-large1024512100 언어, XLM-RoBERTa 기반
KoSimCSE768512한국어 전용 SimCSE
더 자세한 한국어 RAG 전략은 한국어 RAG 최적화 문서를 참고하세요.

5. 한국어 벤치마크 & 평가

벤치마크평가 영역특징
KLUE8개 NLU 태스크한국어 GLUE
KoBESTBoolQ/COPA/WiC/HellaSwag/SentiNeg한국어판 SuperGLUE
KMMLU50+ 전문 분야한국어 MMLU, Human Accuracy 포함
KMMLU-Pro50+ 분야 (2,820건)LG AI Research
CLIcK한국 문화/역사 지식한국 고유 지식 평가
HRM8K한국어 수학 (8,000건)수학 추론
Ko-LongBench장문 이해긴 한국어 문서
KGC-Safety한국어 안전성한국 문화 맥락
Open Ko-LLM Leaderboard종합Upstage 운영, 커뮤니티
KMMLU는 각 문항에 Human_Accuracy 가 포함되어 “AI가 인간 전문가 수준에 도달했는가”를 판단할 수 있습니다.

6. 정부 정책 & 산업 동향

6.1 주요 정책

정책내용
AI 일상화 전략AI 기술의 전 산업 확산
AI 반도체 육성HBM, NPU 등 AI 칩 국산화
AI 데이터댐대규모 한국어 학습 데이터 구축
AI 윤리 가이드라인공공 AI 서비스 기준
초거대 AI 경쟁력 확보R&D 지원, 컴퓨팅 인프라 투자

6.2 데이터 인프라

자원설명
AI Hub (NIA)수백 TB, 음성/텍스트/이미지 한국어 데이터
모두의 말뭉치 (국립국어원)한국어 언어 자원
KorQuAD10만+ 한국어 질의응답 데이터

6.3 산업별 AI 도입 현황

산업도입 수준주요 활용
금융활발 (KB, 신한, 하나)고객 서비스, 문서 분석, 리스크 평가
의료초기의료 영상, 임상 문서
법률성장 중판례 검색, 계약서 분석
제조활발품질 예측, 설비 모니터링
공공성장국산 모델 우선 정책
커머스성숙추천, 검색, 고객 응대
참고 공공 부문은 데이터 주권 이슈로 국산 AI 모델/국내 클라우드 우선 도입 정책이 강화되고 있습니다.

7. Databricks와 한국어 AI

7.1 세 가지 접근법

접근법설명적합 시나리오
External Model ServingAI Gateway → GPT-4o/Claude 4/Qwen APIPoC, 프로토타이핑
Provisioned ThroughputLlama/Qwen 한국어 Fine-tuned 배포프로덕션, 민감 데이터
한국어 RAG 파이프라인문서 → 형태소 분석 → BGE-M3 → Vector Search → LLM기업 지식 기반

7.2 한국어 모델 선택 가이드 (Databricks 기준)

시나리오1순위2순위
한국어 범용 챗봇GPT-4o / Claude 4 SonnetQwen 2.5-72B
한국 문화/역사 특화HyperCLOVA XK-EXAONE
한국어 RAGQwen 2.5-72B + BGE-M3Llama 3.3-70B + BGE-M3
한국어 수학/추론K-EXAONE-236BEXAONE-Deep-32B
엣지/모바일Qwen 3.5-2BEXAONE-Deep-2.4B
한국어 OCRDeepSeek-OCR-2 (3B)VARCO-VISION-1.7B-OCR
한국어 음성Raon-Speech-9BQwen3-ASR/TTS
공공/규제 환경HyperCLOVA XK-EXAONE (자체 배포)

8. 향후 전망

단기 (2026)

  • MoE 기반 한국어 모델 보편화
  • 한국어 멀티모달 (비전+텍스트) 모델 확대
  • 한국어 음성 AI (TTS/ASR/대화) 성장

중기 (2026~2028)

  • 3B~7B 한국어 도메인 특화 모델 고도화
  • SuperBPE급 토크나이저 표준화
  • MCP/A2A 기반 한국어 에이전트 생태계 성숙
  • 공공 AI 전환 가속

핵심 과제

과제상세
학습 데이터 부족영어 대비 10~20배 적은 고품질 데이터
토큰화 비효율범용 토크나이저의 한국어 처리 오버헤드
벤치마크 신뢰성한국어 벤치마크의 다양성/깊이 확대 필요
인재 부족AI 연구자/엔지니어 부족
GPU 인프라NVIDIA GPU 확보 경쟁

참고 자료: