참고 이 문서의 범위: Meta의 AI 모델(Llama 4), 오픈소스 전략, 제품 통합, AR/VR, 인프라 투자를 종합 분석합니다. 기준 시점은 2026년 4월이며, Llama 4 발표(2025년 4월 5일)를 중심으로 다룹니다.
1. 개요
Meta는 2025-2026년 AI 전략의 핵심을 “오픈소스 모델로 생태계를 장악하고, 자사 플랫폼(30억+ 사용자)에 AI를 깊이 통합한다” 는 두 축으로 전개하고 있습니다. Llama 4 출시, 대규모 인프라 투자, 소셜 미디어 전반의 AI 어시스턴트 배포, AR/VR 디바이스와의 결합까지 — Meta는 “AI 시대의 플랫폼 기업”으로의 전환을 가속하고 있습니다.2. Llama 4 모델 패밀리
2.1 왜 Llama 4인가?
Llama 3까지 Meta는 Dense(밀집형) Transformer 아키텍처를 사용했습니다. Dense 모델은 입력 토큰마다 모든 파라미터를 활성화하기 때문에, 모델 크기가 커질수록 추론 비용이 선형적으로 증가하는 근본적 한계가 있었습니다. Llama 4는 이를 해결하기 위해 Mixture of Experts (MoE) 아키텍처를 전면 도입했습니다.2.2 모델 라인업
| 모델 | 총 파라미터 | 활성 파라미터 | 전문가 수 | 컨텍스트 길이 | 모달리티 | 상태 |
|---|---|---|---|---|---|---|
| Llama 4 Scout | 109B | 17B | 16 | 10M 토큰 | 텍스트 + 이미지 | GA |
| Llama 4 Maverick | 400B | 17B | 128 | 1M 토큰 | 텍스트 + 이미지 | GA |
| Llama 4 Behemoth | 2T+ | 288B | 16 | 미공개 | 텍스트 + 이미지 | 학습 중 |
2.3 MoE 아키텍처 심층 분석
MoE의 핵심은 Transformer 블록 내의 FFN을 여러 “전문가”로 분할 하는 것입니다. 각 토큰 입력 시 라우터 가 최적의 전문가를 선택합니다. Dense vs MoE 비교:| 구분 | Dense (Llama 3) | MoE (Llama 4) |
|---|---|---|
| FFN 구조 | 하나의 큰 FFN | 여러 전문가 FFN + 라우터 |
| 토큰당 활성화 | 전체 파라미터 | 선택된 전문가만 |
| 학습 효율 | 파라미터 수 = 연산량 | 파라미터 수 >> 연산량 |
| 메모리 | 연산량과 비례 | 전체 파라미터 메모리 로드 필요 |
| 추론 속도 | 파라미터 비례 느림 | 활성 파라미터만 연산하여 빠름 |
Llama 4의 MoE 구현 특징
- 교차 모달 전문가 라우팅: 텍스트와 이미지 토큰이 동일한 MoE 레이어를 통과, 라우터가 동적으로 전문가 선택
- iRoPE (interleaved RoPE): 일부 Attention 레이어는 RoPE 사용, 나머지는 NoPE로 교차 배치하여 10M+ 컨텍스트 구현
- MetaP: 모델 크기에 따라 최적 하이퍼파라미터를 자동 결정하는 기법
2.4 Scout — 10M 컨텍스트의 의미
Scout의 10M 토큰 컨텍스트 는 GPT-4o(128K), Claude 3.5(200K)의 50~80배입니다.| 데이터 유형 | 10M 토큰 환산 |
|---|---|
| 영문 텍스트 | 약 7,500만 단어 (소설 ~100권) |
| 코드 | 대규모 코드베이스 전체 |
| 한국어 | 약 500만~700만 어절 |
2.5 Maverick — 오픈소스 최강
128개 전문가를 보유한 대규모 MoE 모델로, GPT-4o와 동등하거나 우수한 벤치마크를 기록했습니다. LMArena에서 한때 1위를 차지했으며, 다국어 이해, 코딩, 수학적 추론 에서 강점을 보입니다.2.6 Behemoth — Teacher 모델
2T+ 파라미터의 초대형 모델로, 주된 역할은 Scout와 Maverick의 Knowledge Distillation 소스 입니다. STEM 벤치마크에서 GPT-4.5, Gemini 2.0 Ultra를 넘는 것을 목표로 합니다.2.7 네이티브 멀티모달
| 구분 | 어댑터 방식 (Llama 3 + LLaVA) | 네이티브 (Llama 4) |
|---|---|---|
| 학습 | 텍스트 → 비전 어댑터 순차 | 텍스트+이미지 동시 학습 |
| 모달 간 이해 | 제한적 크로스모달 | 깊은 모달 간 상호 참조 |
| 배포 | 모델 + 어댑터 별도 관리 | 단일 모델 |
3. 오픈소스 전략과 생태계
3.1 왜 오픈소스인가
Mark Zuckerberg가 명시적으로 밝혔듯이, 이는 “개발자 생태계를 장악하여 플랫폼이 되겠다” 는 전략적 판단입니다.- 생태계 장악: Android가 모바일을 장악한 것과 유사한 전략
- 인재 확보: 오픈소스 프로젝트 기여자 → Meta 합류
- 비용 분산: 커뮤니티의 파인튜닝, 버그 발견, 응용 개발
- 표준화: Llama가 표준이 되면 폐쇄형 모델이 “비표준”
3.2 Llama 라이선스
| 항목 | 허용 여부 |
|---|---|
| 상업적 사용 | 허용 |
| 파인튜닝/재배포 | 허용 |
| MAU 7억 이상 서비스 | 별도 라이선스 |
| Llama 출력으로 다른 LLM 학습 | 금지 |
| 학습 데이터 공개 | 비공개 |
3.3 Llama Stack
모델 가중치뿐 아니라 Agent 구축 전체 소프트웨어 스택을 표준화하여 제공합니다.| 계층 | 구성 요소 | 설명 |
|---|---|---|
| Inference | llama-stack-inference | 추론 서버 |
| Safety | Llama Guard, Purple Llama | 입출력 필터링 |
| Memory | 벡터 DB 통합 | RAG용 장기 기억 |
| Tools | Function Calling API | 외부 도구 호출 |
| Agents | Agent API | 에이전트 오케스트레이션 |
3.4 클라우드 파트너
| 클라우드 | Llama 4 지원 | 통합 방식 |
|---|---|---|
| AWS | Bedrock, SageMaker | 관리형 API + 커스텀 배포 |
| Azure | Azure AI Foundry | 서버리스 API + VM 배포 |
| GCP | Vertex AI Model Garden | 관리형 API + GKE |
| Databricks | Foundation Model APIs | Databricks 엔드포인트 |
4. 제품 통합: 30억 사용자에 AI 배포
4.1 Meta AI 어시스턴트
| 플랫폼 | 주요 기능 |
|---|---|
| 질문 답변, 이미지 생성, 번역, 요약 | |
| 크리에이터 도구, 이미지 편집, 캡션 생성 | |
| 콘텐츠 추천, 그룹 Q&A | |
| meta.ai | 풀 기능 AI 어시스턴트 |
| Ray-Ban Meta | 실시간 시각 정보 분석, 번역 |
5. AR/VR과 AI의 융합
5.1 Ray-Ban Meta 스마트 글래스
카메라, 마이크, 스피커 내장 안경에 Llama 기반 멀티모달 AI가 탑재됩니다.- 실시간 시각 AI: 카메라로 본 것을 분석하여 답변
- 실시간 번역: Seamless Communication 기술 기반
- 스마트 글래스 시장 출하량 기준 1위
5.2 Meta Quest & Orion
- Quest 3/3S: 공간 인식 AI, AI NPC
- Orion AR 글래스: 차세대 AR, 2027-2028년 양산 예상
6. 인프라 투자
| 연도 | CapEx 계획 | 주요 용도 |
|---|---|---|
| 2024 | ~$37-40B | GPU 클러스터, 데이터센터 확장 |
| 2025 | $60-65B | 대규모 데이터센터 신축, GPU 구매 |
| 2026 | $60B+ (예상) | 지속적 확장 |
- H100 약 60만 개 이상 보유, B200(Blackwell) 대규모 발주
- MTIA(자체 칩): 추론 워크로드에 점진적 활용
- 원자력 에너지 공급 계약 체결
7. 연구 & 기술 혁신
| 기술 | 설명 | 영향 |
|---|---|---|
| iRoPE | 교차 위치 임베딩으로 10M+ 컨텍스트 | 초장문 처리의 새로운 표준 |
| MetaP | 하이퍼파라미터 자동 결정 | 학습 효율 대폭 향상 |
| Movie Gen | 텍스트→비디오 생성 (최대 16초) | 영상 생성 시장 진입 |
| SAM 2 | 이미지/비디오 범용 세그멘테이션 | 비전 AI 기초 기술 |
| Seamless | 다국어 실시간 음성 번역 | 실시간 통역 가능 |
8. 향후 전망
| 시기 | 예상 이벤트 |
|---|---|
| 2026 상반기 | Llama 4 Behemoth 정식 출시 |
| 2026 | Llama 4 경량 모델 (8B-30B급) |
| 2026 | Movie Gen 제품 통합 |
| 2026-2027 | Llama 5 발표 (비디오/오디오 네이티브) |
| 2027-2028 | Orion AR 글래스 양산 |
9. 종합 정리
Meta의 AI 전략은 “인프라에서 디바이스까지 수직 통합된 오픈소스 AI 플랫폼” 으로 요약됩니다.| 계층 | Meta의 자산 | 경쟁 우위 |
|---|---|---|
| 칩 | MTIA + NVIDIA GPU 대량 확보 | 연간 $60B+ 투자 |
| 모델 | Llama 4 패밀리 | 오픈소스 최강, MoE 효율 |
| 프레임워크 | PyTorch, Llama Stack | 개발자 생태계 장악 |
| 플랫폼 | FB, IG, WA, Threads, meta.ai | 30억+ 사용자 |
| 디바이스 | Ray-Ban Meta, Quest, Orion | AI-first 하드웨어 |
| 연구 | FAIR, Movie Gen, SAM | 세계 최고 수준 연구 |
참고 Databricks 시사점: Databricks는 Foundation Model APIs와 Model Serving을 통해 Llama 4를 지원합니다. Llama의 오픈 웨이트 특성 덕분에 기업 데이터가 외부로 유출되지 않는 프라이빗 AI 배포가 가능합니다. Scout의 10M 컨텍스트는 대규모 코드베이스/문서 분석에, Maverick은 범용 에이전트 기반 모델로 적합합니다.
주의 Llama 4 경량 모델 부재: Llama 3에는 8B, 70B 경량 모델이 있었지만, Llama 4는 최소 109B(Scout)입니다. 모바일/엣지 시나리오에서는 Llama 3.x 8B가 여전히 필요합니다.
참고 자료: