Skip to main content
참고 이 문서의 범위: Meta의 AI 모델(Llama 4), 오픈소스 전략, 제품 통합, AR/VR, 인프라 투자를 종합 분석합니다. 기준 시점은 2026년 4월이며, Llama 4 발표(2025년 4월 5일)를 중심으로 다룹니다.

1. 개요

Meta는 2025-2026년 AI 전략의 핵심을 “오픈소스 모델로 생태계를 장악하고, 자사 플랫폼(30억+ 사용자)에 AI를 깊이 통합한다” 는 두 축으로 전개하고 있습니다. Llama 4 출시, 대규모 인프라 투자, 소셜 미디어 전반의 AI 어시스턴트 배포, AR/VR 디바이스와의 결합까지 — Meta는 “AI 시대의 플랫폼 기업”으로의 전환을 가속하고 있습니다.

2. Llama 4 모델 패밀리

2.1 왜 Llama 4인가?

Llama 3까지 Meta는 Dense(밀집형) Transformer 아키텍처를 사용했습니다. Dense 모델은 입력 토큰마다 모든 파라미터를 활성화하기 때문에, 모델 크기가 커질수록 추론 비용이 선형적으로 증가하는 근본적 한계가 있었습니다. Llama 4는 이를 해결하기 위해 Mixture of Experts (MoE) 아키텍처를 전면 도입했습니다.

2.2 모델 라인업

모델총 파라미터활성 파라미터전문가 수컨텍스트 길이모달리티상태
Llama 4 Scout109B17B1610M 토큰텍스트 + 이미지GA
Llama 4 Maverick400B17B1281M 토큰텍스트 + 이미지GA
Llama 4 Behemoth2T+288B16미공개텍스트 + 이미지학습 중
Scout와 Maverick 모두 활성 파라미터가 17B에 불과 합니다. Maverick은 400B 규모의 지식을 가지고 있지만, 추론 시에는 17B Dense 모델과 비슷한 연산 비용만 소모합니다.

2.3 MoE 아키텍처 심층 분석

MoE의 핵심은 Transformer 블록 내의 FFN을 여러 “전문가”로 분할 하는 것입니다. 각 토큰 입력 시 라우터 가 최적의 전문가를 선택합니다. Dense vs MoE 비교:
구분Dense (Llama 3)MoE (Llama 4)
FFN 구조하나의 큰 FFN여러 전문가 FFN + 라우터
토큰당 활성화전체 파라미터선택된 전문가만
학습 효율파라미터 수 = 연산량파라미터 수 >> 연산량
메모리연산량과 비례전체 파라미터 메모리 로드 필요
추론 속도파라미터 비례 느림활성 파라미터만 연산하여 빠름

Llama 4의 MoE 구현 특징

  1. 교차 모달 전문가 라우팅: 텍스트와 이미지 토큰이 동일한 MoE 레이어를 통과, 라우터가 동적으로 전문가 선택
  2. iRoPE (interleaved RoPE): 일부 Attention 레이어는 RoPE 사용, 나머지는 NoPE로 교차 배치하여 10M+ 컨텍스트 구현
  3. MetaP: 모델 크기에 따라 최적 하이퍼파라미터를 자동 결정하는 기법

2.4 Scout — 10M 컨텍스트의 의미

Scout의 10M 토큰 컨텍스트 는 GPT-4o(128K), Claude 3.5(200K)의 50~80배입니다.
데이터 유형10M 토큰 환산
영문 텍스트약 7,500만 단어 (소설 ~100권)
코드대규모 코드베이스 전체
한국어약 500만~700만 어절
활성 파라미터가 17B여서 단일 GPU 노드(H100 8장)에서도 실행 가능합니다.

2.5 Maverick — 오픈소스 최강

128개 전문가를 보유한 대규모 MoE 모델로, GPT-4o와 동등하거나 우수한 벤치마크를 기록했습니다. LMArena에서 한때 1위를 차지했으며, 다국어 이해, 코딩, 수학적 추론 에서 강점을 보입니다.

2.6 Behemoth — Teacher 모델

2T+ 파라미터의 초대형 모델로, 주된 역할은 Scout와 Maverick의 Knowledge Distillation 소스 입니다. STEM 벤치마크에서 GPT-4.5, Gemini 2.0 Ultra를 넘는 것을 목표로 합니다.

2.7 네이티브 멀티모달

구분어댑터 방식 (Llama 3 + LLaVA)네이티브 (Llama 4)
학습텍스트 → 비전 어댑터 순차텍스트+이미지 동시 학습
모달 간 이해제한적 크로스모달깊은 모달 간 상호 참조
배포모델 + 어댑터 별도 관리단일 모델

3. 오픈소스 전략과 생태계

3.1 왜 오픈소스인가

Mark Zuckerberg가 명시적으로 밝혔듯이, 이는 “개발자 생태계를 장악하여 플랫폼이 되겠다” 는 전략적 판단입니다.
  1. 생태계 장악: Android가 모바일을 장악한 것과 유사한 전략
  2. 인재 확보: 오픈소스 프로젝트 기여자 → Meta 합류
  3. 비용 분산: 커뮤니티의 파인튜닝, 버그 발견, 응용 개발
  4. 표준화: Llama가 표준이 되면 폐쇄형 모델이 “비표준”

3.2 Llama 라이선스

항목허용 여부
상업적 사용허용
파인튜닝/재배포허용
MAU 7억 이상 서비스별도 라이선스
Llama 출력으로 다른 LLM 학습금지
학습 데이터 공개비공개

3.3 Llama Stack

모델 가중치뿐 아니라 Agent 구축 전체 소프트웨어 스택을 표준화하여 제공합니다.
계층구성 요소설명
Inferencellama-stack-inference추론 서버
SafetyLlama Guard, Purple Llama입출력 필터링
Memory벡터 DB 통합RAG용 장기 기억
ToolsFunction Calling API외부 도구 호출
AgentsAgent API에이전트 오케스트레이션

3.4 클라우드 파트너

클라우드Llama 4 지원통합 방식
AWSBedrock, SageMaker관리형 API + 커스텀 배포
AzureAzure AI Foundry서버리스 API + VM 배포
GCPVertex AI Model Garden관리형 API + GKE
DatabricksFoundation Model APIsDatabricks 엔드포인트

4. 제품 통합: 30억 사용자에 AI 배포

4.1 Meta AI 어시스턴트

플랫폼주요 기능
WhatsApp질문 답변, 이미지 생성, 번역, 요약
Instagram크리에이터 도구, 이미지 편집, 캡션 생성
Facebook콘텐츠 추천, 그룹 Q&A
meta.ai풀 기능 AI 어시스턴트
Ray-Ban Meta실시간 시각 정보 분석, 번역
Meta AI의 MAU는 2025년 초 기준 10억 명 이상 으로, 세계에서 가장 많은 사용자에게 도달하는 AI 어시스턴트입니다.

5. AR/VR과 AI의 융합

5.1 Ray-Ban Meta 스마트 글래스

카메라, 마이크, 스피커 내장 안경에 Llama 기반 멀티모달 AI가 탑재됩니다.
  • 실시간 시각 AI: 카메라로 본 것을 분석하여 답변
  • 실시간 번역: Seamless Communication 기술 기반
  • 스마트 글래스 시장 출하량 기준 1위

5.2 Meta Quest & Orion

  • Quest 3/3S: 공간 인식 AI, AI NPC
  • Orion AR 글래스: 차세대 AR, 2027-2028년 양산 예상

6. 인프라 투자

연도CapEx 계획주요 용도
2024~$37-40BGPU 클러스터, 데이터센터 확장
2025$60-65B대규모 데이터센터 신축, GPU 구매
2026$60B+ (예상)지속적 확장
  • H100 약 60만 개 이상 보유, B200(Blackwell) 대규모 발주
  • MTIA(자체 칩): 추론 워크로드에 점진적 활용
  • 원자력 에너지 공급 계약 체결

7. 연구 & 기술 혁신

기술설명영향
iRoPE교차 위치 임베딩으로 10M+ 컨텍스트초장문 처리의 새로운 표준
MetaP하이퍼파라미터 자동 결정학습 효율 대폭 향상
Movie Gen텍스트→비디오 생성 (최대 16초)영상 생성 시장 진입
SAM 2이미지/비디오 범용 세그멘테이션비전 AI 기초 기술
Seamless다국어 실시간 음성 번역실시간 통역 가능

8. 향후 전망

시기예상 이벤트
2026 상반기Llama 4 Behemoth 정식 출시
2026Llama 4 경량 모델 (8B-30B급)
2026Movie Gen 제품 통합
2026-2027Llama 5 발표 (비디오/오디오 네이티브)
2027-2028Orion AR 글래스 양산

9. 종합 정리

Meta의 AI 전략은 “인프라에서 디바이스까지 수직 통합된 오픈소스 AI 플랫폼” 으로 요약됩니다.
계층Meta의 자산경쟁 우위
MTIA + NVIDIA GPU 대량 확보연간 $60B+ 투자
모델Llama 4 패밀리오픈소스 최강, MoE 효율
프레임워크PyTorch, Llama Stack개발자 생태계 장악
플랫폼FB, IG, WA, Threads, meta.ai30억+ 사용자
디바이스Ray-Ban Meta, Quest, OrionAI-first 하드웨어
연구FAIR, Movie Gen, SAM세계 최고 수준 연구
참고 Databricks 시사점: Databricks는 Foundation Model APIs와 Model Serving을 통해 Llama 4를 지원합니다. Llama의 오픈 웨이트 특성 덕분에 기업 데이터가 외부로 유출되지 않는 프라이빗 AI 배포가 가능합니다. Scout의 10M 컨텍스트는 대규모 코드베이스/문서 분석에, Maverick은 범용 에이전트 기반 모델로 적합합니다.
주의 Llama 4 경량 모델 부재: Llama 3에는 8B, 70B 경량 모델이 있었지만, Llama 4는 최소 109B(Scout)입니다. 모바일/엣지 시나리오에서는 Llama 3.x 8B가 여전히 필요합니다.

참고 자료: