Skip to main content

3. Claude Code & Computer Use

Claude Code: 터미널 네이티브 코딩 Agent

Claude Code는 2025년 2월 GA되어, AI 코딩 도구 시장에서 독특한 포지션을 확보했습니다.

기존 도구와의 근본적 차이

관점GitHub CopilotCursorClaude Code
인터페이스IDE 내 자동완성IDE (포크된 VS Code)터미널 CLI
작업 범위코드 라인/함수 수준파일/프로젝트 수준코드베이스 전체
자율성수동 (사용자가 수락/거부)반자동 (채팅 기반)자율적 (자체 판단으로 실행)
도구 사용제한적MCP 지원MCP + Bash + Git 완전 통합
CI/CD 통합GitHub Actions제한적Headless 모드로 CI/CD 파이프라인 내장 가능
이 비교에서 가장 중요한 차이는 자율성 입니다. Copilot과 Cursor는 사용자의 지시를 기다리지만, Claude Code는 스스로 파일을 탐색하고, 문제를 발견하고, 수정하고, 테스트하고, 커밋합니다.

성장 지표

지표수치 (2025 말 기준)
일일 활성 사용자35만+
누적 생성 PR100만+
지원 IDE 확장VS Code, JetBrains

핵심 아키텍처

Claude Code
├── 내장 도구
│   ├── Read (파일 읽기)
│   ├── Edit (파일 수정)
│   ├── Write (파일 생성)
│   ├── Bash (명령어 실행)
│   ├── Grep (내용 검색)
│   ├── Glob (파일 패턴 매칭)
│   └── Git (버전 관리)
├── 확장 도구
│   ├── MCP Clients (다중 MCP 서버 연결)
│   ├── WebSearch (웹 검색)
│   ├── WebFetch (웹 콘텐츠 수집)
│   └── ToolSearch (대규모 도구셋에서 검색)
├── 실행 엔진
│   ├── Subagent Pool (병렬 하위 작업)
│   ├── Background Tasks (장기 실행)
│   └── Hooks (이벤트 기반 자동화)
└── 컨텍스트 관리
    ├── CLAUDE.md (프로젝트/사용자/디렉토리별 설정)
    └── 1M 토큰 윈도우 관리

CLAUDE.md 계층 구조

Claude Code의 독특한 설계 중 하나는 계층적 지시 시스템 입니다.
수준파일 위치적용 범위
사용자 전역~/.claude/CLAUDE.md모든 프로젝트에 적용
프로젝트프로젝트루트/CLAUDE.md해당 프로젝트 전체
프로젝트 사용자~/.claude/projects/<경로>/CLAUDE.md특정 프로젝트에서 개인 설정
디렉토리하위디렉토리/CLAUDE.md해당 디렉토리 한정
이 계층 구조 덕분에 팀의 공통 규칙(프로젝트 CLAUDE.md)과 개인의 선호(사용자 CLAUDE.md)를 분리하여 관리할 수 있습니다.

Computer Use: 데스크톱 제어 Agent

2024년 10월 Beta로 출시된 Computer Use는 스크린샷 기반으로 컴퓨터를 조작 하는 기능입니다.

작동 원리

반복 루프: Screenshot(화면 캡처) → Analyze(UI 요소 파악) → Act(클릭/타이핑) → Verify(결과 확인)
단계동작기술
Screenshot현재 화면 캡처이미지 캡처 API
AnalyzeUI 요소, 텍스트, 버튼 위치 파악Claude의 비전(Vision) 능력
Act좌표 기반 마우스/키보드 제어OS 접근성 API
Verify결과 스크린샷으로 성공 여부 확인시각적 검증

macOS 네이티브 통합 (2025~)

초기 Computer Use는 순수 스크린샷 기반이었지만, macOS Accessibility API 통합으로 크게 개선되었습니다:
항목스크린샷 방식macOS 네이티브
속도느림 (캡처 + 분석)빠름 (직접 UI 트리 접근)
정확도중간 (좌표 추정)높음 (요소 직접 참조)
안정성해상도/테마 영향OS가 보장

활용 시나리오

시나리오설명장점
레거시 시스템 자동화API 없는 오래된 웹/데스크톱 앱 조작기존 시스템 수정 불필요
UI 테스트E2E 테스트 자동화시각적 검증 가능
RPA 대체기존 RPA 도구보다 유연한 자동화NLP 기반 지시 가능
데이터 수집복잡한 웹 인터랙션 기반 데이터 추출로그인, 다단계 내비게이션 처리
주의 프로덕션 사용 시 주의: Computer Use는 아직 Beta입니다. 반드시 샌드박스(Docker, VM) 내에서 실행하고, 민감 정보가 표시되는 화면에서는 사용을 제한해야 합니다.

4. Extended Thinking (Adaptive Thinking)

왜 등장했는가

기존 LLM의 한계 중 하나는 “생각 없이 바로 답하는” 방식이었습니다. 간단한 질문에는 적합하지만, 복잡한 수학 문제, 다단계 추론, 전략적 판단에서는 성능이 떨어졌습니다. Extended Thinking은 이 문제를 해결합니다.

진화 과정

시기이름특징
2025.02Extended Thinking수동으로 budget_tokens 설정, 모든 응답에 동일 깊이 적용
2025 H2Adaptive Thinking작업 복잡도에 따라 사고 깊이 자동 조절
2025~2026Interleaved Thinking도구 사용 중에도 사고를 이어감 (비선형 추론)

Interleaved Thinking의 혁신

기존 모델과 Claude 4+의 추론 방식을 비교하면 다음과 같습니다: 기존 방식 (선형):
  1. 사용자 질문 수신
  2. 생각 (전체 계획 수립)
  3. 도구 호출
  4. 결과 수신 대기 (유휴)
  5. 생각 (결과 반영)
  6. 응답
Interleaved 방식 (비선형):
  1. 사용자 질문 수신
  2. 생각 시작 + 병렬로 도구 호출
  3. 도구 결과 수신하면서 동시에 다음 단계 계획
  4. 추가 도구 호출 + 중간 결과 반영한 사고 계속
  5. 응답
이 방식의 효과:
  • 전체 작업 완료 시간 30~50% 단축
  • 중간 결과를 실시간 반영하여 정확도 향상
  • 여러 도구를 병렬 호출하여 효율성 극대화

API 사용법

response = client.messages.create(
    model="claude-opus-4-6",
    max_tokens=16384,
    thinking={
        "type": "enabled",
        "budget_tokens": 10000   # 사고에 할당할 최대 토큰
    },
    messages=[{
        "role": "user",
        "content": "이 아키텍처의 보안 취약점을 분석해줘."
    }]
)

# 응답 구조
for block in response.content:
    if block.type == "thinking":
        print(f"[사고 과정] {block.thinking}")
    elif block.type == "text":
        print(f"[최종 답변] {block.text}")

budget_tokens 가이드

작업 유형에 따라 적절한 토큰 예산을 설정하는 것이 중요합니다. 과도한 예산은 비용 낭비이고, 부족한 예산은 품질 저하로 이어집니다.
작업 유형권장 budget_tokens이유
간단한 코딩2K ~ 4K한두 단계 추론으로 충분
복잡한 디버깅4K ~ 8K여러 파일 간 관계 추적 필요
시스템 설계8K ~ 16K다양한 트레이드오프 고려 필요
수학/논리 문제16K ~ 32K단계별 엄밀한 추론 필요
연구 수준 분석32K ~ 128K광범위한 탐색과 검증 필요

5. Constitutional AI와 안전성 연구

Constitutional AI (CAI) — Anthropic의 핵심 기술

Anthropic의 정체성을 정의하는 기술인 Constitutional AI는 AI가 스스로를 감독하는 학습 방법론입니다.

왜 필요했는가

기존 방법 (RLHF)문제점
인간 피드백 기반 학습인간 평가자의 편향이 모델에 그대로 전달
레드팀 테스트비용이 높고, 모든 공격 벡터를 커버할 수 없음
규칙 기반 필터링우회가 쉽고, 정상 사용도 차단하는 과잉 필터링

CAI의 작동 원리

단계동작핵심
1. 헌법 정의인간이 원칙(헌법)을 텍스트로 작성”도움이 되되, 해를 끼치지 않는다” 등
2. 자기 비평AI가 자신의 출력을 헌법 기준으로 평가”이 응답이 원칙에 부합하는가?“
3. 자기 수정비평 결과를 바탕으로 출력 개선RLAIF (AI 피드백 기반 강화학습)
4. 반복수정된 출력으로 다시 학습점진적 품질 향상
CAI의 핵심 장점은 스케일러블 하다는 것입니다. 인간 평가자 수에 의존하지 않으므로, 모델이 커져도 동일한 방법론을 적용할 수 있습니다.

Responsible Scaling Policy (RSP)

Anthropic은 AI 모델의 능력이 증가함에 따라 안전 조치도 비례적으로 강화해야 한다는 책임 있는 스케일링 정책 을 운영합니다.
ASL 레벨위험 수준요구 사항
ASL-1최소기본적인 안전 테스트
ASL-2중간레드팀 테스트, 배포 전 안전 평가
ASL-3높음외부 감사, 정부 기관과 협력, 배포 제한
ASL-4매우 높음(아직 미정의, 향후 능력 증가 시 적용)

최근 안전성 연구 성과 (2025~2026)

연구내용의미
Circuit Tracing모델 내부의 신경망 회로를 추적하여 특정 행동의 원인을 파악Interpretability(해석 가능성) 분야의 돌파구
Sleeper Agent 탐지학습 시 심어진 악의적 행동을 탐지하는 기법 연구공급망 공격 방어
Sycophancy 감소Claude 4에서 사용자에게 거짓 동의를 하는 경향 대폭 감소정직한 AI 비서 실현
Tool Use SafetyAgent가 도구를 남용하지 않도록 하는 안전 가드레일 연구Agentic AI 시대의 필수 연구
참고 Interpretability의 중요성: “왜 AI가 이런 답을 했는가?”를 설명할 수 없다면, AI를 신뢰할 수 없습니다. Anthropic의 Circuit Tracing 연구는 신경망 내부를 “해부”하여 특정 행동이 어떤 뉴런 경로에서 발생하는지 추적합니다. 이는 의료, 금융, 법률 분야에서 AI 도입의 전제 조건입니다.