3. Claude Code & Computer Use
Claude Code: 터미널 네이티브 코딩 Agent
Claude Code는 2025년 2월 GA되어, AI 코딩 도구 시장에서 독특한 포지션을 확보했습니다.기존 도구와의 근본적 차이
| 관점 | GitHub Copilot | Cursor | Claude Code |
|---|---|---|---|
| 인터페이스 | IDE 내 자동완성 | IDE (포크된 VS Code) | 터미널 CLI |
| 작업 범위 | 코드 라인/함수 수준 | 파일/프로젝트 수준 | 코드베이스 전체 |
| 자율성 | 수동 (사용자가 수락/거부) | 반자동 (채팅 기반) | 자율적 (자체 판단으로 실행) |
| 도구 사용 | 제한적 | MCP 지원 | MCP + Bash + Git 완전 통합 |
| CI/CD 통합 | GitHub Actions | 제한적 | Headless 모드로 CI/CD 파이프라인 내장 가능 |
성장 지표
| 지표 | 수치 (2025 말 기준) |
|---|---|
| 일일 활성 사용자 | 35만+ |
| 누적 생성 PR | 100만+ |
| 지원 IDE 확장 | VS Code, JetBrains |
핵심 아키텍처
CLAUDE.md 계층 구조
Claude Code의 독특한 설계 중 하나는 계층적 지시 시스템 입니다.| 수준 | 파일 위치 | 적용 범위 |
|---|---|---|
| 사용자 전역 | ~/.claude/CLAUDE.md | 모든 프로젝트에 적용 |
| 프로젝트 | 프로젝트루트/CLAUDE.md | 해당 프로젝트 전체 |
| 프로젝트 사용자 | ~/.claude/projects/<경로>/CLAUDE.md | 특정 프로젝트에서 개인 설정 |
| 디렉토리 | 하위디렉토리/CLAUDE.md | 해당 디렉토리 한정 |
Computer Use: 데스크톱 제어 Agent
2024년 10월 Beta로 출시된 Computer Use는 스크린샷 기반으로 컴퓨터를 조작 하는 기능입니다.작동 원리
반복 루프: Screenshot(화면 캡처) → Analyze(UI 요소 파악) → Act(클릭/타이핑) → Verify(결과 확인)| 단계 | 동작 | 기술 |
|---|---|---|
| Screenshot | 현재 화면 캡처 | 이미지 캡처 API |
| Analyze | UI 요소, 텍스트, 버튼 위치 파악 | Claude의 비전(Vision) 능력 |
| Act | 좌표 기반 마우스/키보드 제어 | OS 접근성 API |
| Verify | 결과 스크린샷으로 성공 여부 확인 | 시각적 검증 |
macOS 네이티브 통합 (2025~)
초기 Computer Use는 순수 스크린샷 기반이었지만, macOS Accessibility API 통합으로 크게 개선되었습니다:| 항목 | 스크린샷 방식 | macOS 네이티브 |
|---|---|---|
| 속도 | 느림 (캡처 + 분석) | 빠름 (직접 UI 트리 접근) |
| 정확도 | 중간 (좌표 추정) | 높음 (요소 직접 참조) |
| 안정성 | 해상도/테마 영향 | OS가 보장 |
활용 시나리오
| 시나리오 | 설명 | 장점 |
|---|---|---|
| 레거시 시스템 자동화 | API 없는 오래된 웹/데스크톱 앱 조작 | 기존 시스템 수정 불필요 |
| UI 테스트 | E2E 테스트 자동화 | 시각적 검증 가능 |
| RPA 대체 | 기존 RPA 도구보다 유연한 자동화 | NLP 기반 지시 가능 |
| 데이터 수집 | 복잡한 웹 인터랙션 기반 데이터 추출 | 로그인, 다단계 내비게이션 처리 |
주의 프로덕션 사용 시 주의: Computer Use는 아직 Beta입니다. 반드시 샌드박스(Docker, VM) 내에서 실행하고, 민감 정보가 표시되는 화면에서는 사용을 제한해야 합니다.
4. Extended Thinking (Adaptive Thinking)
왜 등장했는가
기존 LLM의 한계 중 하나는 “생각 없이 바로 답하는” 방식이었습니다. 간단한 질문에는 적합하지만, 복잡한 수학 문제, 다단계 추론, 전략적 판단에서는 성능이 떨어졌습니다. Extended Thinking은 이 문제를 해결합니다.진화 과정
| 시기 | 이름 | 특징 |
|---|---|---|
| 2025.02 | Extended Thinking | 수동으로 budget_tokens 설정, 모든 응답에 동일 깊이 적용 |
| 2025 H2 | Adaptive Thinking | 작업 복잡도에 따라 사고 깊이 자동 조절 |
| 2025~2026 | Interleaved Thinking | 도구 사용 중에도 사고를 이어감 (비선형 추론) |
Interleaved Thinking의 혁신
기존 모델과 Claude 4+의 추론 방식을 비교하면 다음과 같습니다: 기존 방식 (선형):- 사용자 질문 수신
- 생각 (전체 계획 수립)
- 도구 호출
- 결과 수신 대기 (유휴)
- 생각 (결과 반영)
- 응답
- 사용자 질문 수신
- 생각 시작 + 병렬로 도구 호출
- 도구 결과 수신하면서 동시에 다음 단계 계획
- 추가 도구 호출 + 중간 결과 반영한 사고 계속
- 응답
- 전체 작업 완료 시간 30~50% 단축
- 중간 결과를 실시간 반영하여 정확도 향상
- 여러 도구를 병렬 호출하여 효율성 극대화
API 사용법
budget_tokens 가이드
작업 유형에 따라 적절한 토큰 예산을 설정하는 것이 중요합니다. 과도한 예산은 비용 낭비이고, 부족한 예산은 품질 저하로 이어집니다.| 작업 유형 | 권장 budget_tokens | 이유 |
|---|---|---|
| 간단한 코딩 | 2K ~ 4K | 한두 단계 추론으로 충분 |
| 복잡한 디버깅 | 4K ~ 8K | 여러 파일 간 관계 추적 필요 |
| 시스템 설계 | 8K ~ 16K | 다양한 트레이드오프 고려 필요 |
| 수학/논리 문제 | 16K ~ 32K | 단계별 엄밀한 추론 필요 |
| 연구 수준 분석 | 32K ~ 128K | 광범위한 탐색과 검증 필요 |
5. Constitutional AI와 안전성 연구
Constitutional AI (CAI) — Anthropic의 핵심 기술
Anthropic의 정체성을 정의하는 기술인 Constitutional AI는 AI가 스스로를 감독하는 학습 방법론입니다.왜 필요했는가
| 기존 방법 (RLHF) | 문제점 |
|---|---|
| 인간 피드백 기반 학습 | 인간 평가자의 편향이 모델에 그대로 전달 |
| 레드팀 테스트 | 비용이 높고, 모든 공격 벡터를 커버할 수 없음 |
| 규칙 기반 필터링 | 우회가 쉽고, 정상 사용도 차단하는 과잉 필터링 |
CAI의 작동 원리
| 단계 | 동작 | 핵심 |
|---|---|---|
| 1. 헌법 정의 | 인간이 원칙(헌법)을 텍스트로 작성 | ”도움이 되되, 해를 끼치지 않는다” 등 |
| 2. 자기 비평 | AI가 자신의 출력을 헌법 기준으로 평가 | ”이 응답이 원칙에 부합하는가?“ |
| 3. 자기 수정 | 비평 결과를 바탕으로 출력 개선 | RLAIF (AI 피드백 기반 강화학습) |
| 4. 반복 | 수정된 출력으로 다시 학습 | 점진적 품질 향상 |
Responsible Scaling Policy (RSP)
Anthropic은 AI 모델의 능력이 증가함에 따라 안전 조치도 비례적으로 강화해야 한다는 책임 있는 스케일링 정책 을 운영합니다.| ASL 레벨 | 위험 수준 | 요구 사항 |
|---|---|---|
| ASL-1 | 최소 | 기본적인 안전 테스트 |
| ASL-2 | 중간 | 레드팀 테스트, 배포 전 안전 평가 |
| ASL-3 | 높음 | 외부 감사, 정부 기관과 협력, 배포 제한 |
| ASL-4 | 매우 높음 | (아직 미정의, 향후 능력 증가 시 적용) |
최근 안전성 연구 성과 (2025~2026)
| 연구 | 내용 | 의미 |
|---|---|---|
| Circuit Tracing | 모델 내부의 신경망 회로를 추적하여 특정 행동의 원인을 파악 | Interpretability(해석 가능성) 분야의 돌파구 |
| Sleeper Agent 탐지 | 학습 시 심어진 악의적 행동을 탐지하는 기법 연구 | 공급망 공격 방어 |
| Sycophancy 감소 | Claude 4에서 사용자에게 거짓 동의를 하는 경향 대폭 감소 | 정직한 AI 비서 실현 |
| Tool Use Safety | Agent가 도구를 남용하지 않도록 하는 안전 가드레일 연구 | Agentic AI 시대의 필수 연구 |
참고 Interpretability의 중요성: “왜 AI가 이런 답을 했는가?”를 설명할 수 없다면, AI를 신뢰할 수 없습니다. Anthropic의 Circuit Tracing 연구는 신경망 내부를 “해부”하여 특정 행동이 어떤 뉴런 경로에서 발생하는지 추적합니다. 이는 의료, 금융, 법률 분야에서 AI 도입의 전제 조건입니다.