Awesome Harness Engineering — 하네스 엔지니어링 자료 모음

무엇하네스 엔지니어링(harness engineering)에 관한 글·플레이북·벤치마크·명세·오픈소스를 모은 awesome 리스트. 레포 정의는 “the practice of shaping the environment around AI agents so they can work reliably”모델이 아니라 에이전트를 둘러싼 환경을 설계해 안정적으로 일하게 만드는 실천. ⭐3,319 · CC0 1.0(퍼블릭 도메인). “범용 에이전트 도구는, 하네스 설계·컨텍스트 관리·평가·런타임 제어를 직접 다루지 않으면 범위 밖”이라고 수록 기준을 좁혀 둔 게 특징.

무엇을 모았나 — 8개 카테고리 (mindmap)

하네스를 설계할 때 마주치는 국면별로 ~100여 건을 8개로 나눈다.

mindmap
  root((Harness Engineering))
    학습 코스
      learn-harness-engineering
    기초 Foundations
      OpenAI · Anthropic
      LangChain · Thoughtworks
      CAR 분해 · HarnessCard
    컨텍스트·메모리
      작업 메모리 예산
      Manus 플레이북
      CLAUDE.md 작성법
    제약·가드레일
      샌드박싱
      프롬프트 인젝션 완화
      도구 인터페이스 설계
    명세·에이전트 파일
      AGENTS.md
      GitHub Spec Kit
      12-Factor Agents
    평가·관측성
      트레이스를 평가로
      Inspect AI
      OpenTelemetry GenAI
    벤치마크
      SWE-bench · Terminal-Bench
      OSWorld · WebArena
      약 40종
    런타임·참조 구현
      SWE-agent · deepagents
      Harbor · AgentKit
      Ralph · Harness Evolver

핵심 관점 — “모델이 아니라 하네스를 비교하라”

이 리스트가 벤치마크 섹션에 박아둔 한 문장이 요지다: “These benchmarks are especially useful when you want to compare harness quality, not just model quality.”

flowchart LR
    SAME["같은 모델"] --> H1["하네스 A<br/>(컨텍스트·도구·검증 설계 ①)"]
    SAME --> H2["하네스 B<br/>(설계 ②)"]
    H1 --> R1["벤치 점수 ↑"]
    H2 --> R2["벤치 점수 ↓"]
    R1 & R2 --> INSIGHT["차이의 원인 = 모델이 아니라<br/>하네스 수준의 선택"]

실제로 Anthropic의 Quantifying infrastructure noise 글은 런타임 설정만으로 코딩 벤치 점수가 리더보드 격차보다 크게 흔들릴 수 있다고 보였고, LangChain의 Improving Deep Agents with harness engineering모델을 안 바꾸고 하네스 변경만으로 성능이 유의하게 개선된다는 증거를 제시한다. “좋은 모델”보다 “좋은 하네스”가 결과를 가른다는 것.

벤치마크 ~40종 — 영역별 (가장 큰 섹션)

영역대표 벤치마크
코딩SWE-bench Verified · Terminal-Bench · EvoClaw(연속 마일스톤 회귀) · SEC-bench(보안) · LeetCode-Hard Gym
컴퓨터 사용OSWorld(369개, Ubuntu/Win/macOS) · OSWorld-MCP · Computer Agent Arena
WebArena(자체호스팅) · VisualWebArena(멀티모달) · WorkArena(기업형) · WebArena-Verified
MCP 통합MCPMark(Notion·GitHub·Postgres) · MCP Bench(정확도·지연·토큰) · MCP Universe
도구·대화τ-Bench · tau2-bench · GAIA · GTA
이색ClawWork(44개 직군 경제 벤치) · LLM Colosseum(스트리트파이터 III 대전)

런타임·참조 구현 — 직접 뜯어볼 수 있는 하네스

  • SWE-agent(성숙한 연구용 코딩 에이전트, 하네스·프롬프트·도구·환경 직접 확인) + SWE-ReX(샌드박스 코드 실행), LangChain deepagents, Terminal-Bench 2.0과 함께 나온 범용 평가 하네스 Harbor, Inngest AgentKit.
  • 색다른 항목: while :; do cat PROMPT.md | claude-code; done 한 줄 루프 미니멀리즘을 정리한 Ralph Wiggum as a Software Engineer(Geoffrey Huntley), 멀티 에이전트 제안자·LangSmith 평가·git worktree 격리로 하네스 자체를 자율 진화시키는 Claude Code 플러그인 Harness Evolver.

⚠️ 1차 출처 팩트체크 (GitHub README 직접 대조)

원 소개글이 “GPT 모델로 정리한 글” 이라 환각을 의심하고 대조했으나 — 수치·인용·항목 모두 실재 확인됐다.

주장검증 결과
8개 주요 카테고리✅ 사실 (Courses·Foundations·Context·Constraints·Specs·Evals·Benchmarks·Runtimes)
~100건, 벤치마크 ~40종✅ 대체로 사실 (정확한 수는 레포에 명시 없음, 실측 ~40개 벤치 일치)
CC0 1.0 라이선스사실 (LICENSE·README가 CC0 1.0 명시. 단 GitHub 자동감지는 “Other/NOASSERTION”로 표시 — 표기상 차이일 뿐)
정의·인용문 (“shaping the environment…”, “compare harness quality, not just model quality” 등)✅ README 원문과 그대로 일치
EvoClaw·ClawWork·LLM Colosseum·MCPMark·SEC-bench 등 이색 항목✅ 전부 실재 (환각 아님)
⚠️ 누락 주의원문은 부분 발췌 — README엔 HEAAL·Citadel·Uni-CLI·skills.sh·AgentBench·AppWorld·HAL·BrowserGym 등 다수 항목이 더 있음. 전체는 레포 직접 확인 권장
스타 수(원문 미언급) 현재 ⭐3,319 · 포크 264 (2026-03 생성)

시사점 — 내 작업과의 연결

이 리스트의 관점은 내가 루프 엔지니어링·하네스 설계 가이드에서 정리한 것과 정확히 같은 줄기다 — “에이전트의 신뢰성은 모델이 아니라 그 주변 구조에서 나온다.” 특히 “같은 모델이라도 하네스가 점수를 가른다” 는 증거(Anthropic infra noise·LangChain deep agents)는, 내가 자동화를 만들 때 모델을 바꾸기 전에 컨텍스트·검증·런타임부터 손보는 근거가 된다. CC0라 인용·재활용도 자유롭다.


1차 출처: walkinglabs/awesome-harness-engineering(README·GitHub API) 직접 확인. 원 소개글: PyTorch 한국 사용자 모임(9bow, GPT 정리본 — 발췌·요약이라 전체는 레포 참고). 정리: 2026-06-24.