읽을거리 스트림에 매일 뉴스를 긁어 1차 출처로 팩트체크해 쌓다 보니, 어느새 2주치(6월 하순)가 모였다. 하루씩 보면 파편 같던 소식들이, 한 발 물러나 다시 훑으니 다섯 개의 굵은 줄기로 묶였다. 오늘은 그 메타 뷰를 적는다.

기준일은 2026년 7월 3일 KST다. 개별 사건의 날짜별 상세는 각 일자 다이제스트에 있고, 이 글은 그것들을 관통하는 흐름을 정리한 것이다. 늘 그렇듯 벤더 자체측정 수치와 언론 편집 프레이밍은 [확인]과 분리해 ⚠️로 표시했다. 팩트체크는 이슈마다 에이전트를 하나씩 붙여 ‘쓰는 쪽’과 ‘검증하는 쪽’을 나눴다(maker≠checker).

2주를 한 장으로 보면?

flowchart TD
    subgraph S1["① 모델 — 더 싸고 더 자율적으로"]
        A["Sonnet 5 · GPT-5.6<br/>저가 티어가 프런티어에 근접"]
    end
    subgraph S2["② 벽 — 규제·지정학·거버넌스"]
        B["수출통제 · 메타 사내제한<br/>증류 논란 · AI 거버넌스"]
    end
    subgraph S3["③ 하네스·루프 — 조직 단위 화두"]
        C["DeepSeek 하네스팀 · Claude Tag<br/>Codex-maxxing · AI 루프"]
    end
    subgraph S4["④ 인프라 — 사상 최대 자본"]
        D["삼성 425조 · SK ADR<br/>메모리값 폭등 · 추론칩"]
    end
    subgraph S5["⑤ 실무 도구 — 지식·문서·마케팅"]
        E["LLM 위키 · OCR<br/>GEO/SEO"]
    end
    S1 --> Q["실무자의 질문:<br/>모델 이름이 아니라<br/>'비용·자율성·검증·유통' 구조"]
    S2 --> Q
    S3 --> Q
    S4 --> Q
    S5 --> Q
    classDef m fill:#e7f5ff,stroke:#1c7ed6,color:#10548f;
    classDef w fill:#ffe3e3,stroke:#e03131,color:#a01818;
    classDef h fill:#fff3bf,stroke:#e67700,color:#8a5a00;
    classDef i fill:#f3f0ff,stroke:#7048e8,color:#4a2fb5;
    classDef t fill:#e6fcf5,stroke:#0ca678,color:#087f5b;
    classDef e fill:#d3f9d8,stroke:#2f9e44,color:#1d6b2c;
    class A m;
    class B w;
    class C h;
    class D i;
    class E t;
    class Q e;

내가 본 2주의 무게중심은 이랬다. “돈·인프라”와 “모델·에이전트” 사이를 오갔고, 7월 초 기준으로는 다시 모델·에이전트 쪽으로 왔다. 아래에서 다섯 줄기를 하나씩 푼다.

① 프런티어 모델은 정말 ‘더 싸고 더 자율적’으로 내려왔나?

가장 큰 줄기. 6월 말에 Claude Sonnet 5(6/30)OpenAI GPT-5.6(6/26~27 프리뷰)이 나란히 나왔다. 공통점은 하나다 — 프런티어 성능을 저가 티어로 끌어내리면서, 작업별로 ‘강도’를 조절하게 했다.

모델핵심티어·가격 구조
Claude Sonnet 5 [확인]”가장 에이전트다운 Sonnet”, effort(작업 강도) 파라미터로 비용·성능 균형도입가 낮게 시작해 이후 인상 예정
GPT-5.6 Sol·Terra·Luna [확인]숫자(5.6)=세대, 천체 이름=성능 티어로 분리. 추론설정 Max·서브에이전트 UltraSol(플래그십)·Terra(중급)·Luna(경량)

⚠️ 헤드라인을 그대로 믿기 전에. (1) “Opus급을 Sonnet 값에”는 조건부다 — effort를 높였을 때 일부 과제에서 근접하는 것이고, 벤치(OSWorld 78.5%·HLE 46.8% 등)는 전부 자체 측정이다. (2) Sonnet 5 도입가는 한시가이고 이후 오르며, 새 토크나이저 때문에 같은 글의 토큰 수가 최대 1.35배까지 늘 수 있다 — “토큰당 싸다”가 “청구액이 싸다”는 아니다. (3) GPT-5.6은 백악관 안전 우려로 광범위 출시가 지연돼 제한 프리뷰로 나왔고, 국내 요약의 “Mythos 5를 이겼다(88.0%)“는 대조표와 안 맞는다(88.0%는 이전 세대 점수로 추정). (4) OpenAI 스스로 Sol이 ‘의도 초과 행동’(무단 삭제·모니터링 비활성화) 비율이 더 높다고 인정했다 — 자율성이 오르면 사고 반경도 커진다.

여기에 오픈웨이트 추격도 겹친다. GLM-5.2(MIT)는 원샷 게임 생성 대결에서 완성도는 Opus 4.8에 밀렸지만 비용은 1/4 수준이었고, VibeThinker-3B(MIT)는 추론 특화지만 ⚠️ “Opus 4.5 초월”은 미성립(일반지식에서 크게 열세)이었다. “오픈 LLM로 갈아타는 비용이 더 이상 크지 않다”는 논평도 나왔지만, 근거는 리더보드 한두 건이라 아직 단정은 이르다.

② 모델 주변에는 왜 ‘벽’이 세워지나?

모델이 강해질수록, 그걸 둘러싼 규제·지정학·거버넌스가 같이 조여든다. 이게 두 번째 줄기다.

flowchart LR
    M["강해지는 프런티어 모델"] --> W1["🇺🇸 수출통제<br/>외국 국적자에 최상위 모델<br/>제공 시 사전허가 요구"]
    M --> W2["🏢 메타 사내제한<br/>클로드코드·코덱스 승인제<br/>(증류 오염 방지)"]
    M --> W3["⚖️ 증류 공격 논란<br/>앤트로픽 → 알리바바<br/>美 상원 서한"]
    M --> W4["📋 AI 거버넌스<br/>에이전트를 '내부 위협자'로<br/>Supervisor AI 감시"]
    classDef w fill:#ffe3e3,stroke:#e03131,color:#a01818;
    class W1,W2,W3,W4 w;
  • 수출통제 [중대] — 미국 상무부가 앤트로픽의 최상위 모델(Fable 5·Mythos 5)을 외국 국적자에게 제공할 때 정부 사전허가를 요구하면서, 앤트로픽이 해당 모델 접근을 일시 중단했다. 초당파 의원들이 해명을 요구 중. → 외국 국적 사용자의 최상위 모델 가용성에 직접 영향을 줄 수 있는 정책 리스크다.
  • 메타 사내제한 [확인] — 응용 AI 조직 한정으로 클로드 코드·코덱스를 승인제로 돌렸다. 명분은 경쟁사 출력이 자사 학습에 섞이는 증류(distillation) 오염 방지 + 자체 도구 집중. ⚠️ 공식 확인은 없고, 전면 금지가 아니라 승인·일시중단 수준이다.
  • 증류 공격 논란 [확인] — 앤트로픽이 알리바바가 2.5만 계정으로 Claude 역량을 추출했다고 상원에 고발. ⚠️ 공개 비난이 아닌 비공개 서한이고, 수치는 전부 앤트로픽 일방 주장이다.
  • AI 거버넌스 — 구글이 백서에서 에이전트를 신뢰하지 말고 ‘내부 위협자’로 간주하라며, Supervisor AI가 추론·계획·실행을 감시하는 심층방어를 제시했다.
  • AI 정치자금 대리전 — 앤트로픽·오픈AI 연계 슈퍼팩이 뉴욕 하원 경선에 2,300만 달러 넘게 투입, AI 규제파 후보가 낙선했다.

③ ‘하네스/루프’가 왜 조직 단위 화두가 됐나?

세 번째 줄기가 실무자에게 가장 흥미롭다. 모델을 그냥 쓰는 게 아니라, 모델 위에 ‘작업을 도는 구조(하네스·루프)‘를 어떻게 짤 것인가가 개인 기법을 넘어 조직 과제가 됐다.

flowchart TD
    subgraph ORG["조직화되는 하네스"]
        H1["DeepSeek: 하네스 전담팀 신설"]
        H2["Claude Tag: Slack 상주<br/>비동기·능동 멀티플레이어 에이전트"]
        H3["Codex-maxxing: megathread·<br/>GitHub 볼트·Heartbeat"]
    end
    subgraph LOOP["루프가 프롬프트를 친다"]
        L1["AI 프로토타입 90개 →<br/>사람은 취향·판단·감독"]
        L2["pi-subagents: 6단계 수락 게이트<br/>worktree 격리"]
    end
    ORG --> KEY["핵심 원리:<br/>maker ≠ checker<br/>(만드는 쪽 ≠ 검사하는 쪽)"]
    LOOP --> KEY
    classDef h fill:#fff3bf,stroke:#e67700,color:#8a5a00;
    classDef k fill:#d3f9d8,stroke:#2f9e44,color:#1d6b2c;
    class H1,H2,H3,L1,L2 h;
    class KEY k;
  • 하네스가 조직화된다 — DeepSeek이 하네스 전담팀을 신설했다. “모델이 하네스를 먹어치운다(스캐폴딩 수명 약 12개월)“는 관점과 “오히려 그 위에 오케스트레이션 계층이 생긴다”는 관점이 공존한다.
  • Claude Tag(6/23 베타) — Slack에 상주하며 태그 없이도 반응하고, 지표를 모니터링하고, 조건 충족 시 롤아웃 PR까지 준비하는 비동기·능동 에이전트. Claude Code(솔로·동기)의 보완이다. ⚠️ “내부 코드 65% 생성”은 자체 보고치이고 ‘생성≠배포’다.
  • AI 루프 — “하나의 기능에 AI 프로토타입 90개”라는 사례처럼, 구현은 값싸지고 취향·판단이 희소해진다. ⚠️ 단 “AI가 AI를 검토·수정하는 루프”라는 자극적 표현은 원 발언이 아니라 언론 편집 프레이밍이었다.

이 줄기는 하루 뉴스로 넘기기 아까워서 따로 파고들었다 — 루프 엔지니어링 · 루프 vs 하네스 vs Ralph · 루프의 시대가 온다 편에서 별도로 정리했다.

④ 인프라에는 얼마나 큰 돈이 붇고 있나?

네 번째 줄기는 ‘돈·쇠·전기’다. 모델과 에이전트가 도는 바닥 인프라에 사상 최대 자본이 몰렸다.

이슈핵심⚠️ 단서
삼성 호남 425조 / 서남권 896조 [확인]6/30 국민보고회. 광주 반도체 팹 2기 + 해남 AI 데이터센터 + SK 470조 + 앰코 1조정부 행사 MOU/계획액(수십 년 장기)이지 확정 집행 아님
SK하이닉스 나스닥 ADR [확인]7월 상장 추진, 약 45조원 조달, 전액 시설투자(용인·청주 EUV)F-1상 금액·일정은 잠정치(수요예측으로 확정)
메모리값 폭등 파급 [확인]애플 맥·아이패드 가격 인상, 마이크론 훈풍에 코스피 급등·매수 사이드카아이폰·워치·에어팟은 동결
추론칩·공정 [부분]오픈AI·Broadcom 첫 추론칩 ‘Jalapeño’, IBM 0.7nm ‘세계 최초’Jalapeño는 정량 벤치 0건, IBM은 연구단계(상용화 약 5년 후)

한 줄로 묶으면, “AI를 짓는 데 드는 돈”이 국가·기업 단위로 사상 최대치를 찍는 중이다. 다만 발표액 상당수가 장기 계획·MOU라, 확정 집행과는 구분해서 봐야 한다.

⑤ 실무에 바로 쓸 도구는 어디까지 왔나?

마지막 줄기는 내 실무(데이터·마케팅·자동화)와 가장 가깝다.

  • LLM 지식위키 — Karpathy의 평문 MD 패턴이 뿌리고, 표준으로 구글 OKF(메모리)·에든버러 ICM(워크플로)이 부상했다. 이 블로그를 떠받치는 볼트 자체가 이 계보(평문 MD·무벡터·인간 큐레이션)라 남 일 같지 않다. → 평문 MD 지식 볼트
  • 문서AI/OCR — PP-OCRv6(50개 언어 경량)·Mistral OCR 4처럼 경량·다국어 OCR이 쏟아졌다. 공시·문서 파싱 파이프라인의 다음 후보다.
  • SEO/GEO — 구글이 “좋은 SEO가 곧 좋은 GEO”(별도 마법 없음)라고 못박았고, Limited Ad Serving 확대·AI Overviews의 클릭 잠식이 진행 중이다. ⚠️ 떠도는 “AI Overviews 34.5%“는 노출률이 아니라 CTR 감소율(범주 오류)이니 그대로 인용하면 안 된다. → 검색엔진 색인·GEO

그래서 내 워크플로에 뭘 바꾸나?

flowchart LR
    subgraph IN["2주 이슈"]
        I1["저가 티어 모델"]
        I2["자율성 ↑"]
        I3["도구 거버넌스"]
        I4["벤더 수치 범람"]
    end
    subgraph DO["내 적용"]
        D1["작업별 effort/티어 라우팅<br/>토크나이저·도입가까지 넣어 실비용 계산"]
        D2["검증·권한 경계를 먼저 깐다<br/>(maker≠checker)"]
        D3["외부 AI에 무엇이 나가는지<br/>조직 차원에서 정한다"]
        D4["1차 출처와 편집 프레이밍을<br/>분리 기록한다"]
    end
    I1 --> D1
    I2 --> D2
    I3 --> D3
    I4 --> D4
    classDef a fill:#e7f5ff,stroke:#1c7ed6,color:#10548f;
    classDef b fill:#d3f9d8,stroke:#2f9e44,color:#1d6b2c;
    class I1,I2,I3,I4 a;
    class D1,D2,D3,D4 b;

2주를 관통한 한 문장은 이거다 — 모델 이름을 좇는 대신, ‘비용·자율성·검증·유통’ 구조를 본다. 어느 모델이 며칠 앞섰는지는 금방 뒤집히지만, 저 네 개의 축을 어떻게 짜뒀는지는 오래 간다. 그리고 자율성이 오를수록 질문은 하나로 수렴한다 — 누가, 어떻게 검증하고 책임지는가.

참고: 팩트체크에서 걸러낸 대표 과장

떠도는 수치 상당수가 벤더 자체측정이거나 언론 프레이밍이었다. 블로그에 옮길 때 아래는 특히 조심했다.

떠도는 표현실제
”Opus급을 Sonnet 값에”effort=high, 일부 과제 조건부 + 자체 벤치
GPT-5.6 “Mythos 5 이겼다(88.0%)“대조표 불일치(이전 세대 점수로 추정)
Claude Tag “코드 65%“‘코드’이지 ‘PR’ 아님 · 자체 보고치 · 생성≠배포
AI Overviews “34.5%“노출률 아니라 CTR 감소율(범주 오류)
“AI가 AI를 검토하는 루프”원 발언 아닌 언론 편집 프레이밍
삼성 896조MOU/계획액(장기)이지 확정 집행 아님