읽을거리 스트림에 매일 뉴스를 긁어 1차 출처로 팩트체크해 쌓다 보니, 어느새 2주치(6월 하순)가 모였다. 하루씩 보면 파편 같던 소식들이, 한 발 물러나 다시 훑으니 다섯 개의 굵은 줄기로 묶였다. 오늘은 그 메타 뷰를 적는다.
기준일은 2026년 7월 3일 KST다. 개별 사건의 날짜별 상세는 각 일자 다이제스트에 있고, 이 글은 그것들을 관통하는 흐름을 정리한 것이다. 늘 그렇듯 벤더 자체측정 수치와 언론 편집 프레이밍은 [확인]과 분리해 ⚠️로 표시했다. 팩트체크는 이슈마다 에이전트를 하나씩 붙여 ‘쓰는 쪽’과 ‘검증하는 쪽’을 나눴다(maker≠checker).
2주를 한 장으로 보면?
flowchart TD subgraph S1["① 모델 — 더 싸고 더 자율적으로"] A["Sonnet 5 · GPT-5.6<br/>저가 티어가 프런티어에 근접"] end subgraph S2["② 벽 — 규제·지정학·거버넌스"] B["수출통제 · 메타 사내제한<br/>증류 논란 · AI 거버넌스"] end subgraph S3["③ 하네스·루프 — 조직 단위 화두"] C["DeepSeek 하네스팀 · Claude Tag<br/>Codex-maxxing · AI 루프"] end subgraph S4["④ 인프라 — 사상 최대 자본"] D["삼성 425조 · SK ADR<br/>메모리값 폭등 · 추론칩"] end subgraph S5["⑤ 실무 도구 — 지식·문서·마케팅"] E["LLM 위키 · OCR<br/>GEO/SEO"] end S1 --> Q["실무자의 질문:<br/>모델 이름이 아니라<br/>'비용·자율성·검증·유통' 구조"] S2 --> Q S3 --> Q S4 --> Q S5 --> Q classDef m fill:#e7f5ff,stroke:#1c7ed6,color:#10548f; classDef w fill:#ffe3e3,stroke:#e03131,color:#a01818; classDef h fill:#fff3bf,stroke:#e67700,color:#8a5a00; classDef i fill:#f3f0ff,stroke:#7048e8,color:#4a2fb5; classDef t fill:#e6fcf5,stroke:#0ca678,color:#087f5b; classDef e fill:#d3f9d8,stroke:#2f9e44,color:#1d6b2c; class A m; class B w; class C h; class D i; class E t; class Q e;
내가 본 2주의 무게중심은 이랬다. “돈·인프라”와 “모델·에이전트” 사이를 오갔고, 7월 초 기준으로는 다시 모델·에이전트 쪽으로 왔다. 아래에서 다섯 줄기를 하나씩 푼다.
① 프런티어 모델은 정말 ‘더 싸고 더 자율적’으로 내려왔나?
가장 큰 줄기. 6월 말에 Claude Sonnet 5(6/30)와 OpenAI GPT-5.6(6/26~27 프리뷰)이 나란히 나왔다. 공통점은 하나다 — 프런티어 성능을 저가 티어로 끌어내리면서, 작업별로 ‘강도’를 조절하게 했다.
| 모델 | 핵심 | 티어·가격 구조 |
|---|---|---|
Claude Sonnet 5 [확인] | ”가장 에이전트다운 Sonnet”, effort(작업 강도) 파라미터로 비용·성능 균형 | 도입가 낮게 시작해 이후 인상 예정 |
GPT-5.6 Sol·Terra·Luna [확인] | 숫자(5.6)=세대, 천체 이름=성능 티어로 분리. 추론설정 Max·서브에이전트 Ultra | Sol(플래그십)·Terra(중급)·Luna(경량) |
⚠️ 헤드라인을 그대로 믿기 전에. (1) “Opus급을 Sonnet 값에”는 조건부다 — effort를 높였을 때 일부 과제에서 근접하는 것이고, 벤치(OSWorld 78.5%·HLE 46.8% 등)는 전부 자체 측정이다. (2) Sonnet 5 도입가는 한시가이고 이후 오르며, 새 토크나이저 때문에 같은 글의 토큰 수가 최대 1.35배까지 늘 수 있다 — “토큰당 싸다”가 “청구액이 싸다”는 아니다. (3) GPT-5.6은 백악관 안전 우려로 광범위 출시가 지연돼 제한 프리뷰로 나왔고, 국내 요약의 “Mythos 5를 이겼다(88.0%)“는 대조표와 안 맞는다(88.0%는 이전 세대 점수로 추정). (4) OpenAI 스스로 Sol이 ‘의도 초과 행동’(무단 삭제·모니터링 비활성화) 비율이 더 높다고 인정했다 — 자율성이 오르면 사고 반경도 커진다.
여기에 오픈웨이트 추격도 겹친다. GLM-5.2(MIT)는 원샷 게임 생성 대결에서 완성도는 Opus 4.8에 밀렸지만 비용은 1/4 수준이었고, VibeThinker-3B(MIT)는 추론 특화지만 ⚠️ “Opus 4.5 초월”은 미성립(일반지식에서 크게 열세)이었다. “오픈 LLM로 갈아타는 비용이 더 이상 크지 않다”는 논평도 나왔지만, 근거는 리더보드 한두 건이라 아직 단정은 이르다.
② 모델 주변에는 왜 ‘벽’이 세워지나?
모델이 강해질수록, 그걸 둘러싼 규제·지정학·거버넌스가 같이 조여든다. 이게 두 번째 줄기다.
flowchart LR M["강해지는 프런티어 모델"] --> W1["🇺🇸 수출통제<br/>외국 국적자에 최상위 모델<br/>제공 시 사전허가 요구"] M --> W2["🏢 메타 사내제한<br/>클로드코드·코덱스 승인제<br/>(증류 오염 방지)"] M --> W3["⚖️ 증류 공격 논란<br/>앤트로픽 → 알리바바<br/>美 상원 서한"] M --> W4["📋 AI 거버넌스<br/>에이전트를 '내부 위협자'로<br/>Supervisor AI 감시"] classDef w fill:#ffe3e3,stroke:#e03131,color:#a01818; class W1,W2,W3,W4 w;
- 수출통제
[중대]— 미국 상무부가 앤트로픽의 최상위 모델(Fable 5·Mythos 5)을 외국 국적자에게 제공할 때 정부 사전허가를 요구하면서, 앤트로픽이 해당 모델 접근을 일시 중단했다. 초당파 의원들이 해명을 요구 중. → 외국 국적 사용자의 최상위 모델 가용성에 직접 영향을 줄 수 있는 정책 리스크다. - 메타 사내제한
[확인]— 응용 AI 조직 한정으로 클로드 코드·코덱스를 승인제로 돌렸다. 명분은 경쟁사 출력이 자사 학습에 섞이는 증류(distillation) 오염 방지 + 자체 도구 집중. ⚠️ 공식 확인은 없고, 전면 금지가 아니라 승인·일시중단 수준이다. - 증류 공격 논란
[확인]— 앤트로픽이 알리바바가 2.5만 계정으로 Claude 역량을 추출했다고 상원에 고발. ⚠️ 공개 비난이 아닌 비공개 서한이고, 수치는 전부 앤트로픽 일방 주장이다. - AI 거버넌스 — 구글이 백서에서 에이전트를 신뢰하지 말고 ‘내부 위협자’로 간주하라며, Supervisor AI가 추론·계획·실행을 감시하는 심층방어를 제시했다.
- AI 정치자금 대리전 — 앤트로픽·오픈AI 연계 슈퍼팩이 뉴욕 하원 경선에 2,300만 달러 넘게 투입, AI 규제파 후보가 낙선했다.
③ ‘하네스/루프’가 왜 조직 단위 화두가 됐나?
세 번째 줄기가 실무자에게 가장 흥미롭다. 모델을 그냥 쓰는 게 아니라, 모델 위에 ‘작업을 도는 구조(하네스·루프)‘를 어떻게 짤 것인가가 개인 기법을 넘어 조직 과제가 됐다.
flowchart TD subgraph ORG["조직화되는 하네스"] H1["DeepSeek: 하네스 전담팀 신설"] H2["Claude Tag: Slack 상주<br/>비동기·능동 멀티플레이어 에이전트"] H3["Codex-maxxing: megathread·<br/>GitHub 볼트·Heartbeat"] end subgraph LOOP["루프가 프롬프트를 친다"] L1["AI 프로토타입 90개 →<br/>사람은 취향·판단·감독"] L2["pi-subagents: 6단계 수락 게이트<br/>worktree 격리"] end ORG --> KEY["핵심 원리:<br/>maker ≠ checker<br/>(만드는 쪽 ≠ 검사하는 쪽)"] LOOP --> KEY classDef h fill:#fff3bf,stroke:#e67700,color:#8a5a00; classDef k fill:#d3f9d8,stroke:#2f9e44,color:#1d6b2c; class H1,H2,H3,L1,L2 h; class KEY k;
- 하네스가 조직화된다 — DeepSeek이 하네스 전담팀을 신설했다. “모델이 하네스를 먹어치운다(스캐폴딩 수명 약 12개월)“는 관점과 “오히려 그 위에 오케스트레이션 계층이 생긴다”는 관점이 공존한다.
- Claude Tag(6/23 베타) — Slack에 상주하며 태그 없이도 반응하고, 지표를 모니터링하고, 조건 충족 시 롤아웃 PR까지 준비하는 비동기·능동 에이전트. Claude Code(솔로·동기)의 보완이다. ⚠️ “내부 코드 65% 생성”은 자체 보고치이고 ‘생성≠배포’다.
- AI 루프 — “하나의 기능에 AI 프로토타입 90개”라는 사례처럼, 구현은 값싸지고 취향·판단이 희소해진다. ⚠️ 단 “AI가 AI를 검토·수정하는 루프”라는 자극적 표현은 원 발언이 아니라 언론 편집 프레이밍이었다.
이 줄기는 하루 뉴스로 넘기기 아까워서 따로 파고들었다 — 루프 엔지니어링 · 루프 vs 하네스 vs Ralph · 루프의 시대가 온다 편에서 별도로 정리했다.
④ 인프라에는 얼마나 큰 돈이 붇고 있나?
네 번째 줄기는 ‘돈·쇠·전기’다. 모델과 에이전트가 도는 바닥 인프라에 사상 최대 자본이 몰렸다.
| 이슈 | 핵심 | ⚠️ 단서 |
|---|---|---|
삼성 호남 425조 / 서남권 896조 [확인] | 6/30 국민보고회. 광주 반도체 팹 2기 + 해남 AI 데이터센터 + SK 470조 + 앰코 1조 | 정부 행사 MOU/계획액(수십 년 장기)이지 확정 집행 아님 |
SK하이닉스 나스닥 ADR [확인] | 7월 상장 추진, 약 45조원 조달, 전액 시설투자(용인·청주 EUV) | F-1상 금액·일정은 잠정치(수요예측으로 확정) |
메모리값 폭등 파급 [확인] | 애플 맥·아이패드 가격 인상, 마이크론 훈풍에 코스피 급등·매수 사이드카 | 아이폰·워치·에어팟은 동결 |
추론칩·공정 [부분] | 오픈AI·Broadcom 첫 추론칩 ‘Jalapeño’, IBM 0.7nm ‘세계 최초’ | Jalapeño는 정량 벤치 0건, IBM은 연구단계(상용화 약 5년 후) |
한 줄로 묶으면, “AI를 짓는 데 드는 돈”이 국가·기업 단위로 사상 최대치를 찍는 중이다. 다만 발표액 상당수가 장기 계획·MOU라, 확정 집행과는 구분해서 봐야 한다.
⑤ 실무에 바로 쓸 도구는 어디까지 왔나?
마지막 줄기는 내 실무(데이터·마케팅·자동화)와 가장 가깝다.
- LLM 지식위키 — Karpathy의 평문 MD 패턴이 뿌리고, 표준으로 구글 OKF(메모리)·에든버러 ICM(워크플로)이 부상했다. 이 블로그를 떠받치는 볼트 자체가 이 계보(평문 MD·무벡터·인간 큐레이션)라 남 일 같지 않다. → 평문 MD 지식 볼트
- 문서AI/OCR — PP-OCRv6(50개 언어 경량)·Mistral OCR 4처럼 경량·다국어 OCR이 쏟아졌다. 공시·문서 파싱 파이프라인의 다음 후보다.
- SEO/GEO — 구글이 “좋은 SEO가 곧 좋은 GEO”(별도 마법 없음)라고 못박았고, Limited Ad Serving 확대·AI Overviews의 클릭 잠식이 진행 중이다. ⚠️ 떠도는 “AI Overviews 34.5%“는 노출률이 아니라 CTR 감소율(범주 오류)이니 그대로 인용하면 안 된다. → 검색엔진 색인·GEO
그래서 내 워크플로에 뭘 바꾸나?
flowchart LR subgraph IN["2주 이슈"] I1["저가 티어 모델"] I2["자율성 ↑"] I3["도구 거버넌스"] I4["벤더 수치 범람"] end subgraph DO["내 적용"] D1["작업별 effort/티어 라우팅<br/>토크나이저·도입가까지 넣어 실비용 계산"] D2["검증·권한 경계를 먼저 깐다<br/>(maker≠checker)"] D3["외부 AI에 무엇이 나가는지<br/>조직 차원에서 정한다"] D4["1차 출처와 편집 프레이밍을<br/>분리 기록한다"] end I1 --> D1 I2 --> D2 I3 --> D3 I4 --> D4 classDef a fill:#e7f5ff,stroke:#1c7ed6,color:#10548f; classDef b fill:#d3f9d8,stroke:#2f9e44,color:#1d6b2c; class I1,I2,I3,I4 a; class D1,D2,D3,D4 b;
2주를 관통한 한 문장은 이거다 — 모델 이름을 좇는 대신, ‘비용·자율성·검증·유통’ 구조를 본다. 어느 모델이 며칠 앞섰는지는 금방 뒤집히지만, 저 네 개의 축을 어떻게 짜뒀는지는 오래 간다. 그리고 자율성이 오를수록 질문은 하나로 수렴한다 — 누가, 어떻게 검증하고 책임지는가.
참고: 팩트체크에서 걸러낸 대표 과장
떠도는 수치 상당수가 벤더 자체측정이거나 언론 프레이밍이었다. 블로그에 옮길 때 아래는 특히 조심했다.
| 떠도는 표현 | 실제 |
|---|---|
| ”Opus급을 Sonnet 값에” | effort=high, 일부 과제 조건부 + 자체 벤치 |
| GPT-5.6 “Mythos 5 이겼다(88.0%)“ | 대조표 불일치(이전 세대 점수로 추정) |
| Claude Tag “코드 65%“ | ‘코드’이지 ‘PR’ 아님 · 자체 보고치 · 생성≠배포 |
| AI Overviews “34.5%“ | 노출률 아니라 CTR 감소율(범주 오류) |
| “AI가 AI를 검토하는 루프” | 원 발언 아닌 언론 편집 프레이밍 |
| 삼성 896조 | MOU/계획액(장기)이지 확정 집행 아님 |