요 며칠은 Opus 4.7이랑 Claude Design 얘기가 가장 핫한데, 너무 좋다 라는 반응과 생각보다 너무 별로다 라는 반응이 같이 있길래, Arena 리더보드를 까봤음. Occupational 카테고리에서 4.7이 4.6보다 확 떨어져 있음. Business, Management & Financial Ops는 물론이고, Life, Physical & Social Science, Entertainment, Sports & Media까지. 코딩이랑 텍스트 쪽에서는 비슷하거나 미세하게 앞서는데, 비개발자 영역에서는 오히려 퇴보함, 그것도 꽤 큰 점수차로
내 프로필만 봐도 알 수 있지만 나는 Claude 빠돌이임. 제품, 브랜딩부터 정치적 행보까지. 내가 어떤 it 브랜드를 이렇게까지 좋아해본 적 있었나 생각해보면 지난 10년간의 구글 말고는 딱히 생각 안남. 근데 이번 opus 4.7 + Design 콤보는 솔직히 좀 많이 아쉬움. 모델 성능 자체보다 Anthropic이 이걸 포장해서 파는 방식이 인상적이었달까. 그래서 이번엔 그 "포장"의 구조를 뜯어보는 글을 써보려고 함.
Arena 데이터가 말해주는 것
Arena AI 리더보드(arena.ai/leaderboard/text)에서 Claude Opus 4.7과 4.6을 비교하면, Text 카테고리에서는 4.7이 전반적으로 앞서거나 비슷함. Overall, Expert, Coding, Hard Prompts 같은 영역에서 4.7이 1~2등급 정도 높음. 여기까지만 보면 순수한 업그레이드처럼 보임.
근데 Occupational 카테고리로 넘어가면 Writing, Literature & Language에서 4.6이 더 높고, Software & IT Services도 4.6이 앞서고, Business, Management & Financial Ops, Life/Physical/Social Science, Entertainment/Sports/Media까지 전부 4.6이 위. 코딩 벤치마크에서 점수를 뽑기 위해 다른 걸 깎은 건 아닌지 의심이 드는 구조.
비개발자 입장에서는 4.6이 가성비 측면이 아니라 절대값으로도 나을 수도 있다는 얘기가 되는 건데, 이걸 얘기하는 곳은 거의 없음. 트위터에서 "4.7 미쳤다" 올리는 사람들 대부분이 코딩 유스케이스 기준으로 말하고 있으니까.
Claude Design의 실체
Claude Design이 발표됐을 때 트위터가 난리였음. 피그마 주가도 엄청 떨어짐. 스레드도, X도, 유튜브도 모두 와! 진짜 좋다 미쳤다 하면서 올라오는 글들 일색인데, 이 칭찬 글들 중 70%는 자기가 직접 써본 후기가 아니라, anthropic에서 직접 올린 시연 시나리오를 보면서 코멘트를 다는 글들이었음.
약간의 비판의식을 갖고 찾아보니까 Claude Design은 기존 Claude Code에 몇 개의 마크다운 파일을 추가한 것. Claude Code를 써서 웹사이트를 만들어본 사람이면 알겠지만, Claude는 원래 어느 정도 디자인을 할 수 있었음. 랜딩페이지나 앱에 일반적인 접근 방식을 적용해서 코드를 뱉어내는 건 이미 되던 것. 거기에 스펙 파일 몇 개를 얹고, 코드 없이 편집할 수 있는 인스펙터 레이어를 추가한 것. 새로운 제품이 아니라 기존 제품의 리패키징에 가까움.
시연 영상에 나오는 3D 지구본이나 멋진 트랜지션은 비전문가한테 인상적으로 보이도록 설계된 것인데, 자세히 보면 대비가 부족하고, 3D라고 한 선은 실제로는 평면이고, CTA 버튼도 없음. 재밌는 건 동일한 프롬프트를 그냥 Claude Code에 넣으면 오히려 더 나은 결과가 나온다는 분석도 있음. 둘 다 엉성한 디자인이지만, 기존 Claude Code 쪽이 시작점으로는 더 낫다는 것.
Anthropic이 잘하는 것
근데 여기서 한 발 물러서서 봤을 때, Anthropic이 진짜 잘하는 건, 완성도가 높아보이는 특정 시나리오를 골라서 이걸 꽤나 완성도 높게 깎은 다음에 쉬핑하는 것. 시연 영상에서 보여주는 결과물은 정말 그럴싸함. 비전문가가 보면 "와, 이걸 AI가?" 할 수밖에 없는 장면들을 정확하게 골라냄.
근데 막상 써보면 그렇게까지 좋지 않음. 이건 Claude Design만의 문제가 아니라 AI 데모 전반의 문제이기도 한데, Anthropic이 특히 이 시나리오 큐레이션을 잘한다는 느낌. OpenAI가 비슷한 수준의 관심을 끌려면 Sam Altman이 쇼를 해야 하는데, Anthropic은 제품 영상 하나로 같은 효과를 냄. 편집자P님은 "애플 같은 녀석들"이라고 했는데, 틀린 말은 아닌 것 같음 (오히려 극찬 아닌가ㅋㅋ)
"개쩐다"가 "별로다"보다 잘 퍼지는 구조
AI 인플루언서들의 인센티브 구조를 생각해보면, "별로다"라고 하는 것보다 "개쩐다"라고 하는 게 바이럴에 유리함. 냉정한 리뷰는 공유가 안 되고, 흥분한 스크린샷이 RT됨. 그래서 새 기능이 나올 때마다 트위터에는 "미쳤다" "게임체인저다"가 쏟아지는데, 실제로 쓰는 사람 중 얼마나 동의하는지는 별개의 문제.
AI 기업들 입장에서도 이 구조가 필요함. 아직 수익을 내지 못하고 있는 상황에서 투자자들한테 보여줄 수 있는 건 사용 사례와 화제성이니까. 더 많은 사람이 "와"하면 다음 라운드 펀딩이 쉬워짐. 과대광고가 의도적인 전략이라기보다, 시장 구조가 과대광고를 보상하는 방향으로 설계되어 있다고 보는 게 맞을 것 같음.
Claude Design 발표 직후에 피그마 주가가 떨어졌다는 것 자체가 이 구조의 힘을 보여줌. 실제로 피그마를 대체할 수 있는 도구가 나온 게 아닌데도, "AI가 디자인을 한다"는 내러티브만으로 시장이 반응한 것. 클로드 디자인은 피그마 킬러가 아니라 캔바 대체재에 가까운데, 그 차이를 설명하는 콘텐츠보다 공포를 자극하는 콘텐츠가 더 빠르게 퍼짐.
"좋은 것"과 "좋아보이는 것"의 간극
Claude Design이 하는 일의 본질은 템플릿 조립임. 안전하고, 예측 가능하고, 체계적인 방식으로 구성 요소를 합침. 차이점이라면, 사용자가 템플릿을 고르는 게 아니라 프롬프트로 생성한다는 것. 이게 "직접 만들고 있다"는 느낌, 인지된 통제감을 줌. 근데 실제로는 예시를 검색하고 병합하는 동일한 검색 엔진에 가까움.
그리고 대부분의 사람은 자기가 뭘 원하는지 명확하게 프롬프트로 표현하지 못함. 디자인을 잘 모르니까 AI한테 시키는 건데, 결과물이 좋은지 나쁜지를 판단하려면 결국 디자인을 알아야 함. closed loop 글에서 썼던 문제가 여기서도 똑같이 나타남. 평가 기준이 없으면 루프가 안 닫힘.
결국 Claude Design이 실제로 바꿔놓는 건 "평균적인 디자인의 하한선"임. 끔찍하게 못생긴 결과물은 줄어들겠지만, 좋은 디자인이 나오는 건 아님. 그리고 모두가 평균이 되면, 평균은 더 이상 차별점이 안 됨.
빠돌이의 냉정한 시선
나는 여전히 Claude를 가장 많이 쓰고, Anthropic의 방향성에 동의하는 편임. 근데 이번 opus 4.7 + Design 콤보는 제품보다 포장이 더 좋았다고 생각함. 4.7은 코딩에서는 진전이 있지만 비개발자한테는 퇴보했고, Design은 새 제품이 아니라 기존 제품의 리패키징이었음.
Anthropic의 진짜 실력은 모델 자체보다 이런 제품 내러티브를 만들고 퍼뜨리는 능력에 있다는 생각이 요즘 강해지고 있음. 그리고 이건 비난이 아니라, 솔직히 감탄에 가까움. AI 기업이 살아남으려면 기술만으로는 안 되고 화제성을 만들어야 하는데, 그걸 가장 세련되게 하는 곳이 Anthropic이라는 것. OpenAI는 같은 효과를 내려면 훨씬 요란해야 하니까.
다만, 쓰는 사람 입장에서는 포장을 벗기고 실체를 볼 줄 알아야 한다고 생각함. Arena 데이터를 직접 까보고, 시연 영상이 아니라 본인 유스케이스에서 테스트해보고, 인플루언서의 "미쳤다"를 그대로 믿지 않는 것. 결국 나한테 중요한 건 이 도구가 내 일을 실제로 바꿔주느냐이고, 그 답은 남의 스크린샷이 아니라 내 작업 환경에서만 나옴.