Pay-Per-Crawl이 웹을 둘로 나누고 있다

2026년 2월 19일, Stack Overflow와 Cloudflare는 웹 데이터 업계 대부분이 예상하지 못한 발표를 했습니다. 이들은 AI 크롤러가 실시간으로 402 Payment Required response를 받고 퍼블리셔가 책정한 가격을 지불하거나 그냥 돌아가야 하는 시스템인 pay-per-crawl을 공동 출시했습니다. 봇의 신원은 에지에서 검증되고, 가격은 사이트가 설정하며, 거래는 사용량에 따라 측정됩니다.

Cloudflare는 인터넷 사이트 5개 중 대략 1개 앞단에 위치해 있습니다. 따라서 이들이 알려진 AI 봇에 대해 기본 차단(block-by-default)으로 전환하고 퍼블리셔가 request당 비용을 청구할 수 있는 마켓플레이스를 구축했을 때, 공개 웹의 거대한 영역에 대한 액세스 모델이 단 한 주말 사이에 바뀌었습니다.

지금 웹 데이터 인프라를 구축하고 있다면, 이번 발표는 그냥 넘겨버릴 Cloudflare의 단순한 소식이 아닙니다. 이는 '공개(open)'가 의미하는 바의 공식을 바꾸어 놓습니다.

The Mechanic Behind the Flip

기술적인 변화 자체는 작습니다. Cloudflare는 오랫동안 휴면 상태였던 'Payment Required' 상태 코드인 HTTP 402를 부활시켜 검증된 AI 크롤러 레지스트리에 연결했습니다. 퍼블리셔는 request당 가격을 설정합니다. 크롤러는 크레딧 잔액을 보유하고 비용을 지불하거나, 아니면 차단됩니다.

비기술적인 변화는 더 큽니다. 이전에는 'AI 학습을 위해 내 콘텐츠를 스크래핑하지 말 것'을 강제하는 유일한 방법이 robots.txt(권고일 뿐 강제력 없음)와 공격적인 봇 차단(이진적이고, 데이터 손실이 있으며, 오탐이 많음)뿐이었습니다. Cloudflare는 세 번째 옵션인 가격표를 추가했습니다.

이 세 번째 옵션의 경제학은 처음 두 가지와 다르게 작동합니다. Robots.txt는 비용이 들지 않지만 무시됩니다. 봇 차단은 봇으로 오인된 실제 사용자의 트래픽을 잃는 비용을 치르게 합니다. 가격표는 설계상 비용을 지불할 의사가 있는 크롤러와 그렇지 않은 크롤러를 구분해 냅니다.

Who's Actually Charging

Stack Overflow가 출시 파트너였던 이유는 그들의 학습 데이터가 진정으로 가치 있고, 이미 OpenAI 등과 개별 양자 계약을 협상 중이었기 때문입니다. Cloudflare의 마켓플레이스는 이러한 양자 계약을 다른 퍼블리셔들이 연동할 수 있는 레지스트리로 일반화했습니다.

뒤를 따르는 이들의 목록은 빠르게 늘어났습니다. AWS는 자체적인 봇 수익화 레이어를 출시했습니다. Akamai도 이와 유사한 레이어를 구축했습니다. 퍼블리셔를 향한 제안은 명확합니다. AI 연구소를 상대로 비용이 많이 드는 소송을 제기하는 대신, request당 비용을 받는 수익원을 확보하라는 것입니다.

현재로서는 이는 주로 문서, 뉴스, 기술 Q&A, 구조화된 참조 데이터와 같은 고가치 콘텐츠 계층에 해당합니다. 웹의 롱테일 영역(소규모 이커머스 사이트, 지역 목록, 틈새 포럼)은 이러한 장벽 뒤에 있지 않으며 앞으로도 그럴 가능성이 높습니다. Cloudflare의 자체 봇 관리는 운영 비용이 들고, pay-per-crawl은 선택 사항(opt-in)입니다. 단일 페이지 뷰에 비용을 청구할 만한 가치가 있는 사이트에서만 수지가 맞습니다.

What This Means for Web Data Pipelines

Stack Overflow, 주요 뉴스 사이트 또는 적극적으로 참여하고 있는 퍼블리셔로부터 데이터를 가져오는 파이프라인을 구축하고 있다면, 선택지는 세 가지로 좁혀집니다. 트래픽이 AI 크롤러로 식별되는 즉시 마켓플레이스를 통해 비용을 지불하십시오. 라이선스가 부여된 데이터셋이 존재한다면 그것으로 전환하십시오. 아니면 데이터가 여전히 공개되어 있는 다른 곳을 찾으십시오.

대부분의 팀은 결국 상황에 따라 세 가지 방법을 모두 사용하게 될 것입니다. 이것이 현실적인 실상입니다. 웹은 라이선스 영역과 공개 영역으로 나뉘고 있으며, 그 경계가 도메인 단위로 깔끔하게 구분되지 않습니다. 동일한 퍼블리셔가 한 섹션은 402 뒤에 두고 다른 섹션은 열어둘 수 있습니다. 동일한 사이트가 특정 크롤러에는 비용을 청구하고 연구용 봇은 완전히 무시할 수도 있습니다.

엔지니어링 팀의 실질적인 대응은 다음과 같아야 한다고 생각합니다. 첫째, 소스를 감사하십시오. 파이프라인의 상당 부분이 Stack Overflow, Reddit, 주요 뉴스 사이트 또는 이러한 계약을 적극적으로 추진 중인 수십 개의 퍼블리셔로부터 데이터를 가져온다면, 12개월 이내에 액세스 모델이 변경될 것이라고 가정해야 합니다. 둘째, 아키텍처 내부에서 라이선스 소스와 공개 소스를 조기에 분리하십시오. 모든 소스를 동일하게 처리하는 파이프라인은 절반은 비용을 요구하고 나머지 절반은 요구하지 않을 때 취약해집니다. 셋째, robots.txt를 유일한 신호로 취급하는 것을 중단하십시오. 크롤러가 AI 에이전트가 아니더라도 402 response는 운영상 무언가를 의미하게 될 것입니다. 이처럼 새로운 시스템에서는 오탐이 발생할 수밖에 없습니다.

이는 이미 팀들이 출처가 추적된 소스를 사용하도록 압박하고 있는 EU AI 법의 학습 데이터 준수 압박과 궤를 같이합니다. Pay-per-crawl은 여기에 결제 레이어가 추가된 동일한 압박입니다.

The Honest Take

몇 가지 걸림돌이 존재합니다. Cloudflare의 신원 검증은 봇의 등록 여부에 의존합니다. 등록하지 않은 봇이나 주거용(residential) 트래픽처럼 보이는 봇은 402를 전혀 트리거하지 않습니다. 대신 일반적인 안티 봇 스택에 걸리게 됩니다. 이는 이미 대부분의 공격적인 AI 크롤러가 택할 경로이기도 합니다. 따라서 pay-per-crawl은 규정을 준수하고자 하는 봇에게만 작동합니다. 준수할 의사가 없는 봇들은 애초에 robots.txt도 준수하지 않았을 것입니다.

더 큰 변화는 마켓플레이스 자체가 아닐 수 있습니다. 이는 '이 콘텐츠를 AI 학습에 사용할 수 있는가'라는 질문이 robots.txt를 통한 추측이 아닌, 계약상의 답변을 갖는 질문이 되었다는 점입니다. 퍼블리셔는 마침내 강제할 수 있게 되었고, 크롤러는 마침내 명확히 알 수 있게 되었습니다. 마켓플레이스가 도달하는 곳마다 회색 지대는 줄어듭니다.

여전히 회색 지대로 남는 것은 그 외의 모든 영역입니다. Cloudflare를 사용하지 않는 소규모 사이트, AI 전략이 없는 지역 애그리게이터, 아무도 협상하려 하지 않는 웹의 롱테일 영역 등은 402를 받지도 못하고 라이선스 계약을 맺지도 못합니다. 이들은 보상에 대한 선례가 생겼으니 목소리만 더 높일 뿐, 이전의 액세스 정책을 그대로 유지하게 됩니다.

Where This Goes

두 가지 예측을 해보자면, 둘 다 안전한 예측은 아닙니다.

첫째, 향후 12개월 내에 이번에는 AI가 아닌 봇을 대상으로 하는 두 번째 단계의 페이월(paywall)이 등장할 것입니다. 마켓플레이스 메커니즘은 단지 HTTP 상태 코드와 결제 레이어일 뿐입니다. 이를 검색 크롤러 요금제, 아카이브 봇 요금제 또는 경쟁사 모니터링 요금제로 확장하는 것은 기술적으로 어렵지 않습니다. 퍼블리셔가 AI 크롤러에게만 비용을 청구하겠다는 선을 지킬 수 있을지는 다음 파도가 어떻게 움직이느냐에 달려 있습니다. 대개의 경우, 그 선은 무너지기 마련입니다.

둘째, AI 연구소들은 이를 우회할 것입니다. 402를 무시하는 방식(이는 추적 가능하며 소송 대상이 됩니다)이 아니라, 라이선스 데이터셋을 대량으로 구매한 뒤 나머지는 실제 사용자처럼 보이는 트래픽을 통해 처리하는 방식입니다. Cloudflare가 바로 이 점을 알고 있기 때문에 이미 더 많은 행동 탐지 기능을 출시하고 있는 것입니다. 우리는 그 군비 경쟁이 세션 수준의 신호로 이동하는 것을 지난 2년 동안 지켜보았습니다. 이는 마켓플레이스로 끝나지 않습니다.

개발자들에게 흥미로운 질문은 비용을 지불할지 여부가 아닙니다. 공개 웹이 어디에서, 얼마나 오랫동안 공개 상태로 유지될 것인가 하는 점입니다.