AI 학습 데이터 무단 수집의 시대가 저물고 있다
2025년 중반 기준, AI 관련 웹 트래픽의 75%는 학습 데이터 수집이었습니다 (Cloudflare Radar via Bright Data, 2025). 추론도 아니고, 검색도 아닌, 학습이었습니다. 크롤러가 다음 모델을 학습시키기 위해 페이지를 긁어모으고 있었던 것입니다.
그 시대가 끝나가고 있습니다.
지난 6개월 동안 세 가지 변화가 맞물렸습니다. EU AI 법안의 투명성 요구 사항이 초안 단계에서 법적 구속력을 갖춘 단계로 전환되었습니다. 사이트들이 대규모로 AI 크롤러를 차단하기 시작했습니다. 2023년 9월 23%였던 차단율이 2025년 말 기준 신뢰할 수 있는 도메인의 60%까지 급증했습니다 (Ars Technica, 2025). 그리고 학습 데이터 구매자들은 데이터의 출처에 대해 새로운 질문을 던지기 시작했습니다.
스크랩된 데이터를 사용하여 모델을 학습시키는 제품을 개발 중이라면, 대부분의 팀이 아직 비용에 반영하지 않은 문제에 직면한 것입니다.
EU AI 법안이 실제로 요구하는 사항
2026년 본격 시행에 따라 AI 학습 데이터 출처에 대한 투명성 요구 사항이 도입됩니다 (Scalevise summary, 2026). 범용 AI 모델 제공업체는 모델 학습에 사용된 데이터의 요약본을 공개해야 합니다. 원작자와 권리 보유자는 데이터 수집을 거부(opt-out)할 수 있으며, 이 거부 의사는 모델 학습 단계(이미 너무 늦은 시점)가 아닌 데이터 수집 레이어에서 존중되어야 합니다.
실무적으로 구매 체크리스트에는 다음 세 가지 항목이 포함됩니다.
- 어떤 사이트를, 언제, 어떤 권한 하에 크롤링했는지에 대한 공개 기록
- robots.txt 및 명시적인 opt-out 신호를 준수하는 메커니즘
- 2년 후의 감사도 통과할 수 있는 데이터 이력 관리(data lineage)
하지만 여기에 함정이 있습니다. 어디서 무엇을 가져왔는지 전혀 모르는 파이프라인에 사후에 컴플라이언스를 덧붙일 수는 없습니다. 스크래핑을 사이드 프로젝트 수준으로 구축했던 팀들은 "사이드 프로젝트"와 "감사 대비 완료"가 공존할 수 없다는 사실을 곧 깨닫게 될 것입니다.
즉, 이제 벤더 선정 과정에 "데이터 수집 파트너가 깨끗한 감사 추적(audit trail)을 제공할 수 있는가?"라는 질문이 포함된다는 뜻입니다. 이 질문은 2024년에는 대부분의 체크리스트에 없었습니다. 하지만 2026년 3분기까지는 제대로 된 모든 체크리스트에 포함될 것입니다.
데이터 브로커 관련 문제가 더 까다로워졌습니다
Bright Data는 연간 환산 매출 3억 달러 이상, 전년 대비 50% 이상의 성장률을 기록했다고 보고했으며, AI용 데이터가 이러한 성장을 견인하는 동력임을 명확히 밝혔습니다. 컴플라이언스를 준수하는 학습 데이터 시장이 폭발적으로 성장한 이유는 그 대안(원하는 것은 무엇이든 그냥 스크랩하는 방식)이 두 가지 구체적인 측면에서 더 위험해졌기 때문입니다.
첫째, 법적 리스크의 범위가 넓어졌습니다. 대법원은 2026년 2월 Bright Data의 특허 청원을 기각했고, 이들의 주거용 proxy 특허 중 2개가 무효화되었습니다. Oxylabs는 맞소송을 제기했으며, 재판은 2026년 5월 18일로 예정되어 있습니다. 시시비비를 떠나, 그 결과 데이터 수집 방식에 대한 막대한 비용의 소송이 발생하고 있습니다. 이를 지켜보는 소규모 업체들은 긴장을 늦추지 못하고 있습니다.
둘째, 기술적 장벽이 높아졌습니다. 안티봇(Anti-bot) 벤더들이 고객 사이트 전반에 걸쳐 위협 인텔리전스를 실시간으로 공유하기 시작했습니다. 한 이커머스 사이트에서 감지된 스크래핑 패턴은 몇 시간 내에 수백 개의 다른 사이트에서도 차단될 수 있습니다 (SecurityBoulevard, 2026). 저렴한 proxy를 순환시키며 요행을 바라던 과거의 방식은 2025년 말 무렵 작동을 멈췄습니다. 당사는 이러한 변화를 봇 탐지 기술의 행동 분석 기반 전환에서 다룬 바 있습니다.
종합해 보면, 자체적으로 학습 데이터를 수집하는 비용이 두 가지 축 모두에서 상승했습니다. 법적 리스크가 증가했고, 기술적 난이도도 높아졌습니다. 여전히 자체 수집을 고수하는 기업들은 인프라에 막대한 비용을 지출하거나, 자신들의 데이터셋이 감사를 통과하지 못할 것임을 감수하고 있습니다.
2027년 중반까지의 전망
향후 18개월 동안 벤더 업계가 세 가지 방식으로 재편될 것으로 예상합니다.
컴플라이언스가 기본 요건이 됩니다. ISO 27001, SOC 2, GDPR 준수 프로세스, 데이터 이력 관리(data lineage) 등은 이제 차별화 요소가 아니라 최소 요구 사항입니다. Bright Data는 이미 ISO 27001과 SOC 2를 획득했습니다. 대부분의 경쟁사들은 이를 뒤쫓느라 분주합니다. 진지하게 AI 제품을 출시하려는 팀들은 인증서를 제시하지 못하는 데이터 수집 벤더의 도입을 거부할 것입니다.
감사 추적(Audit trail)이 핵심 기능이 됩니다. 오늘날 대부분의 스크래핑 API는 데이터만 반환하고 나머지는 모두 버립니다. 2027년쯤에는 상당수의 고객이 소스 URL, 수집 시간, 응답 코드, 수집 시점의 robots.txt 상태, opt-out 확인 여부 등의 기록을 요구할 것입니다. 모델에 대한 법적 이의가 제기되었을 때, 이러한 지루한 메타데이터가 컴플라이언스의 구명줄이 될 것입니다.
벤더 통합이 가속화됩니다. 컴플라이언스 비용은 규모의 경제에 유리합니다. 월 69달러 요금제로 연명하는 소규모 스크래핑 API 업체들은 시장을 업마켓으로 전환하거나, AI 학습과 관련된 모든 거래에서 도태될 것입니다. 컴플라이언스와 합리적인 가격을 동시에 제공하는 중견 벤더들이 이 이탈 수요를 흡수할 것입니다. 지난달 당사가 살펴본 자체 구축 대 구매 분석의 셈법은 자체 구축 측에 더욱 불리해졌습니다.
엔지니어링 팀에 미치는 영향
향후 12개월 내에 AI 제품을 출시할 계획이라면, 데이터 소싱 결정은 더 이상 단순한 인프라 문제가 아닙니다. 이는 법적 리스크의 문제이자 시장 진입 가능 여부의 문제입니다.
현재 파이프라인에 대해 점검해야 할 세 가지 질문은 다음과 같습니다.
지난 12개월 동안 크롤링한 모든 도메인의 목록을 타임스탬프와 함께 제시할 수 있습니까? 그렇지 않다면 기본적인 감사조차 통과할 수 없습니다.
학습 시점이 아닌 수집 시점에 opt-out 신호를 준수하고 있습니까? Robots.txt와 X-Robots-Tag는 이제 선택 사항이 아닙니다.
데이터 벤더가 내일 당장 약관을 변경하더라도 학습 파이프라인이 유지될 수 있습니까? 대부분의 팀은 이 질문을 던져보지 않았습니다.
그러니 지금 확인하십시오. 아직 1년의 여유가 있다고 생각했던 기업들에 이미 첫 번째 감사 요청이 도착하고 있습니다.
결론
Compliance-by-design은 마케팅 문구가 아닙니다. 웹 데이터에 의존하는 제품을 만드는 모든 팀의 생존이 걸린 결정입니다. 지금 데이터 이력 관리(data lineage)를 최우선 순위(P0) 기능으로 다루는 팀은 2027년의 가혹한 혼란을 피할 수 있을 것입니다. 이를 단순한 서류 작업으로 치부하는 팀은 결국 그 서류 작업이 자신들의 제품과 시장 사이를 가로막는 장벽임을 깨닫게 될 것입니다.
학습 데이터 무단 수집의 시대가 끝나는 것은 규제 당국이 악의적이기 때문이 아닙니다. 잘못 대응했을 때의 결과가 "당혹스러운 블로그 게시물 작성"에서 "유럽 내 제품 출시 불가"로 바뀌었기 때문입니다. 이는 공급망에 속한 모든 이들의 계산법을 바꾸어 놓았습니다.