Tất cả bài viết

Đạo luật AI của EU chấm dứt thời kỳ thu thập dữ liệu huấn luyện tự do

Việc thu thập dữ liệu huấn luyện AI vừa chuyển từ một vấn đề kỹ thuật sang vấn đề tuân thủ. Đạo luật AI của EU và sự giám sát ngày càng chặt chẽ đối với các nhà cung cấp sẽ định hình lại các quy tắc từ nay đến năm 2027.

Thời kỳ thu thập dữ liệu huấn luyện AI tự do đang đi đến hồi kết

Vào giữa năm 2025, 75% lưu lượng truy cập web liên quan đến AI là dành cho việc thu thập dữ liệu huấn luyện (Cloudflare Radar via Bright Data, 2025). Không phải suy luận (inference). Không phải tìm kiếm. Mà là huấn luyện. Các crawler thu thập các trang web để cung cấp cho mô hình tiếp theo.

Kỷ nguyên đó đang khép lại.

Ba yếu tố đã hội tụ trong sáu tháng qua. Các yêu cầu về tính minh bạch của Đạo luật AI của EU đã chuyển từ giai đoạn dự thảo sang có hiệu lực thi hành. Các trang web bắt đầu chặn các AI crawler trên quy mô lớn: 60% các tên miền uy tín tính đến cuối năm 2025, tăng từ mức 23% vào tháng 9 năm 2023 (Ars Technica, 2025). Và những bên mua dữ liệu huấn luyện bắt đầu đặt ra những câu hỏi mới về nguồn gốc của dữ liệu đó.

Nếu bạn đang xây dựng một sản phẩm sử dụng dữ liệu thu thập được (scraped data) để huấn luyện các mô hình, bạn đang gặp phải một vấn đề mà hầu hết các đội ngũ phát triển chưa tính toán đến chi phí.

Đạo luật AI của EU thực sự yêu cầu những gì

Việc triển khai vào năm 2026 sẽ đưa ra các yêu cầu về tính minh bạch đối với các nguồn dữ liệu huấn luyện AI (Scalevise summary, 2026). Các nhà cung cấp mô hình AI đa mục đích phải công bố các bản tóm tắt về những gì đã được đưa vào mô hình. Các tác giả và chủ sở hữu bản quyền có thể chọn từ chối (opt out), và quyết định từ chối đó phải được tôn trọng ở lớp thu thập dữ liệu, chứ không phải ở lớp huấn luyện mô hình (nơi mà mọi thứ đã quá muộn).

Trên thực tế, có ba yếu tố xuất hiện trong danh sách kiểm tra mua sắm:

  • Hồ sơ công khai về việc bạn đã crawl những trang web nào, vào lúc nào và dưới những quyền hạn gì
  • Các cơ chế để tôn trọng robots.txt và các tín hiệu từ chối (opt-out) rõ ràng
  • Nguồn gốc dữ liệu (data lineage) có thể vượt qua một cuộc kiểm toán trong hai năm tới

Nhưng đây mới là vấn đề: bạn không thể áp đặt việc tuân thủ vào một pipeline thu thập dữ liệu mà không hề biết nó đã lấy những gì từ đâu. Các đội ngũ xây dựng hệ thống scraping như một dự án phụ sắp nhận ra rằng "dự án phụ" và "sẵn sàng kiểm toán" là hai khái niệm loại trừ lẫn nhau.

Nói cách khác: việc lựa chọn nhà cung cấp hiện nay bao gồm câu hỏi "đối tác thu thập dữ liệu của bạn có thể cung cấp một lịch sử kiểm toán (audit trail) rõ ràng không?". Câu hỏi đó không có trong hầu hết các danh sách kiểm tra vào năm 2024. Nhưng nó sẽ xuất hiện trong mọi danh sách kiểm tra nghiêm túc vào quý 3 năm 2026.

Câu hỏi về nhà môi giới dữ liệu trở nên khó khăn hơn

Bright Data đã báo cáo doanh thu hàng năm đạt hơn 300 triệu USD với mức tăng trưởng hơn 50% so với cùng kỳ năm ngoái, và họ đã nói rõ ràng rằng dữ liệu dành cho AI chính là động cơ thúc đẩy sự tăng trưởng này. Thị trường dữ liệu huấn luyện tuân thủ quy định đã bùng nổ vì giải pháp thay thế (chỉ đơn giản là thu thập bất cứ thứ gì bạn muốn) đã trở nên rủi ro hơn theo hai cách cụ thể.

Thứ nhất, khía cạnh pháp lý đã mở rộng. Tòa án Tối cao đã bác bỏ đơn kiện bằng sáng chế của Bright Data vào tháng 2 năm 2026, và hai trong số các bằng sáng chế residential proxy của họ đã bị vô hiệu hóa. Oxylabs đã kiện ngược lại, với phiên tòa được ấn định vào ngày 18 tháng 5 năm 2026. Dù bạn nghĩ gì về tính đúng sai, kết quả vẫn là những vụ kiện tụng tốn kém về cách thức thu thập dữ liệu. Các bên chơi nhỏ hơn đang theo dõi việc này và không thể lơ là.

Thứ hai, khía cạnh kỹ thuật đã mở rộng. Các nhà cung cấp giải pháp chống bot đã bắt đầu chia sẻ thông tin tình báo về mối đe dọa (threat intel) trên các trang web của khách hàng trong thời gian thực. Một mẫu scraping bị gắn cờ trên một trang thương mại điện tử có thể bị chặn trên hàng trăm trang khác trong vòng vài giờ (SecurityBoulevard, 2026). Chiến thuật cũ là xoay vòng các proxy giá rẻ và hy vọng điều tốt nhất đã ngừng hoạt động vào khoảng cuối năm 2025. Chúng tôi đã đề cập đến sự thay đổi đó trong bài viết phát hiện bot đã chuyển sang phân tích hành vi.

Tóm lại: chi phí tự thu thập dữ liệu huấn luyện (DIY) đã tăng lên trên cả hai phương diện. Rủi ro pháp lý tăng lên. Độ khó kỹ thuật tăng lên. Các công ty vẫn đang tự thực hiện việc này hoặc là phải chi tiền thực sự cho cơ sở hạ tầng, hoặc là phải chấp nhận rằng các tập dữ liệu của họ sẽ không thể vượt qua một cuộc kiểm toán.

Xu hướng này sẽ đi về đâu vào giữa năm 2027

Chúng tôi nghĩ rằng 18 tháng tới sẽ định hình lại không gian nhà cung cấp theo ba cách.

Tuân thủ trở thành điều kiện bắt buộc (table stakes). ISO 27001, SOC 2, các quy trình tuân thủ GDPR, nguồn gốc dữ liệu (data lineage). Đây không phải là những yếu tố tạo nên sự khác biệt, mà là những yêu cầu tối thiểu. Bright Data đã sở hữu ISO 27001 và SOC 2. Hầu hết các đối thủ cạnh tranh của họ đang phải chật vật xoay xở. Các đội ngũ phát triển các sản phẩm AI nghiêm túc sẽ từ chối hợp tác với một nhà cung cấp dịch vụ thu thập dữ liệu không thể xuất trình các chứng chỉ này.

Lịch sử kiểm toán (audit trails) trở thành một tính năng. Hầu hết các API scraping hiện nay chỉ trả về dữ liệu và loại bỏ mọi thứ khác. Đến năm 2027, một bộ phận khách hàng đáng kể sẽ muốn có một bản ghi: URL nguồn, thời gian truy xuất (fetch time), mã phản hồi (response code), trạng thái robots.txt tại thời điểm truy xuất, các lượt kiểm tra từ chối (opt-out). Những siêu dữ liệu (metadata) nhàm chán đó sẽ trở thành chiếc phao cứu sinh tuân thủ khi một mô hình bị khiếu nại.

Sự hợp nhất nhà cung cấp tăng tốc. Chi phí tuân thủ mang lại lợi thế cho quy mô lớn. Các API scraping nhỏ sống dựa vào các gói 69 USD/tháng sẽ phải chuyển sang phân khúc thị trường cao hơn hoặc bị loại khỏi bất kỳ thỏa thuận nào liên quan đến huấn luyện AI. Các nhà cung cấp tầm trung kết hợp tính tuân thủ với mức giá hợp lý sẽ đón nhận lượng nhu cầu bị dịch chuyển này. Phép toán tự xây dựng so với mua ngoài (build-vs-buy) mà chúng tôi đã phân tích chi tiết vào tháng trước vừa trở nên tồi tệ hơn đối với phương án tự xây dựng.

Điều này có ý nghĩa gì đối với các đội ngũ kỹ thuật

Nếu bạn đang ra mắt một sản phẩm AI trong 12 tháng tới, các quyết định về nguồn cung cấp dữ liệu của bạn không còn chỉ là câu hỏi về cơ sở hạ tầng. Chúng là câu hỏi về rủi ro pháp lý và câu hỏi về khả năng tiếp cận thị trường.

Ba điều cần hỏi về pipeline hiện tại của bạn:

  1. Bạn có thể liệt kê mọi tên miền bạn đã crawl trong 12 tháng qua, kèm theo mốc thời gian (timestamp) không? Nếu không, bạn không thể vượt qua một cuộc kiểm toán cơ bản.

  2. Bạn có tôn trọng các tín hiệu từ chối (opt-out) tại thời điểm truy xuất (fetch time), chứ không phải tại thời điểm huấn luyện không? Robots.txt và X-Robots-Tag không còn là tùy chọn nữa.

  3. Nếu nhà cung cấp dữ liệu của bạn thay đổi các điều khoản của họ vào ngày mai, pipeline huấn luyện của bạn có tồn tại được không? Hầu hết các đội ngũ chưa từng đặt câu hỏi này.

Vì vậy, hãy kiểm tra ngay bây giờ. Những yêu cầu kiểm toán đầu tiên đang được gửi đến các công ty vốn nghĩ rằng họ còn một năm nữa để giải quyết vấn đề này.

Quan điểm của chúng tôi về vấn đề này

Thiết kế tuân thủ ngay từ đầu (compliance-by-design) không phải là một khẩu hiệu tiếp thị. Đó là một quyết định sinh tồn cho bất kỳ đội ngũ nào có sản phẩm phụ thuộc vào dữ liệu web. Những đội ngũ coi nguồn gốc dữ liệu (data lineage) là một tính năng ưu tiên P0 ngay từ bây giờ sẽ tự cứu mình khỏi một cuộc tranh giành khốc liệt vào năm 2027. Những đội ngũ coi đó chỉ là thủ tục giấy tờ cuối cùng sẽ nhận ra rằng, thủ tục giấy tờ chính là thứ ngăn cản sản phẩm của họ tiếp cận thị trường.

Thời kỳ thu thập dữ liệu huấn luyện tự do kết thúc không phải vì các nhà quản lý có ý định trừng phạt. Nó kết thúc vì hậu quả của việc làm sai đã chuyển từ "một bài đăng blog đáng xấu hổ" thành "bạn không thể ra mắt sản phẩm tại Châu Âu." Điều đó thay đổi phép toán cho tất cả mọi người trong chuỗi cung ứng.