Điểm nổi bật
Proxy Finder đã tìm hiểu theo từng host. Nó không còn chỉ chọn một proxy nhanh chung chung nữa; nó chọn một proxy đã thực sự hoạt động hiệu quả cho trang web bạn đang truy cập. Browser đã nhận được bản sửa lỗi ổn định giúp khắc phục một nhóm lỗi khởi động nguội (cold-start). Và các chế độ xem Metrics và Activity của Dashboard giờ đây có thể giới hạn phạm vi theo sản phẩm.
Có gì mới
Proxy Finder chọn các proxy thực sự hoạt động hiệu quả cho mục tiêu của bạn
Đây là thay đổi lớn nhất trong tuần và đã mất vài lần thử nghiệm để hoàn thiện.
Trước đây: Proxy Finder lựa chọn từ nhóm chung (global pool) dựa trên mức độ phù hợp tổng quát. Hai request đến cùng một trang web mục tiêu sẽ chọn từ cùng một nhóm rộng lớn, ngay cả khi hầu hết các proxy trong nhóm đó không hoạt động trên trang web cụ thể đó.
Hiện tại: đối với mỗi host mục tiêu mà bạn truy vấn, Proxy Finder sẽ theo dõi xem những proxy nào đã thực sự truyền tải thành công. Các request mới sẽ lấy mẫu thử một vài proxy từ tập hợp đã được chứng minh hiệu quả, chuyển hướng dự phòng (fall back) sang một nhóm nhỏ các proxy chưa xác định để tiếp tục tìm hiểu, và tránh những proxy đã từng thất bại tại đó. Tập hợp đã chứng minh hiệu quả này được áp dụng theo từng host và duy trì qua các lần khởi động lại.
Nếu bạn cào (scrape) các trang web được bảo vệ nơi chỉ có một tỷ lệ nhỏ proxy hoạt động, bạn sẽ cảm nhận được điều này. Ít lựa chọn hỏng hơn, ít số lần thử lại (retry) hơn, ít lãng phí ngân sách hơn.
Chúng tôi đã triển khai tính năng này sau một flag, thực hiện sáu lần lặp để khắc phục các lỗi nhỏ (một trong số đó là kiểm soát logic tự học để duy trì sự ổn định khi lưu lượng truy cập thấp, đã mất thêm hai lượt xử lý), và chuyển đổi cấu hình mặc định trên môi trường production trong tuần này.
Browser hoạt động tin cậy sau các khoảng thời gian rảnh
Hai bản sửa lỗi, một kết quả.
Đầu tiên, Browser gặp lỗi trạng thái cũ (stale-state) khi khởi động nguội (cold start). Sau một khoảng thời gian rảnh đủ lâu, lớp hiển thị bên dưới sẽ giữ một khóa (lock) ngăn cản lần khởi chạy tiếp theo thành công. Request đầu tiên của bạn sau một khoảng thời gian yên ắng có thể bị thất bại hoặc bị treo. Giờ đây, chúng tôi sẽ xóa khóa đó trước khi khởi chạy.
Thứ hai, đường dẫn API công khai định tuyến đến Browser đã trỏ sai đích đến trong một số môi trường. Lưu lượng truy cập đã bị định tuyến sai một cách âm thầm. Cấu hình định tuyến hiện đã chính xác.
Nếu bạn từng thấy hành vi chập chờn ở request đầu tiên trên Browser khi lưu lượng thấp, thì đó chính là nguyên nhân.
Lọc Metrics và Activity theo sản phẩm
Các trang Metrics và Activity của Dashboard giờ đây đã có bộ lọc dạng thẻ (chip) sản phẩm. Nhấp vào Single, Browser, hoặc Proxy Finder và các biểu đồ sẽ giới hạn phạm vi chỉ hiển thị lưu lượng truy cập của sản phẩm đó. Rất hữu ích khi bạn chỉ muốn xem độ trễ (latency) hoặc lỗi từ một phần sử dụng của mình thay vì xem chế độ tổng hợp.
Một cập nhật nhỏ cho trang web
Trang /jobs đã hoạt động. Chúng tôi đang tuyển dụng một Founding Engineer và một Engineer. Cả hai trang đều nêu rõ phạm vi công việc, lộ trình tháng đầu tiên sẽ như thế nào và cách thức ứng tuyển.
Chúng tôi cũng đã tối ưu hóa hiển thị trên di động cho phần xem trước Dashboard ở trang chủ, cập nhật lại hình ảnh chia sẻ mạng xã hội (social-share) cho từng trang trên chín tuyến đường dẫn (route) công khai, cập nhật tệp robots.txt cho kỷ nguyên AI năm 2026 (cho phép các trình thu thập thông tin và xem trước chia sẻ mạng xã hội, chặn các trình thu thập dữ liệu đào tạo), và cập nhật Điều khoản Dịch vụ (Terms of Service) với điều khoản sử dụng được chấp nhận rõ ràng hơn cùng lưu ý về quyền tài phán Sofia với các ngoại lệ dành cho người tiêu dùng EU.
Bên dưới hệ thống
Một thay đổi tên gọi không hướng đến khách hàng trước đó: "anti-bot bypass" đã trở thành "anti-bot resilience" trên toàn bộ trang web. Cùng một sản phẩm, cùng một hành vi; cách diễn đạt cũ đã kích hoạt các bộ lọc chính sách của nền tảng quảng cáo.
Chúng tôi chưa công bố các số liệu từ logic lựa chọn mới. Chúng tôi muốn có hai tuần hoạt động ổn định với lưu lượng truy cập thực tế (production traffic) trước khi đưa ra các tuyên bố về tỷ lệ thành công. Số liệu thực tế, khi chúng tôi có chúng.
Chúng tôi đã dành cả tháng qua để xây dựng lại lớp quyết định việc sử dụng proxy nào cho mục tiêu nào. Và phần khó khăn không phải là thuật toán; đó là việc đo lường xem liệu nó có thực sự hữu ích dưới khối lượng công việc thực tế (workload) hay không. Đó là những gì đang diễn ra trong tháng 5.