ハイライト
Proxy Finderがホスト単位で学習するようになりました。単に全体的に高速なproxyを選択するのではなく、アクセス先のサイトで実際に機能した実績のあるproxyを選択します。Browserには、コールドスタート時の特定パターンの失敗を捕捉する安定性向上の修正が適用されました。また、DashboardのMetricsおよびActivityビューで、プロダクトごとに絞り込めるようになりました。
新機能・アップデート
Proxy Finderがターゲットに対して実際に機能するproxyを選択
これは今週最大の変更であり、本番環境への導入までに数回のイテレーションを要しました。
以前:Proxy Finderは、全体的な適合度に基づいてグローバルプールから選択していました。そのプール内のほとんどのproxyが特定のサイトで機能しない場合でも、同じターゲットサイトへの2つのrequestは、同じ広範なプールから選択されていました。
現在:クエリを実行するすべてのターゲットホストについて、Proxy Finderは実際に配信に成功したproxyを追跡します。新しいrequestは、実績のあるセットから数個をサンプリングし、学習を継続するために未検証のproxyを少数試行(フォールバック)し、すでに失敗したproxyを回避します。実績のあるセットはホストごとに管理され、再起動後も保持されます。
ごく一部のproxyしか機能しないような保護されたサイトをスクレイピングしている場合、この効果を実感できるはずです。無駄な選択が減り、リトライが減り、予算の浪費が抑えられます。
この機能はフラグの裏で段階的にリリースされ、細かな問題を修正するために6回のイテレーションを実施し(そのうちの1つ、低トラフィック下でも安定性を維持するための学習ロジックの制限には、さらに2回のパスを要しました)、今週、本番環境のデフォルトを切り替えました。
アイドル期間後におけるBrowserの信頼性向上
2つの修正、1つの成果。
まず、Browserのコールドスタート時に古い状態が残るバグがありました。十分なアイドル時間の経過後、基礎となるディスプレイレイヤーがロックを保持してしまい、次の起動が成功しなくなる現象です。アクセスのない期間が続いた後の最初のrequestが失敗するか、ハングする可能性がありました。現在は、起動前にこのロックをクリアするようにしています。
次に、一部の環境において、BrowserにルーティングするパブリックAPIパスが誤った宛先を指していました。トラフィックが暗黙的に誤ってルーティングされていました。現在はルーティング設定が修正されています。
低ボリューム時にBrowserで最初のrequestが不安定になる挙動が見られた場合、原因はこれらでした。
MetricsとActivityをプロダクトごとにフィルター可能に
DashboardのMetricsおよびActivityページに、プロダクトチップフィルターが追加されました。Single、Browser、またはProxy Finderをクリックすると、チャートの表示範囲がそのプロダクトのトラフィックのみに絞り込まれます。集計されたビューではなく、利用状況の特定の部分のレイテンシーやエラーのみを確認したい場合に便利です。
サイトの軽微なアップデート
/jobs ページが公開されました。現在、Founding EngineerとEngineerを募集しています。両方のページで、業務範囲、最初の1ヶ月のイメージ、および応募方法を詳しく説明しています。
また、ホームページのDashboardプレビューにおけるモバイルレンダリングを調整し、9つのパブリックルートにわたるページごとのソーシャルシェア画像を刷新し、2026年のAI時代に合わせてrobots.txtを更新し(検索およびソーシャルシェアのプレビューアは許可、トレーニング用クローラーはブロック)、利用規約を更新して許容される使用に関する条項を明確化するとともに、EU消費者の除外規定を含むソフィア管轄権に関する注記を追加しました。
内部の変更
期間の早い段階で、顧客向けではない名称変更を行いました:サイト全体で「anti-bot bypass」が「anti-bot resilience」になりました。プロダクトや挙動は同じですが、古い表現が広告プラットフォームのポリシーフィルターに抵触していたためです。
新しい選択ロジックの数値はまだ公開していません。成功率について言及する前に、本番環境のトラフィックで問題のない2週間分のデータを確保したいと考えています。確実な数値が得られ次第、公開します。
私たちはこの1ヶ月間、どのターゲットに対してどのproxyを使用するかを決定するレイヤーの再構築に取り組んしてきました。そして、難しいのはアルゴリズムそのものではなく、実際のワークロード下でそれが本当に効果を発揮しているかを測定することです。それが、私たちの5月の取り組みです。