Inżynier otwiera Dawn i pyta: „Scrapuj https://topstartups.io/ i podaj mi pierwsze 10 startupów, w tym nazwy, opisy, HQ, rok założenia, adresy URL i profile social media, sformatowane jako tabela”.
Agent myśli przez chwilę, pobiera stronę, analizuje listę, wchodzi na profil każdego startupu i zwraca tabelę. Dziesięć wierszy. Każda kolumna uzupełniona. Pogo, Auctor, Scalify, Omnea, Rivan, Listen Labs, Doppel, Blossom, Avoca, Traba. Siedziby w Brooklynie, Nowym Jorku, Londynie, San Francisco, Remote. LinkedIn dla większości. Lata założenia od 2020 do 2026.
Ta tabela była wynikiem zaledwie kilku wywołań FourA.
W tym tygodniu Dawn wdrożył FourA jako natywne narzędzie wewnątrz swojej platformy agentowej. Znajdziesz je w panelu integracji tuż obok Notion, GitHub i Google Drive. Agenty z dostępem do FourA mogą pobierać publiczne strony internetowe lub endpointy HTTP, parsować response (w tym JSON), wysyłać formularze, sprawdzać dostępność i wyciągać konkretny tekst lub linki z otrzymanych danych. Każdy agent ma jawnie przyznany dostęp albo nie ma go wcale. Zarządzanie na poziomie agenta zapobiega klasycznemu footgunowi pod tytułem „każdy agent ma dostęp do całego internetu”.
Ciekawe nie jest to, że agent potrafi uderzyć pod URL. Web search istnieje na platformach agentowych od roku. Ciekawe jest to, jaki kształt przybiera to narzędzie.
Web search i ekstrakcja z URL to dwa różne zadania. Wyszukiwanie służy do odpowiadania na pytanie „co internet mówi o X?”. To ogólne, generatywne informacje na poziomie podsumowania. Ekstrakcja służy do obsługi zapytań typu „oto URL lub endpoint, pobierz go i daj mi ustrukturyzowaną odpowiedź”. Inne wymagania dotyczące niezawodności, inne profile kosztów, inne tryby awarii. Łączenie ich w jednym narzędziu daje mierne rezultaty w obu przypadkach.
Integracja Dawn traktuje je rozdzielnie. Do ogólnych zadań służy funkcja /web-research. FourA jest do zadań precyzyjnych. Agent sięga po odpowiednie narzędzie w zależności od tego, czego naprawdę potrzebuje. I to jest właśnie wzorzec dojrzałości, który zaczynamy dostrzegać na platformach agentowych w 2026 roku: ekstrakcja przestaje być tylko „doklejonym wyszukiwaniem” i staje się samodzielnym prymitywem.
Dla inżynierów platform, którzy to czytają
Dawn udostępnia FourA jako osiem nazwany narzędzi, z których każde odpowiada popularnemu wzorcowi ekstrakcji:
foura_fetch_pagedla stron HTML i tekstowychfoura_extract_textdla czystej, czytelnej zawartościfoura_extract_linksdo nawigacji, formularzy, skryptów i stylówfoura_fetch_jsondla endpointów APIfoura_head_urldla nagłówków, statusów i przekierowańfoura_probe_sitedo szybkiego sprawdzania dostępnościfoura_submit_formdo wysyłania formularzy bez logowaniafoura_single_requestdla dowolnych żądań HTTP
Agent dokonuje wyboru na podstawie tego, czego wymaga pytanie. Powyższe zapytanie o topstartups użyło trzech z nich po kolei: pobrania, ekstrakcji i akcji uzupełniającej.
Integracja jest na tyle prosta, że można ją postawić w jeden dzień. Pod spodem działają dwa warianty requestów: tryb bezpośredni z fingerprintingiem klasy przeglądarkowej dla stron, które nie blokują agresywnie ruchu, oraz tryb routowany przez proxy dla całej reszty. Oba współdzielą ten sam kształt requestu: URL, opcjonalne nagłówki i body oraz opcjonalne parsowanie response. Agent wybiera wariant w zależności od wymagań docelowej witryny.
Kontrakt, jaki platforma oferuje swoim agentom, zazwyczaj wygląda tak:
- Niewielki zestaw funkcji (fetch / extract / probe / submit), z których każda ma precyzyjnie zdefiniowane narzędzie, po które agent może sięgnąć
- Domyślny tryb proxy, z przejściem na tryb bezpośredni, gdy liczy się opóźnienie lub koszt
- Uprawnienia na poziomie agenta, dzięki czemu klienci platformy zachowują pełną kontrolę
- Ustrukturyzowane parsowanie response wystawione jako parametr narzędzia, a nie ukryte w system prompcie
Jednak to, co większość inżynierów platform bagatelizuje, dzieje się w długim ogonie (tzw. tail). Przypadek stanowiący 80% (pobranie kończy się sukcesem w 200 ms i zwraca czysty HTML) to ta łatwiejsza połowa. Pozostałe 20% (strony blokujące na podstawie fingerprintu TLS, serwujące wyzwania JS w locie czy zwracające błąd 403 dla adresów IP z chmury) decyduje o tym, czy Twój agent dostarczy poprawną odpowiedź, czy coś zmyśli. Przebudowaliśmy naszą ścieżkę requestów dokładnie pod kątem tego długiego ogona, a różnica między „sprawia wrażenie niezawodnego” a „jest naprawdę niezawodny” to lwia część całej pracy.
Jeśli więc prowadzisz platformę agentową, a Twoi klienci wciąż pytają, jak ich agenty mogą „po prostu sprawdzić ten URL”, to jest to właśnie ten wzorzec. Dokumentacja jest dostępna pod adresem /docs. Chętnie pomożemy Ci przez to przejść.
Dla całej reszty
Wy nic z tego nie zobaczycie. Zauważycie po prostu, że kiedy zadacie asystentowi AI pytanie wymagające zajrzenia na rzeczywistą stronę internetową tu i teraz, odpowie on poprawnie, zamiast zgadywać lub przepraszać.
Oto widoczny dla użytkownika efekt prymitywu ekstrakcji, który jest na tyle niezawodny, by znaleźć się obok GitHub i Google Drive w panelu integracji. Przestaje być projektem badawczym. Zaczyna być po prostu codzienną hydrauliką.
Dlaczego to ma znaczenie
Sześć miesięcy temu agent, który musiał odczytać stronę internetową, wymagał dedykowanego wdrożenia. Pisane na zamówienie prompty, kruche scrapery, ręcznie robione mechanizmy retry, a w dobry dzień 60% skuteczności. Kształt był niewłaściwy, bo ta warstwa jeszcze nie istniała. A strony, w które uderzał agent, stale się zmieniały. Technologie anty-botowe przeszły od statycznych sygnałów do weryfikacji behawioralnej, więc te łączone na taśmę scrapery psuły się szybciej, niż zespoły nadążały je łatwić.
Teraz ta warstwa zaczyna się krystalizować. Dawn podchwycił temat i wdrożył integrację. Spodziewamy się, że kolejne platformy agentowe pójdą w ich ślady jeszcze w tym roku, a sam kontrakt ujednolici się: dedykowane narzędzie do wyszukiwania, dedykowane narzędzie do ekstrakcji, uprawnienia na poziomie agenta i przewidywalne koszty.
To dopiero początek. Ale tak właśnie wygląda narodziny czegoś nowego. Gdy funkcja przestaje być projektem, a staje się po prostu wtyczką.
Jeśli budujesz platformę agentową i chcesz wdrożyć to samo u siebie, odezwij się do nas. Jeśli budujesz agenty na Dawn, FourA już tam jest. Po prostu je włącz.