Инженер отваря Dawn и пита: "Скрапни https://topstartups.io/ и ми дай първите 10 стартъпа, включително имена, описания, HQ, година на основаване, URLs, страници в социалните мрежи, форматирани като таблица."
Агентът мисли за момент, извлича страницата, парсва списъците, следва профила на всеки стартъп и връща таблицата. Десет реда. Всяка колона е попълнена. Pogo, Auctor, Scalify, Omnea, Rivan, Listen Labs, Doppel, Blossom, Avoca, Traba. HQs в Бруклин, Ню Йорк, Лондон, Сан Франциско, Remote. LinkedIn за повечето. Години на основаване от 2020 до 2026.
Тази таблица беше резултатът от няколко FourA заявки.
Тази седмица Dawn пусна FourA като инструмент от първа класа в своята платформа за агенти. Той се намира в тяхната мрежа с интеграции до Notion, GitHub и Google Drive. Агентите, на които е предоставен достъп до FourA, могат да извличат публична уеб страница или HTTP endpoint, да парсват response (включително JSON), да изпращат формуляри, да проверяват достъпността и да извличат конкретен текст или връзки от това, което се връща. Всеки агент има изричен достъп или няма такъв. Управление на ниво агент, без рискове от типа "всеки агент получава достъп до интернет".
Интересното не е, че даден агент може да достъпи URL. Уеб търсенето съществува в платформите за агенти от година. Интересното е формата на инструмента, който се заражда.
Уеб търсенето и извличането от URL са различни задачи. Търсенето е за "какво казва интернет за X?" Широка, генеративна информация на ниво резюме. Извличането е за "ето URL или endpoint, извлечи го и ми дай структурирания отговор." Различни изисквания за надеждност, различни профили на разходите, различни режими на отказ. Смесването им в един инструмент води до посредствен резултат и за двете.
Интеграцията на Dawn ги третира като отделни неща. Те имат /web-research възможност за общата задача. FourA е за целевата задача. Агентът избира правилния инструмент въз основа на това, от което наистина се нуждае. И това е моделът на съзряване, който започваме да виждаме в платформите за агенти през 2026 година: извличането преминава от "прикачено търсене" към свой собствен примитив.
За платформения инженер, който чете това
Dawn предоставя FourA като осем именовани инструмента, всеки от които съответства на често срещан модел на извличане:
foura_fetch_pageза HTML и текстови странициfoura_extract_textза чисто, четливо съдържаниеfoura_extract_linksза навигация, формуляри, скриптове и стиловеfoura_fetch_jsonза API endpointsfoura_head_urlза headers, статус, пренасочванияfoura_probe_siteза бързи проверки на достъпносттаfoura_submit_formза изпращане на формуляри без влизане в профилfoura_single_requestза произволен HTTP
Агентът избира въз основа на това, което изисква въпросът. Заявката за topstartups по-горе използва три от тях последователно: fetch, extract и последващо действие.
Интеграцията е достатъчно лесна, за да се направи за един ден. Отдолу стоят два варианта на request: директен режим с fingerprinting на ниво браузър за сайтове, които не ограничават агресивно, и режим с proxy маршрутизация за всичко останало. И двата споделят една и съща структура на request: URL, незадължителни headers и body, незадължително парсване на response. Агентът избира въз основа на това, което изисква целевият сайт.
Договорът, който една платформа предлага на своите агенти, обикновено изглежда така:
- Малък набор от възможности (fetch / extract / probe / submit), всяка с дефиниран инструмент с конкретна цел, който агентът може да използва
- По подразбиране в proxy режим, с преминаване към директен, когато латентността или цената са от значение
- Разрешения на ниво агент, така че клиентите на платформата да запазят контрола
- Структурирано парсване на response, изложено като параметър на инструмента, а не скрито в system prompt
Но частта, която повечето платформени инженери подценяват, е това, което се случва в граничните случаи (the tail). Случаят в 80% от времето (успешен fetch за 200ms, който връща чист HTML) е лесната половина. Останалите 20% (сайтове, които ограничават по TLS fingerprint, които вкарват JS предизвикателство в response, които връщат 403 при облачен IP блок) са това, което определя дали вашият агент ще предостави правилен отговор, или ще халюцинира. Пренаписахме нашия път на заявките точно за тези гранични случаи и разликата между "изглежда надеждно" и "наистина надеждно" е по-голямата част от работата.
Така че, ако управлявате платформа за агенти и вашите клиенти постоянно питат как техните агенти могат "просто да проверят този URL", това е моделът. Документацията е на /docs. Ще се радваме да ви преведем през процеса.
За всички останали
Вие няма да видите нищо от това. Просто ще забележите, че когато зададете въпрос на AI асистент, който изисква разглеждане на реална уеб страница в момента, той отговаря правилно, вместо да гадае или да се извинява.
Това е крайният резултат за потребителя от примитив за извличане, който е достатъчно надежден, за да стои до GitHub и Google Drive в мрежата с интеграции. Той спира да бъде изследователски проект. Превръща се в инфраструктура.
Защо това има значение
Преди шест месеца агент, който трябваше да прочете уеб страница, беше персонализирана разработка. Специфични prompts, чупливи скрапери, ръчно написани повторни опити, 60% успеваемост в добър ден. Формата беше грешна, защото този слой все още не съществуваше. А сайтовете, които агентът достъпваше, постоянно се променяха. Технологиите против ботове преминаха от статични сигнали към поведенчески проверки, така че скалъпените скрапери се чупеха по-бързо, отколкото екипите успяваха да ги пачват.
Сега този слой се оформя. Dawn го прие и пусна интеграция. Очакваме още платформи за агенти да ги последват тази година и очакваме договорът да се уеднакви: специализиран инструмент за търсене, специализиран инструмент за извличане (extraction), управление на ниво агент, предвидими разходи.
В началото сме. Но точно така изглежда възходът на нещо ново. Когато една възможност спре да бъде проект и се превърне в готов компонент.
Ако изграждате платформа за агенти и искате да предложите същата функционалност, свържете се с нас. Ако изграждате агенти в Dawn, FourA вече е там. Просто го включете.