Todos los artículos

FourA llega a Dawn: el surgimiento de algo

Dawn lanzó una integración con FourA esta semana. Detrás de cada respuesta de un agente que interactúa con la web en vivo, ahora hay una llamada de extracción. Esta es la estructura que está surgiendo.

Un ingeniero abre Dawn y pregunta: "Haz scraping de https://topstartups.io/ y dame las primeras 10 startups, incluyendo nombres, descripciones, sede, año de fundación, URLs, páginas de redes sociales, formateado como una tabla".

El agente piensa por un momento, obtiene la página, analiza los listados, sigue el perfil de cada startup y devuelve la tabla. Diez filas. Cada columna completada. Pogo, Auctor, Scalify, Omnea, Rivan, Listen Labs, Doppel, Blossom, Avoca, Traba. Sedes en Brooklyn, Nueva York, Londres, San Francisco, Remoto. LinkedIn para la mayoría. Años de fundación de 2020 a 2026.

Esa tabla fue el resultado de un puñado de llamadas a FourA.

Esta semana Dawn lanzó FourA como una herramienta de primer nivel dentro de su plataforma de agentes. Se ubica en su cuadrícula de integraciones junto a Notion, GitHub y Google Drive. Los agentes que tienen acceso a FourA pueden obtener una página web pública o un endpoint HTTP, procesar la respuesta (incluyendo JSON), enviar un formulario, verificar la disponibilidad y extraer texto o enlaces específicos de lo que se recibe. Cada agente tiene acceso explícito o no lo tiene. Gobernanza por agente, sin el riesgo de "darle internet a todos los agentes".

FourA en la cuadrícula de integraciones de Dawn, junto a OneDrive, MailJet, Linear, Jira y Trello FourA en la cuadrícula de integraciones de Dawn, junto a OneDrive, MailJet, Linear, Jira y Trello

Lo interesante no es que un agente pueda consultar una URL. Las búsquedas web han existido en las plataformas de agentes desde hace un año. Lo interesante es la estructura de la herramienta que está surgiendo.

La búsqueda web y la extracción de URLs son tareas diferentes. La búsqueda sirve para "¿qué dice internet sobre X?". Información amplia, generativa y a nivel de resumen. La extracción sirve para "aquí está la URL o el endpoint, obtenlo y dame la respuesta estructurada". Diferentes requisitos de confiabilidad, diferentes perfiles de costo, diferentes modos de falla. Mezclarlos en una sola herramienta produce una respuesta mediocre para ambos.

La integración de Dawn las trata como independientes. Tienen una capacidad /web-research para la tarea amplia. FourA es para la tarea específica. Un agente recurre a la herramienta adecuada según lo que realmente necesita. Y ese es el patrón de maduración que estamos empezando a ver en las plataformas de agentes en 2026: la extracción está pasando de ser una "búsqueda añadida" a convertirse en su propia primitiva.

Para el ingeniero de plataformas que lee esto

Dawn expone FourA como ocho herramientas con nombre, cada una asignada a un patrón de extracción común:

  • foura_fetch_page para páginas HTML y de texto
  • foura_extract_text para contenido limpio y legible
  • foura_extract_links para navegación, formularios, scripts y estilos
  • foura_fetch_json para endpoints de API
  • foura_head_url para headers, estados y redirecciones
  • foura_probe_site para verificaciones rápidas de disponibilidad
  • foura_submit_form para envíos de formularios sin inicio de sesión
  • foura_single_request para HTTP arbitrario

El agente elige según lo que exija la consulta. La consulta de topstartups anterior utilizó tres de ellas en secuencia: un fetch, una extracción y un seguimiento.

La integración es lo suficientemente sencilla como para realizarse en un día. Por debajo operan dos variantes de request: un modo directo con fingerprinting de nivel de navegador para sitios que no bloquean de forma agresiva, y un modo enrutado por proxy para todo lo demás. Ambos comparten la misma estructura de request: URL, headers y body opcionales, y procesamiento opcional de la respuesta. El agente elige según lo que exija el sitio de destino.

El contrato que una plataforma ofrece a sus agentes suele verse así:

  • Un conjunto pequeño de capacidades (fetch / extract / probe / submit), cada una con una definición de herramienta enfocada a la que el agente puede recurrir
  • Modo proxy por defecto, recurriendo al modo directo cuando la latencia o el costo importan
  • Permisos por agente para que los clientes de la plataforma mantengan la gobernanza
  • Procesamiento estructurado de la response expuesto como un parámetro de la herramienta, no oculto en un prompt del sistema

Pero la parte que la mayoría de los ingenieros de plataformas subestiman es lo que sucede en los casos extremos (el tail). El caso del 80% (un fetch que tiene éxito en 200 ms y devuelve HTML limpio) es la mitad fácil. El otro 20% (sitios que bloquean según el fingerprint de TLS, que introducen un desafío de JS en la response, que devuelven un error 403 en un bloque de IP en la nube) es lo que determina si tu agente entrega una respuesta correcta o una alucinada. Reconstruimos nuestra ruta de request exactamente para ese tail, y la diferencia entre "parece confiable" y "realmente confiable" representa la mayor parte del trabajo.

Así que si diriges una plataforma de agentes y tus clientes siguen preguntando cómo podrían sus agentes "simplemente verificar esta URL", ese es el patrón. La documentación está en /docs. Estaremos encantados de guiarte en el proceso.

Para todos los demás

No verás nada de esto. Solo notarás que cuando le hagas una pregunta a un asistente de IA que requiera mirar una página web real en ese momento, responderá correctamente en lugar de adivinar o disculparse.

Ese es el resultado de cara al usuario de una primitiva de extracción lo suficientemente confiable como para estar junto a GitHub y Google Drive en una cuadrícula de integraciones. Deja de ser un proyecto de investigación. Comienza a ser infraestructura básica.

Por qué es importante esto

Hace seis meses, un agente que necesitaba leer una página web requería un desarrollo a medida. Prompts personalizados, scrapers frágiles, reintentos manuales y una tasa de éxito del 60% en un buen día. La estructura no era la adecuada porque la capa aún no existía. Y los sitios que el agente consultaba seguían cambiando. La tecnología anti-bot pasó de señales estáticas a verificaciones de comportamiento, por lo que los scrapers emparchados se degradaban más rápido de lo que los equipos podían repararlos.

Ahora la capa se está formando. Dawn la adoptó y lanzó una integración. Esperamos que más plataformas de agentes sigan este camino este año, y esperamos que el contrato converja: una herramienta dedicada para la búsqueda, una herramienta dedicada para la extracción, gobernanza por agente y costos predecibles.

Es temprano. Pero así es como se ve el surgimiento de algo. Cuando una capacidad deja de ser un proyecto y comienza a ser un conector.

Si desarrollas una plataforma de agentes y quieres ofrecer la misma estructura, contáctanos. Si construyes agentes en Dawn, FourA ya está allí. Solo actívalo.