Todos los artículos

Cómo KORENA construyó un índice de precios de la madera en FourA

KORENA construyó un índice diario de precios de la madera en Europa basado en portales forestales, PDF de subastas y diez monedas. FourA es la capa de request que lo respalda.

Los datos de precios de la madera en Europa son técnicamente públicos, pero prácticamente inutilizables. Un país publica los precios del roble en euros por metro cúbico, sin impuestos. Una nación vecina comparte los precios del haya en la moneda local, con impuestos incluidos, sepultados dentro de un PDF escaneado sin capa de texto en la que se pueda buscar. Para empeorar las cosas, los árboles en pie, los troncos a pie de carretera y los lotes de subastas seleccionados a menudo se cotizan de forma conjunta como si fueran productos idénticos.

Los datos brutos existen. La inteligencia de mercado no.

KORENA lanzó el KORENA Timber Index para solucionar esto. El resultado es una referencia diaria y de libre acceso para los precios de la madera dura, la madera de construcción y los tablones en Europa. A mediados de 2026, el índice realiza el seguimiento de aproximadamente dos docenas de especies y 170 filas de precios regionales en diez países (Rumanía, Alemania, Bulgaria, Polonia, Francia, Austria, Italia, Finlandia, Noruega, Suecia), además de un nivel de mercado paneuropeo.

Para que un equipo de ingeniería de dos personas pudiera abarcar tanto terreno, KORENA necesitaba resolver una decisión clave: quién se encargaba de la web. Eligieron FourA y canalizaron todo a través de él.

Una única puerta de acceso a la web

KORENA tomó una decisión de arquitectura desde el principio: cada request web externa pasa por FourA. Se deshicieron de scrapers sueltos, scripts de un solo uso y comandos personalizados ocultos dentro de la base de código.

No se trataba de comodidad. Se trataba de consistencia. Los portales forestales se comportan de forma impredecible. Algunos son páginas HTML estáticas. Otros son plataformas de subastas modernas que solo muestran datos después de que un navegador los renderiza. Los sitios gubernamentales suelen ser lentos, obsoletos o estar fuertemente protegidos.

Al enrutar todo el tráfico a través de la infraestructura de request de FourA, KORENA gestiona los reintentos, el backoff, el logging y las alertas de la misma manera en cada fuente. Y cada documento recuperado se puede hashear, almacenar y rastrear hasta su precio final para auditorías.

Elegir la estrategia de obtención adecuada por fuente

En lugar de escribir lógica de scraping rígida para cada sitio, KORENA mapea cada fuente de datos a un endpoint específico de FourA directamente en su base de datos (consulta elegir el tipo de tarea adecuado para ver el desglose completo). Pueden cambiar de estrategia sin tocar su código de procesamiento principal:

  • Single (/single/): páginas HTML estáticas, feeds XML y descargas directas de PDF. Informes estadísticos alemanes, actualizaciones forestales estatales búlgaras, tablas de precios rumanas. Rápido, ligero, el valor predeterminado adecuado para la mayoría de los sitios.

  • Browser (/browser/): aplicaciones web interactivas que necesitan un contexto de navegador real. La plataforma de subastas e-Drewno de Polonia requiere renderizado antes de que aparezcan los números. El HTML inicial no contiene nada útil.

  • Proxy Finder (/proxy/): la alternativa para los objetivos más difíciles. Mayor rotación, además de unblocker: true para barreras anti-bot a nivel de handshake.

Debido a que esta es una configuración por fuente y no un script rígido, KORENA puede mover una fuente de Single a Browser o a Proxy Finder cuando un sitio cambia sus defensas. La capa de procesamiento nunca se entera.

PDF escaneados: la parte más difícil

Las API web modernas son sencillas. El caso más difícil de automatizar son los PDF que solo contienen imágenes. Listas de precios y resultados de subastas publicados como escaneos, sin ninguna capa de texto. Para un humano es molesto. Para un índice diario, detiene el pipeline.

El pipeline de KORENA los gestiona mediante una clara división del trabajo:

  • Retrieval: FourA descarga los bytes del PDF original, diariamente y de forma confiable.

  • Text evaluation: KORENA comprueba si el archivo tiene una capa de texto nativa utilizable.

  • Processing and extraction: si el PDF es una imagen plana, KORENA rasteriza las páginas y las procesa mediante OCR y extracción de documentos con IA, aplicando pistas de idioma personalizadas y diccionarios de especies para capturar la terminología forestal local.

  • Schema validation: la salida se valida con el mismo esquema que cualquier otra fuente.

Nada de esto funciona si no se puede obtener el documento de forma confiable todos los días. Ese es el paso que le corresponde a FourA.

Obtención frente a comprensión: una división clara

El trabajo de FourA es entregar bytes brutos de forma confiable. No necesita saber nada sobre madera. Eso permite a KORENA concentrar el 100% de su energía en lo que realmente sabe: convertir datos caóticos en un índice estandarizado. Todo lo específico del dominio se queda en KORENA. El HTML se procesa localmente, los PDF digitales se leen con pdfjs-dist y los PDF escaneados se procesan mediante OCR.

El paso de normalización es donde los números brutos se convierten en un índice. El precio de un árbol en pie no es el precio de un tronco de sierra, y el resultado de una subasta local con IVA incluido no es directamente comparable con una cotización de exportación sin IVA. Para convertir los números brutos en inteligencia de mercado comparable, KORENA convierte todos los datos a un único estándar: euros por metro cúbico, sin IVA, equivalente a entregado.

Para hacerlo con precisión, el sistema tiene en cuenta:

  • Las tasas de cambio diarias del Banco Central Europeo.
  • Las normas locales de IVA de cada país.
  • Los factores de transporte basados en la etapa del producto de madera.

El índice también mantiene separados los diferentes niveles del mercado. La madera en rollo a granel, las subastas de madera de valor y los listados minoristas aparecen como categorías individuales y nunca se mezclan. Un lote de subasta premium no llega a distorsionar la línea de base.

La división es el punto clave: FourA resuelve el acceso web, KORENA resuelve la madera. Ninguno se convierte en una caja negra de la que dependa el otro.

Por qué la transparencia en los precios de la madera es urgente de repente

Las regulaciones europeas más estrictas, incluido el Reglamento de la UE sobre Deforestación (EUDR), están empujando al mercado de la madera hacia una trazabilidad total y una documentación de origen más limpia. La transparencia de precios es la otra mitad de esa ecuación. Los productores de madera que comparan valores regionales, los compradores que validan cotizaciones y los mercados digitales que establecen tarifas de referencia necesitan datos diarios, localizados y comparables. No promedios anuales desactualizados. No números locales aislados.

Para que un equipo de ingeniería eficiente de dos personas pudiera cubrir diez países y cientos de formatos web impredecibles, no podían permitirse pasar el tiempo gestionando infraestructura de proxy, flotas de navegadores y soluciones alternativas anti-bot (consulta el costo oculto de mantener tus propios scrapers para ver el cálculo completo). FourA se encarga de la capa de request. KORENA recupera el tiempo para concentrarse en la normalización de especies, el ajuste de OCR, la lógica de precios y las pistas de auditoría, el trabajo que solo ellos pueden hacer.

Los precios diarios de la madera solían significar una llamada telefónica a tu corredor regional. Ahora cualquiera puede trazar la curva por sí mismo en timber-index.korena.eu. Los próximos diez productos similares a un índice no tendrán tiempo de construir la capa de obtención desde cero. Esa es la apuesta que estamos haciendo.


¿Estás construyendo un producto con datos de la web pública y te cansaste de mantener tus propios scrapers e infraestructura de proxy? Comienza con FourA.