欧洲木材价格数据在技术上是公开的,但在实际中几乎无法使用。一个国家以不含税的每立方米欧元价格列出橡木价格。邻国则以当地货币(含税)分享山毛榉价格,且这些数据深埋在没有可搜索文本层的扫描 PDF 中。更糟糕的是,立木、路边原木和选定的拍卖批次经常被并列报价,就好像它们是完全相同的产品一样。
原始数据确实存在。但市场情报并不存在。
KORENA 推出了 KORENA Timber Index 来解决这个问题。其结果是一个每日更新、可免费访问的欧洲硬木、木材 and 板材价格参考。截至 2026 年中期,该指数追踪了 10 个国家(罗马尼亚、德国、保加利亚、波兰、法国、奥地利、意大利、芬兰、挪威、瑞典)的大约 24 种树种和 170 个区域价格行,外加一个泛欧市场层级。
对于一个只有两人的工程团队来说,要覆盖如此广泛的范围,KORENA 需要先解决一个决定:谁来处理网络请求。他们选择了 FourA,并将所有流量都路由通过它。
统一的网络网关
KORENA 很早就做出了一个架构选择:每个外部网络 request 都通过 FourA。他们清理了代码库中隐藏的零散爬虫、一次性脚本和自定义命令。
这不仅仅是为了方便。而是为了保持一致性。林业门户网站的行为难以预测。有些是静态 HTML 页面。另一些则是现代拍卖平台,只有在浏览器渲染后才会显示数据。政府网站通常运行缓慢、陈旧或受到严格保护。
通过将所有流量路由到 FourA 的 request 基础设施,KORENA 可以对每个数据源以相同的方式处理重试、退避、日志记录和告警。并且,检索到的每份文档都可以进行哈希处理、存储,并追溯到其最终价格以供审计。
为每个数据源选择合适的获取策略
KORENA 没有为每个网站硬编码抓取逻辑,而是直接在数据库中将每个数据源映射到特定的 FourA endpoint(完整分析请参见选择正确的任务类型)。他们无需修改核心解析代码即可切换策略:
Single (
/single/):静态 HTML 页面、XML 提要和直接 PDF 下载。例如德国的统计报告、保加利亚的国家林业更新、罗马尼亚的价格表。快速、轻量,是大多数网站的合适默认选择。Browser (
/browser/):需要真实浏览器上下文的交互式 Web 应用程序。波兰的 e-Drewno 拍卖平台需要先进行渲染才能显示数字。初始 HTML 中没有任何有用信息。Proxy Finder (
/proxy/):针对最难目标的备用方案。更强大的轮换,外加针对握手级反爬虫墙的unblocker: true。
由于这是针对每个数据源的设置,而不是硬编码的脚本,当网站更改其防御措施时,KORENA 可以将数据源从 Single 切换到 Browser 再到 Proxy Finder。解析层对此完全无感知。
扫描版 PDF:最难的部分
现代 Web API 非常直观。最难自动化的案例是纯图片 PDF。价格表和拍卖结果以扫描件形式发布,完全没有文本层。对人类来说这很烦人。对于每日指数来说,它会阻断流水线。
KORENA 的流水线通过清晰的分工来处理它们:
Retrieval:FourA 每日可靠地下载原始 PDF 字节。
Text evaluation:KORENA 检查文件是否存在可用的原生文本层。
Processing and extraction:如果 PDF 是扁平图像,KORENA 会对页面进行光栅化,并通过 OCR 和 AI 文档提取进行处理,应用自定义语言提示和树种词典以捕获当地林业术语。
Schema validation:根据与其他所有数据源相同的 schema 对输出进行验证。
如果你无法每天可靠地获取文档,这一切都无从谈起。这就是 FourA 负责的步骤。
获取与理解:清晰的分离
FourA 的工作是可靠地交付原始字节。它不需要了解任何关于木材的信息。这让 KORENA 能够将 100% 的精力集中在它们真正擅长的事情上:将混乱的数据转化为标准化的指数。所有特定领域的内容都保留在 KORENA。HTML 在本地进行解析,数字化 PDF 使用 pdfjs-dist 读取,扫描版 PDF 则通过 OCR 处理。
标准化步骤是将原始数字转化为指数的关键。立木价格不是锯材原木价格,含增值税的本地拍卖结果也无法与不含增值税的出口报价直接比较。为了将原始数字转化为具有可比性的市场情报,KORENA 将所有数据转换为一个标准:每立方米欧元、不含增值税、送达等值。
为了准确做到这一点,系统考虑了以下因素:
- 每日欧洲中央银行外汇汇率。
- 本地化的国家增值税规则。
- 基于木材产品阶段的运输系数。
该指数还对不同的市场层级进行了区分。大宗原木、高值木材拍卖和零售列表显示为独立的类别,绝不会混在一起。优质拍卖批次不会扭曲基准线。
这种分离正是关键所在:FourA 解决网络访问问题,KORENA 解决木材问题。两者都不会成为对方依赖的黑盒。
为什么木材价格透明度突然变得紧迫
更严格的欧洲法规,包括欧盟毁林条例 (EUDR),正在推动木材市场走向完全的可追溯性和更清晰的来源证明。价格透明度是该方程式的另一半。比较区域价值的木材种植者、验证报价的买家以及设定基准价格的数字化市场,都需要每日、本地化且具有可比性的数据。而不是过时的年度平均值。也不是一次性的本地数字。
对于一个精简的两人工程团队来说,要覆盖十个国家和数百种不可预测的网络格式,他们负担不起将时间花在管理 proxy 基础设施、浏览器集群和反爬虫变通方案上的成本(完整计算请参见维护自己爬虫的隐藏成本)。FourA 处理 request 层。KORENA 从而有时间专注于树种标准化、OCR 微调、定价逻辑和审计追踪,这些只有他们才能做的工作。
过去,每日木材价格意味着要给您的区域经纪人打电话。现在,任何人都可以自己在 timber-index.korena.eu 上绘制曲线。接下来的十个类似指数的产品将没有时间从头构建获取层。这就是我们所做的赌注。
正在基于公开网络数据构建产品,并厌倦了维护自己的爬虫和 proxy 基础设施?开始使用 FourA。