跳转至

2026-03-28 过程文档 #17 — Pinterest 广告系统演化 + LLM 时代

关联报告: 2026-03-28_pinterest技术演化调研.md 调研时间: 2026-03-28 信源主力: Pinterest Engineering Blog(A级)、arXiv(A级)


搜索过程

  • 搜索:Pinterest ads ranking ML system technical blog evolution
  • 搜索:Pinterest generative AI LLM 2024 2025 recommendation search technical blog
  • Fetch:medium.com/pinterest-engineering/evolution-of-ads-conversion-optimization-models
  • Fetch:medium.com/pinterest-engineering/beyond-two-towers ❌ 403 blocked(两次尝试均失败)
  • Fetch:medium.com/pinterest-engineering/improving-pinterest-search-relevance-using-large-language-models ❌ 503
  • Fetch:shaped.ai/blog/pinrec-teardown ✅(PinRec 涵盖广告侧相关性)
  • 搜索结果摘要覆盖了 LLM search relevance 核心要点

发现与分析

广告 ML 模型演化(2018–2023)

信源: Pinterest Engineering Blog, "Evolution of Ads Conversion Optimization Models at Pinterest" [A级] URL: https://medium.com/pinterest-engineering/evolution-of-ads-conversion-optimization-models-at-pinterest-84b244043d51

阶段1:经典 ML(2018–2020)

  • 架构: GBDT + 逻辑回归
  • 原因: 快速开发,特征哈希处理稀疏广告主 ID,适应标签质量波动
  • 离开原因: 训练和推理扩展性瓶颈,产品增长速度超过 GBDT 上限

阶段2:深度学习迁移(2020–2021)

  • 架构: 单一 DNN + 多任务学习(MTL)
  • 任务: 点击、结账、加购物车等同时训练
  • 原因: MTL 利用丰富的 onsite engagement 信号弥补稀疏 conversion 标签
  • 关键挑战(三个持续性问题):
  • 标签质量: Conversion 标签依赖广告主追踪系统,有噪声和不准确性
  • 数据稀疏: Conversion 比点击稀疏得多,使 A/B 实验周期更长
  • Delayed feedback: 长尾 conversion 延迟导致训练时出现假负例,影响校准和更新频率

阶段3:AutoML + 多塔架构(2021–2022)

  • MLEnv 平台成熟,支持更大规模架构实验
  • AutoML 框架自动化特征交叉,替代手工特征工程
  • Multi-Tower:不同 tower 处理不同数据模态/任务

阶段4:现代架构组合(2022–2023)

测试过的特征交叉模块: | 模块 | 原理 | 特点 | |------|------|------| | DCNv2 | 显式低阶 + 隐式高阶特征交叉 | 平衡效果和效率 | | Transformer | Self-attention 特征交叉 | 高效果,内存密集 | | MaskNet | 实例引导的 masking | 最终选择:效果/成本比最优 |

序列建模加入: 长回溯窗口用户活动序列,对稀疏 conversion 数据和时序兴趣特别有效。

最终架构: DHEN(Deep and Hierarchical Ensemble Network)= MaskNet + DCNv2 + Transformer 的集成,共享特征处理层降低基础设施成本。

GPU Serving 创新(与平台团队协同): - CUDA Graphs:静态张量形状减少 kernel 启动开销 - 混合精度(FP32 + FP16):吞吐量提升,精度基本不损失

分析: 广告模型演化跟随整个 ML 平台节奏——哪个阶段平台基础设施成熟,广告模型就能跑多大的架构。2021年 MLEnv 和 TabularML 的成熟是广告现代架构得以部署的先决条件。


PinnerFormer 进广告(2022)

信源: 搜索结果摘要 [B级]

  • 2022年 PinnerFormer 集成进广告推荐,提供统一的长期用户兴趣表示
  • 意义:推荐侧和广告侧共享同一用户 embedding,减少重复建模成本
  • 进一步证明 PinnerFormer 的 dense all-action loss 对广告 CTR 预估同样有效(+10.0% Homefeed ads CTR)

Beyond Two Towers(2026)

信源: Pinterest Engineering Blog 标题/摘要 [A级,内容被 403 拦截] URL: https://medium.com/pinterest-engineering/beyond-two-towers-re-architecting-the-serving-stack-for-next-gen-ads-lightweight-ranking-models-1992f2b76cbb 发布日期: 2026年2月

已知信息(来自搜索摘要): - 标题:Re-architecting the Serving Stack for Next-Gen Ads Lightweight Ranking Models - 方向:Two-Tower 架构长期主导广告检索/轻量排序,Pinterest 正在重新设计 serving 栈以支持下一代架构 - 背景:结合 PinRec 生成式检索、Foundation Ranking Models 的引入,Two-Tower 的静态预计算逻辑已不足以支撑新模型需求

置信度: 存在(A级信源确认),内容细节低置信(正文未获取)。


LLM 在搜索相关性中的应用(2024)

信源: arXiv 2410.17152 [A级] + mlops.substack.com 摘要 [B级] URL: https://arxiv.org/abs/2410.17152

问题: 传统搜索相关性依赖人工标注,昂贵且难以扩展;图像为主的 Pin 缺乏文本描述,相关性判断更难。

解法(Teacher-Student 知识蒸馏管道): 1. 教师模型: 大型 LLM,fine-tune 后预测 query-Pin 相关性分数 - 输入:query + Pin 文本表示(标题、描述、由生成式视觉语言模型生成的 image captions、link 文本、用户策展 Board、历史高质量 engaged queries) 2. 学生模型: 轻量级相关性模型,用 LLM 生成的标签做知识蒸馏 3. 在线 serving: 学生模型(低延迟),LLM 不参与实时推理

结果: +2.18% nDCG@20(搜索 Feed 相关性)

分析: 这是 Pinterest 标准的 LLM 集成范式:LLM 用于生成训练信号(标签 / 特征),轻量模型负责实时推理。Image caption 生成是解决视觉内容文本稀疏问题的关键——让 LLM 能"理解"图像内容。


Pinterest Assistant(2024)

信源: 搜索结果摘要 [B级]

  • 组合:多模态检索系统 + 推荐服务 + 专项生成模型
  • 核心多模态 LLM 职责:query 理解、query planning、工具调用
  • 方向:从"搜索 / 推荐"向"对话式发现"演化

跨域分析:广告 vs 推荐的技术同步性

技术突破 推荐侧时间 广告侧时间 说明
DNN 2019–2020(AutoML) 2020–2021(MTL) 广告延迟约1年,等待平台成熟
Transformer 序列建模 2021(PinnerFormer) 2022(集成PinnerFormer) 推荐先行,广告复用
GPU serving 2022–2023(Scorpion GPU) 2022–2023(CUDA Graphs) 同步,平台层统一解决
生成式检索 2024(PinRec) 2025–2026(Beyond Two Towers方向) 推荐先行,广告跟进

推断: Pinterest 的技术创新路径基本是推荐侧先行,广告侧以复用为主。这与广告对稳定性和收入要求更高有关——推荐可以更激进实验,广告更保守。


信源记录

信源 URL 级别 日期 要点
Pinterest Eng Blog — Ads Conversion Models https://medium.com/pinterest-engineering/evolution-of-ads-conversion-optimization-models A 2023 GBDT→DNN→DHEN完整演化路径
arXiv 2410.17152 — LLM Search Relevance https://arxiv.org/abs/2410.17152 A 2024 Teacher-Student管道,+2.18% nDCG@20
Pinterest Eng Blog — Beyond Two Towers https://medium.com/pinterest-engineering/beyond-two-towers A(标题已知,正文未获取) 2026.02 下一代广告轻量排序架构
Shaped.ai — PinRec Teardown https://www.shaped.ai/blog/pinrec-teardown B 2024 生成式检索,Outcome-Conditioned

遗留问题

  • "Beyond Two Towers" 正文内容未获取(被 Medium 403 拦截),具体架构设计不明
  • Pinterest Assistant 的技术细节(模型名称、参数量、上线时间)未找到一手资料
  • 广告 ROAS / 广告主 ROI 的具体指标改善数字没有公开披露