2026-03-28 Pinterest 技术演化调研¶
调研模式: 挖掘式(解答题:演化脉络 + 背后原因) 过程文档: - #15 基础设施与 ML 平台演化 - #16 推荐系统与视觉搜索演化 - #17 广告系统与 LLM 时代
1. 调研目标¶
理解 Pinterest 从 2010 年至今的主要技术演化路径,以及每次重大转变背后的驱动因素。重点:ML 系统、推荐、视觉搜索、广告技术。
2. Scope 与信源说明¶
| 领域 | 覆盖 | 主要信源级别 |
|---|---|---|
| 基础设施演化 | 2010–2025 | A(Engineering Blog),B(High Scalability) |
| ML 平台 | 2014–2025 | A("A Decade of AI Platform" 全文,2025年发布) |
| 推荐系统 | 2018–2024 | A(KDD论文 × 3),B(技术拆解) |
| 视觉搜索 | 2014–2024 | A(Engineering Blog × 3),C(媒体) |
| 广告系统 | 2018–2026 | A(Engineering Blog × 2),A(arXiv) |
| LLM / 生成式 AI | 2024–2025 | A(arXiv),B(MLOps newsletter) |
信源缺口: "Beyond Two Towers"(2026.02)正文被 Medium 403 拦截;Pinterest Assistant 技术细节无一手资料。
3. 核心发现¶
发现1:早期架构——减法比加法更难,也更重要¶
事实: 2011年,Pinterest 在快速增长压力下堆积了 Cassandra + Membase + Redis + Memcache + Elasticsearch + MongoDB。2012年1月,痛定思痛:只留 MySQL(分片)+ Redis + Memcache + Solr,删除其余一切。
推理: 技术越多,每种技术以自己的方式在高压下崩溃,运维复杂度非线性增长。删除比添加难,因为删除需要承认错误。
结论(高置信): Pinterest 2012年的"减法时刻"是其工程文化早期最重要的决策,让同一套技术栈支撑了数亿 MAU 的增长。核心原则:"只要还能靠加同类型机器扩展,就不换技术。"
发现2:2015年转折——从"预生成内容"到"实时排序"¶
事实: 2015年之前,Pinterest 的内容是提前批量生成存在 HBase 里,用户看到的 Feed 可能是数周前排好的;每个实验需要为每个用户重新生成存储,成本"巨大"。2015年构建了9个实时系统(Apiary/Polaris/RealPin/Scorpion等),转向请求时动态打分。
推理: 规模达到 1 亿 MAU 后,预生成的成本和不新鲜性都到了临界点。同时,ML 排序需要实时信号,预生成架构在技术上无法支撑这个方向。
结论(高置信): Scorpion(统一 ML 排名引擎)在 2015 年此次迁移中诞生,后来成为整个 ML serving 的基础,直到 2022 年 GPU 化改造。这是 Pinterest 推荐系统技术的真正起点。
发现3:ML 平台——组织对齐比技术对齐更难¶
事实: 2014–2017 年各团队独立建栈,早期统一工具(Linchpin、EzFlow)技术上解决了问题,但采用率低——因为切换不影响产品指标,团队缺乏迁移动力。转折点是 2021 年 MLEnv:采用率从 <5% → 约 95%,仅用一年。
推理链: - 事实:2021 年 VP 级认定 ML 是"最大增长杠杆也是最大瓶颈" - 事实:引入 ML Scorecard(对产品 ML 系统打分,可见度提升) - 事实:MLEnv 与 Ads 这个高需求团队联合开发,直接价值可见 - 推理:激励对齐(影响产品指标)+ 痛点上升(DNN 规模需要公司级解法)= 采用加速 - 结论:"Adoption follows alignment" 是 Pinterest ML 平台十年最重要的教训
结论(高置信): 平台技术的成功不取决于技术本身多好,而取决于组织是否将 ML 速度与业务结果显式挂钩。
发现4:推荐系统——三代范式转变,每代解决上一代的根本局限¶
| 系统 | 年份 | 解决的根本问题 | 技术关键 |
|---|---|---|---|
| PinSage | 2018 | Item embedding 缺乏图结构+内容融合 | GCN + 随机游走采样,3B节点 |
| PinnerSage | 2020 | 单向量无法表示多兴趣用户 | Ward 聚类 + Medoid,可解释 |
| PinnerFormer | 2021/2022 | 聚类丢失时序动态;next-action 目标与长期留存不对齐 | Transformer + dense all-action loss |
| PinRec | 2024 | Two-Tower 检索无法捕捉复杂动态;无法直接控制 engagement 类型 | 生成式检索 + Outcome-Conditioned Generation |
量化锚点(A级信源): - PinnerFormer(KDD'22):+1% 时长,+7.5% Homefeed repins,+10.0% Homefeed ads CTR - PinRec(2024):+0.55% 时长,+4.01% Homefeed grid clicks
结论(高置信): 每代系统的核心创新都不是单纯的模型升级,而是重新定义了"什么是好的用户表示"的问题。从 item embedding → 多兴趣 user embedding → 长期序列建模 → 可控生成式检索,问题定义本身在演化。
发现5:视觉搜索——从"特征工程"到"统一多模态"¶
事实: Pinterest 在 2014–2021 年先后建立了三个独立视觉 Embedding 系统(Visual Cropper/Lens/Shop the Look),技术栈各异(VGG16/Caffe、SE-ResNeXt/PyTorch),无法共享。约 2021 年用单个多任务模型(Proxy-based metric learning + 共享主干 + 任务分支)统一替代,效果反而全面提升。
推理: 垂直独立系统在早期合理(每个任务优化不同目标:engagement vs 精确商品匹配),但维护成本随应用数量线性增长,且无法跨任务迁移学习。统一才能让后续 LLM 集成有单一接入点。
结论(高置信): 视觉搜索的演化逻辑与 ML 平台高度相似——先专项突破证明可行,再统一以规模化。
发现6:广告技术——推荐侧先行,广告侧以复用为主¶
事实: 广告 ML 从 GBDT(2018)→ DNN MTL(2020)→ DHEN 集成(2022)的演化,每次升级基本滞后推荐侧 1 年左右,且大量复用推荐基础设施(MLEnv、PinnerFormer 用户 embedding)。
推理: 广告对收入稳定性要求更高,不能激进实验;推荐是较低风险的试验场。但两者共享同一 ML 平台,基础设施收益可以无缝传递。
结论(中高置信): Pinterest 的广告技术创新模式是"推荐验证 → 广告复用",平台统一是这种模式的技术前提。
4. 演化总时间线¶
2010 上线,单机 MySQL + Python
2012 架构危机 → 减法:只留 MySQL/Redis/Memcache/Solr
2014 收购 VisualGraph,建立 CV 团队;各 ML 团队独立建栈
2015 Visual Cropper(首个视觉搜索);静态 Feed → 9个实时系统(Scorpion诞生)
ML平台:Linchpin DSL 统一特征变换
2016 Lens 开发(解决域漂移问题);Scorpion C++ 推理引擎
2017 Lens BETA 上线(250M+ 月视觉搜索);ML 平台两人小团队成立
2018 PinSage(KDD'18):GCN item embedding;Shop the Look;Ads: GBDT+LR
EzFlow 训练编排;Galaxy 信号平台
2019 Automated Shop the Look;AutoML(Home Feed DNN 突破,但无法推广)
2020 PinnerSage(KDD'20):多兴趣用户建模;UFR 统一特征表示
Ads: DNN + MTL(点击/结账/加购多任务)
2021 PinnerFormer 上线(秋);统一视觉 Embedding(多任务单模型)
MLEnv <5%→95%采用;TabularML;ML Foundations 跨组织协调;ML Scorecard
Ads: AutoML + 多塔
2022 PinnerFormer KDD'22 发表(+7.5% repins, +10% ads CTR)
GPU serving(Scorpion GPU重建,Homefeed +16%);Remote Inference;Ray训练
Ads: DCNv2/Transformer/MaskNet → DHEN;PinnerFormer 进广告
2023 大规模 ID Embedding(十亿参数,分布式模型并行 + INT4 量化)
LLM 搜索相关性:Teacher-Student 管道(+2.18% nDCG@20)
2024 长用户序列(16k+ 动作,Triton 自定义 CUDA kernel)
PinRec 生成式检索(+4.01% grid clicks);Pinterest Assistant(多模态LLM)
2025 Foundation Ranking Models(跨 surface 预训练 + 微调);LLM 基础设施重建期
2026 Beyond Two Towers(广告轻量排序架构重设计,2月发布)
5. 驱动因素分析¶
五条核心驱动力:
| 驱动力 | 典型节点 | 说明 |
|---|---|---|
| 规模压力 | 2012 减法、2015 动态化、2022 GPU serving | 每个新量级都暴露上一代架构的上限 |
| 产品实时性需求 | 2015 转型 | 静态内容无法支撑个性化推荐 |
| ML 碎片化 → 平台统一 | 2017–2022 ML平台建设 | 各团队各自为政导致重复劳动和 training-serving skew |
| 新 ML 范式驱动基础设施重建 | DNN(2019–2020) / GPU(2022) / Transformer(2021–2022) / LLM(2024+) | 每次范式转换都倒逼基础设施重写,不能向后兼容 |
| 变现压力 | Ads 技术持续迭代 | 广告是 Pinterest 主要收入来源,模型精度直接影响 ROAS |
6. 交叉验证¶
| 命题 | 验证情况 |
|---|---|
| PinnerFormer +10% Homefeed ads CTR | ✅ KDD'22 论文(A级)直接引用 |
| 2015年9系统重建背景(特征数周陈旧) | ✅ Engineering Blog 原文(A级)直接描述 |
| MLEnv 采用率 <5%→95% 一年内 | ✅ "A Decade of AI Platform" 原文(A级)直接引用 |
| GPU serving 带来 Homefeed +16% | ✅ 同一 A级文章直接引用 |
| PinRec A/B 结果 | ✅ Shaped.ai 拆解(B级),与 Pinterest 官方方向一致,置信度中高 |
| "Beyond Two Towers" 存在并于 2026.02 发布 | ✅ 标题和 URL 确认(A级),正文未获取 |
7. 信息冲突¶
冲突1:Apache Pinot 归属 - 部分文章将 Apache Pinot 与 Pinterest 关联 - 事实:Pinot 起源于 LinkedIn(2013),2015年开源,2019年捐赠给 Apache 基金会 - Pinterest 是 Pinot 的重度用户,但不是创造者 - 结论:无冲突,只是常见误解,Pinot = LinkedIn,不是 Pinterest
冲突2:PinnerSage vs PinnerFormer 是否并存 - 论文描述 PinnerFormer 优于 PinnerSage,但未明确说明是否完全替代 - 实践中两套系统的服务边界可能不同(PinnerFormer 主要用于 Homefeed;PinnerSage 可能仍用于部分场景) - 结论:无法从公开信息确认,标记为不确定
8. 不确定性与 Gap¶
低置信区域: - "Beyond Two Towers" 具体架构(正文未获取) - Pinterest Assistant 的技术实现细节 - PinSage 是否仍在生产使用,或已被取代 - 视觉 Embedding 是否已升级为 CLIP-style 对比学习
不在公开信息范围内: - DAU / MAU / 广告 ROAS 等核心业务指标(Pinterest 选择性披露) - 各系统的具体工程规模(机器数量、QPS、延迟分布)
9. 结论¶
Pinterest 的技术演化可以用三次范式转换 + 一条贯穿始终的主线来概括:
三次范式转换: 1. 2012:减法工程 — 从技术多样性退回成熟工具,奠定扩展基础 2. 2015:实时化 — 从静态预生成到请求时动态排序,ML 体系由此启动 3. 2021–2022:GPU 化 + 平台统一 — Transformer 时代的基础设施重建,ML 速度首次成为组织级核心指标
贯穿始终的主线: 每次新的 ML 范式(DNN / GPU / Transformer / LLM)都强制重建底层基础设施,而不能平滑过渡。Pinterest 平台团队的价值正在于:在每次重建期预判下一层稳定基础,而不是跟着每个产品团队的局部优化走。
对 recsys 从业者最有价值的观察: - PinnerFormer 的 dense all-action loss 是"把业务目标(长期留存)直接编码进训练目标"的工程化典范 - Outcome-Conditioned Generation(PinRec)是"可控推荐"从概念走向生产的早期案例 - Pinterest 的推荐和广告共享同一用户 embedding(PinnerFormer),是"统一用户表示"在工业界落地的具体证据
10. 下一步调研建议¶
可以用公开信息继续深入: - [ ] 直接阅读 "Beyond Two Towers" 原文(待 Medium 访问限制解除) - [ ] PinSage 原论文(KDD'18)完整阅读,评估其 GCN 架构在当前是否仍有代表性 - [ ] Pinterest 2024 年的 Foundation Ranking Models 是否有公开论文
需要人工渠道: - [ ] Pinterest 工程师 LinkedIn/Twitter 公开发言,了解 2025–2026 系统状态 - [ ] Pinterest 技术岗 JD 分析(看重点技能栈变化,反推内部系统方向)