跳转至

2026-03-28 过程文档 #16 — Pinterest 推荐系统 + 视觉搜索演化

关联报告: 2026-03-28_pinterest技术演化调研.md 调研时间: 2026-03-28 信源主力: KDD 论文(A级)、Pinterest Engineering Blog(A级)


搜索过程

  • 搜索:Pinterest PinSage PinnerSage PinnerFormer recommendation system evolution
  • 搜索:Pinterest visual search Lens computer vision technical evolution
  • 搜索:Pinterest PinnerFormer KDD 2022 results
  • 搜索:Pinterest generative AI LLM 2024 2025 recommendation
  • Fetch:medium.com/pinterest-engineering/pinnersage-multi-modal-user-embedding-framework
  • Fetch:medium.com/pinterest-engineering/unifying-visual-embeddings-for-visual-search
  • Fetch:medium.com/pinterest-engineering/building-pinterest-lens
  • Fetch:shaped.ai/blog/pinrec-teardown
  • 论文:PinnerFormer KDD'22 arxiv 摘要信息 ✅

发现与分析

推荐系统演化:item embedding → user embedding → sequence modeling → generative retrieval

PinSage(2018,KDD)

信源: KDD 2018 论文(Hamilton et al.,Stanford/Pinterest 合著)[A级] URL: https://cs.stanford.edu/~jure/pubs/pinsage-kdd18.pdf

问题: Pinterest 的核心是 Pin 和 Board 构成的图,传统矩阵分解无法融合 Pin 的视觉/文本特征。 解法: 图卷积网络(GCN)基于随机游走采样邻居,聚合视觉+文本特征生成 Pin embedding。 规模: 30亿节点(Pin + Board),180亿边,75亿训练样本。 意义: PinSage 是 Pinterest ML 从"内容特征"向"图结构特征"转型的起点,也是工业界 GNN 用于推荐的早期标杆论文。

注:PinSage 解的是 item(Pin)embedding 问题,不是用户建模。


PinnerSage(2020,KDD)

信源: KDD 2020 论文 + Pinterest Engineering Blog [A级] URL: https://medium.com/pinterest-engineering/pinnersage-multi-modal-user-embedding-framework-for-recommendations-at-pinterest-bfd116b49475 arXiv: https://arxiv.org/abs/2007.03634

问题: 用单个向量表示用户不够用——"对绘画、鞋子和科幻感兴趣的用户",这三个兴趣点之间没有内在关联,单向量会相互干扰。 解法: 1. Ward 聚类:将用户的 repin 和 click 历史聚成多个兴趣簇 2. Medoid 表示:每个簇用实际交互过的 Pin 作为代表(而不是计算重心),保留可解释性 3. 轻量级:轻度用户 3–5 个簇,重度用户最多 75–100 个 4. 混合架构:离线批处理长期兴趣 + 在线实时捕捉当前兴趣

A/B 结果: 多个 surface 上 repin 和 click 均有提升(论文未公布精确百分比)。 分析: PinnerSage 是 Pinterest 在"多兴趣建模"上的早期探索,与工业界同期的 MIND/ComiRec 思路相近。用 Medoid 而非 Centroid 的选择是工程上的务实决策——Medoid 天然是真实的 Pin,可以直接用于检索,不需要额外解码步骤。


PinnerFormer(2021年上线,2022年 KDD 发表)

信源: KDD'22 论文(arXiv 2205.04507)[A级] URL: https://arxiv.org/abs/2205.04507

问题: PinnerSage 聚类方法无法捕捉用户兴趣的时序演化;next-action 预测目标与实际业务目标(长期用户留存)不完全对齐。 解法: 1. Transformer 主体:causal masking + FFN + multi-head self-attention 块交替 2. Dense all-action loss(关键创新): 不预测"下一个动作",而是在每个时间步预测未来 K 天内的全部正样本中的随机一个。让模型学到"长期兴趣画像"而非"短期下一步" 3. 输入:PinSage embedding 序列(把图特征作为 Transformer 的 token) 4. 部署: 离线批量计算用户 embedding,供在线检索使用(避免实时推理开销)

A/B 结果(Pinterest 官方数字): - +1% 时长(time spent) - +7.5% Homefeed repins - +10.0% Homefeed ads CTR - 同时提升日活和周活用户

分析: PinnerFormer 的核心贡献是 dense all-action loss,这个设计把推荐的训练目标从"下一步预测"升级到"长期兴趣建模",在工程上非常实用(可以离线批处理,不需要在线 Transformer 推理)。+10% ads CTR 是 Pinterest 变现历史上一个重要节点。


PinRec — 生成式检索(2024,WWW/RecSys)

信源: Shaped.ai 技术拆解文章 [B级] URL: https://www.shaped.ai/blog/pinrec-teardown-inside-pinterests-production-ready-generative-retrieval-model

问题: Two-Tower 检索依赖预计算 item embedding + ANN,无法在检索阶段捕捉实时用户行为的复杂动态;且难以直接对业务目标(哪种 engagement 类型)进行控制。 解法: 1. GPT-2 架构 Transformer,根据用户历史自回归生成候选 item 表示 2. Outcome-Conditioned Generation(关键创新): 注入不同用户动作类型的可学习 embedding(repin、click 等),推理时可以设定"action budget"(如 60% repin + 40% grid click),直接控制推荐结果的 engagement 类型分布 3. 用 Pareto 前沿可视化验证 budget 调整产生了可预测的行为分布偏移

A/B 结果: - Homefeed:+0.28% fulfilled sessions,+0.55% 时长,+4.01% grid clicks - Search:+0.48% fulfillment rate

分析: PinRec 代表 Pinterest 在检索侧从"向量相似度"向"生成式"范式的迁移,方向与工业界 TIGER/HSTU 等工作一致。Outcome-Conditioned 设计特别有意思——把业务目标直接编码进模型 condition,而不是通过后处理调权,这是 recsys 走向"可控性"的一个具体实现。


视觉搜索演化:CV专项 → 统一多模态 → 多模态 LLM

起步阶段(2014–2015)

信源: TechCrunch/MarTech 历史报道 [C级] + Pinterest 官方技术博客 [A级]

  • 2014年:收购 VisualGraph(图像识别初创公司),建立 CV 团队
  • 2015年:Visual Cropper 上线,用户可以圈选 Pin 内部区域搜索相似内容
  • 架构:VGG16(2014年的 CNN)+ Caffe 框架,用 engagement 数据训练
  • 意义:Pinterest 第一个"商品级"视觉搜索能力,250M+ 月搜索量由此开始积累

Lens 相机搜索(2016–2017)

信源: Pinterest Engineering Blog, "Building Pinterest Lens" [A级] URL: https://medium.com/pinterest-engineering/building-pinterest-lens-a-real-world-visual-discovery-system-59812d8cbfbc

  • 2016年:开发 Lens,最大挑战是域漂移(domain shift)——相机拍摄图像与 Pin 图像风格差异巨大
  • 解法:人工标注数据集,配对相机图像与对应 Pin
  • 技术:从"全图搜索"升级为"以物体为粒度"——Object Search 索引数十亿个物体区域
  • 2017年 BETA 上线:将 Pinterest 视觉搜索延伸到真实世界(用手机摄像头直接搜索)
  • 规模:上线时索引 1000亿+ ideas,六个月内构建了"数十亿个物体"的语料库

查询理解层 + Blender 架构: - Query Understanding:计算视觉特征(物体检测、颜色、光线、质量)+ 语义特征(注释、类目) - Blender:动态混合三路结果(视觉相似 / 物体相似 / 语义文本),根据置信度动态调权

Shop the Look(2018–2019)

  • 2018年:Shop the Look — SE-ResNeXt + PyTorch,专为精确商品匹配优化(与 Visual Cropper 的 engagement 训练目标不同)
  • 2019年:Automated Shop the Look——自动从家居场景 Pin 中识别可购买商品

此时痛点: 三个独立视觉 Embedding 系统(Visual Cropper VGG16/Caffe + Lens + Shop the Look SE-ResNeXt/PyTorch),无法共用基础设施,也无法互相迁移学习。

统一视觉 Embedding(约 2021)

信源: Pinterest Engineering Blog, "Unifying visual embeddings for visual search" [A级] URL: https://medium.com/pinterest-engineering/unifying-visual-embeddings-for-visual-search-at-pinterest-74ea7ea103f0

问题: 三套模型用三种不同框架和数据集,技术债务严重,无法扩展到新应用。 解法: - Proxy-based metric learning + 多任务架构 - 共享 SE-ResNeXt 主干,每个应用分支到独立 FC 层 - 每个任务的 Softmax cross-entropy loss,minibatch 中均匀混合所有任务数据 - PyTorch DistributedDataParallel + FP16 混合精度训练

结果: 多任务联合训练在所有三个应用上均优于各自单独训练;大幅降低检索基础设施成本(统一索引)。

多模态 LLM 时代(2024+)

信源: 搜索结果摘要 [B级]

  • Pinterest Assistant: 多模态检索 + 推荐服务 + 生成模型的组合,核心多模态 LLM 负责 query 理解、query planning、工具调用
  • 视觉 embedding 与文本 embedding 的对齐:利用生成式视觉语言模型为 Pin 生成 image captions,供 LLM 搜索相关性模型使用

信源记录

信源 URL 级别 日期 要点
PinSage KDD'18 https://cs.stanford.edu/~jure/pubs/pinsage-kdd18.pdf A 2018 GCN item embedding,3B节点,18B边
PinnerSage KDD'20 + Blog https://arxiv.org/abs/2007.03634 A 2020 多兴趣聚类用户建模,Ward+Medoid
PinnerFormer KDD'22 https://arxiv.org/abs/2205.04507 A 2022 Transformer序列建模,dense all-action loss,+7.5%repins,+10%ads CTR
PinRec 拆解 https://www.shaped.ai/blog/pinrec-teardown B 2024 生成式检索,Outcome-Conditioned,+4.01%grid clicks
Pinterest Lens https://medium.com/pinterest-engineering/building-pinterest-lens A 2017 相机搜索,域漂移解法,Object Search
Unified Visual Embeddings https://medium.com/pinterest-engineering/unifying-visual-embeddings A ~2021 三套系统 → 单多任务模型

遗留问题

  • PinnerFormer 和 PinRec 是否并存于线上(双路检索)还是 PinRec 全面替代?
  • 视觉 Embedding 在 LLM 时代是否已经改为 CLIP-style 对比学习?公开信息未确认
  • PinSage 是否仍在生产使用,或已被更新的方法替代?