推荐系统-个性化内容分发
什么是推荐系统?
维基百科定义
- 推荐系统是一种信息过滤系统,用语预测用户对物品的“评分”或“偏好”
限定在电商购买决策过程的定义
电商应用向客户提供商品信息和建议,帮助用户决定应该够买什么产品。
这其中隐含了土建系统的2个重要的核心功能
路径优化
兴趣发现
推荐概述
- 推荐目标:合适的才是最好的
- 实现手段:数据、算法、架构、
- 核心功能:链路优化、兴趣发现
- 评价:满意度(点击率,转化率,时长)、准确、覆盖率、多样性、新颖性、惊喜性、信任度、鲁棒性、实时性、商业目标
- 两过程:从学习到决策过程
- 核心问题:如何构建一个用户对商品的评价模型
- 宗旨:服务提供方和消费方双赢
- 演进:
- 与搜索的异同:推荐被动,搜索主动; 推荐不明确货找人, 搜索明确人找货
推荐的几大挑战
- 大数据,稀疏,长尾,噪音
- 用户行为模式的挖掘和利用(行为的复杂性)
- 冷启动(新用户/新商品)
- 多样性与精确性的两难困境
- 用户界面与用户体验(个性化体验的可解释性)
好的推荐产品
- 5W
- when
- where
- who
- what
- why
推荐系统是怎么做到的?
上下文
- 当前定位
- 当前季节
- 用户年龄
用户画像
- 用户静态数据
- 用户动态数据
协同过滤
基于用户
基于内容
基于商品
基于模型
基于统计/知识
推荐系统的相似度评估
计算用户与用户, 商品与商品, 内容与内容的相似度
主要思想为,交集 / 并集
- 当交集与并集相等时,相似度为1
- 当交集为空时,相似度为 0
推荐的混合模型
级联型
使用后一个推荐方法优化前一个
特征递增
前一个做为后一个的输入
特征组合
将来自不同推荐数据源的特征组合,然后由其他推荐技术使用
元层次组合
将不同的推荐模型融合
混合
将多种不同的推荐算法的结果混合在一起
切换
根据问题背景和实际情况采用不同的推荐技术
加权融合
多种推荐类型的计算混合产生推荐
推荐系统的架构和模块
演进
推荐系统架构
推荐流量分发
CVR (Click Value Rate): 转化率,衡量CPA广告效果的指标
CTR (Click Through Rate): 点击率
CPC (Cost Per Click): 按点击计费
CPA (Cost Per Action): 按成果数计费
CPM (Cost Per Mille): 按千次展现计费
PV (Page View): 流量
PV单价: 每PV的收入,衡量页面流量变现能力的指标
ADPV (Advertisement Page View): 载有广告的pageview流量
ADimp (ADimpression): 单个广告的展示次数
RPS (Revenue Per Search): 每搜索产生的收入,衡量搜索结果变现能力指标
ROI:投资回报率(ROI)是指通过投资而应返回的价值,它涵盖了企业的获利目标。利润投入的经营所必备的财产相关,因为管理人员必须通过投资和现有财产获得利润。又称会计收益率、投资利润率。
GMV:通常称为网站成交金额,属于电商平台企业成交类指标,主要指拍下订单的总金额,包含付款和未付款两部分
计算方式
ROI=订单额/消费量(即广告费用)=(单均额转化量)/(CPA转化量)=单均额/CPA
CTR=点击量/展现量
CVR=转化量/点击量
CPM=(消费量/展现量)*1000
CPA=消费量/转化量=(CPC点击量)/(CVR点击量)=CPC/CVR
CPC=消费量/点击量
模型部署
推荐召回
召回分类
兼顾成本与性能
- user profile 标签索引列表
- 相似列表
- 协同过滤
- Content-Based
- 基于图论的算法
- knoledge-Based
- Context-Aware
- Hybrid-BAsed
- 热门列表
- 分类热门
- 运营人工推荐列表
- 召回的列表将作为推荐候选池
业界算法模型
相似度计算注意点
- 在不丧失区分度的情况下,空间尽量稠密
- 经验目标:稀疏度> 1%
- 横向结合+纵向结合
- 相似度归一化
- 提高推荐的准确度
- 时间因子
- 对历史共现的数据和历史频次的数据进行降权
- 要更加侧重于新数据的影响力
召回---关联推荐
推荐排序
问题抽象
个性化/非个性化模型
目标变形
预估流程与部署
调试
用户画像
要素
用户行为= 商品/内容 +显性操作 (购买、关注、下载)+隐形操作(时长、跳过)
User profile 基础数据
用户标签
- 用户的历史行为
- 用户session行为
- 用户自身的标签
Item/Content profile基础数据
内容标签
- 内容的keyword
- 分类
- 热点标签
- 标题党
- ……
用户画像标签
用户画像应用-选人中心
用户画像应用-DMP
用户画像应用-Right Time 消费周期
标签体系构建
标签建模
性别模型
购买力模型
关键词偏好
关键词模型
画像与数据分析结合
特征工程
分类
- 用户特征
- 人口统计学特征
- 购物偏好
- 用户群体标签
- 商品特征
- 商品ID
- 商品静态属性
- 商品的关联卖家
- 商品所在的店铺
数据标注
- 样本关联
- 样本选择
- 样本采样
- 样本权重
- 负样本
特征处理
- 特征离散化、ID类特征
- 加快处理速度
- 非线性
- 特征平滑
- 威尔逊区间
- PV越小,CTR的置信度越小
- 防止低PV的商品占优势
- 特征组合
- 非线性
- PV+IPV组合,比CTR的信息更多
百度百科:在统计学中,一个概率样本的置信区间(Confidence interval)是对这个样本的某个总体参数的区间估计。置信区间展现的是这个参数的真实值有一定概率落在测量结果的周围的程度。置信区间给出的是被测量参数的测量值的可信程度,即前面所要求的“一定概率”。这个概率被称为置信水平。
特征聚合
- 特征降维
- 相似特征有相似权重
- 特征的权重近似于后验概率
评估指标
回归
场景分类与推荐
各类算法比较
实时个性化
意图计算
E&E 个性化
可配置化
分解
About ME
👋 读书城南,🤔 在未来面前,我们都是孩子~
- 📙 一个热衷于探索学习新方向、新事物的智能产品经理,闲暇时间喜欢coding💻、画图🎨、音乐🎵、学习ing~
👋 Social Media
🛠️ Blog: http://oceaneyes.top
⚡ PM导航: https://pmhub.oceangzy.top
☘️ CNBLOG: https://www.cnblogs.com/oceaneyes-gzy/
🌱 AI PRJ自己部署的一些算法demo: http://ai.oceangzy.top/
📫 Email: 1450136519@qq.com
💬 WeChat: OCEANGZY
💬 公众号: UncleJoker-GZY
👋 加入小组~
👋 感谢打赏~