机器学习实战-笔记2-k-近邻算法概述
k-近邻算法概述
优点
精度高、对异常值不敏感、无数据输入假定
缺点
计算复杂度高、空间复杂度高
适用数据范围
数值型和标称型
工作原理
样本数据集,每个数据都存在标签状态
输入新的没有标签状态的数据,将新数据的每个特征与样本集中数据对应的特征比较
算法提取样本集中特征最相似(最近邻)数据的标签;
一般选取样本数据集中前k个最相似的数据; k通常是不大于20的整数
一般流程
收集数据:可以使用任何方法
准备数据:距离计算索需要的数值,最好是结构化的数据格式
分析数据:可以使用任何方法
训练算法:不适用于k-近邻
测试算法:计算错误率
使用算法:首选需输入样本数据和结构化的输出结果,
然后运行k-近邻算法判定输入数据分别属于哪个分类, 最后应用对计算出的分类
执行后续的处理
About ME
👋 读书城南,🤔
在未来面前,我们都是孩子~
📙
一个热衷于探索学习新方向、新事物的智能产品经理,闲暇时间喜欢coding💻、画图🎨、音乐🎵、学习ing~
👋 Social Media
🛠️ Blog: http://oceaneyes.top
⚡ ...
机器学习实战-笔记1-基础
机器学习实战-笔记1-基础
机器学习的主要任务
监督学习-必须知道预测什么,即目标变量的分类信息**
分类,将实例数据划分到核实的分类中
回归,用于预测数值型数据
监督学习的用途
k-近邻算法
朴素贝叶斯算法
支持向量机
决策树
线性回归
局部加权线性回归
Ridge回归
Lasso最小回归系数估计
无监督学习-没有类别信息,也没有目标值
聚类,将数据集合分成类似的对象组成多个类的过程
密度估计,寻找描述数据统计值的过程
无监督学习的用途
K-均值
DBSCAN
最大期望算法
Parzen窗设计
如何选择合适的算法
使用机器学习算法的目的,想要算法完成什么任务
如果预测目标变量的值,则可选择监督学习算法
目标变量类型如果是 离散型,如是/否、1/2/3等,则可使用分类算法
目标变量类型如果是
连续型的数值,如1.0~100.0等,则可以使用回归算法
如果不是预测目标变量的值,则可选择无监督学习算法
如果只需要将数据分为离散的组,则使用聚类算法
如果需要估计数据与每个分组的相似程度,则使用密度估计算法
需要分析或收集的数据是什么
开发机器学习应用程序的步骤 ...
自然语言的几个重要模型-学习记录
自然语言的几个重要模型-学习记录
循环神经网络 (序列模型序列依赖问题)
双向循环神经网络(输入序列正向和反向依赖问题)
深度双向循环神经网络
LSTM(梯度消失问题)
GRU
text CNN(一维卷积和池化)
seq2seq(序列到序列问题)
Attention(decoder对encoder输入序列注意力问题,从输入获取可用信息)
Transform(对输入的序列分成q检索项 k键项
v值项进行计算,矩阵并行计算)
语言预训练方法ELMO (使用双向rnn组合中间层权重)
语言预训练方法BERT ERNIE (使用transform
encoder部分无需标签,ERNIE主要处理中文场景按词mask)
语言预训练方法GPT (使用transform decoder部分)
1.循环神经网络
img
使用隐藏层保留之前时间步的信息
梯度裁剪
处理梯度爆炸问题,即超出阈值怎重置为阈值。因为在RNN中目标函数有关隐藏状态的梯度会因为时间步数较大或时间步较小而变大。
2.双向循环神经网络
img
(橘色的实线和虚线分别是前向传递和后向传递的过程 )
通常RNN输入序列 ...
案例-基于朴素贝叶斯过滤垃圾邮件
基于朴素贝叶斯过滤垃圾邮件
收集数据:提供文本文件
准备数据:将文本文件解析成词条向量
分析数据:检查词条确保解析的正确性
训练算法:使用trainNB1()函数
测试算法:使用classifyNB()
并且构建一个新的测试函数来计算文档集的错误率
使用算法:构建完整程序
对一组文档进行分类,并将错分的文档输出到屏幕
准备数据:切分文本
mySent = 'this book is the best book on Python pr M.L I have ever laid eyes upon.'
mySent.split()
['this',
'book',
'is',
'the',
'best',
'book',
'on',
'Python',
'pr',
'M.L',
'I',
'have',
'ever',
'laid ...
基于贝叶斯决策理论的分类方法
基于贝叶斯决策理论的分类方法
朴素贝叶斯是贝叶斯决策理论的一部分 -
优点:在数据较少的情况下仍然有效,可以处理多类别问题 -
缺点:对于输入数据的准备方式较为敏感 - 适用数据类型:标称型数据
标称型:一般在有限的数据中取,而且只存在‘是’和‘否’两种不同的结果(一般用于分类)
数值型:可以在无限的数据中取,而且数值比较具体化,例如4.02,6.23这种值(一般用于回归分析)
贝叶斯决策理论的核心思想,即选择具有最高概率的决策
假设现在我们有一个数据集,它由两类数据组成,数据分布如图
我们现在用p1(x,y)表示数据点(x,y)属于类别1(图中用圆点表示的类别)的概率,用p2(x,y)表示数据点(x,y)属于类别2(图中用三角形表示的类别)的概率,那么对于一个新数据点(x,y),可以用下面的规则来判断它的类别:
如果 p1(x,y) > p2(x,y),那么类别为1
如果 p2(x,y) > p1(x,y),那么类别为2
计算分类的方法
使用kNN,进行1000次距离计算;
使用决策树,分别沿x轴、y轴划分数据;
计算数据点属于每个类别的概率,并进行比较
条件概率
...
广告系统架构
广告系统架构
DSP
需求方平台,即为广告主服务平台,广告主可以通过DSP平台设置自己想要的受众,设置愿意出资多少购买这些受众的曝光,完成广告投放需求;
面向广告购买方
SSP
供应方平台,即为媒体服务平台,媒体方通过SSP平台完成广告资源的管理,如流量分配,价格,筛选等;面向广告售卖方
ADX
广告交易平台,即为连接买方和卖方;ADX将媒体的广告流量以拍卖的方式卖给DSP
DMP
数据管理平台,整合各方数据并提供数据分析、数据管理、数据调用,用来指导广告主进行广告优化和投放决策
RTB
实时竞价,100ms内完成计算,当前谁在这个广告位上提供的广告费用更高
实用程序的方式进行广告投放的管理,并利用算法和技术自动实现精准的目标受众定向,把广告内容投放给对的人;效果:
对广告主
提高流量的采购效率,更低成本,更可靠稳定的流量
可融合使用多种策略,投放不同的目标人群,使得广告的投放效果更加可控
减少广告浪费,提升转化率,扩大覆盖面积
对媒体资源
实现资源的自动化售卖,提高流量的使用率
有效利用优质流量和长尾流量
并且能基于人员的属性、兴趣等标签对不同的流量给 ...
关于广告系统
关于广告系统
以把合适的内容推送给合适的受众为目的的商业交易过程,是一种最直接、透明的流量变现方式。
广告平台提供流量分发的能力,同时提供广告创意,广告素材服务进而服务于:
1、广告主:金主,有广告联盟和广告主两种形式
2、媒体:流量提供方
3、消费者:C端用户,广告和流量的使用者
广告系统模块
至少包含以下部分
广告投放系统
承担广告内容管理和广告流量分发的功能,承前启后,是广告系统的核心部分
商户后台系统
用于广告主和广告联盟自主接入的管理平台,主要包含:广告需求承接
和广告效果数据、广告费用的展示
运营后台系统
广告平台方的运用后台,主要用户广告审核、广告主管理和其他管理功能
广告素材设计系统
用于制作广告创意,根据广告位点要求支持不同尺寸、不同投放环境点创意设计
数据统计系统
用户广告效果数据收集和分析
各个系统模块的交互
广告需求模型设计
把单个点广告需求称之为广告投放计划,广告需求是广告主的视角,其至少分为:
广告主
广告点需求方,是广告效果和广告计费的统一收口方
需要广告的投放目标,广告的投放时间、广告投放的定向和广告预算等内容进行配置
投放计划
广告主名下往 ...
SpringData JPA 表与表之间的操作
表分析
数据库表与表之间的关系
多对多
工程师---项目
老师---学生
一对多
学校---班级
班级---学生
一对一
学生---学生证
公民---身份证
image-20200402202254173
JPA中的一对多
一的一方为主表;多的一方为从表;从表依赖主表存在
首先,确定两张表之间的关系
在数据库中实现两张表的关系外键
在实体类中描述两个实体的关系
配置初实体类和数据库表的关系映射
@OneToMany
JPA中的多对多
@ManyToMany
JPA中的一对一
@OneToOne
问题描述
在利用Spring boot data
JPA进行表设计的时候,表对象之间经常存在各种映射关系,如何正确将理解的映射关系转化为代码中的映射关系是关键之处。
解决办法
概念理解
举例:在公司的权限管理中,存在公司表、部门表、员工表。
公司表和部门表的关系: 主控方:部门表 被控方:公司表
部门表和员工表的关系:
由于是多对多的关系,不存在谁是主控方或被控方,两者处于平行关系。
一对多或多对一,用外键关联,若未设置级联删除,则删除被控方记录的时候会有外键约束 ...
疫情之后,推动成交的核心方法
疫情之后的变化
用户变化
没必要的都不买,更加在意==刚需、痛点、高频、场景、时机==
潜意识会更在意健康防护类产品
面对萧条的五大对策
激活全员营销
重构产品及渠道
彻底消减成本
强化提升效率
重构内外关系
如何通过链路刺激与激活刚需
90%的用户在做购买决策是处于潜意识。
用户思维的本质:我关系你的关心。
需求驱动
先用情绪激活用户欲望,再切入场景,将产品转化为刚需
需求动力
情绪激活
荷尔蒙刺激、多巴胺刺激
正面情绪
快乐、乐观、自信
欣赏、放松、从容
负面情绪
恐惧、空虚、焦虑
愤怒、悲伤、害怕
孤独的另一个名字又叫找自己。
场景激活
信任驱动
人物信任
知名度、资历、成功案例
企业信任
影响力、行业地位
价值驱动
看点
亮点
记忆点
利益驱动
门槛要低
尽量别让用户下载、注册、安装、关注,有门槛就会有难度,流失率就会增加
即时反馈
过程清晰
用户天生多疑,活动是真的吗?一定要让他知道过程
服务驱动
About ME
👋 读书城南,🤔
在未来面前,我们都是孩子~
📙
一个热衷于探索学习新方向、新事物的智能产品经理,闲 ...
echarts数据可视化
echarts数据可视化
简介
ECharts,一个使用 JavaScript 实现的开源可视化库,可以流畅的运行在 PC
和移动设备上,兼容当前绝大部分浏览器(IE8/9/10/11,Chrome,Firefox,Safari等),底层依赖矢量图形库
ZRender,提供直观,交互丰富,可高度个性化定制的数据可视化图表。
丰富的可视化类型
ECharts 提供了常规的折线图、柱状图、散点图、饼图、K线图,用于统计的盒形图,用于地理数据可视化的地图、热力图、线图,用于关系数据可视化的关系图、treemap、旭日图,多维数据可视化的平行坐标,还有用于
BI 的漏斗图,仪表盘,并且支持图与图之间的混搭。
快速上手echarts
引入echarts
<head>
<meta charset="UTF-8">
<meta name="viewport" content="width=device-width, initial-scale=1.0">
<title> ...