Python数据挖掘——基础知识
Python数据挖掘——基础知识
数据挖掘又称从数据中 挖掘知识、知识提取、数据/模式分析
即为:从数据中发现知识的过程
1、数据清理 (消除噪声,删除不一致数据)
2、数据集成 (多种数据源 组合在一起)
3、数据选择 (从数据库中提取和分析任务相关的数据)
4、数据变换
(通过汇总或聚焦操作,把数据变换和统一成适合挖掘的形式)
5、数据挖掘 (基本步骤,使用智能化方法提取数据)
6、模式评估 (根据某种兴趣度量,识别代表知识的真正的有趣模式)
7、知识表示
(使用可视化和知识表示技术,向用户提供数据挖掘的知识)
广义:从大量的数据中挖掘有趣模式和知识的过程
数据挖掘的模式:
描述性:描述性挖掘任务刻画目标数据中数据的一般性质
预测性:预测性挖掘任务在当前数据上进行归纳,以便作出预测
数据挖掘功能
离群点分析
特征化与区分
数据特征化 是目标类数据的一般性/特性的汇总
数据区分是将目标数据对象的一般性
与一个/多个对比类对象的一般性进行比较
频繁模式、关联和相关性
频繁模式包括频繁项集、序列模式和频繁子结构
频繁项集挖掘是频繁模式的基础
聚类分析
最大化类内相似 ...
Python数据挖掘——数据预处理
Python数据挖掘——数据预处理
数据预处理
数据质量
准确性、完整性、一致性、时效性、可信性、可解释性
数据预处理的主要任务
数据清理
数据集成
数据归约
维归约
数值归约
数据变换
规范化
数据离散化
概念分层产生
数据清理(试图填充缺失的值,光滑噪声并识别离群点,纠正数据的不一致)
缺失值
忽略元组
人工填写缺失值
使用一个全局常量填充缺失值
使用属性的中心度量(均值/中位数)填充缺失值
使用与给定元组属于同一类的所有样本的均值/中位数
使用最可能的值 填充缺失值
注:某些情况,缺失值并不代表错误
噪声数据(噪声是被测量的变量的随机误差或方差)
分箱(通过考察数据的近邻,来光滑有序数据值)
用箱均值
用箱中位数
用箱边界
回归
离群点分析(通过聚类来检测离群点)
数据清理化为一个过程
首先进行偏差检测,还要防止字段过载
唯一性规则
连续性规则
空值规则
偏差检测商业工具
数据清洗工具
数据审计工具
数据迁移工具
EIL工具
数据集成
实体识别问题
冗余和相关分析
元组重复
数据值冲突的检测与处理
数据归约
数据变换与数 ...
Python数据挖掘——数据概述
Python数据挖掘——数据概述
数据集由数据对象组成;
数据的基本统计描述
中心趋势度量
均值
中位数
众数
中列数
数据集的最大值和最小值的平均
度量数据分布
极差
最大值与最小值的差
四分位数
方差
四分位数极差
数据基本统计描述的图形显示
一元分布
分位数图
分位数-分位数图(q-q图)
直方图
二元分布
散点图
数据可视化
1、基于像素的可视化技术
2、几何投影可视化技术
3、基于图符的可视化技术
4、层次可视化技术
度量数据的相似性和相异性
相似 和相异 都称 邻近性
如果不相似,则称 相似性度量为0
About ME
👋 读书城南,🤔
在未来面前,我们都是孩子~
📙
一个热衷于探索学习新方向、新事物的智能产品经理,闲暇时间喜欢coding💻、画图🎨、音乐🎵、学习ing~
👋 Social Media
🛠️ Blog: http://oceaneyes.top
⚡ PM导航: https://pmhub.oceangzy.top
☘️ CNBLOG: https://www.cnblogs.com/ocea ...
增长黑客最常见的6大误区
增长黑客最常见的6大误区
误区一:“增长黑客和互联网营销没有区别,仅是注重低成本获客“
增长其实最关注的不是拉新,而是留存,留存的复利效应。
误区二:“增长黑客是灵丹妙药,立刻就能见效”
增长不能临时抱佛脚--缺乏长期积累,实力再雄厚也无法从中受益
误区三:“就算产品很烂,增长黑客也能把它推火”
真正的增长必须基于一个好的产品;如果把增长比作盖房子,那么优秀的产品功能/用户体验就是地基。
什么样的产品算的上好产品呢?
首先要通过最小可执行产品(MVP)/功能设计(MVD),检测用户对于产品/功能的真实需
求,从而找到产品-市场匹配(P/MF)只有达到PMF的产品,才能算合格的产品;真正的增长其实
是建立在PMF的基础上的。
如果要维持长期的用户增长,首先必须要有一个好产品。
误区四:“增长黑客就是用一些小伎俩来走捷径”
·所谓的技巧和套路只是推动阶段性爆发的手段,而保持长期上升趋势则是需要依赖科学的战
略和增长流程。
“增长黑客之父”肖恩.埃利斯的增长四步走理论:
掌握基本原理(principles)
PMF如何优化;
北极星指标如何制定;
AB测试;
数 ...
推荐算法应该谨记的5个原则
行业现象
资讯推荐算法
本意是帮人们找到可能感兴趣的更多内容
乱象
不管在专门的资讯推荐 App
还是社交媒体上,垃圾新闻、低俗资讯反而成为主力内容
原因
投机者们、垃圾内容的制造者们很快找到了推荐算法天然的缺陷,学会如何利用它来迎合人性的弱点,煽
动情绪,刺激欲望
导致
推荐算法让垃圾内容的制造者占了上风,而真正的内容机构也不得不将自己的内容恶俗化,以迎合推荐
算法。低俗内容越来越多,高品质内容越来越少。
这不是算法的错,算法尽职尽责做了自己的工作,但算法的参数和控制指标需要重置,算法背后的人需要做出改变。
推荐算法需谨记的5个原则
真实性和准确性
人工干预,区分真假,将人工意见转为标签加入推荐算法内,监控和改进算法,放置算法被滥用。
独立性
资讯推荐算法是为读者服务的,而不是为商业模式(营销推荐算法则偏向为商业模式),为广告主
资讯推荐算法容易让那些骗点击的标题党(clickbait)内容和广告凸显出来,正常的内容反而被打压;
目前网络内容最严重的问题——内容的权重,并不是根据内容是否对读者有益来判断的,而是为商业模型服
务的,让人们花更多时间沉 ...
Algorithm入门解读
决策树
根据一些feature特征进行分类
每个节点,根据问题判断,将数据分为两类
随机森林
逻辑回归
Support vector machines
支持向量机
Navie Bayes
朴素贝叶斯
kNN: k-nearest neighbor
classification
K近邻算法
K均值算法
Adaboost
神经网络
马尔科夫
About ME
👋 读书城南,🤔
在未来面前,我们都是孩子~
📙
一个热衷于探索学习新方向、新事物的智能产品经理,闲暇时间喜欢coding💻、画图🎨、音乐🎵、学习ing~
👋 Social Media
🛠️ Blog: http://oceaneyes.top
⚡ PM导航: https://pmhub.oceangzy.top
☘️ CNBLOG: https://www.cnblogs.com/oceaneyes-gzy/
🌱 AI PRJ自己部署的一些算法demo: http://ai.oceangzy.top/
📫 Email: 1450136519@qq.com
💬 WeChat: OCEANGZY
💬 ...
推荐系统常用算法
一、基于内容推荐
基于内容的推荐(Content-based
Recommendation)是信息过滤技术的延续与发展,它是建立在项目的内容信息上作出推荐的,而不需要依据用户对项目的评价意见,更多地需要用机
器学习的方法从关于内容的特征描述的事例中得到用户的兴趣资料。在基于内容的推荐系统中,项目或对象是通过相关的特征的属性来定义,系统基于用户评价对象
的特征,学习用户的兴趣,考察用户资料与待预测项目的相匹配程度。用户的资料模型取决于所用学习方法,常用的有决策树、神经网络和基于向量的表示方法等。
基于内容的用户资料是需要有用户的历史数据,用户资料模型可能随着用户的偏好改变而发生变化。
基于内容推荐方法的优点是:
1)不需要其它用户的数据,没有冷开始问题和稀疏问题。
2)能为具有特殊兴趣爱好的用户进行推荐。
3)能推荐新的或不是很流行的项目,没有新项目问题。
4)通过列出推荐项目的内容特征,可以解释为什么推荐那些项目。
5)已有比较好的技术,如关于分类学习方面的技术已相当成熟。
缺点是要求内容能容易抽取成有意义的特征,要求特征内容有良好的结构性,并且用户的口味必须能够用内容特征形式来表达, ...
数据分析06:matplotlib饼状图
import numpy as np
import matplotlib.pyplot as plt
'''
饼状图显示一个数据系列中各项总和的比例;
饼状图中的数据点显示为整个饼状图的百分比;
如:前十大品牌占市场份额图
'''
# 例
labels = 'A','B','C','D'
fracs = [15.0,30.0,45.0,10.0]
explode = [0,0.05,0,0.08]
plt.axes(aspect=1)
plt.pie(x=fracs,labels=labels,autopct="%.0f%%",explode=explode,shadow=True)
plt.show()
# 练习
labels = 'SH','BJ','SZ','GZ'
fracs = [20,30,25,15]
explode = [0,0,0.08 ...
数据分析05:matplotlib直方图
import numpy as np
import matplotlib.pyplot as plt
'''
由于一系列不等的纵形图组成,表示数据分布的情况
例如:某年级同学的身高分布
需要注意与 柱形图的区别
'''
# # 例
# mu = 100 #均值
# sigma = 20 # 标准差
#
# x = mu + sigma * np.random.random(1000)
# plt.hist(x,bins=20,density=True)
# plt.show()
#
#
# # 双变量图 频率越低越暗
# # x的中心为2
# x = np.random.randn(1000) +2
# # y的中心为3
# y = np.random.randn(1000)+3
#
# plt.hist2d(x,y,bins=40)
# plt.show()
# 练习
'''
随机生成2000个数据,均值为10, 方差3;
绘制两个直方图, bins = ...
数据分析07:matplotlib箱线图
import numpy as np
import matplotlib.pyplot as plt
'''
箱形图(Box-plot)又称为盒须图,盒式图,或 箱线图;
是一种用在显示一组数据分散情况的资料统计图;
上边缘,上四分位数,中位数,下四分位数,下边缘,异常值;
'''
np.random.seed(100)
data = np.random.normal(size=1000,loc=0,scale=1)
# sym 指定异常值的点;whis虚线的长度, 通过调整whis的大小来决定收入异常值的多少
plt.boxplot(data,sym ='o',whis=1.5)
plt.show()
# 同一张图中显示多个箱线图
# 4组 1000的数据
data = np.random.normal(size=(1000,4),loc = 0,scale=1)
# 每组的标签为ABCD
labels = ['A','B','C',' ...