OCAEN.GZY读书城南

发表于2018-11-20|Artificial IntelligenceData Mining

Python数据挖掘——基础知识数据挖掘又称从数据中挖掘知识、知识提取、数据／模式分析即为：从数据中发现知识的过程 1、数据清理（消除噪声，删除不一致数据） 2、数据集成（多种数据源组合在一起） 3、数据选择（从数据库中提取和分析任务相关的数据） 4、数据变换（通过汇总或聚焦操作，把数据变换和统一成适合挖掘的形式） 5、数据挖掘（基本步骤，使用智能化方法提取数据） 6、模式评估（根据某种兴趣度量，识别代表知识的真正的有趣模式） 7、知识表示（使用可视化和知识表示技术，向用户提供数据挖掘的知识）广义：从大量的数据中挖掘有趣模式和知识的过程数据挖掘的模式：描述性：描述性挖掘任务刻画目标数据中数据的一般性质预测性：预测性挖掘任务在当前数据上进行归纳，以便作出预测数据挖掘功能离群点分析特征化与区分数据特征化是目标类数据的一般性／特性的汇总数据区分是将目标数据对象的一般性与一个／多个对比类对象的一般性进行比较频繁模式、关联和相关性频繁模式包括频繁项集、序列模式和频繁子结构频繁项集挖掘是频繁模式的基础聚类分析最大化类内相似 ...

Python数据挖掘——数据预处理

发表于2018-11-20|Artificial IntelligenceData Mining

Python数据挖掘——数据预处理数据预处理数据质量准确性、完整性、一致性、时效性、可信性、可解释性数据预处理的主要任务数据清理数据集成数据归约维归约数值归约数据变换规范化数据离散化概念分层产生数据清理（试图填充缺失的值，光滑噪声并识别离群点，纠正数据的不一致）缺失值忽略元组人工填写缺失值使用一个全局常量填充缺失值使用属性的中心度量（均值／中位数）填充缺失值使用与给定元组属于同一类的所有样本的均值／中位数使用最可能的值填充缺失值注：某些情况，缺失值并不代表错误噪声数据（噪声是被测量的变量的随机误差或方差）分箱（通过考察数据的近邻，来光滑有序数据值）用箱均值用箱中位数用箱边界回归离群点分析（通过聚类来检测离群点）数据清理化为一个过程首先进行偏差检测，还要防止字段过载唯一性规则连续性规则空值规则偏差检测商业工具数据清洗工具数据审计工具数据迁移工具 EIL工具数据集成实体识别问题冗余和相关分析元组重复数据值冲突的检测与处理数据归约数据变换与数 ...

Python数据挖掘——数据概述

发表于2018-11-19|Artificial IntelligenceData Mining

Python数据挖掘——数据概述数据集由数据对象组成；数据的基本统计描述中心趋势度量均值中位数众数中列数数据集的最大值和最小值的平均度量数据分布极差最大值与最小值的差四分位数方差四分位数极差数据基本统计描述的图形显示一元分布分位数图分位数-分位数图（q-q图）直方图二元分布散点图数据可视化 1、基于像素的可视化技术 2、几何投影可视化技术 3、基于图符的可视化技术 4、层次可视化技术度量数据的相似性和相异性相似和相异都称邻近性如果不相似，则称相似性度量为0 About ME 👋 读书城南，🤔 在未来面前，我们都是孩子～ 📙 一个热衷于探索学习新方向、新事物的智能产品经理，闲暇时间喜欢coding💻、画图🎨、音乐🎵、学习ing~ 👋 Social Media 🛠️ Blog: http://oceaneyes.top ⚡ PM导航: https://pmhub.oceangzy.top ☘️ CNBLOG: https://www.cnblogs.com/ocea ...

增长黑客最常见的6大误区

发表于2018-11-04|产品增长产品

增长黑客最常见的6大误区误区一：“增长黑客和互联网营销没有区别，仅是注重低成本获客“ 增长其实最关注的不是拉新，而是留存，留存的复利效应。误区二：“增长黑客是灵丹妙药，立刻就能见效” 增长不能临时抱佛脚--缺乏长期积累，实力再雄厚也无法从中受益误区三：“就算产品很烂，增长黑客也能把它推火” 真正的增长必须基于一个好的产品；如果把增长比作盖房子，那么优秀的产品功能/用户体验就是地基。什么样的产品算的上好产品呢？首先要通过最小可执行产品（MVP）/功能设计（MVD），检测用户对于产品/功能的真实需求，从而找到产品-市场匹配（P/MF）只有达到PMF的产品，才能算合格的产品；真正的增长其实是建立在PMF的基础上的。如果要维持长期的用户增长，首先必须要有一个好产品。误区四：“增长黑客就是用一些小伎俩来走捷径” ·所谓的技巧和套路只是推动阶段性爆发的手段，而保持长期上升趋势则是需要依赖科学的战略和增长流程。 “增长黑客之父”肖恩.埃利斯的增长四步走理论：掌握基本原理（principles） PMF如何优化；北极星指标如何制定； AB测试；数 ...

行业现象资讯推荐算法本意是帮人们找到可能感兴趣的更多内容乱象不管在专门的资讯推荐 App 还是社交媒体上，垃圾新闻、低俗资讯反而成为主力内容原因投机者们、垃圾内容的制造者们很快找到了推荐算法天然的缺陷，学会如何利用它来迎合人性的弱点，煽动情绪，刺激欲望导致推荐算法让垃圾内容的制造者占了上风，而真正的内容机构也不得不将自己的内容恶俗化，以迎合推荐算法。低俗内容越来越多，高品质内容越来越少。这不是算法的错，算法尽职尽责做了自己的工作，但算法的参数和控制指标需要重置，算法背后的人需要做出改变。推荐算法需谨记的5个原则真实性和准确性人工干预，区分真假，将人工意见转为标签加入推荐算法内，监控和改进算法，放置算法被滥用。独立性资讯推荐算法是为读者服务的，而不是为商业模式（营销推荐算法则偏向为商业模式），为广告主资讯推荐算法容易让那些骗点击的标题党（clickbait）内容和广告凸显出来，正常的内容反而被打压；目前网络内容最严重的问题——内容的权重，并不是根据内容是否对读者有益来判断的，而是为商业模型服务的，让人们花更多时间沉 ...

Algorithm入门解读

发表于2018-10-01|Artificial IntelligenceMachine LearningAlgorithm

决策树根据一些feature特征进行分类每个节点，根据问题判断，将数据分为两类随机森林逻辑回归 Support vector machines 支持向量机 Navie Bayes 朴素贝叶斯 kNN: k-nearest neighbor classification K近邻算法 K均值算法 Adaboost 神经网络马尔科夫 About ME 👋 读书城南，🤔 在未来面前，我们都是孩子～ 📙 一个热衷于探索学习新方向、新事物的智能产品经理，闲暇时间喜欢coding💻、画图🎨、音乐🎵、学习ing~ 👋 Social Media 🛠️ Blog: http://oceaneyes.top ⚡ PM导航: https://pmhub.oceangzy.top ☘️ CNBLOG: https://www.cnblogs.com/oceaneyes-gzy/ 🌱 AI PRJ自己部署的一些算法demo: http://ai.oceangzy.top/ 📫 Email: 1450136519@qq.com 💬 WeChat: OCEANGZY 💬 ...

一、基于内容推荐基于内容的推荐（Content-based Recommendation）是信息过滤技术的延续与发展，它是建立在项目的内容信息上作出推荐的，而不需要依据用户对项目的评价意见，更多地需要用机器学习的方法从关于内容的特征描述的事例中得到用户的兴趣资料。在基于内容的推荐系统中，项目或对象是通过相关的特征的属性来定义，系统基于用户评价对象的特征，学习用户的兴趣，考察用户资料与待预测项目的相匹配程度。用户的资料模型取决于所用学习方法，常用的有决策树、神经网络和基于向量的表示方法等。基于内容的用户资料是需要有用户的历史数据，用户资料模型可能随着用户的偏好改变而发生变化。基于内容推荐方法的优点是： 1）不需要其它用户的数据，没有冷开始问题和稀疏问题。 2）能为具有特殊兴趣爱好的用户进行推荐。 3）能推荐新的或不是很流行的项目，没有新项目问题。 4）通过列出推荐项目的内容特征，可以解释为什么推荐那些项目。 5）已有比较好的技术，如关于分类学习方面的技术已相当成熟。缺点是要求内容能容易抽取成有意义的特征，要求特征内容有良好的结构性，并且用户的口味必须能够用内容特征形式来表达， ...

数据分析06：matplotlib饼状图

发表于2018-03-02|数据分析Python3Numpy

import numpy as np import matplotlib.pyplot as plt ''' 饼状图显示一个数据系列中各项总和的比例；饼状图中的数据点显示为整个饼状图的百分比；如：前十大品牌占市场份额图 ''' # 例 labels = 'A','B','C','D' fracs = [15.0,30.0,45.0,10.0] explode = [0,0.05,0,0.08] plt.axes(aspect=1) plt.pie(x=fracs,labels=labels,autopct="%.0f%%",explode=explode,shadow=True) plt.show() # 练习 labels = 'SH','BJ','SZ','GZ' fracs = [20,30,25,15] explode = [0,0,0.08 ...

数据分析05：matplotlib直方图

发表于2018-03-02|数据分析Python3Matplotlib

import numpy as np import matplotlib.pyplot as plt ''' 由于一系列不等的纵形图组成，表示数据分布的情况例如：某年级同学的身高分布需要注意与柱形图的区别 ''' # # 例 # mu = 100 #均值 # sigma = 20 # 标准差 # # x = mu + sigma * np.random.random(1000) # plt.hist(x,bins=20,density=True) # plt.show() # # # # 双变量图频率越低越暗 # # x的中心为2 # x = np.random.randn(1000) +2 # # y的中心为3 # y = np.random.randn(1000)+3 # # plt.hist2d(x,y,bins=40) # plt.show() # 练习 ''' 随机生成2000个数据，均值为10，方差3；绘制两个直方图， bins = ...

数据分析07：matplotlib箱线图

发表于2018-03-02|数据分析Python3Matplotlib

import numpy as np import matplotlib.pyplot as plt ''' 箱形图（Box-plot）又称为盒须图，盒式图，或箱线图；是一种用在显示一组数据分散情况的资料统计图；上边缘，上四分位数，中位数，下四分位数，下边缘，异常值； ''' np.random.seed(100) data = np.random.normal(size=1000,loc=0,scale=1) # sym 指定异常值的点；whis虚线的长度，通过调整whis的大小来决定收入异常值的多少 plt.boxplot(data,sym ='o',whis=1.5) plt.show() # 同一张图中显示多个箱线图 # 4组 1000的数据 data = np.random.normal(size=(1000,4),loc = 0,scale=1) # 每组的标签为ABCD labels = ['A','B','C',' ...