OCAEN.GZY读书城南

发表于2020-12-28|Artificial IntelligenceMachine LearningAlgorithm

k-近邻算法概述优点精度高、对异常值不敏感、无数据输入假定缺点计算复杂度高、空间复杂度高适用数据范围数值型和标称型工作原理样本数据集，每个数据都存在标签状态输入新的没有标签状态的数据，将新数据的每个特征与样本集中数据对应的特征比较算法提取样本集中特征最相似（最近邻）数据的标签；一般选取样本数据集中前k个最相似的数据; k通常是不大于20的整数一般流程收集数据：可以使用任何方法准备数据：距离计算索需要的数值，最好是结构化的数据格式分析数据：可以使用任何方法训练算法：不适用于k-近邻测试算法：计算错误率使用算法：首选需输入样本数据和结构化的输出结果，然后运行k-近邻算法判定输入数据分别属于哪个分类，最后应用对计算出的分类执行后续的处理 About ME 👋 读书城南，🤔 在未来面前，我们都是孩子～ 📙 一个热衷于探索学习新方向、新事物的智能产品经理，闲暇时间喜欢coding💻、画图🎨、音乐🎵、学习ing~ 👋 Social Media 🛠️ Blog: http://oceaneyes.top ⚡ ...

机器学习实战-笔记1-基础

发表于2020-12-28|Artificial IntelligenceMachine LearningAlgorithm

机器学习实战-笔记1-基础机器学习的主要任务监督学习-必须知道预测什么，即目标变量的分类信息** 分类，将实例数据划分到核实的分类中回归，用于预测数值型数据监督学习的用途 k-近邻算法朴素贝叶斯算法支持向量机决策树线性回归局部加权线性回归 Ridge回归 Lasso最小回归系数估计无监督学习-没有类别信息，也没有目标值聚类，将数据集合分成类似的对象组成多个类的过程密度估计，寻找描述数据统计值的过程无监督学习的用途 K-均值 DBSCAN 最大期望算法 Parzen窗设计如何选择合适的算法使用机器学习算法的目的，想要算法完成什么任务如果预测目标变量的值，则可选择监督学习算法目标变量类型如果是离散型，如是/否、1/2/3等，则可使用分类算法目标变量类型如果是连续型的数值，如1.0~100.0等，则可以使用回归算法如果不是预测目标变量的值，则可选择无监督学习算法如果只需要将数据分为离散的组，则使用聚类算法如果需要估计数据与每个分组的相似程度，则使用密度估计算法需要分析或收集的数据是什么开发机器学习应用程序的步骤 ...

自然语言的几个重要模型-学习记录

发表于2020-12-25|Artificial IntelligenceNatural Language Processing

自然语言的几个重要模型-学习记录循环神经网络 (序列模型序列依赖问题) 双向循环神经网络（输入序列正向和反向依赖问题）深度双向循环神经网络 LSTM（梯度消失问题） GRU text CNN（一维卷积和池化） seq2seq（序列到序列问题） Attention（decoder对encoder输入序列注意力问题，从输入获取可用信息） Transform（对输入的序列分成q检索项 k键项 v值项进行计算，矩阵并行计算）语言预训练方法ELMO （使用双向rnn组合中间层权重）语言预训练方法BERT ERNIE （使用transform encoder部分无需标签，ERNIE主要处理中文场景按词mask）语言预训练方法GPT （使用transform decoder部分） 1.循环神经网络 img 使用隐藏层保留之前时间步的信息梯度裁剪处理梯度爆炸问题，即超出阈值怎重置为阈值。因为在RNN中目标函数有关隐藏状态的梯度会因为时间步数较大或时间步较小而变大。 2.双向循环神经网络 img （橘色的实线和虚线分别是前向传递和后向传递的过程）通常RNN输入序列 ...

案例-基于朴素贝叶斯过滤垃圾邮件

发表于2020-12-25|Artificial IntelligenceMachine LearningAlgorithm

基于朴素贝叶斯过滤垃圾邮件收集数据：提供文本文件准备数据：将文本文件解析成词条向量分析数据：检查词条确保解析的正确性训练算法：使用trainNB1()函数测试算法：使用classifyNB() 并且构建一个新的测试函数来计算文档集的错误率使用算法：构建完整程序对一组文档进行分类，并将错分的文档输出到屏幕准备数据：切分文本 mySent = 'this book is the best book on Python pr M.L I have ever laid eyes upon.' mySent.split() ['this', 'book', 'is', 'the', 'best', 'book', 'on', 'Python', 'pr', 'M.L', 'I', 'have', 'ever', 'laid ...

基于贝叶斯决策理论的分类方法

发表于2020-12-24|Artificial IntelligenceMachine LearningAlgorithm

基于贝叶斯决策理论的分类方法朴素贝叶斯是贝叶斯决策理论的一部分 - 优点：在数据较少的情况下仍然有效，可以处理多类别问题 - 缺点：对于输入数据的准备方式较为敏感 - 适用数据类型：标称型数据标称型：一般在有限的数据中取，而且只存在‘是’和‘否’两种不同的结果（一般用于分类）数值型：可以在无限的数据中取，而且数值比较具体化，例如4.02,6.23这种值（一般用于回归分析）贝叶斯决策理论的核心思想，即选择具有最高概率的决策假设现在我们有一个数据集，它由两类数据组成，数据分布如图我们现在用p1(x,y)表示数据点(x,y)属于类别1（图中用圆点表示的类别）的概率，用p2(x,y)表示数据点(x,y)属于类别2（图中用三角形表示的类别）的概率，那么对于一个新数据点(x,y)，可以用下面的规则来判断它的类别：如果 p1(x,y) > p2(x,y)，那么类别为1 如果 p2(x,y) > p1(x,y)，那么类别为2 计算分类的方法使用kNN，进行1000次距离计算；使用决策树，分别沿x轴、y轴划分数据；计算数据点属于每个类别的概率，并进行比较条件概率 ...

广告系统架构

发表于2020-02-22|产品广告

广告系统架构 DSP 需求方平台，即为广告主服务平台，广告主可以通过DSP平台设置自己想要的受众，设置愿意出资多少购买这些受众的曝光，完成广告投放需求；面向广告购买方 SSP 供应方平台，即为媒体服务平台，媒体方通过SSP平台完成广告资源的管理，如流量分配，价格，筛选等；面向广告售卖方 ADX 广告交易平台，即为连接买方和卖方；ADX将媒体的广告流量以拍卖的方式卖给DSP DMP 数据管理平台，整合各方数据并提供数据分析、数据管理、数据调用，用来指导广告主进行广告优化和投放决策 RTB 实时竞价，100ms内完成计算，当前谁在这个广告位上提供的广告费用更高实用程序的方式进行广告投放的管理，并利用算法和技术自动实现精准的目标受众定向，把广告内容投放给对的人；效果：对广告主提高流量的采购效率，更低成本，更可靠稳定的流量可融合使用多种策略，投放不同的目标人群，使得广告的投放效果更加可控减少广告浪费，提升转化率，扩大覆盖面积对媒体资源实现资源的自动化售卖，提高流量的使用率有效利用优质流量和长尾流量并且能基于人员的属性、兴趣等标签对不同的流量给 ...

关于广告系统

发表于2020-02-20|产品广告产品

关于广告系统以把合适的内容推送给合适的受众为目的的商业交易过程，是一种最直接、透明的流量变现方式。广告平台提供流量分发的能力，同时提供广告创意，广告素材服务进而服务于： 1、广告主：金主，有广告联盟和广告主两种形式 2、媒体：流量提供方 3、消费者：C端用户，广告和流量的使用者广告系统模块至少包含以下部分广告投放系统承担广告内容管理和广告流量分发的功能，承前启后，是广告系统的核心部分商户后台系统用于广告主和广告联盟自主接入的管理平台，主要包含：广告需求承接和广告效果数据、广告费用的展示运营后台系统广告平台方的运用后台，主要用户广告审核、广告主管理和其他管理功能广告素材设计系统用于制作广告创意，根据广告位点要求支持不同尺寸、不同投放环境点创意设计数据统计系统用户广告效果数据收集和分析各个系统模块的交互广告需求模型设计把单个点广告需求称之为广告投放计划，广告需求是广告主的视角，其至少分为：广告主广告点需求方，是广告效果和广告计费的统一收口方需要广告的投放目标，广告的投放时间、广告投放的定向和广告预算等内容进行配置投放计划广告主名下往 ...

SpringData JPA 表与表之间的操作

发表于2020-02-19|JAVASpringData JPA

表分析数据库表与表之间的关系多对多工程师---项目老师---学生一对多学校---班级班级---学生一对一学生---学生证公民---身份证 image-20200402202254173 JPA中的一对多一的一方为主表；多的一方为从表；从表依赖主表存在首先，确定两张表之间的关系在数据库中实现两张表的关系外键在实体类中描述两个实体的关系配置初实体类和数据库表的关系映射 @OneToMany JPA中的多对多 @ManyToMany JPA中的一对一 @OneToOne 问题描述在利用Spring boot data JPA进行表设计的时候，表对象之间经常存在各种映射关系，如何正确将理解的映射关系转化为代码中的映射关系是关键之处。解决办法概念理解举例：在公司的权限管理中，存在公司表、部门表、员工表。公司表和部门表的关系：主控方：部门表被控方：公司表部门表和员工表的关系：由于是多对多的关系，不存在谁是主控方或被控方，两者处于平行关系。一对多或多对一，用外键关联，若未设置级联删除，则删除被控方记录的时候会有外键约束 ...

疫情之后，推动成交的核心方法

发表于2020-02-18|产品营销增长

疫情之后的变化用户变化没必要的都不买，更加在意==刚需、痛点、高频、场景、时机== 潜意识会更在意健康防护类产品面对萧条的五大对策激活全员营销重构产品及渠道彻底消减成本强化提升效率重构内外关系如何通过链路刺激与激活刚需 90%的用户在做购买决策是处于潜意识。用户思维的本质：我关系你的关心。需求驱动先用情绪激活用户欲望，再切入场景，将产品转化为刚需需求动力情绪激活荷尔蒙刺激、多巴胺刺激正面情绪快乐、乐观、自信欣赏、放松、从容负面情绪恐惧、空虚、焦虑愤怒、悲伤、害怕孤独的另一个名字又叫找自己。场景激活信任驱动人物信任知名度、资历、成功案例企业信任影响力、行业地位价值驱动看点亮点记忆点利益驱动门槛要低尽量别让用户下载、注册、安装、关注，有门槛就会有难度，流失率就会增加即时反馈过程清晰用户天生多疑，活动是真的吗？一定要让他知道过程服务驱动 About ME 👋 读书城南，🤔 在未来面前，我们都是孩子～ 📙 一个热衷于探索学习新方向、新事物的智能产品经理，闲 ...

echarts数据可视化

发表于2020-02-10|数据可视化echarts

echarts数据可视化简介 ECharts，一个使用 JavaScript 实现的开源可视化库，可以流畅的运行在 PC 和移动设备上，兼容当前绝大部分浏览器（IE8/9/10/11，Chrome，Firefox，Safari等），底层依赖矢量图形库 ZRender，提供直观，交互丰富，可高度个性化定制的数据可视化图表。丰富的可视化类型 ECharts 提供了常规的折线图、柱状图、散点图、饼图、K线图，用于统计的盒形图，用于地理数据可视化的地图、热力图、线图，用于关系数据可视化的关系图、treemap、旭日图，多维数据可视化的平行坐标，还有用于 BI 的漏斗图，仪表盘，并且支持图与图之间的混搭。快速上手echarts 引入echarts <head> <meta charset="UTF-8"> <meta name="viewport" content="width=device-width, initial-scale=1.0"> <title> ...