AI数据标注是什么
AI数据标注是什么
只要跟“监督学习”沾边的产品/技术,比如图像识别、人脸识别、自然语言处理等,都又一个必不可少的流程:
不断的使用标注后的数据去训练模型,不断调整模型参数,得到指标熟知更高的模型。
数据处理流程拆解
数据标注
数据质量直接影响模型质量
数据标注人员角色
- 标注员:标注员负责标记数据
- 审核员:审核员负责审核被标记数据的质量
- 管理员:管理人员、发放任务、统计工资
只有数据被审核员审核通过后,这批数据才能被算法同事使用
数据标记流程
任务分配
标记程序设计
进度跟踪
质量跟踪
模型训练
- 示例:为提高识别精确度,可以采用的方式如:
- 补充数据
- 提供正例数据
- 提供负例数据
- 进而及提高差异度的识别
- 优化数据
- 修改以往的错误标注
- 补充数据
模型测试
如无后台设计,则测试只能由人工抽样计算,繁琐且效率低下;故可以考虑后台计算
模型测试需关注的指标
精确率;又叫准确率
识别为正确的样本数 / 识别出来的样本数
召回率;又叫查全率(Recall Rate)
识别为正确的样本数 / 所有样本中的正确的数
精准率;又叫查准率
真正例率(同召回率/查全率)
假正例率
示例:举个栗子:全班一共30名男生、20名女生。需要机器识别出男生的数量。本次机器一共识别出20名目标对象,其中18名为男性,2名为女性。则
- 精确率=18/(18+2)=0.9
- 召回率=18/30=0.6
产品评估
在模型上线之前,产品需反复验证模型效果。为了用数据对比本模型和上一个模型的优劣,需要每次都记录好指标数据。
About ME
👋 读书城南,🤔 在未来面前,我们都是孩子~
- 📙 一个热衷于探索学习新方向、新事物的智能产品经理,闲暇时间喜欢coding💻、画图🎨、音乐🎵、学习ing~
👋 Social Media
🛠️ Blog: http://oceaneyes.top
⚡ PM导航: https://pmhub.oceangzy.top
☘️ CNBLOG: https://www.cnblogs.com/oceaneyes-gzy/
🌱 AI PRJ自己部署的一些算法demo: http://ai.oceangzy.top/
📫 Email: 1450136519@qq.com
💬 WeChat: OCEANGZY
💬 公众号: UncleJoker-GZY
👋 加入小组~
👋 感谢打赏~
本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来自 OCAEN.GZY读书城南!