AI数据标注是什么

​ 只要跟“监督学习”沾边的产品/技术,比如图像识别、人脸识别、自然语言处理等,都又一个必不可少的流程:

image-20190225160952429

不断的使用标注后的数据去训练模型,不断调整模型参数,得到指标熟知更高的模型。

数据处理流程拆解

数据标注

数据质量直接影响模型质量

  • 数据标注人员角色

    • 标注员:标注员负责标记数据
    • 审核员:审核员负责审核被标记数据的质量
    • 管理员:管理人员、发放任务、统计工资

    只有数据被审核员审核通过后,这批数据才能被算法同事使用

  • 数据标记流程

    • 任务分配

    • 标记程序设计

  • 进度跟踪

  • 质量跟踪

模型训练

  • 示例:为提高识别精确度,可以采用的方式如:
    • 补充数据
      • 提供正例数据
      • 提供负例数据
      • 进而及提高差异度的识别
    • 优化数据
      • 修改以往的错误标注

模型测试

如无后台设计,则测试只能由人工抽样计算,繁琐且效率低下;故可以考虑后台计算

  • 模型测试需关注的指标

    • 精确率;又叫准确率

      识别为正确的样本数 / 识别出来的样本数

    • 召回率;又叫查全率(Recall Rate)

      识别为正确的样本数 / 所有样本中的正确的数

    • 精准率;又叫查准率

    • 真正例率(同召回率/查全率)

    • 假正例率

    • 示例:举个栗子:全班一共30名男生、20名女生。需要机器识别出男生的数量。本次机器一共识别出20名目标对象,其中18名为男性,2名为女性。则

      • 精确率=18/(18+2)=0.9
      • 召回率=18/30=0.6

产品评估

在模型上线之前,产品需反复验证模型效果。为了用数据对比本模型和上一个模型的优劣,需要每次都记录好指标数据。


About ME

👋 读书城南,🤔 在未来面前,我们都是孩子~
  • 📙 一个热衷于探索学习新方向、新事物的智能产品经理,闲暇时间喜欢coding💻、画图🎨、音乐🎵、学习ing~
👋 Social Media
👋 加入小组~

👋 感谢打赏~