跳转至

核心组件

数据

数据集:由一个个样本组成,遵循独立同分布

样本(数据点 / 数据示例):由一组称为特征(协变量)的属性构成

标签(目标):待预测的属性

维度:当每个样本的特征类别数量相同时,其特征向量长度

固定长度的特征向量便于量化学习大量样本

模型

作用:转换数据

深度学习与经典方法的区别:深度学习模型由神经网络错综复杂交织在一起,包含层层数据转换

目标函数

概念:模型优劣程度的可视化度量

通常定义一个目标函数以期优化至最低点(故又称损失函数)

常见目标函数:

  • 平方误差
  • 错误率

数据集分类:

  • 训练集:用于拟合模型参数
  • 测试集:用于评估拟合的模型

过拟合:一个模型在训练集上表现良好,但不能推广到测试集

优化算法

作用:搜索出最佳参数,以最小化损失函数

基本方法:梯度下降