核心组件
数据¶
数据集:由一个个样本组成,遵循独立同分布
样本(数据点 / 数据示例):由一组称为特征(协变量)的属性构成
标签(目标):待预测的属性
维度:当每个样本的特征类别数量相同时,其特征向量长度
固定长度的特征向量便于量化学习大量样本
模型¶
作用:转换数据
深度学习与经典方法的区别:深度学习模型由神经网络错综复杂交织在一起,包含层层数据转换
目标函数¶
概念:模型优劣程度的可视化度量
通常定义一个目标函数以期优化至最低点(故又称损失函数)
常见目标函数:
- 平方误差
- 错误率
数据集分类:
- 训练集:用于拟合模型参数
- 测试集:用于评估拟合的模型
过拟合:一个模型在训练集上表现良好,但不能推广到测试集
优化算法¶
作用:搜索出最佳参数,以最小化损失函数
基本方法:梯度下降