学习问题分类

监督学习¶

适用类型：在给定输入特征的情况下预测标签（每个“特征-标签”对称为一个样本）

问题描述：在给定一组特定的可用数据的情况下，估计未知事物的概率

目标：生成一个模型，能够将任何输入特征映射到标签（预测）

步骤：

回归¶

问题描述：有关“有多少”的问题

数据：标签为任意数值

模型：回归函数，输出为数值

目标函数：平方误差损失函数

分类¶

问题描述：预测样本属于哪个类别（“哪一个”）

问题类型：

二项分类：只有两类的最简单的分类问题
多项分类：具有两个以上类别的分类问题
层次分类：寻找层次结构（分类错误不均等）

分类预测刻画：给定一个样本特征，模型为每个可能的类分配一个概率；预测类别概率的大小传达了一种模型的不确定性

模型：分类器，输出为预测的类别

目标函数：交叉熵损失函数

最常见的类别不一定是最终用于决策的类别，当不确定风险远远大于收益时，将预期风险作为损失函数

标记¶

问题类型：

多标签分类：学习预测不互相排斥类别的问题

搜索¶

问题描述：检索相关性分数最高的部分结果，并对搜索结果进行排序

序列学习¶

特点：

具有“记忆”功能
输入、输出都是长度可变的序列

问题类型：

标记和解析：基于结构和语法假设对文本进行分解和注释，以获得一些注释
自动语音识别：输入说话人的录音，输出所说内容的文本记录
文本到语音
机器翻译
二维布局分析
对话问题

无监督学习¶

问题描述：数据中不含有“目标”的机器学习问题

问题类型：

聚类：在没有标签的情况下对数据分类
主成分分析：找到少量的参数来准确捕捉数据的线性相关属性
因果关系 / 概率图模型：描述观察到的许多数据的根本原因
生成对抗网络：利用潜在的统计机制检查真实和虚假数据是否相同，以合成数据

强化学习¶

特点：与环境互动

与环境互动 VS 离线学习：

离线学习：学习在算法与环境断开后进行（“预测模型”）
- 优势：可孤立地进行模式识别，无需考虑其他问题
- 缺陷：可解决的问题有限
与环境互动：互动会影响环境（“智能代理”）

分布偏移：训练和测试数据不同

学习过程：

目标：产生好的策略（智能体选择的动作受策略控制；从环境观察映射到行动的功能）

通用性：

监督学习 \(\to\) 强化学习：智能体输出对应一个动作，并创建一个环境给予智能体奖励，奖励与损失函数一致

问题：

学分分配：决定哪些行为值得奖励，哪些行为需要乘法
可观测性：当前观测结果可能无法阐述有关当前状态的信息
策略选择：利用当前最好的策略，还是探索新的策略空间

问题类型：

马尔可夫决策过程：环境可被完全观察到
上下文赌博机：状态不依赖于之前的操作
多臂赌博机：没有状态，只有一组最初未知回报的可用动作

学习问题分类

监督学习¶

回归¶

分类¶

标记¶

搜索¶

推荐系统¶

序列学习¶

无监督学习¶

强化学习¶