跳转至

学习问题分类

监督学习

适用类型:在给定输入特征的情况下预测标签(每个“特征-标签”对称为一个样本)

问题描述:在给定一组特定的可用数据的情况下,估计未知事物的概率

目标:生成一个模型,能够将任何输入特征映射到标签(预测)

步骤:

回归

问题描述:有关“有多少”的问题

数据:标签为任意数值

模型:回归函数,输出为数值

目标函数:平方误差损失函数

分类

问题描述:预测样本属于哪个类别(“哪一个”)

问题类型:

  • 二项分类:只有两类的最简单的分类问题
  • 多项分类:具有两个以上类别的分类问题
  • 层次分类:寻找层次结构(分类错误不均等)

分类预测刻画:给定一个样本特征,模型为每个可能的类分配一个概率;预测类别概率的大小传达了一种模型的不确定性

模型:分类器,输出为预测的类别

目标函数:交叉熵损失函数

最常见的类别不一定是最终用于决策的类别,当不确定风险远远大于收益时,将预期风险作为损失函数

标记

问题类型:

  • 多标签分类:学习预测不互相排斥类别的问题

搜索

问题描述:检索相关性分数最高的部分结果,并对搜索结果进行排序

推荐系统

目标:向特定用户进行“个性化”推荐,为给定用户和物品的匹配性打分,从而检索得分最高的对象集,将其推荐给用户

序列学习

特点:

  • 具有“记忆”功能
  • 输入、输出都是长度可变的序列

问题类型:

  • 标记和解析:基于结构和语法假设对文本进行分解和注释,以获得一些注释
  • 自动语音识别:输入说话人的录音,输出所说内容的文本记录
  • 文本到语音
  • 机器翻译
  • 二维布局分析
  • 对话问题

无监督学习

问题描述:数据中不含有“目标”的机器学习问题

问题类型:

  • 聚类:在没有标签的情况下对数据分类
  • 主成分分析:找到少量的参数来准确捕捉数据的线性相关属性
  • 因果关系 / 概率图模型:描述观察到的许多数据的根本原因
  • 生成对抗网络:利用潜在的统计机制检查真实和虚假数据是否相同,以合成数据

强化学习

特点:与环境互动

与环境互动 VS 离线学习:

  • 离线学习:学习在算法与环境断开后进行(“预测模型”)
    • 优势:可孤立地进行模式识别,无需考虑其他问题
    • 缺陷:可解决的问题有限
  • 与环境互动:互动会影响环境(“智能代理”)

    分布偏移:训练和测试数据不同

学习过程:

目标:产生好的策略(智能体选择的动作受策略控制;从环境观察映射到行动的功能)

通用性:

  • 监督学习 \(\to\) 强化学习:智能体输出对应一个动作,并创建一个环境给予智能体奖励,奖励与损失函数一致

问题:

  • 学分分配:决定哪些行为值得奖励,哪些行为需要乘法
  • 可观测性:当前观测结果可能无法阐述有关当前状态的信息
  • 策略选择:利用当前最好的策略,还是探索新的策略空间

问题类型:

  • 马尔可夫决策过程:环境可被完全观察到
  • 上下文赌博机:状态不依赖于之前的操作
  • 多臂赌博机:没有状态,只有一组最初未知回报的可用动作