1.1 线性模型(linear model)
试图学得一个通过属性的线性组合来进行预测的函数
函数形式:
向量形式:
1.2 非线性模型(nonlinear model)
在线性模型的基础上通过引入层级结构或高位映射而得
1.4 可解释性(comprehensibility/understandability)
ω直观表达了各属性在预测中的重要性
2.线性回归(linear regression)
2.1 定义与数学形式
试图学得一个线性模型以尽可能准确地预测实值输出标记
公式:
2.2 离散属性与序关系
2.3 性能度量-均方误差
公式:
2.3.1 欧氏距离(Euclidean distance)
2.3.2 最小二乘法(least square method)
2.3.3 最小二乘“参数估计”(parameter estimation)
ω和b最优解的闭式(closed-form)解
2.4 多元线性回归(multivariate linear regression)
2.4.1 秩矩阵(full-rank matrix)或正则矩阵(positive definite matrix)
现实任务重的xTx往往不是满秩矩阵
2.4.2 归纳偏好决定多个解的选择
常见做法:引入正则化(regularization)项
2.5 对数线性回归(log-linear regression) 令模型预测值逼近u的衍生物,例如ln(y)
2.5.1 在形式上仍是线性回归,但实质上已是在求取输入空间到输出空间的非线性函数映射
2.5.2 线性回归模型的预测值与真实标记联系起来的
2.6 广义线性模型(generalized linear model)
形式:
3.对数几率回归(logistic regression,亦称logit regression)(不建议用逻辑回归说法)
3.1 分类任务怎么办?
3.1.1 二分类,使用单位阶跃函数(unit-step function)
3.1.2 替代函数(surrogate function)
在一定程度上近似单位阶跃函数 单调可微
对数几率函数(logistic function),一种 Sigmoid函数
3.1.3 两个函数的联系
3.2 几率(odds)
3.3 对数几率(log odds,亦称logit)
3.4 优点
3.5 极大似然法(maximum likelihood method)
3.5.1 凸优化理论
3.5.2 经典的数值优化算法,例如
4.线性判别分析(Linear Discriminant Analysis,简称LDA)
4.1 LDA的思想
给定训练样例集,设法将样例投影到一条直线上,使得同类样例的投影点尽可能接近,异类样例的投影点尽可能远离
4.2 二分类问题上称“Fisher判别分析”
LDA可达到最优分类,当
4.3 LDA可以推广到多分类任务
矩阵的迹(trace)
5.多分类学习
5.1 基本思路
拆解法:讲多分类任务拆为若干个二分类任务求解
5.2 最经典的拆分策略
1)最常用技术:纠错输出码(Error Correcting Output,简称ECOC) 编码矩阵(coding matrix)
二元码 指定正类和反类
三元码 还可以指定用类
2)OvO和OvR是MvM的特例
6.类别不平衡问题(class-imbalance)
定义:分类任务中不同类别的训练样例数目差别很大的情况
6.1 处理的基本方法
再平衡(rebalance)/ 再缩放(rescaling)
6.1.1 代价敏感学习(cost-sensitive learning)的基础
6.1.2 解决现实中没有“无偏采样”的做法
7.阅读材料
7.1 稀疏表示(sparse representation)
7.2 MvM实现方式补充
7.3 代价敏感学习
基于类别的误分类代价(misclassification cost)