Advanced Classification
大约 7 分钟
Advanced Classification
More Classification Models, like
Bayes classifier, Association-based classifier, k-nearest neighbor (kNN), Neural network (shallow and deep models), etc.
Bayesian Classification
- 概率学习:计算假设的显式概率,是解决某些类型的学习问题的最实用方法之一
- 递增:每个训练实例都能递增/递减假设正确的概率。先验知识可与观察到的数据相结合。
- 概率预测:预测多个假设,并按其概率加权
- 标准:即使贝叶斯方法在计算上难以处理,它们也可以提供最佳决策的标准,可以根据该标准来衡量其他方法
Bayesian Theorem
实际困难:需要对许多概率有初步了解,计算成本很高
Classification
分类问题可以使用后验概率来形式化:
思路:为样本 X 分配类别标签 C,使 P(C|X) 最大
Estimating a-posteriori probabilities
Naïve Bayes Classifier
一个简化的假设:属性是条件独立的:
只计算类别分布,大大降低了计算成本。
Naïve Bayesian Classification
Association-Based Classification
基于关联的分类的几种方法
- ARCS: Quantitative association mining and clustering of association rules
- CAEP(Classification by aggregating emerging patterns)
- 新兴模式 (EP):支持度从一类到另一类显着增加的项集
- 根据最低支持率和增长率开采 EP
Eager learning vs lazy learning
- 决策树是一种具有代表性的急迫学习方法,它采取积极主动的步骤来建立学习任务的假设。
- 它明确描述了整个训练集的目标函数
- 让我们来看看一种更 "轻松 "的监督学习方法,即 "懒学习",它主要体现在所谓的基于实例的模型上。
Instance-Based Classifiers
kNN Classification
NN Classification
Advantages
- 预测准确率普遍较高
- 稳健,当训练样本包含错误时有效
- 输出可以是离散的、实值的,或者是多个离散或实值属性的向量
- 快速评估学习的目标函数
Criticisms
- 训练时间长(模型构建时间)
- 难以理解学习的函数(权重)
- 不易纳入领域知识
Classification Measures
Classification Accuracy -》Estimating Error Rates