Regression Trees

Regression Trees or Classification and Regression Tree (CART)

分类树用于处理离散的标签（如是/否、狗/猫），而回归树处理的是连续的数值（如房价、温度）。

Similarity

Difference

Regression Tree -> Decision Tree for Regression

Construction

选择最佳分割点：在回归树中，我们使用不同的标准，通常是偏差减少（Deviation Reduction）。这意味着我们要找到一个特征和一个分割点，使得分割后的两个子集相对于原始数据集的总偏差（差异）最小化。
偏差减少的计算
- 偏差通常通过计算每个点与其所在组的平均值的差的平方来衡量。
- 我们尝试不同的特征和分割点，计算每种情况下的总偏差，并选择使总偏差最小的分割。
递归分割：
- 一旦找到最佳分割点，数据集被分为两个子集。
- 然后对每个子集重复这个过程，直到满足某个停止条件（如达到最大深度、子集大小低于阈值等）
预测输出：回归树的每个叶节点会得到一个预测值，这通常是该节点所有数据点的平均值。

Example

假设我们有一个数据集，包含不同房屋的特征（如面积、卧室数量）和它们的售价（一个连续值）。我们的目标是构建一个回归树来预测房价。

最终，我们得到的回归树可以根据房屋的特征来预测其可能的售价。每个叶节点代表的是在那个特定条件下的房屋的平均售价。

在回归树中，我们用一些统计度量来帮助我们构建树（分枝）以及决定何时停止分枝（终止分枝）。这个过程和计算均值、标准差和变异系数（CV）类似。

标准差（S）：用于树的构建（分枝）
- 标准差是衡量数据点相对于平均值的离散程度的一个指标。
- 在回归树中，我们使用标准差来找到最好的分枝点。选择一个分枝点会将数据分成两部分，我们希望这两部分内部的标准差尽可能小，这意味着每个子组内的数据更加相似。
变异系数（CV, Coeffeicient of Variation）：用于确定分枝何时终止
- 变异系数是标准差与平均值的比率，通常表示为百分比。
- 在回归树中，如果一个节点的CV很小，意味着该节点内的数据变异不大，我们可能就不需要进一步分枝了。
平均值（Avg）：是叶节点中的值
- 在决定不再分枝后，叶节点将代表该分支上数据的平均值。
- 对于预测任务，这个平均值就是我们基于输入数据预测的连续输出（比如房价、体重等）。

Standard deviation for two attributes

Calculate the standard deviation for each branch

Constructing Regression Tree Based on SDR