tobit回归模型案例分析流出法优缺点

留出法hold-out)

剩下的意义是将数据集d直接分为两个互斥集合，一个集合为训练集s，另一个为测试集t，即D=ST，ST=0。用s训练模型后，用t评价其测试误差，作为泛化误差的评价。其中t也被称为held-out data。

需要注意的问题：

训练/测试集划分尽量保持数据分布的一致性，避免数据划分过程中引入额外偏差对最终结果的影响。在给定训练/测试集的样本比率之后，有多种方法可以划分初始数据集d，这可能会影响模型评估的结果。因此，由一次保持法得到的结果往往不是稳定可靠的，在使用保持法的情况下，作为保持法的评价结果，一般在随机分为几次反复实验评价的基础上取平均值。我们想评估在d训练的模型的性能，但保留方法需要划分训练/测试集，导致进退两难。如果另一个训练集s包含大量样本，则训练的模型可能与d训练的模型相近，但由于t较小，因此评估结果可能不稳定准确。当另一测试集t包含更多样本时，训练集s和d之间的差异变得更大，且所评估的模型与d中训练的模型相比可能具有更大误差，这降低了评估结果的保真度。因此，一般做法是将约2/3~4/5的样品用于训练，将剩下的样品作为测试来源于周志华的西瓜本。

tobit回归模型案例分析流出法优缺点

Published by

风君子

近期文章

标签