将治疗纳入分类方案

机器算法验证 机器学习 分类 数据挖掘 预测模型 特征工程
2022-04-09 18:27:26

我有大约 400 块不同几何尺寸的银。他们被分成六组,每组都进行了一系列的压力测试,比如弯腰、拉扯、放火一段时间等。这六组的治疗方法不尽相同,但相当公平。相似的。六组的大小不一样。碎片要么在某个阶段破裂,记录为成功,要么没有,记录为失败。还记录了每次成功的时间。成功的数量约为80。

我的目标是建立一个预测模型,根据它的物理尺寸和它所经历的处理来确定一块银是否破裂。

我在使用物理尺寸构建模型方面取得了一定的成功,但是添加处理的各个方面(例如,在火灾中花费的总时间)根本没有提高性能。我什至尝试根据物理尺寸和处理为每个单独的部件构建特征(例如,金属在各个方向上的总应力、金属上的总应变等),但即使这些也没有添加任何预测性能。

如何以增加我的预测能力的方式整合治疗信息?很明显,处理是决定一件作品是否破裂的一个因素,它应该以某种方式出现在某个地方。

请注意,我无法控制治疗的设计,并且用其他治疗测试更多样本对我来说不是一个选择。

我非常感谢任何建议或意见。
非常感谢!

2个回答

您可以尝试一些基于树的模型,例如R 中的randomForestGBM。这两个模型都擅长拾取非线性效应和交互作用,并且都产生可能对您的分析有用的可变重要性度量。

GBM可能特别有用,因为它使每个连续的树都适合模型的残差。这样,在模型捕捉到几何尺寸的影响之后,它将探索如何使用各种处理来解释“剩余”(或残差)方差。另一方面,随机森林需要很少的调整,并且比 GBM 模型更难搞砸。

我会确保每次处理都是它的一组变量,例如总着火时间、最小/平均/中值/最大/累积弯曲和拉力等。特别是在 GBM 模型中,变量越多越好,所以要彻底!

你如何衡量你的模型有多“好”?你在交叉验证它们吗?

模型的功能形式在这里将非常重要。事实上,治疗之间可能存在交互作用(断裂对弯曲的敏感性可能取决于它之前是否已经过火),因此您需要使用非线性函数形式

所以,而不是像这样的形式:

y=βfirexfire+βbendingxbending+..
你可能想使用一个表格:
y=βbendingfirexbendingxfire+..+βfirexfire+βbendingxbending+..

您应该从这个简单的线性模型开始,然后转到随机森林,因为如果它们很重要,它们会自动创建这些交互