在我工作的医院,我们正在写一篇关于患者的哪些变量可以预测他们是否会回来进行随访的论文。我们包括了诸如年龄、性别、从他们家到医院的距离、受伤机制等变量。我们有大约 600 名患者要检查,因此我们运行了一个多元逻辑回归,结果是返回是/否,我们对数据集中的每个人(我们医院有这种情况的每个人)都这样做了。
好吧,我们写了这篇论文,然后有人决定我们应该尝试创建一个在线预测工具。你可以输入一个病人的变量,它会根据我们之前的回归模型返回关于病人是否会回来的猜测。为了帮助我创建一个在线预测工具,我使用 R 和 Shiny使用本教程,我注意到作者将他的数据分成训练和测试集
问题是:我从来没有这样做过。阅读诸如此类的评论我想我理解为什么有人会拆分他们的数据,但我现在的问题是:
我可以/应该怎么做?
- 我已经使用了我所有的数据。是否最好删除我所做的一切,返回,拆分数据并重新开始?(我们没有发表论文或任何东西)
- 我应该继续吗?可以为不拆分数据集提出论据吗?