这是首发挑战,泰坦尼克号。我在 Kaggle 上发布的原始问题在这里。然而,没有人真正给出任何有见地的建议,所以我转向强大的 Stackoverflow 社区。
基于这个笔记本,我们可以下载这个挑战的ground truth并获得满分。
我对其进行了测试,它确实给了我 100% 的 LB,以确认它是它声称的基本事实。(这里的附带问题:我如何删除这个完美的提交,因为现在它显示我在这个挑战中有 100%,但我想展示我的真实分数,大约是 80%,我会继续改进)
有时在 Kaggle 上提交需要几分钟才能取回分数,所以我在本地使用 ground truth 来测试我的不同模型以节省时间。然而,他们总是给我不同的结果。请参阅以下内容:
这些是我使用的代码,有什么问题?您可以使用我的代码来尝试您的提交,您是否也有同样的问题?
def mark(pred):
solution = os.path.join(dirname, './output/solution.csv')
submission = os.path.join(dirname, './output/'+pred)
solution = pd.read_csv(solution)
submission = pd.read_csv(submission)
solution.columns = ['PassengerId', 'Sol']
submission.columns = ['PassengerId', 'Pred']
df = pd.concat([solution[['Sol']], submission[['Pred']]], axis=1)
num_row = df.shape[0]
print(pred[:-4], '==', (df[(df['Sol'] == df['Pred'])]).shape[0] / num_row)
if __name__== "__main__":
mark('achieve_99_dtree_rfe.csv')
mark('advanced_feature_with_stacking_5_fold.csv')
