我有大量的数据。我需要制作一个神经网络,它可以从 excel 数据表中训练自己,并从另一个 excel 数据集验证其输出。验证 excel 文件中将有一个输出列。模型需要在给定行附近给出输出。
如何在 python 或任何可以从 excel 文件中训练自己并从 excel 文件中验证自己的语言中训练神经网络模型?
数据挖掘
Python
2022-02-24 00:38:51
2个回答
您提到了两个不同的问题:
- 数据收集:在这里你想从一个excel文件中获取你的数据,用于训练和验证
- 建模你的数据:在这里你想用一个神经网络来做。
对于数据收集,我建议您使用 pandas,这是一个 python 库,它可以从 excel 文件pandas.read_excel以及许多其他源(csv 文件、parquet 文件)中提取数据。然后,一旦您在 python 中获得数据,您就可以尝试使用神经网络来理解它们。我用来学习它的书是 Aurelien Gueron ( https://github.com/ageron/handson-ml ) 的动手机器学习。希望你会发现这很有用。
在去神经网络之前,你还应该看看scikit 学习一个 python 库,当你没有足够的数据来训练神经网络时,它用于机器学习,如果你从 excel 文件中获取数据,我猜你有更少超过 100,000 个数据行,这对于训练神经网络来说可能有点太少了。
您必须将任务分为 3 个部分:
- 加载数据
- 训练模型
- 在验证数据上使用模型
我认为,在你的情况下,第一个和第三个任务相同 - 你必须找到一种方法来加载 excel 文件。如另一个答案中所述,pandas.read_excel可能是您需要的功能。
- 如果两个excel文件具有相同的结构,那么你很高兴
- 如果验证文件不同,您必须加载它并手动调整列名(以及存在的列集)以匹配训练数据。例如,模型会期望相同的输入
如果您的任务的一部分是还在验证文件中输出预测,则在单独的列中,然后查看如何使用pandas.DataFrame.to_excel. 这可能是任务的子任务3,也可能是其自身的新任务:将预测保存在输出文件中。
其它你可能感兴趣的问题