面板数据探索性数据分析

机器算法验证 数据可视化 面板数据 描述性统计 探索性数据分析
2022-03-27 09:03:11

我有一个 1950-2011 财年大约 40k 公司的数据集,其中大约 430k 公司年。如果我没记错的话,我有面板数据。此外,这些公司嵌套在 9 个行业中。

我为每家公司创建了一个唯一标识符ticn年份用 表示fyear现在我感兴趣的变量是年销售额sale、年广告xad和年研发费用xrd我有由 表示的行业虚拟模型sicagg我对年销售额和广告/研发支出之间的关系感兴趣,包括一些控制变量。

目前我正处于研究的探索阶段。

所以我的目标是,我想感受一下数据,给出描述,也许还会画一些图。

首先,我在描述性统计(平均值、标准差、最小值和最大值)之间和内部进行了计算。我还绘制了销售、研发和广告之间的散点图。此外,我将每个行业的年平均广告费用的时间序列绘制成一张漂亮的图表。

你能给我一些额外分析的想法吗?提前致谢!

2个回答

我总是从在 R 中进行 PCA(主成分分析)开始,因为它几乎不需要写作。假设您拥有data.frame我们所说的所有这些data

pca <- prcomp(data)
# Screeplot.
plot(pca)
# Biplot.
biplot(pca)

对于 R 用户,还有ggplot2库。我知道它可以为数据表示创造奇迹,但我不知道如何使用它。也许有人会提出一些建议?

当您说“销售、研发和广告之间的散点图”时,我不清楚您绘制的是什么图。例如,您是否做过类似的事情:

library (lattice)
xyplot (sale ~ xrd | year, groups=sicagg)
xyplot (sale ~ xrd | sicagg, groups=year)

不确定是什么sicagg在我的示例中,我假设它是一个因子变量。

在您按行业划分的广告图中,您是否为平均值绘制了线条,并为具体情况绘制了点,按行业编码?密度图也可能有用:

densityplot (~sale, groups=xrd)
densityplot (~xad, groups=xrd)

等等。一旦你变得复杂并组合图形类型,lattice就会很快变得复杂,但它使这些类型的绘图变得容易。