数据挖掘 - 在 Python 中将数据表示为特征向量的最佳方法 - 吾爱随笔录

我有一个从推文集合中检索到的事件主题列表。一组特征已被提取，它们的值在 0 和 1 之间进行归一化。事件示例：

"paris_attack_news-20150107_100842-20150107_112852": {
    "ages": 0.5557594006583049,
    "density": 0.0012022814250710345,
    "followers": 0.1144661871115895,
    "friends": 0.13507755010659472,
    "hashtagCount": 0.033270950301517985,
    "lifespan": 0.29613227044582224,
    "mediaCount": 0.1095890410958904,
    "mentionCount": 0.020275919732441472,
    "objectivity": 0.2850584551023736,
    "polarity": 0.2963684492294102,
    "retweetCount": 0.21431767337807606,
    "status_count": 0.09222093073720204,
    "truth": 1.0,
    "tweetCount": 0.01300578034682081,
    "urlCount": 0.29494007989347537,
    "verified": 0.3392857142857143
}

现在我需要将每个事件表示为其特征的数组：

paris_attack_news-20150107_100842-20150107_112852 = [0.5557594006583049, 0.5557594006583049, 0.1144661871115895, 0.13507755010659472, ...]

之后，我需要以某种方式操作/聚合数组值，以根据结果对特定事件进行排序。

数据已经在 Python Pandas DataFrame 中（事件名称作为索引，特征作为列）。

从这里开始构建数组的最佳方式是什么（用于进一步存储的数据结构或 NumPy、sklearn 或类似的库）？

PS：然后我需要应用一些机器学习算法来检测事件是 TRUE 还是 FALSE，使用名为“truth”的特征：1 或 0 作为标签分类。