我想对 R 中的矩阵执行按列归一化。给定一个 matrix m
,我想通过将每个元素除以列的总和来归一化每一列。一种(hackish)方法如下:
m / t(replicate(nrow(m), colSums(m)))
是否有更简洁/优雅/高效的方式来完成相同的任务?
我想对 R 中的矩阵执行按列归一化。给定一个 matrix m
,我想通过将每个元素除以列的总和来归一化每一列。一种(hackish)方法如下:
m / t(replicate(nrow(m), colSums(m)))
是否有更简洁/优雅/高效的方式来完成相同的任务?
这就是扫描和缩放的目的。
sweep(m, 2, colSums(m), FUN="/")
scale(m, center=FALSE, scale=colSums(m))
或者,您可以使用回收,但您必须将其转置两次。
t(t(m)/colSums(m))
或者您可以构建要除以的完整矩阵,就像您在问题中所做的那样。这是您可以这样做的另一种方式。
m/colSums(m)[col(m)]
并注意评论中添加的caracal:
m %*% diag(1/colSums(m))
另一个是prop.table(m, 2)
,或者简单地propr(m)
说,内部使用sweep
.
比较这些等效解决方案的性能可能会很有趣,所以我做了一个小基准测试(使用microbenchmark
包)。
这是m
我使用的输入矩阵:
[,1] [,2] [,3] [,4] [,5]
A 1.831564e-02 4.978707e-02 1.353353e-01 3.678794e-01 3.678794e-01
B 3.678794e-01 1.353353e-01 4.978707e-02 1.831564e-02 6.737947e-03
C 4.539993e-05 2.061154e-09 9.357623e-14 4.248354e-18 5.242886e-22
D 1.831564e-02 4.978707e-02 1.353353e-01 3.678794e-01 3.678794e-01
E 3.678794e-01 1.353353e-01 4.978707e-02 1.831564e-02 6.737947e-03
F 4.539993e-05 2.061154e-09 9.357623e-14 4.248354e-18 5.242886e-22
G 1.831564e-02 4.978707e-02 1.353353e-01 3.678794e-01 3.678794e-01
H 3.678794e-01 1.353353e-01 4.978707e-02 1.831564e-02 6.737947e-03
I 4.539993e-05 2.061154e-09 9.357623e-14 4.248354e-18 5.242886e-22
这是基准设置:
microbenchmark(
prop = prop.table(m, 2),
scale = scale(m, center=FALSE, scale=colSums(m)),
sweep = sweep(m, 2, colSums(m), FUN="/"),
t_t_colsums = t(t(m)/colSums(m)),
m_colsums_col = m/colSums(m)[col(m)],
m_mult_diag = m %*% diag(1/colSums(m)),
times = 1500L)
这是基准测试的结果:
Unit: microseconds
expr min lq median uq max
1 m_colsums_col 29.089 32.9565 35.9870 37.5215 1547.972
2 m_mult_diag 43.278 47.6115 51.7075 53.8945 110.560
3 prop 207.070 214.3010 216.6800 219.9680 2091.913
4 scale 133.659 142.6325 145.3100 147.9195 1730.640
5 sweep 113.969 119.6315 121.3725 123.6570 1663.356
6 t_t_colsums 56.976 65.3580 67.8895 69.5130 1640.660
为了完整起见,这是输出:
[,1] [,2] [,3] [,4] [,5]
A 1.580677e-02 8.964714e-02 2.436862e-01 3.175247e-01 3.273379e-01
B 3.174874e-01 2.436862e-01 8.964714e-02 1.580862e-02 5.995403e-03
C 3.918106e-05 3.711336e-09 1.684944e-13 3.666847e-18 4.665103e-22
D 1.580677e-02 8.964714e-02 2.436862e-01 3.175247e-01 3.273379e-01
E 3.174874e-01 2.436862e-01 8.964714e-02 1.580862e-02 5.995403e-03
F 3.918106e-05 3.711336e-09 1.684944e-13 3.666847e-18 4.665103e-22
G 1.580677e-02 8.964714e-02 2.436862e-01 3.175247e-01 3.273379e-01
H 3.174874e-01 2.436862e-01 8.964714e-02 1.580862e-02 5.995403e-03
I 3.918106e-05 3.711336e-09 1.684944e-13 3.666847e-18 4.665103e-22
毫无疑问,小矩阵 m / colSums(m)[col(m)]
获胜!
但是对于大矩阵呢?在随后的示例中,我使用了 1000x1000 矩阵。
set.seed(42)
m <- matrix(sample(1:10, 1e6, TRUE), 1e3)
...
Unit: milliseconds
expr min lq median uq max
1 m_colsums_col 55.26442 58.94281 64.41691 102.69683 119.08685
2 m_mult_diag 34.67692 41.68494 80.05480 89.48099 99.72062
3 prop 87.95552 94.13143 99.17044 136.03669 160.51586
4 scale 52.84534 55.07107 60.57154 99.87761 156.16622
5 sweep 52.79542 55.93877 61.55066 99.67766 119.05134
6 t_t_colsums 63.09783 65.53783 68.93731 110.03691 127.89792
对于大矩阵 m / colSums(m)[col(m)]
表现良好(第 4 位)但没有获胜。
对于大矩阵 m %*% diag(1/colSums(m))
获胜!
apply(m,2,norm<-function(x){return (x/sum(x)}) ?