机器算法验证 - (multi)collinear/colinear的由来和拼写 - 吾爱随笔录

(multi)collinear/colinear的由来和拼写

机器算法验证术语多重共线性词源

2022-03-24 20:48:29

Multico ll inear 和 multico l inear 似乎都在科学文献中使用，尽管前者似乎更受欢迎，并且也是这里的标签名称。我认为必须有一个更正确的 colinear/collinear 拼写，但这也是双向拼写。

关于这个的两个问题：

哪个更正确？额外的 L 是否暗示了一些不同的含义？
如果不是，为什么更频繁地使用 multico ll inear？

对我来说，双 L 版本更受欢迎似乎并不直观。我将其定义解释为与结果“共享线性”，因此是“co-”前缀。创造这个词的统计学家对此有什么看法？

2个回答

共线遵循协作、碰撞和 c. 的模型：拉丁语前缀com- （“together”）的m被同化为拉丁语词干的首字母l（参见commiserate、modern、coæval、corrode）。它在第二个音节上重读，因此是一个不确定的元音或至多是一个短的o。

colinear的一个借口可能是您将linear视为本地词，遵循 copilot 、 co-worker 等的模型——在这种情况下，前缀被简化为co-而与词干的首字母无关。^†我想这样写它的人也会在第一个音节上至少用次重音来发音，& 用长o。

Pace @Carl我不认为英国人普遍偏爱写双l与它有很大关系，尽管偏爱更传统的单词形式可能。Google Ngrams已发表作品中的出现次数表明，colinear及其衍生词在美国的不受欢迎程度仅略低于英国英语（1999 - 2008 年的优势比为 1.4）。

library(ngramr)
#define word list & corpora
words <- "collinear, colinear, collinearity, colinearity, multicollinear, multicolinear, multicollinearity, multicolinearity"
corpora <- c("eng_gb_2012", "eng_us_2012")
# fetch word counts
dd <- ngram(words, corpora, year_start = 1999, smoothing = 0,  count = T, tag = NULL, case_ins = TRUE)
# reduce derivatives
dd$stem <- factor(gsub("multi|ity", "", tolower(dd$Phrase)))
# tabulate
xtabs(Count~stem+Corpus, data=dd) -> tb

然而，很可能搅浑水的是，这个词的新词与几何词“一起排成一行”（根据我的字典在 1863 年首次使用）具有不同的含义。在这些中，我们自然会期待colinear的形式，因为人们不再编造拉丁词。维基百科有一篇关于共线图的文章，在线 Merriam-Webster 词典给出了共线（但不是共线）的第二种含义，“具有以相同线性顺序排列的相应部分”，发现它在遗传学和分子生物学中的用途。

† 如果您真的想写colinear并且有人因此而挑剔您，请询问他们是否写了complanar。

Colinear是美国英语的拼写。在美国“共线”，也使用两个 l。在英式英语中，共线拼写是公认的形式。

另一个双重与单一“l”的例子出现在modeling（尤其是英国）和modeling（尤其是美国）这个词中。多重共线性与多重共线性遵循相同的模式。

这种用一两个 l 拼写的一般美式和英式拼写模式适用于许多单词。但是，“拼写”总是有两个 l。分歧可能发生在 1800 年代美国拼写改革之一期间。

正确的拼写是符合期刊风格的任何内容，许多期刊坚持使用美式或英式拼写。但是，加拿大期刊通常接受这两种拼写。

此处讨论何时使用共线性以及何时使用多重共线性。@whuber 确实，我们之前已经讨论过这个问题。

共线性在世纪首次被讨论，并在 1500 年后被重新发现。 $3^{rd}$

其它你可能感兴趣的问题

上一篇keras嵌入层和word2vec有什么区别？下一篇非静止环境中的强化学习