有人可以将此代码翻译成一些数学符号吗?

机器算法验证 回归 分布 正态分布 符号
2022-03-17 15:08:31

代码用于生成日期集

def make_1dregression_data(n=21):
    np.random.seed(0)
    xtrain = np.linspace(0.0, 20, n)
    xtest = np.arange(0.0, 20, 0.1)
    sigma2 = 4
    w = np.array([-1.5, 1/9.])
    fun = lambda x: w[0]*x + w[1]*np.square(x)
    ytrain = fun(xtrain) + np.random.normal(0, 1, xtrain.shape) * \
        np.sqrt(sigma2)
    ytest= fun(xtest) + np.random.normal(0, 1, xtest.shape) * \
        np.sqrt(sigma2)
    return xtrain, ytrain, xtest, ytest

xtrain, ytrain, xtest, ytest = make_1dregression_data(n=21)

有人可以将这个 Python 代码翻译成一些数学符号吗?我已多次阅读此代码,但未能找到它是什么发行版。

我知道它是基于正态分布的,尽管我无法想象这部分w[1]*np.square(x)在做什么。

1个回答

尽管这个问题在很大程度上依赖于 Python,但答案似乎确实受益于一些统计推理。

此函数为回归模型的“训练”和“测试”数据集(xi,yi)

yi=w0xi+w1xi2+εiσ

其中是具有标准正态分布的自变量。参数的值被硬编码到函数中。的值等距分布(尽管测试集不包括)。测试集是硬编码的(如),而训练集大小由调用者在参数中提供εiw0, w1,σxi02020(0.0,0.1,0.2,,19.9)n

该模型也可以通过说明观察是独立随机变量的实现来紧凑地编写yiYi有正常(w0xi+w1xi2,σ2)分布;这经常被缩写为

Yi iid N(w0xi+w1xi2,σ2).

这就回答了涉及到什么分布的问题。

这是响应的普通最小二乘回归的设置y针对“特征”或“解释变量”xx2. 因此,它认为

(xi,yi)偏离抛物线y=w0x+w1x2通过在独立的随机变化y坐标。

这回答了关于平方项在做什么的问题。