数据集中的连续值

数据挖掘 数据集 大数据 数据
2022-02-28 03:44:49

在数据分析中,连续数据需要离散化,但是在计算机中不可能有值,那么这是什么意思?R

2个回答

首先,连续值应该离散化不是一般规则。尤其是在回归的背景下,实际上是非常错误的。

关于离散化,我相信你可能有一个错误的定义。离散化意味着将连续区间,比如转换为子区间,,然后将相同的值赋予相同间隔,例如[0,10][0,1),[1,2),...,[9,10]x[0,1)0.5

我不确定你的观点有什么价值如果是因为你不知道你的间隔是多少,那么你可以简单地找到你的数据点的最小值和最大值,并假设它们是总间隔。然后,您可以将该区间离散化为您想要的任意数量。R

在计算机中不可能有值R

尽管这在技术上是正确的,但实际上它实际上是无关紧要的。

首先,有三个重要的事实:

  • 您可以将任何数字表示为分数其中是整数qQq=ndnd
  • 有任意大整数(解释维基百科)。它们只受你的记忆约束。例如,Python 使用它们。
  • Q中是稠密的:这意味着对于任何数和任何距离都有一个数使得所以对于无理数,附近有一个有理数。RrRε>0qQ|rq|<ε