¿Cuál es la diferencia entre datos discretos y datos continuos?

¿Cuál es la diferencia entre datos discretos y datos continuos?

Solución

Los datos discretos sólo pueden tomar valores concretos. Puede haber potencialmente un número infinito de esos valores, pero cada uno es distinto y no hay una zona gris entre ellos. Los datos discretos pueden ser numéricos, como el número de manzanas, pero también pueden ser categóricos, como rojo o azul, hombre o mujer, o bueno o malo.

Los datos continuos no se limitan a valores separados definidos, sino que pueden ocupar cualquier valor en un rango continuo. Entre dos valores de datos continuos cualquiera puede haber un número infinito de otros. Los datos continuos son siempre esencialmente numéricos.

A veces tiene sentido tratar los datos numéricos que son propiamente de un tipo como si fueran del otro. Por ejemplo, algo como la altura es continuo, pero a menudo no nos importan demasiado las pequeñas diferencias y, en cambio, agrupamos las alturas en una serie de cajones discretos. Por el contrario, si contamos grandes cantidades de alguna entidad discreta -granos de arroz, termitas o céntimos de euro-, podemos optar por no considerar 2.000.006 y 2.000.008 como valores crucialmente diferentes, sino como puntos cercanos en un continuo aproximado.

A veces también puede ser útil tratar los datos numéricos como categóricos, por ejemplo: bajo peso, normal, obeso. Esto suele ser otro tipo de clasificación.

Rara vez tiene sentido considerar los datos categóricos como continuos.

Comentarios (5)

Los datos son siempre discretos. Dada una muestra de n valores en una variable, el número máximo de valores distintos que puede tomar la variable es igual a n. Véase esta cita Todos los espacios muestrales reales son discretos, y todas las variables aleatorias observables

las variables aleatorias observables tienen distribuciones discretas. La distribución continua es una construcción matemática, adecuada para el tratamiento matemático, pero no es observable en la práctica. E.J.G. Pitman (1979, p. 1).

Los datos de una variable suelen suponerse extraídos de una variable aleatoria. La variable aleatoria es continua en un rango si hay un número infinito de valores posibles que la variable puede tomar entre dos puntos diferentes del rango. Por ejemplo, la altura, el peso y el tiempo suelen ser continuos. Por supuesto, cualquier medición de estas variables será finita y en cierto sentido discreta. sentido discreto.

Es útil distinguir entre variables ordenadas (es decir, ordinales), no ordenadas (es decir, nominales) y variables discretas binarias.

Algunos libros de texto introductorios confunden una variable continua con una variable numérica. Por ejemplo, una puntuación en un juego de ordenador es discreta aunque sea numérica.

Algunos libros de texto introductorios confunden una variable de razón con las variables continuas. Una variable de recuento es una variable de razón, pero no es continua.

En la práctica, una variable suele considerarse continua cuando puede adoptar un número suficientemente grande de valores diferentes.

Referencias

  • Pitman, E. J. G. 1979. Some basic theory for statistical inference. London: Chapman and Hall. Nota: Encontré la cita en la introducción del capítulo 2 del libro de Murray Aitkin's Statistical Inference: An Integrated Bayesian/Likelihood Approach.
Comentarios (3)

Las temperaturas son continuas. Puede ser de 23 grados, 23,1 grados, 23,100004 grados.

El sexo es discreto. Sólo se puede ser hombre o mujer (en el pensamiento clásico, al menos). Algo que puedes representar con un número entero como 1, 2, etc

La diferencia es importante ya que muchos algoritmos estadísticos y de minería de datos pueden manejar un tipo pero no el otro. Por ejemplo, en la regresión regular, el Y debe ser continuo. En la regresión logística, la Y es discreta.

Comentarios (1)