Quelle est la différence entre des données discrètes et des données continues ?

Quelle est la différence entre des données discrètes et des données continues ?

Solution

Les données discrètes ne peuvent prendre que des valeurs particulières. Il peut y avoir potentiellement un nombre infini de ces valeurs, mais chacune est distincte et il n&#8217y a pas de zone grise entre les deux. Les données discrètes peuvent être numériques - comme le nombre de pommes - mais elles peuvent aussi être catégoriques - comme rouge ou bleu, homme ou femme, bon ou mauvais.

Les données continues ne sont pas limitées à des valeurs distinctes définies, mais peuvent occuper n'importe quelle valeur dans un intervalle continu. Entre deux valeurs de données continues, il peut y en avoir un nombre infini d'autres. Les données continues sont toujours essentiellement numériques.

Il est parfois utile de traiter les données numériques qui sont correctement d'un type comme étant de l'autre. Par exemple, une donnée comme la hauteur est continue, mais souvent, nous ne nous préoccupons pas vraiment des différences minimes et nous regroupons plutôt les hauteurs dans un certain nombre de bennes discrètes. À l&#8217inverse, si nous comptons de grandes quantités d&#8217une entité discrète - grains de riz, termites ou centimes d&#8217argent - nous pouvons choisir de ne pas considérer 2 000 006 et 2 000 008 comme des valeurs fondamentalement différentes, mais plutôt comme des points proches sur un continuum approximatif.

Il peut aussi parfois être utile de traiter les données numériques comme des catégories, par exemple : poids insuffisant, normal, obèse. Il s'agit généralement d'un autre type de regroupement.

Il est rarement utile de considérer les données catégorielles comme continues.

Commentaires (5)

Les données sont toujours discrètes. Étant donné un échantillon de n valeurs sur une variable, le nombre maximum de valeurs distinctes que la variable peut prendre est égal à n. Voir cette citation Tous les espaces d'échantillonnage réels sont discrets, et toutes les variables aléatoires observables ont des distributions discrètes.

observables ont des distributions discrètes. La distribution continue est une construction mathématique, adaptée à un traitement mathématique, mais pas observable en pratique. E.J.G. Pitman (1979, p. 1).

On suppose généralement que les données relatives à une variable sont tirées d'une variable aléatoire. La variable aléatoire est continue sur un intervalle s'il existe un nombre infini de valeurs possibles que la variable peut prendre entre deux points différents de l'intervalle. Par exemple, la taille, le poids et le temps sont généralement supposés être continus. Bien entendu, toute mesure de ces variables sera d'une précision limitée et, dans un certain sens, discrète. discrète.

Il est utile de distinguer les variables discrètes ordonnées (c'est-à-dire ordinales), non ordonnées (c'est-à-dire nominales), et les variables discrètes binaires.

Certains manuels d'introduction confondent une variable continue avec une variable numérique. Par exemple, le score d'un jeu vidéo est discret même s'il est numérique.

Certains manuels d'introduction confondent les variables de rapport avec les variables continues. Une variable de comptage est une variable de rapport, mais elle n'est pas continue.

Dans la pratique, une variable est souvent considérée comme continue lorsqu'elle peut prendre un nombre suffisamment grand de valeurs différentes.

Références

  • Pitman, E. J. G. 1979. Some basic theory for statistical inference. Londres : Chapman and Hall. Note : J'ai trouvé la citation dans l'introduction du chapitre 2 du livre de Murray Aitkin Statistical Inference : An Integrated Bayesian/Likelihood Approach.
Commentaires (3)

Les températures sont continues. Elle peut être de 23 degrés, 23,1 degrés, 23,100004 degrés.

Le sexe est discret. On ne peut être que mâle ou femelle (dans la pensée classique en tout cas). Quelque chose que vous pouvez représenter par un nombre entier comme 1, 2, etc.

La différence est importante car de nombreux algorithmes statistiques et d'exploration de données peuvent traiter un type de données mais pas l'autre. Par exemple, dans la régression classique, le Y doit être continu. Dans la régression logistique, le Y est discret.

Commentaires (1)