Qual é a diferença entre dados discretos e dados contínuos?

Qual é a diferença entre dados discretos e dados contínuos?

Solução

Os dados discretos só podem assumir valores particulares. Pode haver potencialmente um número infinito desses valores, mas cada um é distinto e não há's nenhuma área cinzenta no meio. Dados discretos podem ser numéricos -- como números de maçãs -- mas também podem ser categóricos -- como vermelho ou azul, ou masculino ou feminino, ou bom ou ruim.

Os dados contínuos não se restringem a valores separados definidos, mas podem ocupar qualquer valor ao longo de um intervalo contínuo. Entre quaisquer dois valores de dados contínuos pode haver um número infinito de outros. Os dados contínuos são sempre essencialmente numéricos.

Às vezes faz sentido tratar dados numéricos que são devidamente de um tipo como sendo do outro. Por exemplo, algo como altura é contínuo, mas muitas vezes nós não'não nos importamos muito com pequenas diferenças e, em vez disso, agrupamos as alturas em um número de discretos **bins***. Por outro lado, se nós'estamos contando grandes quantidades de alguma entidade discreta -- grãos de arroz, ou cupins, ou centavos na economia -- podemos escolher não pensar em 2,000,006 e 2,000,008 como valores crucialmente diferentes, mas sim como pontos próximos em um contínuo aproximado.

Também pode ser útil, por vezes, tratar dados numéricos como categóricos, por exemplo: abaixo do peso, normal, obeso. Isto normalmente é apenas mais um tipo de descaroçamento.

Raramente faz sentido considerar os dados categóricos como contínuos.

Comentários (5)

Os dados são sempre discretos. Dada uma amostra de valores n' em uma variável, o número máximo de valores distintos que a variável pode tomar é igual an'. Veja esta citação

Todos os espaços de amostra reais são discretos, e todos são observáveis aleatoriamente. as variáveis têm distribuições discretas. A distribuição contínua é uma construção matemática, adequada para tratamento matemático, mas não praticamente observável. E.J.G. Pitman (1979, p. 1).

Os dados sobre uma variável são normalmente assumidos como sendo obtidos a partir de uma variável aleatória. A variável aleatória é contínua ao longo de um intervalo se houver um número infinito de valores possíveis que a variável pode tomar entre quaisquer dois pontos diferentes no intervalo. Por exemplo, altura, peso e tempo são tipicamente assumidos como contínuos. Naturalmente, qualquer medida dessas variáveis será finitamente precisa e em alguns Sinta-se discreto.

É útil distinguir entre ordenado (ou seja, ordinal), não ordenado (ou seja, nominal), e variáveis binárias discretas.

Alguns livros de introdução confundem uma variável contínua com uma variável numérica. Por exemplo, uma pontuação num jogo de computador é discreta mesmo que seja numérica.

Alguns manuais introdutórios confundem uma variável de proporção com variáveis contínuas. Uma variável de contagem é uma variável de razão, mas não é contínua.

Na prática real, uma variável é muitas vezes tratada como contínua quando pode assumir um número suficientemente grande de valores diferentes.

Referências

  • Pitman, E. J. G. 1979. Alguma teoria básica para inferência estatística. Londres: Chapman e Hall. Note: Encontrei a citação na introdução do capítulo 2 do livro de Murray Aitkin's Statistical Inference: Uma Abordagem Integrada da Bayesian/Likelihood
Comentários (3)

As temperaturas são contínuas. Podem ser 23 graus, 23,1 graus, 23,100004 graus.

O sexo é discreto. Você só pode ser homem ou mulher (no pensamento clássico de qualquer maneira). Algo que você poderia representar com um número inteiro como 1, 2, etc.

A diferença é importante, pois muitos algoritmos estatísticos e de data mining podem lidar com um tipo, mas não com o outro. Por exemplo, em regressão regular, o Y deve ser contínuo. Na regressão logística, o Y é discreto.

Comentários (1)