Ποια είναι η διαφορά μεταξύ διακριτών και συνεχών δεδομένων;

Ποια είναι η διαφορά μεταξύ διακριτών και συνεχών δεδομένων;

Λύση

Τα διακριτά δεδομένα μπορούν να λάβουν μόνο συγκεκριμένες τιμές. Μπορεί δυνητικά να υπάρχει άπειρος αριθμός αυτών των τιμών, αλλά κάθε μία είναι ξεχωριστή και δεν υπάρχει καμία γκρίζα ζώνη μεταξύ τους. Τα διακριτά δεδομένα μπορεί να είναι αριθμητικά - όπως ο αριθμός των μήλων - αλλά μπορεί επίσης να είναι κατηγορικά - όπως κόκκινο ή μπλε, ή αρσενικό ή θηλυκό, ή καλό ή κακό.

Τα συνεχή δεδομένα δεν περιορίζονται σε καθορισμένες ξεχωριστές τιμές, αλλά μπορούν να καταλαμβάνουν οποιαδήποτε τιμή σε ένα συνεχές εύρος. Μεταξύ δύο συνεχών τιμών δεδομένων μπορεί να υπάρχει άπειρος αριθμός άλλων. Τα συνεχή δεδομένα είναι πάντα ουσιαστικά αριθμητικά.

Μερικές φορές έχει νόημα να αντιμετωπίζονται τα αριθμητικά δεδομένα που ανήκουν κανονικά στον ένα τύπο ως δεδομένα του άλλου τύπου. Για παράδειγμα, κάτι όπως το ύψος είναι συνεχές, αλλά συχνά δεν μας ενδιαφέρουν και πολύ οι μικροσκοπικές διαφορές και αντ' αυτού ομαδοποιούμε τα ύψη σε έναν αριθμό διακριτών διαιρέσεων. Αντίθετα, αν μετράμε μεγάλες ποσότητες κάποιας διακριτής οντότητας -- κόκκους ρυζιού, ή τερμίτες, ή πένες στην οικονομία -- μπορεί να επιλέξουμε να μην θεωρήσουμε τα 2.000.006 και 2.000.008 ως κρίσιμα διαφορετικές τιμές, αλλά αντίθετα ως κοντινά σημεία σε ένα κατά προσέγγιση συνεχές.

Μπορεί επίσης μερικές φορές να είναι χρήσιμο να αντιμετωπίζουμε τα αριθμητικά δεδομένα ως κατηγορικά, π.χ.: λιποβαρή, φυσιολογικά, παχύσαρκα. Αυτό είναι συνήθως απλώς ένα άλλο είδος διαχωρισμού.

Σπάνια έχει νόημα να θεωρούνται τα κατηγορικά δεδομένα ως συνεχή.

Σχόλια (5)

Τα δεδομένα είναι πάντα διακριτά. Δεδομένου ενός δείγματος n τιμών σε μια μεταβλητή, ο μέγιστος αριθμός διακριτών τιμών που μπορεί να πάρει η μεταβλητή είναι ίσος με n. Δείτε αυτό το απόσπασμα Όλοι οι πραγματικοί δειγματικοί χώροι είναι διακριτοί, και όλα τα παρατηρήσιμα τυχαία μεταβλητές έχουν διακριτές κατανομές. Η συνεχής κατανομή είναι μια μαθηματική κατασκευή, κατάλληλη για μαθηματική επεξεργασία, αλλά δεν είναι πρακτικά παρατηρήσιμη. E.J.G. Pitman (1979, σ. 1).

Τα δεδομένα μιας μεταβλητής συνήθως υποτίθεται ότι προέρχονται από μια τυχαία μεταβλητή. Η τυχαία μεταβλητή είναι συνεχής σε ένα εύρος αν υπάρχει άπειρος αριθμός πιθανών τιμών που μπορεί να πάρει η μεταβλητή μεταξύ δύο διαφορετικών σημείων του εύρους. Για παράδειγμα, το ύψος, το βάρος και ο χρόνος θεωρούνται συνήθως συνεχείς. Φυσικά, οποιαδήποτε μέτρηση αυτών των μεταβλητών θα είναι πεπερασμένης ακρίβειας και σε ορισμένες έννοια διακριτή.

Είναι χρήσιμο να γίνεται διάκριση μεταξύ διατεταγμένων (δηλ. τακτικών), μη διατεταγμένων (δηλ. ονομαστικών), και δυαδικές διακριτές μεταβλητές.

Ορισμένα εισαγωγικά εγχειρίδια συγχέουν μια συνεχή μεταβλητή με μια αριθμητική μεταβλητή. Για παράδειγμα, η βαθμολογία σε ένα παιχνίδι υπολογιστή είναι διακριτή, παρόλο που είναι αριθμητική.

Ορισμένα εισαγωγικά εγχειρίδια συγχέουν μια αναλογική μεταβλητή με συνεχείς μεταβλητές. Μια μεταβλητή μέτρησης είναι μια μεταβλητή αναλογίας, αλλά δεν είναι συνεχής.

Στην πραγματική πρακτική, μια μεταβλητή αντιμετωπίζεται συχνά ως συνεχής όταν μπορεί να πάρει έναν αρκετά μεγάλο αριθμό διαφορετικών τιμών.

Αναφορές

  • Pitman, E. J. G. 1979. Some basic theory for statistical inference. London: London: Chapman and Hall. Σημείωση: Βρήκα το απόσπασμα στην εισαγωγή του κεφαλαίου 2 του βιβλίου του Murray Aitkin Statistical Inference: Μπεϋζιανή προσέγγιση/Πιθανότητα.
Σχόλια (3)

Οι θερμοκρασίες είναι συνεχείς. Μπορεί να είναι 23 μοίρες, 23.1 μοίρες, 23.100004 μοίρες.

Το φύλο είναι διακριτό. Μπορείς να είσαι μόνο άνδρας ή γυναίκα (στην κλασική σκέψη τουλάχιστον). Κάτι που μπορείτε να αναπαραστήσετε με έναν ακέραιο αριθμό όπως 1, 2, κ.λπ.

Η διαφορά είναι σημαντική καθώς πολλοί αλγόριθμοι στατιστικής και εξόρυξης δεδομένων μπορούν να χειριστούν τον ένα τύπο αλλά όχι τον άλλο. Για παράδειγμα, στην κανονική παλινδρόμηση, το Υ πρέπει να είναι συνεχές. Στη λογιστική παλινδρόμηση το Υ είναι διακριτό.

Σχόλια (1)