Προβλέποντας τα θέματα
Λίγα λόγια για τις προβλέψεις που (δεν) πετυχαίνουν κάποιοι στις πανελλήνιες.
Παρουσίαση του προβλήματος
Εισαγωγή
Όσοι με τον έναν ή τον άλλο τρόπο έρχονται σε επαφή με τις πανελλήνιες, ακούν καθηγητές να κάνουν προβλέψεις.
Φέτος στις πανελλήνιες θα πέσει ρυθμός μεταβολής.
Παπαδοπούλου το μέντιουμ
Η πρόβλεψή μου για φέτος είναι ότι θα πέσει Θ.Μ.Τ.
Παπαδόπουλος ο μάντης
Όλοι εντυπωσιαζόμαστε:
- Οι γονείς βλέπουν κάποιον με ανώτερες επαγγελματικές αρετές.
- Τα παιδιά βλέπουν ένα μικρό φως στο σκοτεινό δάσος των πανελληνίων.
- Οι εκπαιδευτικοί βλέπουμε με δέος ένα προσόν που δεν έχουμε και μένουμε με την απορία «Γιατί κάποιος που έχει το χάρισμα της μαντικής, να θέλει να γίνει εκπαιδευτικός, αντί να παίζει στο καζίνο ή έστω να ανοίξει μία γραμμή 090 για προβλέψεις στον ερωτικό και στον επαγγελματικό τομέα;».
Ο προφήτης συνάδερφος ξεχωρίζει όπως το παγώνι στο κοτέτσι και κανείς δεν παρατηρεί μετά το σφάξιμο ότι έχει πέσει έξω. Με το πέρας της εξέτασης, με το άγχος να σε παραλύει ακόμα, με τα κλάματα για τα λάθη που βρέθηκαν, ούτε που κάθεται κανένας να σκεφτεί πως πουθενά δεν έπεσε άσκηση του τύπου:
Δίνεται συνάρτηση $f:\mathbb{R}\to\mathbb{R}$ τέτοια, ώστε $f^3(x)+f(x)=e^x+1$ για κάθε $x\in\mathbb{R}$. Να δείξεις ότι...
άστρα και όραμα και μαθηματικά
Απαιτήσεις σύγχρονων εργαλείων πρόβλεψης
«Κι αν, όμως, αυτός ο συνάδερφος έχει μελετήσει τα θέματα των πανελληνίων και μπορεί να προβλέψει από τα προηγούμενα τι θα γίνει τώρα;». Αυτό είναι μια απορία που όλοι την είχαμε μία φορά τουλάχιστον στην επαγγελματική ζωή μας. Και η αλήθεια είναι πως όποιος έχει ασχοληθεί λιγάκι με Στατιστική ή Θεωρία Πιθανοτήτων, καταλαβαίνει ότι είναι εφικτές κάποιες προβλέψεις στον χώρο της επιστήμης.
Κι εδώ σταματάει η καλή προαίρεση και αρχίζει και πάλι η καχυποψία. Διότι για να είναι μια πρόβλεψη αξιόπιστη, πρέπει να βασίζεται σε έναν όχι μικρό όγκο δεδομένων. Συγκεκριμένα, στον παρακάτω πίνακα βλέπουμε διάφορες μεθόδους πρόβλεψης, οι οποίες βασίζονται στην παραδοσιακή Στατιστική (π.χ. ANOVA) ή στη σύγχρονη Μηχανική Μάθηση.
Πίνακας 1. Πλήθος δεδομένων που απαιτούνται σε κάθε προγνωστικό μοντέλο.
| Προγνωστικό μοντέλο | Ελάχιστο πλήθος μετρήσεων (ιδανικές συνθήκες) |
|---|---|
| t-test / ANOVA | 30 (ανά ομάδα) |
| Linear Regression | 30 |
| Multiple Linear Regression | 50-100 |
| Logistic Regression (Δυαδική) | 100 (ή τουλάχιστον 10 γεγονότα ανά μεταβλητή) |
| ARIMA | 50 (ιδανικά >100 για εποχικότητα/seasonality) |
| Naive Bayes | 100 |
| Decision Trees | 200 |
| K-Nearest Neighbors | 200 |
| Support Vector Machines | 300-500 |
| Random Forest | 500 |
| XGBoost / Gradient Boosting | 1000 |
| Neural Networks (απλά MLP) | 5000 |
| Deep Learning (CNN / LSTM) | 10000+ |
Βλέπουμε ότι και τα πιο ολιγαρκή μοντέλα απαιτούν 30 τουλάχιστον μετρήσεις. Και μιλάμε για δεδομένα μορφολογικά απλά (αλληλουχίες από αριθμούς, από
yes/no κ.τ.λ.). Δεν μιλάμε για αλληλουχία
μαθηματικών προβλημάτων.
Έστω όμως κι έτσι, οι 30 μετρήσεις δεν μπορούν να βρεθούν στην περίπτωση των πανελληνίων, διότι 30 έτη
καταλαμβάνουν έτη από διαφορετική διδακτέα ύλη μέχρι και διαφορετικά εκπαιδευτικά συστήματα. Κι αν κάποιος εξετάσει σε βάθος
15ετίας (συμπεριλαμβάνοντας τις επαναληπτικές εξετάσεις) θα βρεθεί μπροστά σε δεδομένα
που πάλι δεν έχουν ενιαία συγκρότηση, καθόσον και πάλι η ύλη δεν διατηρείται σταθερή, αλλά ούτε και η επιτροπή θεμάτων.
Αυτό σημαίνει ότι υπάρχουν τρία πιθανά σενάρια:
- Οι μάντεις εκπαιδευτικοί διαθέτουν ένα σπάνιο χάρισμα που θα έκανε πολλούς Αναλυτές Δεδομένων να κλάψουν από φθόνο.
- Οι μάντεις εκπαιδευτικοί αμολάνε την πρόβλεψη, επαφίοντας τις ελπίδες τους για την ενδεχόμενη αστοχία στην οδύνη των πανελληνίων.
- Οι μάντεις εκπαιδευτικοί, τιμώντες το ελληνικό μας έθνος, δίνουν επαρκώς αόριστες προβλέψεις τύπου Πυθίας.
Εδώ θα ασχοληθούμε με την 3η κατηγορία.
Πιθανότητες προβλέψεων
Καθορισμός μεταβλητών.
Προς τούτο, ας υποθέσουμε πως κάποιος έχει κατά νου ένα από τα κεφάλαια του σχολικού βιβλίου κι εμείς θέλουμε να μαντέψουμε ποιο είναι αυτό. Έστω, λοιπόν, $p$ η πιθανότητα να το πετύχουμε στην τύχη.
Εμείς ενδιαφερόμαστε για:
- την πιθανότητα ένα τουλάχιστον από τα ($n$) ερωτήματα του διαγωνίσματος των πανελληνίων να περιέχει το κεφάλαιο που διαλέξαμε,
- την πιθανότητα τα $y$ τελευταία χρόνια να είχαμε κάνει σωστή πρόβλεψη τουλάχιστον τις μισές φορές.
Ποια η πιθανότητα να προβλέψει σωστά στις φετινές πανελλήνιες;
Προφανώς, η πιθανότητα κάποιος να έχει κατά νου ένα από τα κεφάλαια του σχολικού βιβλίου κι εμείς να μην το μαντεψουμε σωστά είναι $1-p$. Αυτό σημαίνει ότι, το να μην γίνει καμία σωστή πρόβλεψη σε όλο το διαγώνισμα των $n$ ερωτημάτων έχει πιθανότητα:
Έτσι, διαλέγοντας στην τύχη ένα κεφάλαιο του σχολικού βιβλίου, η πιθανότητα να το έχει κάποιο ερώτημα των πανελληνίων ισούται με:
Αλλά ας γίνουμε πιο συγκεκριμένοι! Δεδομένου, λοιπόν, ότι το σχολικό βιβλίο αποτελείται από $17$ κεφάλαια (μη επαναληπτικά των προηγούμενων τάξεων), έχουμε ότι $p=\frac{1}{17}$. Και, αφού ένα διαγώνισμα πανελληνίων έχει $3$ θέματα ασκήσεων με $4$ υποερωτήματα το κάθε ένα, η πιθανότητα με μία τυχαία μαντεψιά κεφαλαίου του σχολικού βιβλίου να πέσουμε μέσα στις πανελλήνιες είναι:
Διαπιστώνουμε, λοιπόν, ότι το εντυπωσιακό δεν είναι πώς προβλέπουν συνάδερφοι τα θέματα των πανελληνίων, αλλά το πώς καταφέρνουν τόσο συχνά να πέφτουν έξω.
Ποια η πιθανότητα να προβλέψει σωστά στις περισσότερες πανελλήνιες;
Ο οιονοσκόπος εκπαιδευτικός, αφού προβλέψει τα θέματα από το πέταγμα των πουλιών ή από τα σπλάχνα ενός ζώου, προσπαθεί να δώσει στους υπόλοιπους αμαθείς μια πιο επιστημονική τεκμιρίωση της εγκυρώτητας των οραμάτων του. Συνήθως αυτή είναι κάτι του τύπου:
Τα τελευταία 5 χρόνια τις περισσότερες φορές έχω πέσει μέσα.
χαρτοριχτική και μαθηματικά
Στα $y$ έτη, το να πετύχει κανείς τα θέματα ακριβώς $k$ φορές έχει πιθανότητα:
Έτσι, το να πετύχει κανείς τα θέματα τουλάχιστον τις μισές φορές σε αυτά τα $y$ έτη έχει πιθανότητα:
Συνεπώς, το να πετύχει κανείς τα θέματα πάνω από τις μισές φορές στα $5$ τελευταία έτη έχει πιθανότητα:
Αν εξετάσουμε πόσο μάς χαμογελάει η τύχη στα $10$ τελευταία έτη, έχουμε την πιθανότητα για τουλάχιστον $5$ σωστές προβλέψεις:
Και πάλι διαπιστώνουμε πως δεν αξίζει την προσοχή μας ο συνάδερφος που προβλέπει σωστά τα θέματα, όσο αυτός που έχει ένα συνεφάκι γκαντεμιάς από πάνω του και κατεφέρνει να πέσει έξω, παρότι η Θεωρία Πιθανοτήτων βάζει τα δυνατά της για να τον βοηθήσει.