Έστω ότι κάποιο τεστ ανίχνευσης του ιού (H. I.V.) του AIDS έχει ακρίβεια $99\% $.
Δηλαδή αν κάποιος είναι φορέας τότε η διάγνωση είναι θετική $99$ φορές στις $100$, ενώ αν κάποιος δεν είναι φορέας η διάγνωση είναι αρνητική $99$ φορές στις $100$.Έστω επίσης το ποσοστό του πληθυσμού που φέρει τον ιό του AIDS είναι $0,1\%$. Εξετάζονται $100000$ άνθρωποι με το τεστ ανίχνευσης. Ανακοινώνεται σε κάποιο από τους εξετασθέντες ότι το αποτέλεσμα γι’ αυτόν από το τεστ ανίχνευσης είναι θετικό.
Να υπολογιστεί η πιθανότητα να είναι ο άνθρωπος αυτός πραγματικά φορέας του AIDS.
Γεια σου Νίκο
ΑπάντησηΔιαγραφήΟρίζουμε τα γεγονότα:
$A$={το άτομο είναι ασθενής}
$B$={το τέστ απάντησε θετικά}
Από τα δεδομένα έχουμε:
$P(A)=0.001,\ P(B | A)=0.99,\ P(B | A')=0.01$
Η ζητούμενη πιθανότητα είναι:
$P(A | B)= \dfrac{P(B | A)P(A)}{P(B)} = \dfrac{0.99 \times 0.001}{0.99 \times 0.001+0.01 \times 0.999}$
$P(A | B)= \dfrac{11}{122} \approx 0.09 $
Λογικό αφού νοσεί μόνο το $1/1000$ του πληθυσμού
Γεια σου Ευθύμη.
ΑπάντησηΔιαγραφήΓια μια ακόμη φορά . Σωστά, λιτά, ακαριαία.!!
Σ ευχαριστώ πολύ .
Νίκο, μπράβο! Εξαιρετικό το θέμα σου και πολύ χρήσιμο γιατί διαφωτίζει κάποια πράγματα σχετικά άγνωστα και δυστυχώς ευρέως παρερμηνευόμενα στην κοινωνία,ακόμη και στην "εξειδικευμένη" όπως η ιατρική.
ΑπάντησηΔιαγραφήΚάποιος χωρίς εμπειρία από τέτοιες αναγνώσεις και ερμηνείες της Στατιστικής θα μπορούσε (και θα έπρεπε!) να αναρωτηθεί. "Μα τι γίνεται εδώ πέρα; Ένα τεστ που υποτίθεται έχει ακρίβεια (accuracy) 99% ,δίνει αποτελέσματα-σκουπίδια; Η απάντηση βεβαίως είναι ΟΧΙ. Θα πρέπει θεωρώ να γίνω όσο απλούστερος στην έκφραση και λιγότερο φορμαλιστής γίνεται.
Το 99% τι σημαίνει;" Όπως γράφεις στην εκφώνηση "αν κάποιος είναι φορέας τότε η διάγνωση είναι θετική 99 φορές στις 100" . Το "αν" πρέπει να τονιστεί και να εμπεδωθεί. Το 99% είναι κι αυτό με τη σειρά του δηλαδή, μια "υπό συνθήκη πιθανότητα". ΑΝ κάποιος έχει ΟΝΤΩΣ την ασθένεια ΤΟΤΕ το τεστ θα το δείξει 99 φορές στις 100" Είναι τελείως διαφορετικό πράγμα η υπο συνθήκη πιθανότητα ένας ΤΥΧΑΙΟΣ από ένα ΣΥΓΚΕΚΡΙΜΕΝΟ στατιστικό δείγμα (μιας ομάδας ελέγχου δηλαδή με συγκεκριμένο risk factor /Ένας στους χίλιους στην περίπτωσή μας) να έχει όντως την ασθένεια. Aν ο ίδιος που τεσταρίστηκε σε αυτό το γκρουπ, τεσταριστεί μια ώρα αργότερα σε ένα γκρουπ "υψηλού κινδύνου" η πιθανότητά του όντως να νοσεί ,θα βρεθεί πολύ μεγαλύτερη! Κι αυτό δεν είναι παράδοξο, ούτε λάθος μεθοδολογία. H Στατιστική είναι ΠΑΡΑΔΟΧΕΣ προσέγγισης της πραγματικότητας και η "ολόκληρη αρχοντιά όχι η μισή" είναι η ΚΑΤΑΛΛΗΛΗ ΕΠΙΛΟΓΗ δείγματος.
ΚΑΝΟΝΑΣ 1:Όσο πιο σπάνια είναι μια αρώστεια, τόσο μικρότερη είναι η Πιθανότητα ένα θετικό αποτέλεσμα να σημαίνει πως πραγματικά έχεις την αρώστεια, παρά το 99%.
ΚΑΝΟΝΑΣ 2: 99% σημαίνει: ΑΝ κάποιος ΕΧΕΙ ΟΝΤΩΣ την ασθένεια ΤΟΤΕ το τεστ θα το δείξει 99 φορές στις 100. ΔΕΝ σημαίνει πως αν ΕΧΕΙΣ την αρώστεια το τεστ θα το δείξει 99 φορές στις 100.
Αν έχεις την αρώστεια, το τεστ θα είναι θετικό 99% των φορών, ενώ αν δεν έχεις την αρώστεια το τεστ θα είναι αρνητικό 99 φορές στις 100 που θα τεσταριστείς. Το συμπληρωματικό 1% σε κάθε εκδοχή είναι τα αποκαλούμενα στη γλώσσα της Στατιστικής "Ψευδή θετικά" και "Ψευδή αρνητικά"
[Εδώ πρέπει να σημειωθεί πως συχνά τέτοια τεστ έχουν διαφορετικό βαθμό ακρίβειας για τα θετικά και τα αρνητικά κι όχι -όπως στο παράδειγα μας- τον ίδιο.]
Ας δούμε όμως με απλή αριθμητική το πως μεταφράζεται ο τύπος του Bayes στον συγκεκριμένο πληθυσμό των 100.000 ,ΔΕΔΟΜΕΝΟΥ του 0,1% που είναι ο βαθμός εμφάνισης (Σπανιότητα) της ασθένειας.
Έστω πως οι 100.000 άνθρωποι εξετάζονται για την ασθένεια.
Αυτοί που ΟΝΤΩΣ την έχουν είναι 0,1%(1 στους Χίλιους) = 100
Αυτοί οι 100 θα έχουν 99 θετικά τεστ και 1 αρνητικό.
Ας δούμε τώρα τους ΥΓΙΕΙΣ.
Από τους 100.000 που τεσταρίστηκαν, οι 100000-100=99.900 ΔΕΝ έχουν την ασθένεια.
Από τους 99.900 υγιείς λοιπόν, οι 99.900×99% = 98.901 θα έχουν Αρνητικά τεστ και οι υπόλοιποι 999 θα έχουν Θετικά.
Τι έχουμε λοιπόν συγκεντρωτικά; :
ΑΠΟΤΕΛΕΣΜΑ ΤΕΣΤ "ΘΕΤΙΚΟ": Aρωστοι.=99
Υγιείς =999
Σύνολο =1098
ΑΠΟΤΕΛΕΣΜ. ΤΕΣΤ "ΑΡΝΗΤΙΚΟ": Aρωστοι.=1
Υγιείς =98.901
Σύνολο =98.902
ΓΕΝΙΚΑ ΣΥΝΟΛΑ: Aρωστοι=99+1=100
Υγιείς= 999+98901=99.900
Σύνολο: 100.000
Aπό τα 1098 τεστ που βγαίνουν "Θετικά" τα 99 (9%) είναι σωστά και τα 999 (91%) είναι ΨΕΥΔΗ ΘΕΤΙΚΑ. Γι'αυτό η Πιθανότητα κάπποιος να ΕΧΕΙ ΟΝΤΩΣ την αρώστεια, όταν έχει αποτέλεσμα Θετικό, είναι μόλις 9% !
Και πόσο αξιόπιστο είναι ένα Αρνητικό τεστ;
Αν λοιπόν το τεστ μας βγει "Αρνητικό", η πιθανότητα να είμαστε όντως αρνητικοί (δηλαδή να μην έχουμε την αρώστεια) είναι:
p(υγιειής | τεστ Αρνητικό) = 98.901/98.902, πρακτικά 100%. Ενα αρνητικό αποτέλεσμα είναι ΣΧΕΔΟΝ με απόλυτη βεβαιότητα σωστό.
Να προσθέσω κάτι σημαντικό. Στο παράδειγμα του Νίκου και πάλι, ένα "θετικό αποτέλεσμα" ΕΙΝΑΙ "Στατιστικό σημαντικό". Δηλαδή αξίζει/πρέπει να διερευνηθεί περαιτέρω (με λεπτομερή τεστ αίματος ή ό,τι άλλο κάνουν οι γιατροί σχετικά).
ΔιαγραφήΗ φιλοσοφία αυτών των τεστ (που αποκαλούνται "προκαταρκτικά" preliminary) είναι να καταδείξουν για ένα συγκεκριμένο Risk factor ΚΥΡΙΩΣ τα αρνητικά.
Και οι λόγοι είναι κοινωνικοί και οικονομικοί. (δυστυχώς μεν,αλλά αυτή είναι η πραγματικότητα).
Ένα αρνητικό αποτέλεσμα σε ένα σχετικά "ασφαλές" περιβάλλον (1 στους 1000) δίνει "ηθική βεβαιότητα" (98,901/98,902) πως κάποιος ΔΕΝ έχει την αρώστεια, άρα δεν χρειάζεται περαιτώρα εξέταση (που κοστίζει...)
Καλημέρα Γιώργο.
ΔιαγραφήΤα μπράβο ανήκουν σε σένα με την φοβερή ανάλυση του θέματος.
όλα ξεκίνησαν από μια συγκλονιστική είδηση με την διαπόμπευση μιας ασθενούς στην Μυτιλήνη.
Να σημειωθεί ότι πράγματι, όπως άριστα ανέλυσες, αν το τεστ επαναληφθεί για να γίνει επιβεβαίωση, η πιθανότητα τώρα να είναι κάποιος πραγματικά φορέας του ιού με δεδομένο ότι και το δεύτερο τεστ βγήκε θετικό είναι $90\% $ !!.
Η άσκηση είναι ( λυμένη ) σε βιβλίο του Γιάννη Μαντά .
Nίκο, μήπως έχεις κάποια παραπομπή (ή λινκ) για την ιστορία στη Μυτιλήνη; Ευχαριστώ εκ των προτέρων σε κάθε περίπτωση.
Διαγραφήhttp://www.enet.gr/?i=news.el.ellada&id=452789
Διαγραφήhttp://news247.gr/eidiseis/koinonia/olh_h_alhtheia_gia_thn_diapompeysh_dhthen_forea_toy_aids_sth_lesvo_anazhteitai_enas_48xronos.3087912.html
ΔιαγραφήBayes Rule in an animated gif
ΑπάντησηΔιαγραφήhttp://simplystatistics.org/2014/10/17/bayes-rule-in-a-gif/
Στον πιο σημαντικό ΚΑΝΟΝΑ 2, χτύπησε ο δαίμων της παραδρομής... :-)
ΑπάντησηΔιαγραφήOρθή Επανάληψη λοιπόν:
KANONΑΣ 2.
99% σημαίνει: ΑΝ κάποιος ΕΧΕΙ ΟΝΤΩΣ την ασθένεια ΤΟΤΕ το τεστ θα το δείξει 99 φορές στις 100. ΔΕΝ σημαίνει πως αν το τεστ βγει ΘΕΤΙΚΟ ,τότε η πιθανότητα να έχεις την αρώστεια είναι 99 φορές στις 100.
Το δοθέν πρόβλημα μου θύμισε ένα σχετικό (ως ένα βαθμό) και επίσης πρακτικά χρήσιμο πρόβλημα:
ΑπάντησηΔιαγραφήΦανταστείτε ότι είστε σε μια περιοχή με περιορισμένους πόρους και θέλετε να ελέγξετε τον πληθυσμό για μια ασθένεια. Αλλά το τεστ αντισωμάτων είναι απαγορευτικά ακριβό.
Μια έξυπνη στρατηγική εξοικονόμησης κόστους είναι να συγκεντρώσετε το αίμα από ν δείγματα (χρησιμοποιώντας το μισό του δείγματος αίματος κάθε ατόμου και φυλάσσοντας το άλλο μισό). Εάν το τεστ στη συγκεντρωτική αυτή παρτίδα είναι αρνητικό, αυτό μας γλυτώνει από ν-1 δοκιμές (υποθέτουμε εδώ ότι το τεστ είναι αρκετά ευαίσθητο στο να διαγνώσει τον ιό). Αν είναι θετικό, τότε θα πρέπει να ελέγξουμε κάθε δείγμα χωριστά, δηλαδή να κάνουμε ν + 1 τεστ συνολικά.
Δεδομένου ότι η συγκεκριμένη ασθένεια έχει επιπολασμό 10% στον πληθυσμό, θα βοηθήσει αυτή η στρατηγική συγκέντρωσης στη μείωση του αριθμού των εξετάσεων; Αν ναι, ποιος είναι ο βέλτιστος αριθμός δειγμάτων για να φτιαχτεί η συγκεντρωτική παρτίδα;
Ως εφαρμογή, έστω ότι τα άτομα που πρέπει να ελεγχθούν είναι 100.
ΔιαγραφήΔεν είναι σαφές τι ακριβώς ζητάει το πρόβλημα,νομίζω.
ΔιαγραφήΤο "υποθέτουμε εδώ ότι το τεστ είναι αρκετά ευαίσθητο στο να διαγνώσει τον ιό" τι σημαίνει; Sensitivity 100% ?
Mε επιπολασμό 10%, πρακτικά αυτό θα σήμαινε μηδέν ψευδή θετικά ,οπότε ...;
Και 100 είναι το δείγμα ή ο πληθυσμός; Τι ακριβώς νοείται ως "συγκεντρωτική παρτίδα";
Το πρόβλημα είναι σχετικό μόνο ως προς το ότι έχει να κάνει με πιθανότητες και ιατρική. Δεν εμπλέκεται ο νόμος του Bayes και ο υπολογισμός PPV (κάνουμε την απλοποιητική παραδοχή ότι το τεστ βγαίνει πάντα θετικό αν υπάρχει ο ιός στο, συγκεντρωτικό ή μη, δείγμα και αρνητικό αν όχι). Το πρόβλημα έγκειται στην επιλογή του πλήθους των δειγμάτων που θα αναμιχθούν (και κατόπιν να ελεγχθεί το μίγμα - αυτό εννοώ με το συγκεντρωτική παρτίδα), ώστε να ελαχιστοποιηθεί το αναμενόμενο πλήθος των τεστ που θα γίνουν τελικά. Είναι απλά ένα πρόβλημα βελτιστοποίησης.
ΔιαγραφήΑ,οκ. Τώρα έγινε σαφές το ζήτημα που θέτεις.Mιλάς για pool sampling.
ΔιαγραφήΓια να μην παρουσιάζω δουλειά άλλων σα δικιά μου ,το ερώτημα νομίζω πως βρίσκει πολύ τεκμηριωμένη απάντηση σε αυτό το paper:
http://www.emis.de/journals/HOA/JAMSA/16/4361.pdf
(3 κεφάλαιο ειδικά, και ειδικότερα η Οne Step optimal sub-group selection from a large population
Mιας και έχουμε 100>80 ,ο τύπος 3.1 είναι εφαρμόσιμος και δίνει (αν δεν έχω κάνει κάποιο λάθος) για q=0,100 (10% επιπολασμό) ένα μεγάλο m(opt) κοντά στο 50.
To δείγμα από 50 άτομα μου φαίνεται πολύ μεγάλο. Με επιπολασμό 10% η πιθανότητα να βγει αρνητικό το τεστ θα πρέπει να μικραίνει πολύ. Χωρίς να έχω μελετήσει το ενδιαφέρον paper που μας έδωσες, δίνω τον τρόπο που έχω στο νου μου. Αν x είναι το πλήθος των ατόμων που αποτελούν την παρτίδα, τότε θα γίνει ένα μόνο τεστ με πιθανότητα 0,90^x , ενώ θα γίνουν x+1 τεστ με πιθανότητα 1 - 0,90^x. Το αναμενόμενο πλήθος των τεστ θα είναι δηλ. 0,90^x + (1 - 0,90^x)*(x+1) , ανά παρτίδα, και συνολικά 100/x * (0,90^x + (1 - 0,90^x)*(x+1)).
ΔιαγραφήΤο που ελαχιστοποιείται αυτή η συνάρτηση δεν τολμώ να το λύσω με το χέρι :-) . Να μια λύση με R:
f <- function(x) {
100/x * (0.9^x+(1-0.9^x)*(x+1))
}
curve(f, from = 1, to = 100)
optim(par=1, fn=f, method = "Brent", lower = 1, upper = 100)$par
Μπορείτε να βάλετε τον κώδικα στο αριστερό παράθυρο στο παρακάτω site και να πατήστε "Execute script".
http://www.compileonline.com/execute_r_online.php
Άλλος τρόπος είναι να δώσετε :
minimize (100/x * (0.9^x+(1-0.9^x)*(x+1)))
στο http://www.wolframalpha.com/
H συνάρτηση ελαχιστοποιείται για x=4.
AN ερμηνεύω σωστά το ζήτημα που θέτεις Halb, και που μοιάζει πολύ ενδιαφέρον, δεν βλέπω γιατί να μην είναι χρήσιμο και εφαρμόσιμο αυτό με το σπάσιμο των δειγμάτων στα δύο (με την προϋπόθεση πάντα ο επιπολασμός να μην είναι χρονικά μεταβαλλόμενος βέβαια, και η μισή ποσότητα να επαρκεί για τα τεστ).
ΑπάντησηΔιαγραφήΑς πούμε κάνω μια υπόθεση εργασίας με βάση τον αριθμό 100 των δειγμάτων (;) που δίνεις σε βάση "πραγματικών" πιθανώς αριθμών και με την "αντίστροφη φορά" του προβλήματος. Να δούμε δηλαδή αν με το σπάσιμο των δειγμάτων πώς προσδιορίζεται η προβλεπτική ικανότητα (predictive value) του τεστ.
Ας πούμε λοιπόν πως τα 100 άτομα ελέγχονται . Έστω πως 8 έχουν τεστ θετικό. Όμως, μόνο 4 απ'αυτά τα άτομα διαπιστώνεται σε δεύτερη ανάλυση (των δεύτερων μισών των δειγμάτων τους) να έχουν πραγματικά την αρώστεια (έριξα τον επιπολασμό στο 4% ως πιο ρεαλιστικό αριθμό μάλλον) Επιπλέον διαπιστώνεται πως 1 άνθρωπος που πραγματικά είχε την αρώστεια, δεν τον "έπιασε" το αρχικό σκρήνινγκ.
Θα έχουμε
Sensitivity = 4 αληθή θετικά ÷ (4 αληθή θετικά + 1 ψευδές αρνητικό)
= 80%
Specificity = 91 Αληθή αρνητικά ÷ (91 αλ.αρνητικά + 4 ψευδή θετικά)
= 96%
Τι πραγματικά θα σήμαινε λοιπόν ένα θετικό ή αρνητικό αποτέλεσμα; Οι θετικές και αρνητικές predictive values (PV):
PV ενός θετικού τεστ = Α.Θ ÷ (Α.Θ +Ψ.Αρνητικά)
PV ενός αρνητικού τεστ = Αληθή Αρνητικά ÷ (Α.Α + Ψ.Α)
Στο προκείμενο πιο πάνω λοιπόν ,έχουμε:
PV(+) = 4 Α.Θ ÷ (4 Α.Θ + 4 Ψ.Θ)]
= 50%
PV(-) = 91 Α.Α ÷ (91 Α.Α + 1 Ψ.Α)
= 99% (περίπου)
Αυτό το παράδειγμα ,καλύπτει το ζήτημα;
Παρντόν για την προφανή παραδρομή. Επιπολασμός (4+1) =5% βέβαια PV(θετικά +)=50%
ΔιαγραφήΠαρεμπιμπτόντως για Επιπολασμό 10%, η Προγνωστική Αξία ενός θετικού τεστ ανεβαίνει στο 70% σχεδόν.