Παρασκευή, 17 Οκτωβρίου 2014

Πιθανότητες και Ιατρική

Έστω ότι κάποιο τεστ ανίχνευσης του ιού (H. I.V.) του AIDS έχει ακρίβεια $99\% $.
Δηλαδή αν κάποιος είναι φορέας τότε η διάγνωση είναι θετική $99$ φορές στις $100$, ενώ αν κάποιος δεν είναι φορέας η διάγνωση είναι αρνητική $99$ φορές στις $100$.Έστω επίσης το ποσοστό του πληθυσμού που φέρει τον ιό του AIDS είναι $0,1\%$. Εξετάζονται $100000$ άνθρωποι με το τεστ ανίχνευσης. Ανακοινώνεται σε κάποιο από τους εξετασθέντες ότι το αποτέλεσμα γι’ αυτόν από το τεστ ανίχνευσης είναι θετικό.
Να υπολογιστεί η πιθανότητα να είναι ο άνθρωπος αυτός πραγματικά φορέας του AIDS.

18 σχόλια:

  1. Γεια σου Νίκο

    Ορίζουμε τα γεγονότα:
    $A$={το άτομο είναι ασθενής}
    $B$={το τέστ απάντησε θετικά}
    Από τα δεδομένα έχουμε:
    $P(A)=0.001,\ P(B | A)=0.99,\ P(B | A')=0.01$
    Η ζητούμενη πιθανότητα είναι:
    $P(A | B)= \dfrac{P(B | A)P(A)}{P(B)} = \dfrac{0.99 \times 0.001}{0.99 \times 0.001+0.01 \times 0.999}$
    $P(A | B)= \dfrac{11}{122} \approx 0.09 $
    Λογικό αφού νοσεί μόνο το $1/1000$ του πληθυσμού

    ΑπάντησηΔιαγραφή
  2. Γεια σου Ευθύμη.
    Για μια ακόμη φορά . Σωστά, λιτά, ακαριαία.!!
    Σ ευχαριστώ πολύ .

    ΑπάντησηΔιαγραφή
  3. Νίκο, μπράβο! Εξαιρετικό το θέμα σου και πολύ χρήσιμο γιατί διαφωτίζει κάποια πράγματα σχετικά άγνωστα και δυστυχώς ευρέως παρερμηνευόμενα στην κοινωνία,ακόμη και στην "εξειδικευμένη" όπως η ιατρική.
    Κάποιος χωρίς εμπειρία από τέτοιες αναγνώσεις και ερμηνείες της Στατιστικής θα μπορούσε (και θα έπρεπε!) να αναρωτηθεί. "Μα τι γίνεται εδώ πέρα; Ένα τεστ που υποτίθεται έχει ακρίβεια (accuracy) 99% ,δίνει αποτελέσματα-σκουπίδια; Η απάντηση βεβαίως είναι ΟΧΙ. Θα πρέπει θεωρώ να γίνω όσο απλούστερος στην έκφραση και λιγότερο φορμαλιστής γίνεται.
    Το 99% τι σημαίνει;" Όπως γράφεις στην εκφώνηση "αν κάποιος είναι φορέας τότε η διάγνωση είναι θετική 99 φορές στις 100" . Το "αν" πρέπει να τονιστεί και να εμπεδωθεί. Το 99% είναι κι αυτό με τη σειρά του δηλαδή, μια "υπό συνθήκη πιθανότητα". ΑΝ κάποιος έχει ΟΝΤΩΣ την ασθένεια ΤΟΤΕ το τεστ θα το δείξει 99 φορές στις 100" Είναι τελείως διαφορετικό πράγμα η υπο συνθήκη πιθανότητα ένας ΤΥΧΑΙΟΣ από ένα ΣΥΓΚΕΚΡΙΜΕΝΟ στατιστικό δείγμα (μιας ομάδας ελέγχου δηλαδή με συγκεκριμένο risk factor /Ένας στους χίλιους στην περίπτωσή μας) να έχει όντως την ασθένεια. Aν ο ίδιος που τεσταρίστηκε σε αυτό το γκρουπ, τεσταριστεί μια ώρα αργότερα σε ένα γκρουπ "υψηλού κινδύνου" η πιθανότητά του όντως να νοσεί ,θα βρεθεί πολύ μεγαλύτερη! Κι αυτό δεν είναι παράδοξο, ούτε λάθος μεθοδολογία. H Στατιστική είναι ΠΑΡΑΔΟΧΕΣ προσέγγισης της πραγματικότητας και η "ολόκληρη αρχοντιά όχι η μισή" είναι η ΚΑΤΑΛΛΗΛΗ ΕΠΙΛΟΓΗ δείγματος.
    ΚΑΝΟΝΑΣ 1:Όσο πιο σπάνια είναι μια αρώστεια, τόσο μικρότερη είναι η Πιθανότητα ένα θετικό αποτέλεσμα να σημαίνει πως πραγματικά έχεις την αρώστεια, παρά το 99%.
    ΚΑΝΟΝΑΣ 2: 99% σημαίνει: ΑΝ κάποιος ΕΧΕΙ ΟΝΤΩΣ την ασθένεια ΤΟΤΕ το τεστ θα το δείξει 99 φορές στις 100. ΔΕΝ σημαίνει πως αν ΕΧΕΙΣ την αρώστεια το τεστ θα το δείξει 99 φορές στις 100.
    Αν έχεις την αρώστεια, το τεστ θα είναι θετικό 99% των φορών, ενώ αν δεν έχεις την αρώστεια το τεστ θα είναι αρνητικό 99 φορές στις 100 που θα τεσταριστείς. Το συμπληρωματικό 1% σε κάθε εκδοχή είναι τα αποκαλούμενα στη γλώσσα της Στατιστικής "Ψευδή θετικά" και "Ψευδή αρνητικά"
    [Εδώ πρέπει να σημειωθεί πως συχνά τέτοια τεστ έχουν διαφορετικό βαθμό ακρίβειας για τα θετικά και τα αρνητικά κι όχι -όπως στο παράδειγα μας- τον ίδιο.]
    Ας δούμε όμως με απλή αριθμητική το πως μεταφράζεται ο τύπος του Bayes στον συγκεκριμένο πληθυσμό των 100.000 ,ΔΕΔΟΜΕΝΟΥ του 0,1% που είναι ο βαθμός εμφάνισης (Σπανιότητα) της ασθένειας.
    Έστω πως οι 100.000 άνθρωποι εξετάζονται για την ασθένεια.
    Αυτοί που ΟΝΤΩΣ την έχουν είναι 0,1%(1 στους Χίλιους) = 100
    Αυτοί οι 100 θα έχουν 99 θετικά τεστ και 1 αρνητικό.
    Ας δούμε τώρα τους ΥΓΙΕΙΣ.
    Από τους 100.000 που τεσταρίστηκαν, οι 100000-100=99.900 ΔΕΝ έχουν την ασθένεια.
    Από τους 99.900 υγιείς λοιπόν, οι 99.900×99% = 98.901 θα έχουν Αρνητικά τεστ και οι υπόλοιποι 999 θα έχουν Θετικά.
    Τι έχουμε λοιπόν συγκεντρωτικά; :
    ΑΠΟΤΕΛΕΣΜΑ ΤΕΣΤ "ΘΕΤΙΚΟ": Aρωστοι.=99
    Υγιείς =999
    Σύνολο =1098
    ΑΠΟΤΕΛΕΣΜ. ΤΕΣΤ "ΑΡΝΗΤΙΚΟ": Aρωστοι.=1
    Υγιείς =98.901
    Σύνολο =98.902
    ΓΕΝΙΚΑ ΣΥΝΟΛΑ: Aρωστοι=99+1=100
    Υγιείς= 999+98901=99.900
    Σύνολο: 100.000

    Aπό τα 1098 τεστ που βγαίνουν "Θετικά" τα 99 (9%) είναι σωστά και τα 999 (91%) είναι ΨΕΥΔΗ ΘΕΤΙΚΑ. Γι'αυτό η Πιθανότητα κάπποιος να ΕΧΕΙ ΟΝΤΩΣ την αρώστεια, όταν έχει αποτέλεσμα Θετικό, είναι μόλις 9% !

    Και πόσο αξιόπιστο είναι ένα Αρνητικό τεστ;
    Αν λοιπόν το τεστ μας βγει "Αρνητικό", η πιθανότητα να είμαστε όντως αρνητικοί (δηλαδή να μην έχουμε την αρώστεια) είναι:
    p(υγιειής | τεστ Αρνητικό) = 98.901/98.902, πρακτικά 100%. Ενα αρνητικό αποτέλεσμα είναι ΣΧΕΔΟΝ με απόλυτη βεβαιότητα σωστό.

    ΑπάντησηΔιαγραφή
    Απαντήσεις
    1. Να προσθέσω κάτι σημαντικό. Στο παράδειγμα του Νίκου και πάλι, ένα "θετικό αποτέλεσμα" ΕΙΝΑΙ "Στατιστικό σημαντικό". Δηλαδή αξίζει/πρέπει να διερευνηθεί περαιτέρω (με λεπτομερή τεστ αίματος ή ό,τι άλλο κάνουν οι γιατροί σχετικά).
      Η φιλοσοφία αυτών των τεστ (που αποκαλούνται "προκαταρκτικά" preliminary) είναι να καταδείξουν για ένα συγκεκριμένο Risk factor ΚΥΡΙΩΣ τα αρνητικά.
      Και οι λόγοι είναι κοινωνικοί και οικονομικοί. (δυστυχώς μεν,αλλά αυτή είναι η πραγματικότητα).
      Ένα αρνητικό αποτέλεσμα σε ένα σχετικά "ασφαλές" περιβάλλον (1 στους 1000) δίνει "ηθική βεβαιότητα" (98,901/98,902) πως κάποιος ΔΕΝ έχει την αρώστεια, άρα δεν χρειάζεται περαιτώρα εξέταση (που κοστίζει...)

      Διαγραφή
    2. Καλημέρα Γιώργο.

      Τα μπράβο ανήκουν σε σένα με την φοβερή ανάλυση του θέματος.
      όλα ξεκίνησαν από μια συγκλονιστική είδηση με την διαπόμπευση μιας ασθενούς στην Μυτιλήνη.
      Να σημειωθεί ότι πράγματι, όπως άριστα ανέλυσες, αν το τεστ επαναληφθεί για να γίνει επιβεβαίωση, η πιθανότητα τώρα να είναι κάποιος πραγματικά φορέας του ιού με δεδομένο ότι και το δεύτερο τεστ βγήκε θετικό είναι $90\% $ !!.

      Η άσκηση είναι ( λυμένη ) σε βιβλίο του Γιάννη Μαντά .

      Διαγραφή
    3. Nίκο, μήπως έχεις κάποια παραπομπή (ή λινκ) για την ιστορία στη Μυτιλήνη; Ευχαριστώ εκ των προτέρων σε κάθε περίπτωση.

      Διαγραφή
    4. http://www.enet.gr/?i=news.el.ellada&id=452789

      Διαγραφή
    5. http://news247.gr/eidiseis/koinonia/olh_h_alhtheia_gia_thn_diapompeysh_dhthen_forea_toy_aids_sth_lesvo_anazhteitai_enas_48xronos.3087912.html

      Διαγραφή
  4. Bayes Rule in an animated gif
    http://simplystatistics.org/2014/10/17/bayes-rule-in-a-gif/

    ΑπάντησηΔιαγραφή
  5. Στον πιο σημαντικό ΚΑΝΟΝΑ 2, χτύπησε ο δαίμων της παραδρομής... :-)
    Oρθή Επανάληψη λοιπόν:
    KANONΑΣ 2.
    99% σημαίνει: ΑΝ κάποιος ΕΧΕΙ ΟΝΤΩΣ την ασθένεια ΤΟΤΕ το τεστ θα το δείξει 99 φορές στις 100. ΔΕΝ σημαίνει πως αν το τεστ βγει ΘΕΤΙΚΟ ,τότε η πιθανότητα να έχεις την αρώστεια είναι 99 φορές στις 100.

    ΑπάντησηΔιαγραφή
  6. Το δοθέν πρόβλημα μου θύμισε ένα σχετικό (ως ένα βαθμό) και επίσης πρακτικά χρήσιμο πρόβλημα:

    Φανταστείτε ότι είστε σε μια περιοχή με περιορισμένους πόρους και θέλετε να ελέγξετε τον πληθυσμό για μια ασθένεια. Αλλά το τεστ αντισωμάτων είναι απαγορευτικά ακριβό.
    Μια έξυπνη στρατηγική εξοικονόμησης κόστους είναι να συγκεντρώσετε το αίμα από ν δείγματα (χρησιμοποιώντας το μισό του δείγματος αίματος κάθε ατόμου και φυλάσσοντας το άλλο μισό). Εάν το τεστ στη συγκεντρωτική αυτή παρτίδα είναι αρνητικό, αυτό μας γλυτώνει από ν-1 δοκιμές (υποθέτουμε εδώ ότι το τεστ είναι αρκετά ευαίσθητο στο να διαγνώσει τον ιό). Αν είναι θετικό, τότε θα πρέπει να ελέγξουμε κάθε δείγμα χωριστά, δηλαδή να κάνουμε ν + 1 τεστ συνολικά.
    Δεδομένου ότι η συγκεκριμένη ασθένεια έχει επιπολασμό 10% στον πληθυσμό, θα βοηθήσει αυτή η στρατηγική συγκέντρωσης στη μείωση του αριθμού των εξετάσεων; Αν ναι, ποιος είναι ο βέλτιστος αριθμός δειγμάτων για να φτιαχτεί η συγκεντρωτική παρτίδα;

    ΑπάντησηΔιαγραφή
    Απαντήσεις
    1. Ως εφαρμογή, έστω ότι τα άτομα που πρέπει να ελεγχθούν είναι 100.

      Διαγραφή
    2. Δεν είναι σαφές τι ακριβώς ζητάει το πρόβλημα,νομίζω.
      Το "υποθέτουμε εδώ ότι το τεστ είναι αρκετά ευαίσθητο στο να διαγνώσει τον ιό" τι σημαίνει; Sensitivity 100% ?
      Mε επιπολασμό 10%, πρακτικά αυτό θα σήμαινε μηδέν ψευδή θετικά ,οπότε ...;
      Και 100 είναι το δείγμα ή ο πληθυσμός; Τι ακριβώς νοείται ως "συγκεντρωτική παρτίδα";

      Διαγραφή
    3. Το πρόβλημα είναι σχετικό μόνο ως προς το ότι έχει να κάνει με πιθανότητες και ιατρική. Δεν εμπλέκεται ο νόμος του Bayes και ο υπολογισμός PPV (κάνουμε την απλοποιητική παραδοχή ότι το τεστ βγαίνει πάντα θετικό αν υπάρχει ο ιός στο, συγκεντρωτικό ή μη, δείγμα και αρνητικό αν όχι). Το πρόβλημα έγκειται στην επιλογή του πλήθους των δειγμάτων που θα αναμιχθούν (και κατόπιν να ελεγχθεί το μίγμα - αυτό εννοώ με το συγκεντρωτική παρτίδα), ώστε να ελαχιστοποιηθεί το αναμενόμενο πλήθος των τεστ που θα γίνουν τελικά. Είναι απλά ένα πρόβλημα βελτιστοποίησης.

      Διαγραφή
    4. Α,οκ. Τώρα έγινε σαφές το ζήτημα που θέτεις.Mιλάς για pool sampling.
      Για να μην παρουσιάζω δουλειά άλλων σα δικιά μου ,το ερώτημα νομίζω πως βρίσκει πολύ τεκμηριωμένη απάντηση σε αυτό το paper:
      http://www.emis.de/journals/HOA/JAMSA/16/4361.pdf
      (3 κεφάλαιο ειδικά, και ειδικότερα η Οne Step optimal sub-group selection from a large population
      Mιας και έχουμε 100>80 ,ο τύπος 3.1 είναι εφαρμόσιμος και δίνει (αν δεν έχω κάνει κάποιο λάθος) για q=0,100 (10% επιπολασμό) ένα μεγάλο m(opt) κοντά στο 50.

      Διαγραφή
    5. To δείγμα από 50 άτομα μου φαίνεται πολύ μεγάλο. Με επιπολασμό 10% η πιθανότητα να βγει αρνητικό το τεστ θα πρέπει να μικραίνει πολύ. Χωρίς να έχω μελετήσει το ενδιαφέρον paper που μας έδωσες, δίνω τον τρόπο που έχω στο νου μου. Αν x είναι το πλήθος των ατόμων που αποτελούν την παρτίδα, τότε θα γίνει ένα μόνο τεστ με πιθανότητα 0,90^x , ενώ θα γίνουν x+1 τεστ με πιθανότητα 1 - 0,90^x. Το αναμενόμενο πλήθος των τεστ θα είναι δηλ. 0,90^x + (1 - 0,90^x)*(x+1) , ανά παρτίδα, και συνολικά 100/x * (0,90^x + (1 - 0,90^x)*(x+1)).

      Το που ελαχιστοποιείται αυτή η συνάρτηση δεν τολμώ να το λύσω με το χέρι :-) . Να μια λύση με R:

      f <- function(x) {
      100/x * (0.9^x+(1-0.9^x)*(x+1))
      }

      curve(f, from = 1, to = 100)

      optim(par=1, fn=f, method = "Brent", lower = 1, upper = 100)$par

      Μπορείτε να βάλετε τον κώδικα στο αριστερό παράθυρο στο παρακάτω site και να πατήστε "Execute script".
      http://www.compileonline.com/execute_r_online.php

      Άλλος τρόπος είναι να δώσετε :
      minimize (100/x * (0.9^x+(1-0.9^x)*(x+1)))
      στο http://www.wolframalpha.com/

      H συνάρτηση ελαχιστοποιείται για x=4.

      Διαγραφή
  7. AN ερμηνεύω σωστά το ζήτημα που θέτεις Halb, και που μοιάζει πολύ ενδιαφέρον, δεν βλέπω γιατί να μην είναι χρήσιμο και εφαρμόσιμο αυτό με το σπάσιμο των δειγμάτων στα δύο (με την προϋπόθεση πάντα ο επιπολασμός να μην είναι χρονικά μεταβαλλόμενος βέβαια, και η μισή ποσότητα να επαρκεί για τα τεστ).
    Ας πούμε κάνω μια υπόθεση εργασίας με βάση τον αριθμό 100 των δειγμάτων (;) που δίνεις σε βάση "πραγματικών" πιθανώς αριθμών και με την "αντίστροφη φορά" του προβλήματος. Να δούμε δηλαδή αν με το σπάσιμο των δειγμάτων πώς προσδιορίζεται η προβλεπτική ικανότητα (predictive value) του τεστ.
    Ας πούμε λοιπόν πως τα 100 άτομα ελέγχονται . Έστω πως 8 έχουν τεστ θετικό. Όμως, μόνο 4 απ'αυτά τα άτομα διαπιστώνεται σε δεύτερη ανάλυση (των δεύτερων μισών των δειγμάτων τους) να έχουν πραγματικά την αρώστεια (έριξα τον επιπολασμό στο 4% ως πιο ρεαλιστικό αριθμό μάλλον) Επιπλέον διαπιστώνεται πως 1 άνθρωπος που πραγματικά είχε την αρώστεια, δεν τον "έπιασε" το αρχικό σκρήνινγκ.
    Θα έχουμε
    Sensitivity = 4 αληθή θετικά ÷ (4 αληθή θετικά + 1 ψευδές αρνητικό)
    = 80%
    Specificity = 91 Αληθή αρνητικά ÷ (91 αλ.αρνητικά + 4 ψευδή θετικά)
    = 96%
    Τι πραγματικά θα σήμαινε λοιπόν ένα θετικό ή αρνητικό αποτέλεσμα; Οι θετικές και αρνητικές predictive values (PV):

    PV ενός θετικού τεστ = Α.Θ ÷ (Α.Θ +Ψ.Αρνητικά)
    PV ενός αρνητικού τεστ = Αληθή Αρνητικά ÷ (Α.Α + Ψ.Α)
    Στο προκείμενο πιο πάνω λοιπόν ,έχουμε:

    PV(+) = 4 Α.Θ ÷ (4 Α.Θ + 4 Ψ.Θ)]
    = 50%
    PV(-) = 91 Α.Α ÷ (91 Α.Α + 1 Ψ.Α)
    = 99% (περίπου)
    Αυτό το παράδειγμα ,καλύπτει το ζήτημα;

    ΑπάντησηΔιαγραφή
    Απαντήσεις
    1. Παρντόν για την προφανή παραδρομή. Επιπολασμός (4+1) =5% βέβαια PV(θετικά +)=50%
      Παρεμπιμπτόντως για Επιπολασμό 10%, η Προγνωστική Αξία ενός θετικού τεστ ανεβαίνει στο 70% σχεδόν.

      Διαγραφή