Ci sono tre tipi di bugie: le bugie piccole, le bugie grandi e la statistica. Si dice che questa frase l’abbia detta Benjamin Disraeli, primo ministro britannico del XIX secolo. Ma la statistica ha poco a che fare con la verità o con le bugie. La statistica ha a che fare con la probabilità. Non è una differenza da poco,
soprattutto se si pensa che neanche una mente illuminata come Einstein riusciva ad accettare di buon grado la meccanica quantistica basata su principi probabilistici invece del vecchio rigore deterministico della fisica classica. Tant’è che l’uomo che con la sua relatività aveva demolito la meccanica di Newton affermò con forza “Dio non gioca a dadi”. Come a dire che un evento fisico o accade o non accade, non che probabilmente può accadere o meno.
Chi fa ricerca in clinica sa però che deve utilizzare la statistica, calcolare le probabilità, piuttosto che usare la matematica. Già perché i pazienti sono esseri umani e ci sono troppo fattori da tenere sotto controllo perché con loro funzionino leggi deterministiche. Pensiamo a chi somministra i questionari sulla qualità della vita ai pazienti: non escluderei che uno studio fatto in inverno e uno in primavera portino a risultati diversi solo per il fatto che quando fuori è una bella giornata ci si sente tutti un po’ meglio. Questo ha spesso messo la statistica alla berlina, da Woody Allen (“il 94.5% delle statistiche è sbagliato”) a Trilussa (che arguiva l’azzardo di calcolare la media su distribuzioni bimodali…).C’è stata di recente una piccola disputa sul prestigioso giornale scientifico americano Stroke, a cui il mio gruppo ha partecipato, che è esemplare per affrontare il delicato tema dell’analisi dati in riabilitazione. Uno dei più importanti ricercatori nel campo della riabilitazione, Bruce Dobkin, ha pubblicato sul suddetto giornale un articolo relativo ad un interessante metodo di valutazione del cammino dei pazienti nell’ambiente di vita quotidiano. Il metodo, basato sull’uso di accelerometri posti alla caviglia, era una sorta di holter motorio. Per validare questo metodo, Dobkin ed il suo gruppo hanno usato il coefficiente di correlazione di Pearson (il famoso R). Il mio gruppo ha pubblicato sullo stesso giornale una lettera in cui si commentava questo articolo sottolineando che il coefficiente di Pearson misura la forza di una correlazione (per altro solo quella lineare), non l’agreement rispetto ai valori veri (per farlo Dobkin e colleghi avrebbero dovuto riportare il coefficiente angolare e il termine noto della retta di regressione, nonché utilizzare l’approccio di Bland e Altman), né la ripetibilità (avrebbero dovuto usare l’intra-class correlation coefficient), tantomeno per valutare se esistono relazioni causali. Nella nostra lettera a Stroke abbiamo concluso citando un articolo di Matthew che aveva intitolato un suo articolo pubblicato su Teaching Statistics “Storks deliver babies (p=0.008)”, ovvero le cicogne portano i bambini, con tanto di valore di p altamente significativo da un punto di vista statistico. Con questo titolo ironico voleva mostrare quanto a volte si sopravvaluta il significato della correlazione. Per farlo aveva calcolato la correlazione tra il numero di cicogne e il numero di neonati in 17 paesi europei, trovando un risultato statisticamente significativo (p=0.008, per l’appunto). Ovviamente il trucco c’è, ed è anche abbastanza banale: paesi piccoli (pensiamo al Belgio) avranno meno cicogne e meno neonati di altri più grandi (come la Francia ad esempio). Avesse confrontato topi e neonati avrebbe probabilmente ottenuto lo stesso risultato, ma il titolo del suo articolo sarebbe stato decisamente meno accattivante. In realtà, la storia che il numero di cicogne si correli con quella del numero dei bambini è tanto vecchia quanto vera, ma per un altro motivo. Se c’è un neonato, i genitori riscaldano maggiormente la casa. E le cicogne prediligono i tetti caldi per fare i nidi. È il fattore “calore” il trucco non detto quando si dice che le cicogne portano i bambini.
Questi aneddoti dovrebbero mettere in guardia il medico-ricercatore quando deve trarre delle conclusioni dai risultati statistici. E non entriamo nel campo della furbizia, quando si vuole dimostrare qualcosa usando tutte le armi della statistica: dai grafici tagliati o mostrati da particolari prospettive alla scelta del test statistico a posteriori, per finire con la scelta degli outlier (dati che vengono eliminati perché considerati “strani”, tradotto a volte vuol dire: tolti perché ci rovinavano quello che volevamo dimostrare).
L’altra faccia della medaglia è quando la statistica non è usata al massimo della sua potenza. Forse proprio per paura di venire tacciati come quelli che interrogano talmente tanto i dati da fargli confessare quello che vogliono sentirsi dire. Facciamo un esempio banale, di natura riabilitativa. Dei pazienti vengono sottoposti ad un training riabilitativo per il cammino e voglio vedere se alla fine la loro velocità di cammino è significativamente aumentata. Ho solo un gruppo, test-retest: posso applicare il test t di Student accoppiato. Il mio software a questo punto mi chiede a quante code e quasi tutti rispondono 2, perlopiù perché sono abituati così. Ma se la mia domanda è davvero “è aumentata?” (e non “è cambiata?”) allora posso selezionare 1 coda, raddoppiando la potenza del mio test statistico. Ovvero raddoppiando la possibilità di trovare una differenza significativa.
Tornando alla disputa su Stroke, Dobkin ha avuto modo di controbattere, ringraziandoci per i consigli statistici. Ed ha concluso con quella che mi sembra una buona morale della storia: i clinici, prima di analizzare i dati (o prima di darli ad uno statistico), dovrebbero avere chiare in testa le domande a cui vogliono rispondere e quali sono le ipotesi sul tavolo, altrimenti rischiano di fare degli annunci simili a quelli di un politico in campagna elettorale. D’altronde, per usare le parole proprio di un politico come Benjamin Disraeli, con cui abbiamo cominciato questa dissertazione, il rischio è spesso quello di usare la statistica come un ubriaco usa il lampione: non per illuminare, ma come sostegno.
Marco Iosa *
* Clinical Laboratory of Experimental Neurorehabilitation
Fondazione Santa Lucia I.R.C.C.S.
Caro Marco,
è vero quello che dici. Ma come si sconfigge tutto ciò nella ricerca clinica? Un giorno mi ritrovai a parlare con uno dei nostri professori ad un convegno, il quale mi confessava che era noioso ascoltare mille relazioni su ciò che funziona (in effetti, era vero) e avrebbe trovato molto più interessante sentire lavori su tutto quello che non funziona in riabilitazione. Sicuramente, sarebbe stato molto più divertente. A volte, ci si maschera dietro la significatività statistica: ciò impedisce di relazionarsi nel discutere di un determinato trattamento. E’ una sorta di missione di fede: è così, perchè è statisticamente significativo. Ma come tu ci hai fatto ben notare, la statistica è una determinazione probabilistica e si rischia spesso di farle dire le cose che vogliamo lei dica. Magari per non buttare mesi di lavoro. O più semplicemente un database. Ed allora come superiamo tutto ciò, senza ricadere nel vecchio dogma dell’expert opinion? Come riusciremo finalmente a dire da un palco quello che confessiamo magari ai piedi dello stesso? E non mi rispondere il metodo. O la domanda. Da te, mi aspetto risposte più argute.
Un saluto
Augusto
Caro Augusto,
grazie per la possibilità che mi dai di approfondire il tema della statistica nella ricerca biomedica e clinica. Grazie, ma un po’ meno, per l’invito a dare risposte argute alle tue intelligenti domande, cosa che mi costringe a spremermi un po’ le meningi. Cercherò dunque di essere arguto, ma dopo. Per ora consentimi di dire che un problema di metodo c’è. La statistica è per sua natura asimmetrica. Mi spiego. Il tuo professore aveva ragione a dire che si vedono in giro solo studi i cui risultati portano a una differenza statistica (il famoso p<0.05). Il fatto è che se p è 0.05, bada bene, NON puoi dire che A è uguale a B, ma solo che A “non è diverso” da B, almeno statisticamente. Comprendo che la differenza tra “uguale” e “non diverso” sia labile e poco chiara. Mi viene in mente quel comico al quale la ragazza chiedeva “Mi ami?” e lui rispondeva “Non ti odio, che è già un buon inizio” (in realtà la risposta era un po’ più colorita e divertente). E’ chiaro che scrivere un articolo per dire “proponiamo un nuovo trattamento che porta a risultati migliori degli altri” è più facile che scrivere un articolo per dire “proponiamo un nuovo trattamento che non porta a risultati diversi dagli altri”, a meno che tu non voglia pubblicare sul mitico Journal of Negative Results in Biomedicine (che esiste davvero, e ha impact factor 1.1).
Ma il vero problema è secondo me un altro (e qui spero di essere arguto). Tu mi chiedi se la significatività statistica debba essere considerata un atto di fede, una fede il cui sacerdote debba essere l’esperto di statistica. Nella Vita di Galileo di Brecht (il cui libro dovrebbe essere sul comodino di ogni ricercatore) c’è una scena bellissima in cui il cardinale Barberini dice a Galileo: “Pensate in termini di cerchi e di ellissi, di velocità uniformi e di movimenti semplici, cioè di cose conformi ai vostri cervelli. Ma supponiamo che l’Onnipotente si sia fitto in capo di far muovere le stelle così (e traccia in aria col dito un’orbita complicatissima con un moto irregolare). Dove andrebbero a finire, allora, i vostri calcoli?” E Galileo gli risponde: “Allora, Eminenza, l’Onnipotente ci avrebbe forniti di cervelli fatti così (e traccia in aria col dito lo stesso movimento) perché potessimo credere che un movimento così (ripetendo il movimento) fosse il più semplice possibile! Io ho fede nel cervello.”
La significatività statistica (p<0.05, se Bonferroni vuole) è come il “sì” o “no” di una sposa all’altare. Se sei il lettore di un articolo sei come un invitato al matrimonio, ma se l’articolo lo devi scrivere tu allora sei lo sposo. E se sei lo sposo allora sei arrivato all’altare perché prima hai bramato quella donna, poi siete usciti insieme, l’hai conquistata, l’hai amata e rispettata, e solo alla fine le hai fatto la fatidica domanda. Dunque quella donna la conosci bene (a meno che tu non sia ubriaco e a Las Vegas). Quello che in ricerca devi conoscere sono i dati, i risultati, i numeri. I dati li devi aver immaginati quando pensavi al protocollo, li hai acquisiti quando hai applicato il protocollo, li hai visti e rivisti e solo allora sei pronto per fargli la fatidica domanda: “siete statisticamente diversi gli uni dagli altri?”. Il rispetto del dato è fondamentale. C’è chi è capace di scrivere l’Introduzione e la Discussione di un articolo ancor prima di conoscere i risultati di uno studio, ma i dati meritano più rispetto. E ti dirò che applicargli la statistica senza averci passato un po’ di tempo insieme è come chiedere a una donna che hai conosciuto cinque minuti prima di venire a letto con te. Magari ti dice sì, ma com’è che si chiama che già non te lo ricordi più…?
Noi ricercatori dovremmo guardare un po’ di più i nostri dati. Dovremmo farne bei grafici come quando un innamorato disegna il volto dell’amata. E tutto questo prima di qualsiasi analisi statistica. D’altronde dire che i risultati del trattamento A erano statisticamente diversi da quelli del trattamento B (p<0.05) vuol dire ben poco, visto che non ci dice nemmeno se erano migliori o peggiori (ancor più vero è per l’ANOVA, l’Analisi di Varianza: sono diversi i dati per A, B e C? la risposta “sì” ci dice ben poco se non andiamo a fare i famosi post-hoc). E poi, che differenza vuoi che ci sia tra p=0.049 e p=0.051? è solo lo 0.2%! Eppure sembra un mondo, lo so.
Insomma, se posso dare un consiglio, è quello di usare il cervello prima del software di statistica, di guardare i dati, di ascoltare la storia che vogliono raccontarci, prima ancora di fargli noi delle domande.
Ora dovresti capire perché sia facile trovarmi in ufficio a fissare a lungo un database, anche senza applicare nessun test statistico, semplicemente a guardare i numeri. Lo so, potresti prendermi per matto (per autistico se mi va bene), però io mi sento un po’ come quel programmatore del film Matrix che stava le ore davanti a un monitor su cui tutti vedevano scorrere colonne di codice verde su sfondo nero, ma lui riusciva a vedere le persone che quei numeri rappresentavano.
un caro saluto,
Marco Iosa
Il miglior commento su statistica per ricerca clinica di sempre..