Il campione statistico
18/06/2021 Autore: Paola Luraschi
La quotidianità con i numeri della pandemia ha introdotto alcuni termini statistici nella comunicazione comune. È importante, però, guardare dentro le informazioni, comprendere come in questo caso, ma in genere per ogni fenomeno misurabile, la precisione sia essenziale.
La comunicazione mediatica connessa alla pandemia ha reso familiari termini tecnici di derivazione statistica accendendo i riflettori su aspetti che altrimenti sarebbero stati appannaggio di pochi.
Nella terminologia corrente ricorre spesso il riferimento al concetto di campione statistico talvolta semplicisticamente assimilato a quello di “sottoinsieme” di una popolazione di riferimento. Al fine di spiegare cosa qualifica un insieme di rilevazioni della realtà come campione statistico, è opportuno chiarire lo scopo della statistica.
La “statistica descrittiva” è un insieme di tecniche matematiche utilizzate per descrivere e sintetizzare le caratteristiche di un fenomeno reale sulla base della sua osservazione. La statistica descrittiva, quindi, non aumenta lo stato informativo della realtà ma favorisce la sua comunicazione, sintesi e interpretazione per mezzo di rappresentazioni grafiche e indici sintetici (media, mediana, volatilità etc…). Gli strumenti della “statistica inferenziale” consentono invece di effettuare simulazioni e previsioni sull’andamento futuro del fenomeno oggetto di studio.
Il campione statistico è un elemento fondamentale di tale processo e la modalità con cui viene identificato è determinante per l’accuratezza delle previsioni che ne derivano. Da un punto di vista operativo, infatti, i passaggi tecnici necessari per derivare proiezioni prospettiche partendo dall’osservazione della realtà prevedono in primis la selezione di un sottoinsieme di osservazioni della realtà che sia sufficientemente rappresentativo della realtà stessa (c.d. campione statistico).
I metodi di selezione dei dati da includere nel campione statistico possono essere molteplici e fanno parte degli elementi decisionali ad appannaggio del modellatore (c.d. expert judgement). Quale che sia la metodologia adottata, il criterio di selezione a fini inferenziali deve comunque perseguire la massima rappresentatività delle specificità del fenomeno che si desidera modellare. A tale scopo è essenziale individuare, con il supporto di esperti del fenomeno stesso (e.g. epidemiologi nel caso di un virus, sismologi nel caso di un terremoto, etc…), i fattori che possono determinare la variabilità del fenomeno per identificare il criterio e il metodo di individuazione del campione statistico.
Il valore della qualità dei dati
Sulla base del campione statistico sarà possibile individuare un modello matematico, ossia un insieme di relazioni logico – matematiche che rappresentano la realtà, e provvedere alla sua calibrazione, ossia alla “personalizzazione” del modello astratto per recepire le specificità del fenomeno oggetto di analisi.
Il modello matematico può essere utilizzato per effettuare simulazioni che forniscano previsioni e simulazioni relative all’andamento futuro del fenomeno oggetto di analisi. Tali simulazioni possono essere sia basate su ipotesi verosimili (ossia che ci si aspetta si realizzino in futuro) sia basate su ipotesi astratte che si vogliono testare. La cosiddetta “what if analysis” è una tecnica decisionale evoluta basata sulla comparazione prospettica statistica di possibili modelli strategici di gestione di un fenomeno.
L’attendibilità delle simulazioni ottenute e quindi l’efficacia delle decisioni che ne derivano è strettamente connessa alla qualità, rappresentatività e numerosità del campione statistico disponibile. Se, ad esempio, si desidera derivare informazioni su un fenomeno variabile con età e collocazione geografica della popolazione, un campione rappresentativo della popolazione dovrebbe raccogliere un numero significativo di rilevazioni del fenomeno in corrispondenza a fasce di età e segmentazione geografica avendo cura di gestire l’eventuale correlazione tra il fattore anagrafico e quello geografico. Nel caso non vi sia la disponibilità di un collettivo di riferimento con osservazioni così segmentate, è essenziale che in fase di utilizzo del campione statistico vengano effettuati dal modellatore correttivi di compensazione. Di tale aggiustamento si dovrà poi tenere debita considerazione in fase di interpretazione dei risultati inferenziali ottenuti.
Le particolarità del Covid-19
Le considerazioni fin qui fatte possono aiutare a meglio comprendere ed interpretare correttamente alcune dinamiche consolidate delle rilevazioni statistiche relative al Covid-19. Seguono alcuni esempi.
La relazione di proporzionalità inversa tra il numero di tamponi effettuati e la percentuale di positivi rilevati (ossia al diminuire del numero dei tamponi cresce di norma l’incidenza percentuale dei casi postivi) si può spiegare con un fenomeno di selezione del collettivo esaminato e quindi con una minore rappresentatività dell’indice di contagio effettivo sul territorio nazionale. È verosimile pensare che un numero ridotto di tamponi sia stato effettuato prevalentemente su soggetti che hanno sintomi o che hanno avuto contatti stretti con altri soggetti positivi e questo spiega l’incidenza maggiore dei casi positivi. In linea generale, una ridotta numerosità dei casi esaminati espone al rischio di distorsione dei risultati simulativi in quanto fenomeni occasionali esogeni vengono trasformati, dal processo di calibrazione del modello, in elementi caratterizzanti il fenomeno in esame.
Altro elemento che vale la pena commentare è la variabilità quotidiana, spesso piuttosto marcata, del rapporto tra il numero dei soggetti positivi e quello dei soggetti analizzati. Una spiegazione plausibile è che la variabilità sia dovuta al criterio di individuazione dei soggetti a cui viene effettuato il tampone. Tali soggetti non sono infatti individuati preventivamente secondo principi statistici che perseguano la rappresentatività del fenomeno, ma sono piuttosto determinati dalla gestione contingente del virus (i.e. i soggetti testati sono coloro che hanno sintomi, che sono stati in contatto con positivi o che comunque hanno deciso spontaneamente di sottoporsi al test). In tale contesto è evidente che non sia possibile garantire a priori che i soggetti analizzati siano rappresentativi del collettivo complessivo di riferimento e che non sia possibile certificare “quando” il soggetto sia diventato positivo. È evidente che questo rende difficoltoso prendere decisioni oggettive basate sul dato scientifico.
Un ultimo inciso per ricordare che la selezione del campione di soggetti coinvolti è essenziale per l’adeguatezza dei clinical trial, ossia dei processi di test sulla sicurezza ed efficacia dei farmaci ivi inclusi i vaccini.
Sono sufficienti queste poche considerazioni per far comprendere che la creazione di un campione statistico robusto sia essenziale per disporre di un modello inferenziale attendibile. In un contesto di indisponibilità di un campione statistico solido, come nel caso del Covid-19, è quindi estremamente rilevante il fattore correttivo ed interpretativo di chi gestisce il modello di proiezione e questo crea un fisiologico elemento di soggettività nelle valutazioni.
Paola Luraschi
Strategic & Business Innovation Advisor
Fonte: RM News n.73 – Febbraio 2021