Crisi della replicazione: differenze tra le versioni

Contenuto cancellato Contenuto aggiunto
Espanso la sezione "Storia"
m Correzione di errori ortografici, grammaticali e di battitura tra il paragrafo 1 e 3.6
Riga 8:
 
=== Definizione e criteri di replicazione ===
Il concetto di replicazione può essere generalmente definito come uno strumento metodologico basato sulla ripetizione di un esperimento al fine di stabilire un certo fatto, verità o un elemento di conoscenza scientifica<ref name=":6">{{Cita pubblicazione|nome=Stefan|cognome=Schmidt|data=2009-06|titolo=Shall we Really do it Again? The Powerful Concept of Replication is Neglected in the Social Sciences|rivista=Review of General Psychology|volume=13|numero=2|pp=90–100|lingua=en|accesso=2023-05-23|doi=10.1037/a0015108|url=http://journals.sagepub.com/doi/10.1037/a0015108}}</ref>. In una replicazione, la ripetizione di una data procedura sperimentale viene operata su un campione di dati diverso dall’esperimento originale, in maniera tale da testare l’affidabilità dei risultati di quest’ultimo<ref name=":5">{{Cita pubblicazione|nome=Brian A.|cognome=Nosek|nome2=Tom E.|cognome2=Hardwicke|nome3=Hannah|cognome3=Moshontz|data=2022-01-04|titolo=Replicability, Robustness, and Reproducibility in Psychological Science|rivista=Annual Review of Psychology|volume=73|numero=1|pp=719–748|lingua=en|accesso=2023-05-23|doi=10.1146/annurev-psych-020821-114157|url=https://www.annualreviews.org/doi/10.1146/annurev-psych-020821-114157}}</ref>. In questo senso, la replicazione si differenzia dalla ''riproduzione'', in quanto la seconda viene definita come una procedura volta al ripetere lo stesso processo di analisi sugli stessi dati dell’originale. La replicazione si differenzia anche da un test di “''robustezza''”, che è invece volto all’analizzare gli stessi dati con una strategia di analisi sufficientemente diversa da quella usata nell'esperimento originale<ref name=":5" />.
 
Generalmente, nel decidere se un esperimento sia stato replicato con successo, questa decisione si conforma come un giudizio dicotomico di tipo “replicato/non replicato”<ref name=":5" />.Nel contesto di un [[Test di verifica d'ipotesi|test di verifica d’ipotesi]], la replicazione di risultati trovati in precedenza avviene quando i risultati ottenuti in uno studio di replicazione sono [[Significatività|statisticamente significativi]] nella direzione prevista dallo studio originale<ref name=":5" />. Un secondo metodo per stabilire se una replicazione haabbia avuto successo, sta nel calcolare gli [[Intervallo di confidenza|intervalli di confidenza]] del parametro stimato (e.g. la differenza tra le medie di due gruppi sperimentali in un [[test t]]) per l’esperimento originale e per la replicazione, e il valutare se la stima del parametro dei due esperimenti rientri nell’intervallo di confidenza dell’altro esperimento (la stima dell’originale nell’intervallo di confidenza della replicazione e vice versa). Altri metodi includono: stabilire se il risultato ottenuto nella replicazione sia coerente con la possibile [[w:effect size|dimensione dell'effetto]] stimata dall’originale, valutare soggettivamente se i risultati della replicazione e quelli dell’originale siano simili, o l’utilizzo di [[Fattore di Bayes|fattori Bayes]] per comparare i risultati dell’originale e della replicazione nel contesto della [[Statistica bayesiana|statistica Bayesiana]].<ref name=":5" />
 
La definizione di cosa implichi esattamente “ripetere un esperimento” è ancora un concetto molto discusso nel campo delle metascienze, specialmente quando applicato alle scienze psicologiche<ref name=":7">{{Cita pubblicazione|nome=Brian A.|cognome=Nosek|nome2=Timothy M.|cognome2=Errington|data=2020-03-27|titolo=What is replication?|rivista=PLOS Biology|volume=18|numero=3|pp=e3000691|lingua=en|accesso=2023-05-23|doi=10.1371/journal.pbio.3000691|url=https://dx.plos.org/10.1371/journal.pbio.3000691}}</ref><ref name=":6" />. In generale, vi è accordo sul fatto che, in diverse discipline scientifiche, non sia possibile riprodurre un esperimento tale e quale all’originale (ciò che viene talvolta definita come una “replicazione esatta”). Secondo [https://sites.google.com/site/webstefanschmidt/cv-1 Stefan Schmidt], docente universitario in scienzeScienze della salute e psicologiaPsicologia, ciò è particolarmente vero per le discipline scientifiche che lavorano con “unità irreversibili”, ovvero sistemi complessi che variano inevitabilmente col passare del tempo, non rendendo possibile lo stabilire le stesse condizioni dell’esperimento originale. Un possibile esempio possono essere le reazioni fisiologiche a stimoli minacciosi dei partecipanti ad uno studio, che si conformano necessariamente in maniera diversa una volta che l’esposizione a questi stimoli viene ripetuta multiple volte in diversi momenti. Più in generale, due esperimenti è inevitabile che si differenzino in una moltitudine di aspetti, tra cui: il [[Campionamento statistico|campione]] studiato, il contesto sperimentale (i.e. Il laboratorio dove si tiene l’esperimento), la conformazione delle condizioni sperimentali, et cetera<ref name=":5" />. In [[psicologia sociale]], secondo gli psicologi dell'omonima disciplina Christian S. Crandall e [[w:en:Jeffrey Sherman|Jeffrey Sherman]], l’impossibilità di condurre una replicazione esatta viene racchiusa dalla nozione per cui non si può “discendere due volte nello stesso fiume”. L’espressione in questo contesto riflette l’idea che i [[Fenomeno|fenomeni]] psicologici sonosiano necessariamente influenzati da una moltitudine di fattori quali cultura, lingua, [[Priming (psicologia)|priming]] di certe conoscenze e idee, il significato attribuito a domande e frasi, e le esperienze costantemente soggette a cambiamento dei partecipanti a diversi studi. In questo senso, i fenomeni psicologici sono influenzati dal contesto storico e culturale dove avvengono (a differenza dei fenomeni nelle [[scienze naturali]]) e ciò rende impossibile replicare un esperimento in maniera esatta rispetto all’originale.<ref name=":8">{{Cita pubblicazione|nome=Christian S.|cognome=Crandall|nome2=Jeffrey W.|cognome2=Sherman|data=2016-09-01|titolo=On the scientific superiority of conceptual replications for scientific progress|rivista=Journal of Experimental Social Psychology|volume=66|pp=93–99|lingua=en|accesso=2023-05-23|doi=10.1016/j.jesp.2015.10.002|url=https://www.sciencedirect.com/science/article/pii/S0022103115300020}}</ref>
 
=== Tipi di replicazione ===
Riga 24:
 
# Replicazione '''esatta''' - Una replicazione dove tutto ciò che è sotto il controllo del ricercatore viene ripetuto tale e quale all’originale. Ciò include: l’operazionalizzazione delle [[variabili dipendenti e indipendenti]], gli stimoli utilizzati per le variabili dipendenti e indipendenti, i dettagli procedurali dell’esperimento e le caratteristiche fisiche del luogo dove l’esperimento avviene. Si ammette invece una variazione nelle variabili contestuali (e.g. contesto storico).
# Replicazione '''molto prossimale''' - Una replicazione dove, a differenza della replicazione esatta, vi è anche una variazione nei dettagli procedurali dell’esperimento e nelle caratteristiche fisiche del luogo dove l’esperimento avviene (mentre non vi è variazione nell’operazionalizzazione delle variabili e negli stimoli utilizzati)
# Replicazione '''prossimale''' - Una replicazione dove, a differenza delle precedenti, vi è anche una variazione negli stimoli utilizzati per le variabili dipendenti e indipendenti (mentre non vi è variazione per l’operazionalizzazione delle due variabili).
# Replicazione '''distale''' - Una replicazione dove, a differenza delle precedenti, vi è anche una variazione nell’operazionalizzazione delle variabili dipendenti e indipendenti.
# Replicazione '''molto distale''' - Una replicazione per cui ogni singolo aspetto metodologico menzionato in precedenza può essere diverso, e solo l’astrazione teorica del fenomeno è la stessa. Un esempio di replicazione molto distale possono essere i tre diversi studi condotti dallo psicologo sociale John Bargh e colleghi sul fenomeno del comportamento sociale automatico.<ref>{{Cita pubblicazione|nome=John A.|cognome=Bargh|nome2=Mark|cognome2=Chen|nome3=Lara|cognome3=Burrows|data=1996|titolo=Automaticity of social behavior: Direct effects of trait construct and stereotype activation on action.|rivista=Journal of Personality and Social Psychology|volume=71|numero=2|pp=230–244|lingua=en|accesso=2023-05-23|doi=10.1037/0022-3514.71.2.230|url=http://doi.apa.org/getdoi.cfm?doi=10.1037/0022-3514.71.2.230}}</ref>
 
=== Funzioni ===
In via generale, l’importanza della replicazione a livello scientifico viene spesso associata agli scritti di [[Karl Popper]]<ref>{{Cita pubblicazione|nome=Maarten|cognome=Derksen|nome2=Jill|cognome2=Morawski|data=2022-09|titolo=Kinds of Replication: Examining the Meanings of “Conceptual Replication” and “Direct Replication”|rivista=Perspectives on Psychological Science|volume=17|numero=5|pp=1490–1505|lingua=en|accesso=2023-05-29|doi=10.1177/17456916211041116|url=http://journals.sagepub.com/doi/10.1177/17456916211041116}}</ref>. In particolare, un numero d'interpretazioni circa l’importanza della replicazione scientifica fa riferimento al seguente estratto dal primo capitolo della ''[[Logica della scoperta scientifica]]'': <blockquote>“Soltanto quando certi eventi ricorrono in accordo con regole, o regolarità, come nel caso degli esperimenti ripetibili, le nostre osservazioni possono essere controllate - in linea di principio - da chiunque. Non prendiamo neppure sul serio le nostre proprie osservazioni, né le accettiamo come osservazioni scientifiche, finché non le abbiamo ripetute e controllate. Soltanto in seguito a tali ripetizioni possiamo convincerci che non stiamo trattando con una semplice ‘coincidenza’ isolata, ma con eventi che, grazie alla loro ripetibilità e riproducibilità possono, in linea di principio, essere sottoposti a controlli intersoggettivi” (Popper, 1959/2012, p. 26-27)<ref>{{Cita libro|autore=Karl R. Popper|traduttore=Mario Trinchero|titolo=Logica della scoperta scientifica|url=https://www.pensierofilosofico.it/ebooks/Logica-della-scoperta-scientifica/101/|collana=Piccola Biblioteca Einaudi|annooriginale=1959|anno=2012|pp=26-27|capitolo=Introduzione alla logica della scienza}}</ref></blockquote>Secondo il sopracitato [https://sites.google.com/site/webstefanschmidt/cv-1 Stefan Schmidt], Popper connette l’idea di ripetere un esperimento con [[Uniformitarismo|il principio di uniformità della natura]] di [[David Hume|Hume]] come metodo base per ottenere conoscenza oggettiva delle leggi che regolano i fenomeni del mondo. Attraverso la ripetizione di un determinato esperimento, è quindi possibile dimostrare la stabilità delle nostre osservazioni e conoscenze dei fenomeni naturali.<ref name=":6" /> In altre parole, la ricorrenza sistematica di un certo evento secondo precise regole è ciò che rende datoil suddetto evento testabile intersoggettivamente. A sua volta, questa verifica intersoggettiva è ciò che permette di stabilire conoscenze valide e oggettive dell'evento stesso. Gli psicologi sociali Christian S. Crandall e [[w:en:Jeffrey Sherman|Jeffrey Sherman]], in uno dei paragrafi iniziali di un loro scritto, affermano che l’estratto di Popper suggerisce chiaramente che, nel momento in cui un effetto non è replicabile, supporto verso lo stesso non può e non deve essere mantenuto a livello scientifico, e che in maniera complementare, solo attraverso la replicazione possiamo guardare con fiducia alle nostre scoperte passate<ref name=":8" />. Il sociologo [[w:en: Sanjay Srivastava|Sanjay Srivastava]] a sua volta interpreta l'estratto di Popper come un chiaro messaggio per cui 1) gli scienziati dovrebbero replicare i propri esperimenti,; 2) gli scienziati dovrebbero essere in grado di fornire chiare istruzioni ad altri esperti sul come replicare i propri esperimenti e ottenere gli stessi risultati,; e 3) stabilire la riproducibilità degl’esperimenti (tramite replicazione diretta degli stessi) sia una precondizione necessaria allo sviluppare ed il testare le teorie scientifiche atte a spiegarne i risultati<ref>{{Cita web|url=https://thehardestscience.com/2014/11/19/popper-on-direct-replication-tacit-knowledge-and-theory-construction/|titolo=Popper on direct replication, tacit knowledge, and theory construction|autore=Sanjay Srivastava|sito=The Hardest Science|data=19 Novembre 2014}}</ref>.
 
Più nello specifico, i diversi tipi di replicazione discussi nella sezione precedente svolgono differenti funzioni da un punto di vista [[Epistemologia|epistemologico]].
 
Le replicazioni di tipo diretto, esatto o molto prossimale, svolgono la funzione di testare l’effettiva esistenza degli effetti e fenomeni osservati in precedenza. Più precisamente, vista la loro similarità con gli esperimenti originali, replicazioni di questo tipo sono mirate ala falsificare l’ipotesi che un fenomeno osservato originariamente fossesia un [[Falso positivo e falso negativo|falso positivo]].<ref name=":6" /><ref name=":11" /><ref name=":10" />
 
In questo senso, se da una parte il successo di uno studio di replicazione diretto, esatto o molto prossimale può renderci più fiduciosi nell’effettiva esistenza degli effetti trovati in precedenza, dall’altra il fallimento di uno studio di replicazione può generalmente diminuire la nostra fiducia nell’esistenza di quegli stessi effetti (suggerendo invece che possa essersi trattato di falsi positivi).<ref name=":7" /><ref name=":9" /> Questo tipo di replicabilità è considerato fondamentale per gli obbiettivi della ricerca scientifica in generale. Il testare l’esistenza di base e la stabilità di un fenomeno osservabile è ciò che a sua volta permette di perseguire altri obbiettivi della ricerca scientifica, quali: l’accumulazione di evidenza e conoscenza scientifica, la consequenzialità dei risultati, la scoperta di fenomeni, e il testare diversi tipi di [[Validità (psicologia)|validità]] di un esperimento (i.e. [[w:en:internal validity|interna]], [[w:en:external validity|esterna]], [[w:en: Construct validity|di costrutto]])<ref name=":10" />
 
Differentemente dalle replicazioni sopracitate, le replicazioni di tipo concettuale, prossimale, distale e molto distale sono considerate importanti nel processo di espansione teorica, nel testare la validità di esperimenti precedenti e nello stabilire la generalizzabilità dei fenomeni osservati in precedenza.<ref name=":8" /><ref name=":10" /> Ciò avviene grazie alle variazioni metodologiche proprie di questi tipi di replicazione, che permettono quindi di testare certe ipotesi ausiliarie associate all’ipotesi principale, e l’importanza di certi fattori nella produzione di un effetto (e.g. il tipo di operazionalizzazione utilizzata, il tipo di stimoli, o il tipo di costrutti teorici, et cetera)<ref name=":10" />
Riga 45:
L’inizio della crisi di replicazione può essere ricondotto ad una serie di eventi verificatisi all’inizio dei primi anni 2010. Il filosofo della scienza ed epistemologo sociale [https://www.feliperomero.org/ Felipe Romero] ha identificato i seguenti fatti come probabili eventi scatenanti della crisi<ref name=":14">{{Cita pubblicazione|nome=Felipe|cognome=Romero|data=2019-11|titolo=Philosophy of science and the replicability crisis|rivista=Philosophy Compass|volume=14|numero=11|lingua=en|accesso=2023-07-05|doi=10.1111/phc3.12633|url=https://onlinelibrary.wiley.com/doi/10.1111/phc3.12633}}</ref>:
 
* '''Controversie riguardanti gli studi sui fenomeni del priming sociale''': Nei primi anni 2010, un famoso esperimento condotto nel 1996 dallo psicologo sociale [[w: John Bargh | John Bargh]] e colleghi<ref>{{Cita pubblicazione|nome=John A.|cognome=Bargh|nome2=Mark|cognome2=Chen|nome3=Lara|cognome3=Burrows|data=1996|titolo=Automaticity of social behavior: Direct effects of trait construct and stereotype activation on action.|rivista=Journal of Personality and Social Psychology|volume=71|numero=2|pp=230–244|lingua=en|accesso=2023-07-05|doi=10.1037/0022-3514.71.2.230|url=http://doi.apa.org/getdoi.cfm?doi=10.1037/0022-3514.71.2.230}}</ref> non viene replicato in una serie di replicazioni dirette<ref>{{Cita pubblicazione|nome=Stéphane|cognome=Doyen|nome2=Olivier|cognome2=Klein|nome3=Cora-Lise|cognome3=Pichon|data=2012-01-18|titolo=Behavioral Priming: It's All in the Mind, but Whose Mind?|rivista=PLoS ONE|curatore=Jan Lauwereyns|volume=7|numero=1|pp=e29081|lingua=en|accesso=2023-07-05|doi=10.1371/journal.pone.0029081|url=https://dx.plos.org/10.1371/journal.pone.0029081}}</ref>. La serie di studi, di cui l’esperimento faceva parte, era stata fino a quel momento largamente citata da altri studi accademici, e veniva regolarmente insegnata nei corsi universitari di psicologia sociale, eoltre ad avevaaver dato luogo ad un gran numero di replicazioni concettuali. Quest’ultimo fatto è risultato nella creazione di un intero programma di ricerca sui cosiddetti fenomeni di “priming sociale”{{efn|Il priming sociale può essere generalmente definito come l'influenza inconscia che l'attivazione di certe rappresentazioni cognitive può avere sul comportamento delle persone in ambito sociale. L'esatta definizione di questo sottocampo è però oggetto di disputa.}}. In aggiunta ai fallimenti nel replicare uno degl’esperimenti originali di Bargh e colleghi, un numero considerevole delle replicazioni concettuali sopracitate non è stato replicato in successive replicazioni dirette<ref>{{Cita pubblicazione|nome=Harold|cognome=Pashler|nome2=Noriko|cognome2=Coburn|nome3=Christine R.|cognome3=Harris|data=2012-08-29|titolo=Priming of Social Distance? Failure to Replicate Effects on Social and Food Judgments|rivista=PLOS ONE|volume=7|numero=8|pp=e42510|lingua=en|accesso=2023-07-05|doi=10.1371/journal.pone.0042510|url=https://journals.plos.org/plosone/article?id=10.1371/journal.pone.0042510}}</ref><ref>{{Cita pubblicazione|nome=Christine R.|cognome=Harris|nome2=Noriko|cognome2=Coburn|nome3=Doug|cognome3=Rohrer|data=2013-08-16|titolo=Two Failures to Replicate High-Performance-Goal Priming Effects|rivista=PLOS ONE|volume=8|numero=8|pp=e72467|lingua=en|accesso=2023-07-05|doi=10.1371/journal.pone.0072467|url=https://journals.plos.org/plosone/article?id=10.1371/journal.pone.0072467}}</ref><ref>{{Cita pubblicazione|nome=David R.|cognome=Shanks|nome2=Ben R.|cognome2=Newell|nome3=Eun Hee|cognome3=Lee|data=2013-04-24|titolo=Priming Intelligent Behavior: An Elusive Phenomenon|rivista=PLOS ONE|volume=8|numero=4|pp=e56515|lingua=en|accesso=2023-07-05|doi=10.1371/journal.pone.0056515|url=https://journals.plos.org/plosone/article?id=10.1371/journal.pone.0056515}}</ref><ref>{{Cita pubblicazione|nome=Richard A.|cognome=Klein|nome2=Kate A.|cognome2=Ratliff|nome3=Michelangelo|cognome3=Vianello|data=2014-05|titolo=Investigating Variation in Replicability|rivista=Social Psychology|volume=45|numero=3|pp=142–152|accesso=2023-07-05|doi=10.1027/1864-9335/a000178|url=https://econtent.hogrefe.com/doi/10.1027/1864-9335/a000178}}</ref>. Inoltre, la controversia generata dal fallimento nel replicare l’esperimento originale ha scatentato un acceso dibattito che ha visto protagonista lo stesso John Bargh<ref>{{Cita web|url=https://www.nationalgeographic.com/science/article/failed-replication-bargh-psychology-study-doyen|titolo=A failed replication draws a scathing personal attack from a psychology professor|sito=Science|data=2012-03-10|lingua=en|accesso=2023-07-05}}</ref>.
 
* '''Controversie riguardanti il fenomeno della percezione extrasensoriale''': Nel 2011 una serie di esperimenti condotti dallo psicologo sociale [[w: Daryl Bem | Daryl Bem]] ha riportato la possibile esistenza del fenomeno della "percezione extrasensoriale", secondo il quale le persone potrebbero, sorprendentemente, venir influenzate da eventi futuri dei quali non sono a conoscenza<ref>{{Cita pubblicazione|nome=Daryl J.|cognome=Bem|data=2011|titolo=Feeling the future: Experimental evidence for anomalous retroactive influences on cognition and affect.|rivista=Journal of Personality and Social Psychology|volume=100|numero=3|pp=407–425|lingua=en|accesso=2023-07-05|doi=10.1037/a0021524|url=http://doi.apa.org/getdoi.cfm?doi=10.1037/a0021524}}</ref>. Bem è stato fortemente criticato per la metodologia usata negli studi, e una più precisa rianalisi dei dati dello studio originale non ha constato alcuna evidenza per l’esistenza del fenomeno sopracitato<ref>{{Cita pubblicazione|nome=Eric-Jan|cognome=Wagenmakers|nome2=Ruud|cognome2=Wetzels|nome3=Denny|cognome3=Borsboom|data=2011-03|titolo=Why psychologists must change the way they analyze their data: The case of psi: Comment on Bem (2011).|rivista=Journal of Personality and Social Psychology|volume=100|numero=3|pp=426–432|lingua=en|accesso=2023-07-05|doi=10.1037/a0022790|url=http://doi.apa.org/getdoi.cfm?doi=10.1037/a0022790}}</ref>. Inoltre, una serie di replicazioni dirette degli esperimenti condotti da Bem non ha prodotto risultati significativi<ref>{{Cita pubblicazione|nome=Jeff|cognome=Galak|nome2=Robyn A.|cognome2=LeBoeuf|nome3=Leif D.|cognome3=Nelson|data=2012-12|titolo=Correcting the past: Failures to replicate psi.|rivista=Journal of Personality and Social Psychology|volume=103|numero=6|pp=933–948|lingua=en|accesso=2023-07-05|doi=10.1037/a0029709|url=http://doi.apa.org/getdoi.cfm?doi=10.1037/a0029709}}</ref>. La vicenda è stata considerata particolarmente allarmante dalla comunità psicologica in quanto le tecniche di analisi utilizzate da Bem erano di uso comune nella ricerca.
 
* '''Report delle compagnie Amgen e Bayer sui bassi tassi di replicazione nella ricerca biomedica''': Tra il 2011 e il 2012, due studi condotti da ricercatori delle compagnie Amgen e Bayer Healthcare vengono pubblicati in cui gli stessiautori riportano tassi di replicazione particolarmente bassi (11-20%) per una serie d’importanti studi nel campo della ricerca oncologica<ref>{{Cita pubblicazione|nome=C. Glenn|cognome=Begley|nome2=Lee M.|cognome2=Ellis|data=2012-03|titolo=Raise standards for preclinical cancer research|rivista=Nature|volume=483|numero=7391|pp=531–533|lingua=en|accesso=2023-07-05|doi=10.1038/483531a|url=https://www.nature.com/articles/483531a}}</ref><ref>{{Cita pubblicazione|nome=Florian|cognome=Prinz|nome2=Thomas|cognome2=Schlange|nome3=Khusru|cognome3=Asadullah|data=2011-09|titolo=Believe it or not: how much can we rely on published data on potential drug targets?|rivista=Nature Reviews Drug Discovery|volume=10|numero=9|pp=712–712|lingua=en|accesso=2023-07-05|doi=10.1038/nrd3439-c1|url=https://www.nature.com/articles/nrd3439-c1}}</ref>.
 
* '''Pubblicazione di una serie di studi sui fenomeni del p-hacking e delle pratiche di ricerca discutibili (PDR)''': A partire dagl’ultimi anni 2000, una serie di studi nel campo delle metascienze dimostra come l’adozione di una serie di pratiche di ricerca, quali lo sfruttare la flessibilità del processo di analisi e report dei dati, puòpossa aumentare considerevolmente la probabilità di ottenere dei falsi positivi<ref name="Simmons et al. (2011)" /><ref name=":13">{{Cita pubblicazione|nome=Leslie K.|cognome=John|nome2=George|cognome2=Loewenstein|nome3=Drazen|cognome3=Prelec|data=2012-05|titolo=Measuring the Prevalence of Questionable Research Practices With Incentives for Truth Telling|rivista=Psychological Science|volume=23|numero=5|pp=524–532|lingua=en|accesso=2023-07-05|doi=10.1177/0956797611430953|url=http://journals.sagepub.com/doi/10.1177/0956797611430953}}</ref>. La prevalenza di queste pratiche viene attestata da uno studio condotto nel 2012 dalla scienziata del comportamento [https://www.hbs.edu/faculty/Pages/profile.aspx?facId=589473 Leslie K. John] e colleghi<ref name=":13" />. In via generale, questa serie di studi ha suggerito come una percentuale significativa degli studi pubblicati fino a quel momento in diversi campi potesse non essere replicabile in quanto riportante falsi positivi.
 
La serie di eventi di cui sopra ha generato un’ondata di scetticismo verso la validità della ricerca esistente in diversi campi scientifici vista l’adozione comune di pratiche di ricerca di dubbia validità e il fallimento nel replicare diversi studi. Ciò ha portato figure di spicco nella comunità psicologica e di altre scienze a dichiarare una “crisi di fiducia” nella conoscenza scientifica prodotta fino a quel momento<ref>{{Cita pubblicazione|nome=Harold|cognome=Pashler|nome2=Eric–Jan|cognome2=Wagenmakers|data=2012-11|titolo=Editors’ Introduction to the Special Section on Replicability in Psychological Science: A Crisis of Confidence?|rivista=Perspectives on Psychological Science|volume=7|numero=6|pp=528–530|lingua=en|accesso=2023-07-05|doi=10.1177/1745691612465253|url=http://journals.sagepub.com/doi/10.1177/1745691612465253}}</ref>. La situazione che ne è scaturita è adesso comunemente conosciuta come ''crisi della replicazione''.
Riga 66:
 
==== Bias di pubblicazione ====
Il [[bias di pubblicazione]] si riferisce ad un fenomeno per cui, nelle scienze, gli studi che trovano risultati positivi e sorprendenti hanno una maggior probabilità di venir pubblicati<ref name=":14" />. Questo porta alla creazione del cosiddetto "Effettoeffetto del cassetto dei file”, concettualizzato dallo psicologo [[w:Robert Rosenthal |Robert Rosenthal]], secondo il quale, alla luce del bias di pubblicazione, un numero considerevole di risultati negativi (non-significativi nel caso di un [[Test di verifica d'ipotesi|test d’ipotesi]]) non viene pubblicato<ref>{{Cita pubblicazione|nome=Robert|cognome=Rosenthal|data=1979-05|titolo=The file drawer problem and tolerance for null results.|rivista=Psychological Bulletin|volume=86|numero=3|pp=638–641|lingua=en|accesso=2023-07-07|doi=10.1037/0033-2909.86.3.638|url=http://doi.apa.org/getdoi.cfm?doi=10.1037/0033-2909.86.3.638}}</ref>. Quest’utimo tende a distorcere la percezione di quale sia il reale supporto empirico verso una teoria o un fenomeno scientifico. Secondo il sopracitato Romero, quando il bias di pubblicazione viene considerato insieme al fatto che una possibile larga maggioranza delle ipotesi che vengono testate sonosiano false ''a priori'' (sezione 3.5), ciòsi crea una situazione in cui è plausibile che una porzione considerevole di risultati pubblicati siano [[Falso positivo e falso negativo|falsi positivi]]<ref name="Ioannidis2005" />. Un alto tasso di falsi positivi spiegherebbe a sua volta i diffusi fallimenti nel replicare esperimenti passati.
 
Un’ulterioreUn ulteriore e ancor più diretto ruolo del bias di pubblicazione nella crisi di replicazione sta nel fatto che la forte preferenza delle riviste scientifiche verso risultati ed esperimenti originali costitituisce un deterrente per i ricercatori al condurre replicazioni dirette, come spiegato dal filosofo Brian D. Earp e dallo psicologo Jim A. C. Everett<ref>{{Cita pubblicazione|nome=Jim|cognome=Everett|nome2=Brian|cognome2=Earp|data=2015|titolo=A tragedy of the (academic) commons: interpreting the replication crisis in psychology as a social dilemma for early-career researchers|rivista=Frontiers in Psychology|volume=6|accesso=2023-07-07|doi=10.3389/fpsyg.2015.01152/full|url=https://www.frontiersin.org/articles/10.3389/fpsyg.2015.01152}}</ref>. In mancanza di replicazioni dirette, diventa complicato stabilire la validità dei risultati esistenti (sezione 1.3). A testimonianza di questo fatto, un sondaggio della rivista ''Nature'' condotto con più di 1500 ricercatori ha constatato come solo una minoranza degli stessi avesse mai provato a pubblicare una replicazione diretta. DegliTra stessii ricercatori, molti hanno riportato come, al momento di pubblicare una replicazione fallita, una richiesta comune da parte degl’editori della rivista fosse quella di minimizzare i paragoni con l’esperimento originale<ref name="Nature 5-25-2016" />.
 
==== Cultura del “pubblica o perisci” ====
Le conseguenze del bias di pubblicazione sono esacerbate dalla cosiddetta cultura del “pubblica o perisci” in ambito accademico. Come notato dal metascienziato Daniele Fanelli, la cultura del “pubblica o perisci” si riferisce ad un aspetto sociologico del mondo accademico per cui i ricercatori lavorano in un ambito ultracompetitivo e nel quale il riconoscimento è sempre più basato su parametri bibliometrici, come il numero di studi pubblicati fino a quel momento<ref name=":15">{{Cita pubblicazione|nome=Daniele|cognome=Fanelli|data=2010-04-21|titolo=Do pressures to publish increase scientists' bias? An empirical support from US States Data|rivista=PloS One|volume=5|numero=4|pp=e10271|accesso=2023-07-07|doi=10.1371/journal.pone.0010271|url=https://pubmed.ncbi.nlm.nih.gov/20422014/}}</ref>. Secondo Fanelli, ciò crea una forte pressione nei singoli ricercatori volta a produrre risultati che siano “pubblicabili”.
Alla luce del bias di pubblicazione, ciò può spingere diversi ricercatori a metter in pratica una serie di strategie per far si che un risultato sperimentale diventi positivo o statisticamente significativo, a discapito della validità dello stesso. (PDR, sezione 3.2). Di un’idea simile sono il biopsicologo ed esperto di metascienza [[w:Brian Nosek|Brian Nosek]] e colleghi, secondo cui la cultura del “pubblica o perisci” ha creato una situazione in cui gli obbietivi dei singlori ricercatori (e.g. ottenere più pubblicazioni possibili) non sono generalmente allineati con quelli della ricerca scientifica in generale (e.g. ricerca della verità scientifica)<ref name=":16">{{Cita pubblicazione|nome=Brian A.|cognome=Nosek|nome2=Jeffrey R.|cognome2=Spies|nome3=Matt|cognome3=Motyl|data=2012-11|titolo=Scientific Utopia: II. Restructuring Incentives and Practices to Promote Truth Over Publishability|rivista=Perspectives on Psychological Science|volume=7|numero=6|pp=615–631|lingua=en|accesso=2023-07-07|doi=10.1177/1745691612459058|url=http://journals.sagepub.com/doi/10.1177/1745691612459058}}</ref>.
 
=== Pratiche di Ricerca Discutibili ===
Una delle possibili cause dei bassi tassi di replicabilità in diversi campi e sottocampi scientifici può essere vista nelle cosiddette ''Pratiche di Ricerca Discutibili'' (PDR).{{efn|Dall'inglese "Questionable Research Practices" (QRPs).}} Le pratiche di ricerca discutibili sono una serie di pratiche di ricerca che rientrano in una “zona grigia” tra pratiche accettabili e non accettabili<ref name=":17">{{Cita libro|autore=O'Boyle E. H.|autore2=Götz M.|curatore=Jussim L.|curatore2=Krosnick J. A.|curatore3=Stevens S. T.|titolo=Research Integrity: Best Practices for the Social and Behavioral Sciences|annooriginale=2022|editore=Oxford Academic|pp=261-294|capitolo=Questionable Research Practices|url_capitolo=https://doi.org/10.1093/oso/9780190938550.003.0010}}</ref>. Il problema principale nell’utilizzo di queste pratiche sta nell’aumentare in maniera significativa la probabilità di ottenere falsi positivi<ref name="Simmons et al. (2011)" />. Alla luce di ciò, un’alta prevalenza nell’utilizzo di PDR può portare alla proliferazione di un numero significativo di falsi positivi. Esperimenti riportanti questi risultati risultano di conseguenza non-replicabili in successivi studi.
 
La non-chiara accettabilità delle PDR dipende dall’intenzione del ricercatore che le mette in pratica. A seconda del livello di consapevolezza sulla problematicità del loro impiego, le PDR ricadono lungo un continuum, che va dal grave caso di una volontaria “cattiva condotta” scientifica a l’assenzaall’assenza di consapevolezza dello star impiegando pratiche di ricerca problematiche, passando per casi in cui il loro utilizzo viene giustifcato da [[Bias cognitivo|bias cognitivi]] o avviene per semplice sbadataggine del ricercatore<ref name=":17" />.
 
Esempi comuni di PDR includono il formare un’ipotesi solo una volta che si è a conoscenza dei dati (i.e. [[w:HARKing|HARKing]])<ref>{{Cita pubblicazione|nome=Norbert L.|cognome=Kerr|data=1998-08|titolo=HARKing: Hypothesizing After the Results are Known|rivista=Personality and Social Psychology Review|volume=2|numero=3|pp=196–217|lingua=en|accesso=2023-07-07|doi=10.1207/s15327957pspr0203_4|url=http://journals.sagepub.com/doi/10.1207/s15327957pspr0203_4}}</ref>, il raccogliere dati fino a quando non si trovano risultati significativi, il riportare esclusivamente le ipotesi che sono state confermate, il riportare esclusivamente le variabili dipendenti che hanno portato a risultati significativi, e l’esclusione di [[outlier]], covariate o condizioni sperimentali al fine di ottenere risultati significativi<ref name=":13" /><ref name=":17" />.
Riga 83:
Le PDR sono generalmente associate alla più generica pratica del ''[[w:Data-dredging|p-hacking]]''. Il p-hacking si riferisce ad una serie di comportamenti messi in pratica dal ricercatore al fine di aumentare le probabilità di trovare risultati significativi<ref>{{Cita libro|autore=MacCoun R. J.|curatore=Jussim L.|curatore2=Krosnick J. A.|curatore3=Stevens S. T.|titolo=Research Integrity: Best Practices for the Social and Behavioral Sciences|anno=2022|editore=Oxford Academic|capitolo=P-hacking: A Strategic Analysis|url_capitolo=https://doi.org/10.1093/oso/9780190938550.003.0011}}</ref>. Come spiegato nella sezione precedente, ciò viene fatto nella speranza di vedere i propri studi pubblicati ed è quindi, come l’impiego delle PDR in generale, considerabile una conseguenza del bias di pubblicazione<ref name=":15" /><ref name=":16" />.
 
=== Proliferazione di replicazioni concettuali eed assenza di replicazioni dirette ===
Una causa aggiuntiva della mancanza di replicabilità sta nella pratica comune di condurre solo replicazioni concettuali e la loro interazione con il bias di pubblicazione. Secondo gli psicologi [[w: Hal Pashler|Hal Pashler]] e Christine Harris la problematicità dell’interazione di questi due fattori sta nel fatto che può portare un intero programma di ricerca ad essere basato su risultati non validi<ref name=":9" />. Ciò è dovuto al fatto che, come notato in precedenza, per via del bias di pubblicazione la stragrande maggioranza delle replicazioni che vengono condotte sono concettuali, e di queste, solo quelle che ottengono risultati significativi vengono pubblicate. In aggiunta, una replicazione concettuale che fallisce non genera scetticismo verso la validità dei risultati originali. In tal caso, è probabile che un ricercatore attribuisca il fallimento, nel replicare, alle differenze metodologiche tra l’originale e la replicazione, piuttosto che al fatto che l'esperimento originale fosse un falso positivo.
 
In sunto, le replicazioni che vengono condotte sono prevalentemente di tipo concettuale, solo quelle signficative vengono pubblicate e quelle che falliscono non sono informative. Ciò crea potenzialmente una situazione in cui un dato programma di ricerca è basato esclusivamente su una percentuale di replicazioni concettuali riuscite, senza alcun metodo per misurare la validità e l’affidibilità delle stesse (per esempio il condurre replicazioni dirette). Secondo Pashler e Harris, la situazione è particolarmente preoccupante nelle aree di studio in cui gli esperimenti hanno bassa potenza statistica (dove è quindi probabile che una più alta percentuale di studi siano falsi positivi)<ref name=":9" />.
Riga 91:
 
==== Bassa potenza statistica ====
Il professore all’università di Deakin ed esperto di meta-analisi Tom Stanley e colleghi spiegano come un fattore importante che contribuisce alla bassa replicabilità degli studi sia il fatto che un certo studio abbia una bassa potenza statistica, dove quest'ultima è definita come la probabilità di respingere correttamente l'ipotesi nulla <ref name=":18">{{Cita pubblicazione|nome=T. D.|cognome=Stanley|nome2=Evan C.|cognome2=Carter|nome3=Hristos|cognome3=Doucouliagos|data=2018-12|titolo=What meta-analyses reveal about the replicability of psychological research.|rivista=Psychological Bulletin|volume=144|numero=12|pp=1325–1346|lingua=en|accesso=2023-07-07|doi=10.1037/bul0000169|url=http://doi.apa.org/getdoi.cfm?doi=10.1037/bul0000169}}</ref>. L'influenza di una bassa potenza statistica su lasulla replicabilità degl'esperimenti avviene per tre motivi distinti. Primo, nel momento in cui una replicazione ha bassa potenza statistica, per definizione, avrà una bassa probabilità di rilevare un effetto realmente esistente (e quindi, secondo alcune definizioni, di aver successo nel replicare){{efn|In altre parole, in tal caso la replicazione non sarà in grado di trovare l'effetto trovato nell'originale.}}. Secondo, se l’esperimento originale ha bassa potenza statistica, tenderà a sovrastimare la dimensione dell’effetto del fenomeno studiato. Di conseguenza, una replicazione in cui viene performata una cosiddetta “Analisi“analisi della potenza a priori”{{efn|L'analisi della potenza a priori è un metodo che permette di stimare il campione necessario per ottenere una certa potenza statistica in relazione a laalla dimensione dell'effetto che si vuole trovare.}} tenderà a sottostimare la dimensione del campione necessaria a replicare l’effetto. Infine, è dimostratibile come, nel caso la potenza dello studio originale sia bassa, la probabilità a posteriori che un risultato statisticamente significativo rifletta un effetto esistente sia molto bassa (che, analogamente, suggerisce che lo stesso risulato possa trattarsi diessere un falso positivo). Queste tre ragioni insieme mostrano come, in un contesto dove mediamente gli esperimenti che vengono condotti hanno bassa potenza statistica, un numero significativo di questi stessi esperimenti possa essere difficile da replicare<ref name=":18" />.
 
Uno studio su 200 meta-analisi in psicologia condotto dallo stesso Stanley e colleghi ha determinato che la potenza statistica nella ricerca psicologiapsicologica tende ad essere piuttosto bassa. La potenza media si aggira tra il 33.1% e il 36.4% contro l’80%, considerato convenzionalmente come una buona potenza statistica. Rispetto a questo 80%, solamente un numero tra il 7.7.% e il 9.1% degli studi sembra possa essere adeguato in termini di potenza statistica<ref name=":18" />. Alla luce di questi dati, è plausibile che una delle cause principali di bassi tassi di replicabilità in psicologia sia dunque una potenza statistica mediamente inadeguata.
 
==== Eterogeneità statistica ====
Come riportato dai sopracitati Stanley e colleghi, un altro motivo che potrebbe spiegare diffusi fallimenti nel replicare esperimenti potrebbe risiedere in un’alta eterogeneità statistica di certi effetti. Nel contesto di una meta-analisi, l’eterogeneità statistica fa riferimento alla variabilità degl’effetti presi in esame, dovuta al fatto che un fenomeno non sia rappresentato da un singolo effetto, ma piuttosto da una distribuzione di effetti<ref name=":21">{{Cita pubblicazione|nome=Julian P. T.|cognome=Higgins|nome2=Simon G.|cognome2=Thompson|data=2002-06-15|titolo=Quantifying heterogeneity in a meta-analysis|rivista=Statistics in Medicine|volume=21|numero=11|pp=1539–1558|lingua=en|accesso=2023-07-10|doi=10.1002/sim.1186|url=https://onlinelibrary.wiley.com/doi/10.1002/sim.1186}}</ref><ref name=":18" />.
 
L’eterogeneità statistica viene calcolata utilizzando una statistica denominata “I al quadrato”'''''I<sup>2</sup>'''''. Questa viene definita come la porzione di varianza nella dimensione degli effetti studiati, che non è dovuta all’errore standard associato a questi stessi effetti. Tra gli altri, questo tipo di eterogeneità può essere dovuta a fattori come differenze nei metodi sperimentali, nelle fascie demografiche studiate, o nei metodi statistici usati in diversi studi<ref name=":21" /><ref name=":18" />.
 
L’eterogeneità statistica rappresenta un problema nel momento in cui una replicazione tenta di riprodurre la dimensione dell’effetto trovata nello studio originale. Quando l’eterogenità statistica è elevata, è altamente probabile che un successivo studio trovi una [[w:effect size|dimensione dell’effetto]] radicalmente diversa da quella dello studio originale.{{efn|Gli autori fanno notare come, assumendo che sia la correlazione media di una relazione studiata che la deviazione standard di una distribuzione di effetti siano 0.2, vi è una probabilità del 62% di trovare un effetto medio-grande (r > 0.3) o un effetto trascurabile (r < 0.1), entrambi radicalmente diversi dalla media della distribuzione.}}
 
Secondo Stanley e colleghi, è importante notare come l’eterogeneità statistica possa essere elevata anche quando si conduce replicazioni dirette di uno studio. A testimonianza di ciò, gli autori citano un maxi-progetto di replicazione condotto dallo psicologo Richard Klein e colleghi nel quale, questi ultimi hanno tentato di replicare 15 diversi effetti psicologici, conducendo esperimenti da 36 siti diversi. Nello studio, Klein e colleghi hanno trovato un’alta eterogeneità statistica per 8 effetti su 15 (tra il 26% e il 91%)<ref>{{Cita pubblicazione|nome=Richard A.|cognome=Klein|nome2=Michelangelo|cognome2=Vianello|nome3=Fred|cognome3=Hasselman|data=2018-12|titolo=Many Labs 2: Investigating Variation in Replicability Across Samples and Settings|rivista=Advances in Methods and Practices in Psychological Science|volume=1|numero=4|pp=443–490|lingua=en|accesso=2023-07-10|doi=10.1177/2515245918810225|url=http://journals.sagepub.com/doi/10.1177/2515245918810225}}</ref>. Nonostante vi fossero delle differenze deliberatamente volute tra le diverse replicazioni, da analisi statistiche, queste differenze non sono state ritenute responsabili dell’eteoregenitàdell’eterogeneità osservata. Secondo Stanely e colleghi, ciò puo suggerire come l’eterogeneità in questo caso sia ''propria'' del fenomeno studiatastudiato e che possa, potenzialmente, essere dovuta a cosiddetti “moderatori nascosti”.<ref name=":18" />
 
Nel loro studio su 200 meta-analisi di effetti psicologici, Stanley e colleghi hanno trovato un 'eterogeneità [[Mediana (statistica)|mediana]] pari al 74% per gli studi in psicologia. Questo livello di eterogeneità è da considerarsi molto alto secondo gli autori, in quanto tre volte più elevato rispetto alla variabilità nella dimensione degl’effetti dovuta al campionamento casuale. Inoltre, quando considerata insieme all’errore standard, l’eterogeneità produce una deviazione standard perfino più elevata della dimensione dell’effetto mediana calcolata dalle 200 meta-analisi nello studio<ref name=":18" />.{{efn|0.412 contro uno 0.389 in unità di differenza media standardizzata.}}
 
Dalla loro analisi, Stanley e colleghi hanno concluso che nel momento in cui il successo di una replicazione viene definito dalla capacità della stessa di riprodurre la [[w:effect size|dimensione dell’effetto]] trovata nello studio originale, è improbabile che le replicazioni abbiano successo alla luce degl’alti livelli di eterogeneità suggeriti dal loro studio. Ciò avviene anche quando le replicazioni sono di tipo diretto, in quanto in quei casi l’eterogeneità sembra rimanere alta.<ref name=":18" />
Riga 112:
 
=== Tasso di accuratezza delle ipotesi testate ===
Un’ulterioreUn ulteriore fattore, che potrebbe essere alla base dei bassi tassi di replicabilità nei campi scientifici, va ritrovato nel tasso di accuratezza/veridicità a priori delle ipotesi che vengono testate. Questa spiegazione è stata proposata ed elaborate dal filosofo e professore all’[[Università di Cambridge|Università di Cambirdge]] [[w:Alexader Bird|Alexander Bird]]. Bird fa notare come l’aspettativa che una maggioranza dei risultati sperimentali in certi campi scientifici possa essere replicata potrebbe non essere giustificata. Ciò deriva essenzialmente dal fatto che, in certe scienze, è concepibile che una proporzione non-indifferente d’ipotesi che vengono testate sia falsa a priori. Di conseguenza, assumendo il caso tipico dei test d'ipotesi nulla, nel quale vi è una probabilità del 5% di ottenere un falso positivo ([[w:Type I and Type II errors|errore di tipo I]]) e l’80% di ottenere un vero positivo (potenza statistica), nel momento in cui un’alta proporzione di ipotesi testate èsia negativafalsa, la percentuale di falsi positivi sarà relativamente alta rispetto al totale dei casi positivi.
 
Per esempio, nel caso il 1090% delle ipotesi testate siano verefalse, si può calcolare come il 36% delle ipotesi che risultano significative siano in realtà falsi positivi {{efn|la statistica a cui Bird si riferisce come il “Resoconto della Probabilità dei Falsi Positivi”, complementare al Valore Predittivo dei Positivi citato da Ioannidis (2005)}}. Nel caso in cui il 36% dei risultati significativi pubblicati siano dei falsi positivi, è lecito aspettarsi che un numbero non-indifferente di replicazioni dirette sia destinato a fallire. Tutt’al più, questa considerazione è ancora più rilevante se fatta insieme al dato per cui la potenza statistica degli studi in certi campi tende ad essere bassa. Prendendo la percentuale calcolata di circa il 36% da Stanley e colleghi per la ricerca psicologica (sezione 3.4.1)<ref name=":18" />, il numero di falsi positivi con un 1090% di ipotesi testate verefalse a priori sale al 55%.
 
Bird fa notare come l’asserzione che un basso numero d’ipotesi testate siano vere a priori sia plausibile per certi campi scientifici, per ragioni come la complessità dei fenomeni studiati, il fatto che certe teorie non siano totalmente fondate, la “distanza [[Inferenza|inferenziale]]” tra teoriaipotesi e ipotesiteorie, la facilità nel generare ipotesi, e il fatto che in certi campi, le ipotesi possano essere generate da semplici osservazioni o addirittura solo su base intuitiva. I campi a cui Bird fa riferimento in questo senso sono la medicina clinica, l’epidemiologia genetica e molecolare e la psicologia sociale. La situazione è diversa per campi in cui le teorie testate hanno un ottimo fondamento empirico e nei quali le ipotesi possono essere facilmente dedotte dalle teorie (e.g. la fisica sperimentale).
 
=== Sensibilità al contesto di certi effetti ===
Il professore all’Università di New York Jay Van Bavel e colleghi sostengono che un ulteriore motivo alla base delle difficoltà nel replicare alcuni esperimenti sia la sensibilità di certi effetti psicologici al contesto in cui avvengono<ref name=":19">{{Cita pubblicazione|nome=Jay J.|cognome=Van Bavel|nome2=Peter|cognome2=Mende-Siedlecki|nome3=William J.|cognome3=Brady|data=2016|titolo=Contextual sensitivity in scientific reproducibility|rivista=Proceedings of the National Academy of Sciences of the United States of America|volume=113|numero=23|pp=6454–6459|accesso=2023-07-10|url=https://www.jstor.org/stable/26470212}}</ref>. In questo senso, i fallimenti nel replicare un certo effetto sarebbero da attribuirsi alle differenze contestuali e metodologiche tra l’esperimento originale e la replicazione. In una replicazione diretta, non tutti i fattori sono esattamente uguali all’esperimento originale, e solo quelli considerati necessari per produrre un certo effetto vengono riprodotti (sezione 1.2). Fattori quali il contesto socio-culturale, l’utilizzo di una certa fascia demografica, o il periodo storico nel quale l’esperimento viene condotto non vengono necessariamente considerati importanti nella produzione di un certo effetto e sono quindi lasciati variare. Il fallimento di una replicazione potrebbe quindi essere dovuto alla differenza in uno di questi fattori tra i due esperimenti, che solo nel momento in cui una replicazione fallisce viene scoperto come importante<ref name=":19" />.
 
Per via della loro influenza, non precedentemente nota, questi fattori vengono chiamati informalmente “moderatori nascosti”. Ad esempio, lo psicologo Martin Schweinberg e colleghi hanno condotto un progetto di replicazione di dieci esperimenti sul giudizio morale nelle persone, in 26 sedi diverse, nel quale fattori precedentemente non considerati fondamentali nella produzione di un effetto, quali la fascia demografica (studenti vs popolazione generale), contesto culturale (USA vs Europa) e sito in cui avveniva l’esperimento (sito dell’originale vs sito diverso), si sono rivelati importanti nel replicarlo<ref>{{Cita pubblicazione|nome=Martin|cognome=Schweinsberg|nome2=Nikhil|cognome2=Madan|nome3=Michelangelo|cognome3=Vianello|data=2016-09-01|titolo=The pipeline project: Pre-publication independent replications of a single laboratory's research pipeline|rivista=Journal of Experimental Social Psychology|volume=66|pp=55–67|lingua=en|accesso=2023-07-10|doi=10.1016/j.jesp.2015.10.001|url=https://www.sciencedirect.com/science/article/pii/S0022103115300019}}</ref>.
 
In uno studio condotto nel 2016, Van Bavel e colleghi hanno fornito evidenza diretta dell’influenza della sensibilità al contesto di un effetto sulla probabilità di successo nel replicare un esperimento. Nello studio, gli autori hanno ri-analizzato i dati di un noto progetto di replicazione che ha coinvolto 100 esperimenti in psicologia pubblicati su tre importanti riviste scientifiche<ref name=":20" />. In maniera da testare il ruolo della sensibilità al contesto sulla probabilità di replicare, gli autori hanno ri-codificato i dati dell’originale, assegnando a ciascuno degl’esperimenti un certo valore di sensibilità al contesto da 1 a 5. Hanno poi testato la relazione tra sensibilità al contesto e successo nel replicare attraverso una serie di [[Analisi della regressione|modelli di regressione]]<ref name=":19" />.
 
I risultati dello studio hanno mostrato una relazione significativa tra sensibilità al contesto e successo nel replicare. I due fattori sono [[Correlazione (statistica)|correlati]] negativamente, cosicchè un aumento di sensibilità al contesto diminuisce la probabilità di avere successo nel replicare. In altre parole, gli effetti maggiormente influenzati da variabili contestuali sono, seguendo i risultati dello studio, mediamente più difficili da replicare. Inoltre, nello studio, la sensibilità al contesto si è rivelata comunque significativa anche quando considerata assieme ad altri fattori considerati importanti per il successo di una replicazione (e.g. [[w:sample size|dimensione del campione]] e dell’[[w:effect size|effetto]] nello studio originale, [[w: power of a test|potenza statistica]] della replicazione). Includendo questi fattori nei vari modelli di regressione, gli autori hanno così potuto fornire evidenza per il ruolo che la sensibilità al contesto di un effetto ha sulla probabilità di avere successo nel replicarereplicarlo ''indipendentemente'' da questi fattori.{{efn|Un esempio di analisi condotta a testimonianza di ciò è la cosiddetta “regressione lineare gerarchica”. In questo tipo di regressione, le variabili indipendenti vengono introdotte nel modello in diversi “step”. Così facendo, è possibile notare i cambiamenti nella porzione di varianza della variabile dipendente spiegata dai diversi step del modello. Con l’aggiuntà della sensibilità al contesto in un secondo step rispetto ad altri fattori, è stato quindi possibile notare cambiamenti significativi nella capacità del modello di spiegare la variabilità del successo nel replicare un esperimento).}}<ref name=":19" />
 
Alla luce di questi risultati, sembra plausibile che la sensibilità al contesto di un certo effetto abbia un’influenza significativa sulla probabilità di avere sucesso nel replicarlo.