Crisi della replicazione: differenze tra le versioni
Contenuto cancellato Contenuto aggiunto
m Correzione di errori ortografici, grammaticali e di battitura tra il paragrafo 1 e 3.6 |
Riscritto parte della sezione "nella psicologia", corretto forma, ampliato con nuove informazioni usando le fonti citate e nuove. Eliminato paragrafi insensati, poco utili o non attinenti al contenuto della sezione. |
||
Riga 45:
L’inizio della crisi di replicazione può essere ricondotto ad una serie di eventi verificatisi all’inizio dei primi anni 2010. Il filosofo della scienza ed epistemologo sociale [https://www.feliperomero.org/ Felipe Romero] ha identificato i seguenti fatti come probabili eventi scatenanti della crisi<ref name=":14">{{Cita pubblicazione|nome=Felipe|cognome=Romero|data=2019-11|titolo=Philosophy of science and the replicability crisis|rivista=Philosophy Compass|volume=14|numero=11|lingua=en|accesso=2023-07-05|doi=10.1111/phc3.12633|url=https://onlinelibrary.wiley.com/doi/10.1111/phc3.12633}}</ref>:
* '''Controversie riguardanti gli studi sui fenomeni del priming sociale''': Nei primi anni 2010, un famoso esperimento condotto nel 1996 dallo psicologo sociale [[w: John Bargh | John Bargh]] e colleghi<ref>{{Cita pubblicazione|nome=John A.|cognome=Bargh|nome2=Mark|cognome2=Chen|nome3=Lara|cognome3=Burrows|data=1996|titolo=Automaticity of social behavior: Direct effects of trait construct and stereotype activation on action.|rivista=Journal of Personality and Social Psychology|volume=71|numero=2|pp=230–244|lingua=en|accesso=2023-07-05|doi=10.1037/0022-3514.71.2.230|url=http://doi.apa.org/getdoi.cfm?doi=10.1037/0022-3514.71.2.230}}</ref> non viene replicato in una serie di replicazioni dirette<ref>{{Cita pubblicazione|nome=Stéphane|cognome=Doyen|nome2=Olivier|cognome2=Klein|nome3=Cora-Lise|cognome3=Pichon|data=2012-01-18|titolo=Behavioral Priming: It's All in the Mind, but Whose Mind?|rivista=PLoS ONE|curatore=Jan Lauwereyns|volume=7|numero=1|pp=e29081|lingua=en|accesso=2023-07-05|doi=10.1371/journal.pone.0029081|url=https://dx.plos.org/10.1371/journal.pone.0029081}}</ref>. La serie di studi, di cui l’esperimento faceva parte, era stata fino a quel momento largamente citata da altri studi accademici e veniva regolarmente insegnata nei corsi universitari di psicologia sociale, oltre ad aver dato luogo ad un gran numero di replicazioni concettuali. Quest’ultimo fatto è risultato nella creazione di un intero programma di ricerca sui cosiddetti fenomeni di “priming sociale”{{efn|Il priming sociale può essere generalmente definito come l'influenza inconscia che l'attivazione di certe rappresentazioni cognitive può avere sul comportamento delle persone in ambito sociale. L'esatta definizione di questo sottocampo è però oggetto di disputa.}}. In aggiunta ai fallimenti nel replicare uno degl’esperimenti originali di Bargh e colleghi, un numero considerevole delle replicazioni concettuali sopracitate non è stato replicato in successive replicazioni dirette<ref>{{Cita pubblicazione|nome=Harold|cognome=Pashler|nome2=Noriko|cognome2=Coburn|nome3=Christine R.|cognome3=Harris|data=2012-08-29|titolo=Priming of Social Distance? Failure to Replicate Effects on Social and Food Judgments|rivista=PLOS ONE|volume=7|numero=8|pp=e42510|lingua=en|accesso=2023-07-05|doi=10.1371/journal.pone.0042510|url=https://journals.plos.org/plosone/article?id=10.1371/journal.pone.0042510}}</ref><ref>{{Cita pubblicazione|nome=Christine R.|cognome=Harris|nome2=Noriko|cognome2=Coburn|nome3=Doug|cognome3=Rohrer|data=2013-08-16|titolo=Two Failures to Replicate High-Performance-Goal Priming Effects|rivista=PLOS ONE|volume=8|numero=8|pp=e72467|lingua=en|accesso=2023-07-05|doi=10.1371/journal.pone.0072467|url=https://journals.plos.org/plosone/article?id=10.1371/journal.pone.0072467}}</ref><ref>{{Cita pubblicazione|nome=David R.|cognome=Shanks|nome2=Ben R.|cognome2=Newell|nome3=Eun Hee|cognome3=Lee|data=2013-04-24|titolo=Priming Intelligent Behavior: An Elusive Phenomenon|rivista=PLOS ONE|volume=8|numero=4|pp=e56515|lingua=en|accesso=2023-07-05|doi=10.1371/journal.pone.0056515|url=https://journals.plos.org/plosone/article?id=10.1371/journal.pone.0056515}}</ref><ref name=":0">{{Cita pubblicazione|nome=Richard A.|cognome=Klein|nome2=Kate A.|cognome2=Ratliff|nome3=Michelangelo|cognome3=Vianello|data=2014-05|titolo=Investigating Variation in Replicability|rivista=Social Psychology|volume=45|numero=3|pp=142–152|accesso=2023-07-05|doi=10.1027/1864-9335/a000178|url=https://econtent.hogrefe.com/doi/10.1027/1864-9335/a000178}}</ref>. Inoltre la controversia generata dal fallimento nel replicare l’esperimento originale ha scatentato un acceso dibattito che ha visto protagonista lo stesso John Bargh<ref>{{Cita web|url=https://www.nationalgeographic.com/science/article/failed-replication-bargh-psychology-study-doyen|titolo=A failed replication draws a scathing personal attack from a psychology professor|sito=Science|data=2012-03-10|lingua=en|accesso=2023-07-05}}</ref>.
* '''Controversie riguardanti il fenomeno della percezione extrasensoriale''': Nel 2011 una serie di esperimenti condotti dallo psicologo sociale [[w: Daryl Bem | Daryl Bem]] ha riportato la possibile esistenza del fenomeno della "percezione extrasensoriale", secondo il quale le persone potrebbero, sorprendentemente, venir influenzate da eventi futuri dei quali non sono a conoscenza<ref>{{Cita pubblicazione|nome=Daryl J.|cognome=Bem|data=2011|titolo=Feeling the future: Experimental evidence for anomalous retroactive influences on cognition and affect.|rivista=Journal of Personality and Social Psychology|volume=100|numero=3|pp=407–425|lingua=en|accesso=2023-07-05|doi=10.1037/a0021524|url=http://doi.apa.org/getdoi.cfm?doi=10.1037/a0021524}}</ref>. Bem è stato fortemente criticato per la metodologia usata negli studi, e una più precisa rianalisi dei dati dello studio originale non ha constato alcuna evidenza per l’esistenza del fenomeno sopracitato<ref>{{Cita pubblicazione|nome=Eric-Jan|cognome=Wagenmakers|nome2=Ruud|cognome2=Wetzels|nome3=Denny|cognome3=Borsboom|data=2011-03|titolo=Why psychologists must change the way they analyze their data: The case of psi: Comment on Bem (2011).|rivista=Journal of Personality and Social Psychology|volume=100|numero=3|pp=426–432|lingua=en|accesso=2023-07-05|doi=10.1037/a0022790|url=http://doi.apa.org/getdoi.cfm?doi=10.1037/a0022790}}</ref>. Inoltre una serie di replicazioni dirette degli esperimenti condotti da Bem non ha prodotto risultati significativi<ref>{{Cita pubblicazione|nome=Jeff|cognome=Galak|nome2=Robyn A.|cognome2=LeBoeuf|nome3=Leif D.|cognome3=Nelson|data=2012-12|titolo=Correcting the past: Failures to replicate psi.|rivista=Journal of Personality and Social Psychology|volume=103|numero=6|pp=933–948|lingua=en|accesso=2023-07-05|doi=10.1037/a0029709|url=http://doi.apa.org/getdoi.cfm?doi=10.1037/a0029709}}</ref>. La vicenda è stata considerata particolarmente allarmante dalla comunità psicologica in quanto le tecniche di analisi utilizzate da Bem erano di uso comune nella ricerca.
Riga 51:
* '''Report delle compagnie Amgen e Bayer sui bassi tassi di replicazione nella ricerca biomedica''': Tra il 2011 e il 2012, due studi condotti da ricercatori delle compagnie Amgen e Bayer Healthcare vengono pubblicati in cui gli autori riportano tassi di replicazione particolarmente bassi (11-20%) per una serie d’importanti studi nel campo della ricerca oncologica<ref>{{Cita pubblicazione|nome=C. Glenn|cognome=Begley|nome2=Lee M.|cognome2=Ellis|data=2012-03|titolo=Raise standards for preclinical cancer research|rivista=Nature|volume=483|numero=7391|pp=531–533|lingua=en|accesso=2023-07-05|doi=10.1038/483531a|url=https://www.nature.com/articles/483531a}}</ref><ref>{{Cita pubblicazione|nome=Florian|cognome=Prinz|nome2=Thomas|cognome2=Schlange|nome3=Khusru|cognome3=Asadullah|data=2011-09|titolo=Believe it or not: how much can we rely on published data on potential drug targets?|rivista=Nature Reviews Drug Discovery|volume=10|numero=9|pp=712–712|lingua=en|accesso=2023-07-05|doi=10.1038/nrd3439-c1|url=https://www.nature.com/articles/nrd3439-c1}}</ref>.
* '''Pubblicazione di una serie di studi sui fenomeni del p-hacking e delle pratiche di ricerca discutibili (PDR)''': A partire dagl’ultimi anni 2000, una serie di studi nel campo delle metascienze dimostra come l’adozione di una serie di pratiche di ricerca, quali lo sfruttare la flessibilità del processo di analisi e report dei dati, possa aumentare considerevolmente la probabilità di ottenere dei falsi positivi<ref name="Simmons et al. (2011)">{{Cita pubblicazione|autore=Simmons|nome=Joseph|autore2=Nelson|autore3=Simonsohn|nome2=Leif|nome3=Uri|data=novembre 2011|titolo=False-Positive Psychology: Undisclosed Flexibility in Data Collection and Analysis Allows Presenting Anything as Significant|rivista=[[Psychological Science]]|volume=22|numero=11|pp=1359–1366|doi=10.1177/0956797611417632|PMID=22006061|issn=0956-7976}}</ref><ref name=":13">{{Cita pubblicazione|nome=Leslie K.|cognome=John|nome2=George|cognome2=Loewenstein|nome3=Drazen|cognome3=Prelec|data=2012-05|titolo=Measuring the Prevalence of Questionable Research Practices With Incentives for Truth Telling|rivista=Psychological Science|volume=23|numero=5|pp=524–532|lingua=en|accesso=2023-07-05|doi=10.1177/0956797611430953|url=http://journals.sagepub.com/doi/10.1177/0956797611430953}}</ref>. La prevalenza di queste pratiche viene attestata da uno studio condotto nel 2012 dalla scienziata del comportamento [https://www.hbs.edu/faculty/Pages/profile.aspx?facId=589473 Leslie K. John] e colleghi<ref name=":13" />. In via generale, questa serie di studi ha suggerito come una percentuale significativa degli studi pubblicati fino a quel momento in diversi campi potesse non essere replicabile in quanto riportante falsi positivi.
La serie di eventi di cui sopra ha generato un’ondata di scetticismo verso la validità della ricerca esistente in diversi campi scientifici vista l’adozione comune di pratiche di ricerca di dubbia validità e il fallimento nel replicare diversi studi. Ciò ha portato figure di spicco nella comunità psicologica e di altre scienze a dichiarare una “crisi di fiducia” nella conoscenza scientifica prodotta fino a quel momento<ref>{{Cita pubblicazione|nome=Harold|cognome=Pashler|nome2=Eric–Jan|cognome2=Wagenmakers|data=2012-11|titolo=Editors’ Introduction to the Special Section on Replicability in Psychological Science: A Crisis of Confidence?|rivista=Perspectives on Psychological Science|volume=7|numero=6|pp=528–530|lingua=en|accesso=2023-07-05|doi=10.1177/1745691612465253|url=http://journals.sagepub.com/doi/10.1177/1745691612465253}}</ref>. La situazione che ne è scaturita è adesso comunemente conosciuta come ''crisi della replicazione''.
Riga 57:
Se da una parte l’inizio della crisi della replicazione può essere datato ai primi anni 2010, dall’altra alcuni accademici hanno fatto notare come molte delle critiche alle pratiche di ricerca che hanno portato alla crisi fossero già state mosse in passato. In uno dei suoi scritti, Romero riporta come in psicologia, preoccupazioni circa la mancanza di replicazioni dirette fossero già state espresse a fine anni ‘60 e ad inizio anni ‘70<ref>{{Cita pubblicazione|nome=Andrew|cognome=Ahlgren|data=1969-04|titolo=A modest proposal for encouraging replication.|rivista=American Psychologist|volume=24|numero=4|pp=471–471|lingua=en|accesso=2023-07-12|doi=10.1037/h0037798|url=http://doi.apa.org/getdoi.cfm?doi=10.1037/h0037798}}</ref><ref>{{Cita pubblicazione|nome=Nathaniel C.|cognome=Smith|data=1970-10|titolo=Replication studies: A neglected aspect of psychological research.|rivista=American Psychologist|volume=25|numero=10|pp=970–975|lingua=en|accesso=2023-07-12|doi=10.1037/h0029774|url=http://doi.apa.org/getdoi.cfm?doi=10.1037/h0029774}}</ref>, e come una serie di studi avesse già testimoniato la riluttanza degl’editori delle riviste scientifiche nel pubblicare studi di replicazione.<ref name=":14" />
La psicologa cognitiva Barbara Spellman ha anche evidenziato in suo scritto come le critiche proprie della crisi non siano nuove.<ref name=":1">{{Cita pubblicazione|nome=Barbara A.|cognome=Spellman|data=2015-11|titolo=A Short (Personal) Future History of Revolution 2.0|rivista=Perspectives on Psychological Science|volume=10|numero=6|pp=886–899|lingua=en|accesso=2023-07-12|doi=10.1177/1745691615609918|url=http://journals.sagepub.com/doi/10.1177/1745691615609918}}</ref> Come riportato da Spellman, in un periodo compreso tra fine anni ‘50 e primi anni ‘90, diversi accademici avevano già espresso preoccupazioni riguardo una possibile crisi di replicazione<ref>{{Cita pubblicazione|data=1976-01|titolo=An editorial.|rivista=Journal of Personality and Social Psychology|curatore=Anthony G. Greenwald|volume=33|numero=1|pp=1–7|lingua=en|accesso=2023-07-12|doi=10.1037/h0078635|url=http://doi.apa.org/getdoi.cfm?doi=10.1037/h0078635}}</ref>, una proporzione troppo alta di risultati positivi tra quelli pubblicati<ref>{{Cita pubblicazione|nome=Theodore D.|cognome=Sterling|data=1959|titolo=Publication Decisions and Their Possible Effects on Inferences Drawn from Tests of Significance--Or Vice Versa|rivista=Journal of the American Statistical Association|volume=54|numero=285|pp=30–34|accesso=2023-07-12|doi=10.2307/2282137|url=https://www.jstor.org/stable/2282137}}</ref>, L’utilizzo di PDR<ref>{{Cita pubblicazione|nome=James L.|cognome=Mills|data=1993-10-14|titolo=Data Torturing|rivista=New England Journal of Medicine|volume=329|numero=16|pp=1196–1199|lingua=en|accesso=2023-07-12|doi=10.1056/NEJM199310143291613|url=http://www.nejm.org/doi/abs/10.1056/NEJM199310143291613}}</ref>, problemi relativi alla potenza statistica<ref>{{Cita pubblicazione|nome=Jacob|cognome=Cohen|data=1962-09|titolo=The statistical power of abnormal-social psychological research: A review.|rivista=The Journal of Abnormal and Social Psychology|volume=65|numero=3|pp=145–153|lingua=en|accesso=2023-07-12|doi=10.1037/h0045186|url=http://doi.apa.org/getdoi.cfm?doi=10.1037/h0045186}}</ref>, e resoconti metodologici insufficienti per garantire la replicabilità degl’esperimenti<ref>{{Cita pubblicazione|data=1976-01|titolo=An editorial.|rivista=Journal of Personality and Social Psychology|curatore=Anthony G. Greenwald|volume=33|numero=1|pp=1–7|lingua=en|accesso=2023-07-12|doi=10.1037/h0078635|url=http://doi.apa.org/getdoi.cfm?doi=10.1037/h0078635}}</ref>.
Secondo Spellman, per una serie di ragioni, la reiterazione di queste critiche in epoca recente ha avuto effetti diversi, tanto da portare ad una crisi largamente riconosciuta come tale. Per esempio, i miglioramenti tecnologici degl’ultimi 20 anni hanno facilitato sia il condurre che il disseminare studi di replicazione (ed eventuali fallimenti degli stessi), oltre a permettere analisi massive sulle pratiche di ricerca di utilizzo comune. A parere di Spellman, i cambiamenti demografici nella comunità scientifica potrebbero anche avere avuto un ruolo nell’emergere della crisi. L’aumento nei numeri e nella diversità demografica delle comunità scientifiche ha fatto si che gli studi di accademici d’alto profilo potessero venir criticati ed analizzati con meno remore, cosa che risultava invece più difficile in passato in una comunità scientifica dov’era più facile conoscere personalmente gli autori di un certo studio. Allo sviluppo tecnologico e ad i cambiamenti demografici vanno poi ad aggiungersi un numero di risorse sempre più limitato ed uno sbilanciamento degl’incentivi dati a singoli scienziati per svolgere attività di ricerca (vedi sezione 3.1.2). Queste serie di fattori ha fatto si che dal rinnovamento di critiche già mosse in passato alla ricerca scientifica sia scaturito un effettivo stato di crisi a partire dai primi anni 2010 in avanti.
Riga 79:
La non-chiara accettabilità delle PDR dipende dall’intenzione del ricercatore che le mette in pratica. A seconda del livello di consapevolezza sulla problematicità del loro impiego, le PDR ricadono lungo un continuum, che va dal grave caso di una volontaria “cattiva condotta” scientifica all’assenza di consapevolezza dello star impiegando pratiche di ricerca problematiche, passando per casi in cui il loro utilizzo viene giustifcato da [[Bias cognitivo|bias cognitivi]] o avviene per semplice sbadataggine del ricercatore<ref name=":17" />.
Esempi comuni di PDR includono il formare un’ipotesi solo una volta che si è a conoscenza dei dati (i.e. [[w:HARKing|HARKing]])<ref name=":12">{{Cita pubblicazione|nome=Norbert L.|cognome=Kerr|data=1998-08|titolo=HARKing: Hypothesizing After the Results are Known|rivista=Personality and Social Psychology Review|volume=2|numero=3|pp=196–217|lingua=en|accesso=2023-07-07|doi=10.1207/s15327957pspr0203_4|url=http://journals.sagepub.com/doi/10.1207/s15327957pspr0203_4}}</ref>, il raccogliere dati fino a quando non si trovano risultati significativi, il riportare esclusivamente le ipotesi che sono state confermate, il riportare esclusivamente le variabili dipendenti che hanno portato a risultati significativi, e l’esclusione di [[outlier]], covariate o condizioni sperimentali al fine di ottenere risultati significativi<ref name=":13" /><ref name=":17" />.
Le PDR sono generalmente associate alla più generica pratica del ''[[w:Data-dredging|p-hacking]]''. Il p-hacking si riferisce ad una serie di comportamenti messi in pratica dal ricercatore al fine di aumentare le probabilità di trovare risultati significativi<ref>{{Cita libro|autore=MacCoun R. J.|curatore=Jussim L.|curatore2=Krosnick J. A.|curatore3=Stevens S. T.|titolo=Research Integrity: Best Practices for the Social and Behavioral Sciences|anno=2022|editore=Oxford Academic|capitolo=P-hacking: A Strategic Analysis|url_capitolo=https://doi.org/10.1093/oso/9780190938550.003.0011}}</ref>. Come spiegato nella sezione precedente, ciò viene fatto nella speranza di vedere i propri studi pubblicati ed è quindi, come l’impiego delle PDR in generale, considerabile una conseguenza del bias di pubblicazione<ref name=":15" /><ref name=":16" />.
Riga 102:
L’eterogeneità statistica rappresenta un problema nel momento in cui una replicazione tenta di riprodurre la dimensione dell’effetto trovata nello studio originale. Quando l’eterogenità statistica è elevata, è altamente probabile che un successivo studio trovi una [[w:effect size|dimensione dell’effetto]] radicalmente diversa da quella dello studio originale.{{efn|Gli autori fanno notare come, assumendo che sia la correlazione media di una relazione studiata che la deviazione standard di una distribuzione di effetti siano 0.2, vi è una probabilità del 62% di trovare un effetto medio-grande (r > 0.3) o un effetto trascurabile (r < 0.1), entrambi radicalmente diversi dalla media della distribuzione.}}
Secondo Stanley e colleghi, è importante notare come l’eterogeneità statistica possa essere elevata anche quando si conduce replicazioni dirette di uno studio. A testimonianza di ciò, gli autori citano un maxi-progetto di replicazione condotto dallo psicologo Richard Klein e colleghi nel quale, questi ultimi hanno tentato di replicare 15 diversi effetti psicologici, conducendo esperimenti da 36 siti diversi. Nello studio, Klein e colleghi hanno trovato un’alta eterogeneità statistica per 8 effetti su 15 (tra il 26% e il 91%)<ref name=":22">{{Cita pubblicazione|nome=Richard A.|cognome=Klein|nome2=Michelangelo|cognome2=Vianello|nome3=Fred|cognome3=Hasselman|data=2018-12|titolo=Many Labs 2: Investigating Variation in Replicability Across Samples and Settings|rivista=Advances in Methods and Practices in Psychological Science|volume=1|numero=4|pp=443–490|lingua=en|accesso=2023-07-10|doi=10.1177/2515245918810225|url=http://journals.sagepub.com/doi/10.1177/2515245918810225}}</ref>. Nonostante vi fossero delle differenze deliberatamente volute tra le diverse replicazioni, da analisi statistiche, queste differenze non sono state ritenute responsabili dell’eterogeneità osservata. Secondo Stanely e colleghi, ciò puo suggerire come l’eterogeneità in questo caso sia ''propria'' del fenomeno studiato e che possa, potenzialmente, essere dovuta a cosiddetti “moderatori nascosti”.<ref name=":18" />
Nel loro studio su 200 meta-analisi di effetti psicologici, Stanley e colleghi hanno trovato un'eterogeneità [[Mediana (statistica)|mediana]] pari al 74% per gli studi in psicologia. Questo livello di eterogeneità è da considerarsi molto alto secondo gli autori, in quanto tre volte più elevato rispetto alla variabilità nella dimensione degl’effetti dovuta al campionamento casuale. Inoltre, quando considerata insieme all’errore standard, l’eterogeneità produce una deviazione standard perfino più elevata della dimensione dell’effetto mediana calcolata dalle 200 meta-analisi nello studio<ref name=":18" />.{{efn|0.412 contro uno 0.389 in unità di differenza media standardizzata.}}
Riga 123:
Per via della loro influenza, non precedentemente nota, questi fattori vengono chiamati informalmente “moderatori nascosti”. Ad esempio, lo psicologo Martin Schweinberg e colleghi hanno condotto un progetto di replicazione di dieci esperimenti sul giudizio morale nelle persone, in 26 sedi diverse, nel quale fattori precedentemente non considerati fondamentali nella produzione di un effetto, quali la fascia demografica (studenti vs popolazione generale), contesto culturale (USA vs Europa) e sito in cui avveniva l’esperimento (sito dell’originale vs sito diverso), si sono rivelati importanti nel replicarlo<ref>{{Cita pubblicazione|nome=Martin|cognome=Schweinsberg|nome2=Nikhil|cognome2=Madan|nome3=Michelangelo|cognome3=Vianello|data=2016-09-01|titolo=The pipeline project: Pre-publication independent replications of a single laboratory's research pipeline|rivista=Journal of Experimental Social Psychology|volume=66|pp=55–67|lingua=en|accesso=2023-07-10|doi=10.1016/j.jesp.2015.10.001|url=https://www.sciencedirect.com/science/article/pii/S0022103115300019}}</ref>.
In uno studio condotto nel 2016, Van Bavel e colleghi hanno fornito evidenza diretta dell’influenza della sensibilità al contesto di un effetto sulla probabilità di successo nel replicare un esperimento. Nello studio, gli autori hanno ri-analizzato i dati di un noto progetto di replicazione che ha coinvolto 100 esperimenti in psicologia pubblicati su tre importanti riviste scientifiche<ref name=":20">{{Cita pubblicazione|autore=Open Science Collaboration|anno=2015|titolo=Estimating the reproducibility of Psychological Science|rivista=Science|volume=349|numero=6251|pp=aac4716|doi=10.1126/science.aac4716|url=http://eprints.keele.ac.uk/877/1/Open%20Science%20%28Science%20Pre-Print%29.pdf|PMID=26315443}}</ref>. In maniera da testare il ruolo della sensibilità al contesto sulla probabilità di replicare, gli autori hanno ri-codificato i dati dell’originale, assegnando a ciascuno degl’esperimenti un certo valore di sensibilità al contesto da 1 a 5. Hanno poi testato la relazione tra sensibilità al contesto e successo nel replicare attraverso una serie di [[Analisi della regressione|modelli di regressione]]<ref name=":19" />.
I risultati dello studio hanno mostrato una relazione significativa tra sensibilità al contesto e successo nel replicare. I due fattori sono [[Correlazione (statistica)|correlati]] negativamente, cosicchè un aumento di sensibilità al contesto diminuisce la probabilità di avere successo nel replicare. In altre parole, gli effetti maggiormente influenzati da variabili contestuali sono, seguendo i risultati dello studio, mediamente più difficili da replicare. Inoltre, nello studio, la sensibilità al contesto si è rivelata comunque significativa anche quando considerata assieme ad altri fattori considerati importanti per il successo di una replicazione (e.g. [[w:sample size|dimensione del campione]] e dell’[[w:effect size|effetto]] nello studio originale, [[w: power of a test|potenza statistica]] della replicazione). Includendo questi fattori nei vari modelli di regressione, gli autori hanno così potuto fornire evidenza per il ruolo che la sensibilità al contesto di un effetto ha sulla probabilità di avere successo nel replicarlo ''indipendentemente'' da questi fattori.{{efn|Un esempio di analisi condotta a testimonianza di ciò è la cosiddetta “regressione lineare gerarchica”. In questo tipo di regressione, le variabili indipendenti vengono introdotte nel modello in diversi “step”. Così facendo, è possibile notare i cambiamenti nella porzione di varianza della variabile dipendente spiegata dai diversi step del modello. Con l’aggiuntà della sensibilità al contesto in un secondo step rispetto ad altri fattori, è stato quindi possibile notare cambiamenti significativi nella capacità del modello di spiegare la variabilità del successo nel replicare un esperimento).}}<ref name=":19" />
Riga 134:
=== Nella psicologia ===
Uno dei motivi per cui la psicologia si è vista particolarmente coinvolta va ritrovato nell’alta percentuale di utlizzo di PDR in questo campo (sezione 3.2), come attestato da alcuni studi. Per esempio, il professore all’Università dell’indiana Ernest O’Boyle e lo psicologo Martin Götz, hanno riportato come da un’analisi di diversi sondaggi condotti con scienziati del comportamento, sia stimabile che circa il 50% di questi ultimi abbia trasformato un’ipotesi esplorativa in un’ipotesi confermativa nel corso di un’analisi, una pratica conosciuta come HARKing (''Hypothesizing After the Results are Known'')<ref name=":17" />. Il problema principale associato a questo tipo di pratica sta nel trattare un’ipotesi formulata a posteriori dei risulati sperimentali come se fosse un’ipotesi formulata a priori, e quindi il concepire una certa spiegazione teorica solamente su base [[Induzione|induttiva]].<ref name=":12" /> Come riportato dallo psicologo Norbert Kerr, ciò rischia di portare ad una situazione per cui una teoria viene creata come conseguenza di un errore di tipo I (i.e. falso positivo). Essendo prettamente induttivo, il formulare ipotesi a posteriori viene generalmente considerato come un approccio epistemologico meno valido rispetto a quello ipotetico-deduttivo (che è invece basato sul dedurre un’ipotesi per poi testarla, ed eventualmente confermarla).<ref name=":12" />
Uno studio particolarmente citato per ciò che riguarda l’incidenza delle PDR in psicologia è quello già menzionato in precedenza condotto dalla scienziata del comportamento Leslie K. John e colleghi.<ref name=":13" /> Gli autori hanno condotto un sondaggio con 2000 psicologi per stimare la prevalenza dell’utilizzo di PDR nelle scienze psicologiche. Dai risultati dello studio, ben il 94% degli psicologi ha amesso di avere utilizzato almeno una delle PDR menzionate. Più in particolare, tra le PDR più prevalenti, il 66% ha amesso di aver almeno una volta riportato solo alcune delle misure della variabile dipendente, il 58% di aver continuato a raccogliere dati dopo aver ispezionato i risultati, il 50% di aver solamente riportato studi che “sono funzionati” in una serie di studi condotti, e il 43% di aver deciso di escludere dati a seconda dell’impatto sui risultati.<ref name=":13" /> È importante notare come la metodologia dello studio sia stata oggetto di critiche e che le percentuali di utlizzo delle PDR potrebbero essere mediamente più basse, anche se comunque significative.<ref>{{Cita pubblicazione|nome=Klaus|cognome=Fiedler|nome2=Norbert|cognome2=Schwarz|data=2016-01|titolo=Questionable Research Practices Revisited|rivista=Social Psychological and Personality Science|volume=7|numero=1|pp=45–52|lingua=en|accesso=2023-07-15|doi=10.1177/1948550615612150|url=http://journals.sagepub.com/doi/10.1177/1948550615612150}}</ref>
Un secondo motivo per cui le scienze psicologiche sono state al centro delle controversie attinenti alla crisi sono alcuni casi di frode che hanno coinvolto ricercatori in psicologia<ref name=":23">{{Cita pubblicazione|nome=Patrick E.|cognome=Shrout|nome2=Joseph L.|cognome2=Rodgers|data=2018-01-04|titolo=Psychology, Science, and Knowledge Construction: Broadening Perspectives from the Replication Crisis|rivista=Annual Review of Psychology|volume=69|numero=1|pp=487–510|lingua=en|accesso=2023-07-15|doi=10.1146/annurev-psych-122216-011845|url=https://www.annualreviews.org/doi/10.1146/annurev-psych-122216-011845}}</ref>. Un caso particolarmente noto è quello dello psicologo sociale Diedriek Stapel. Nel 2011, Stapel è stato sospeso dalla sua posizione come professore all’Università di Tilburg, a seguito di un’investigazione su un possible caso di frode che lo vedeva coinvolto<ref>{{Cita web|url=https://web.archive.org/web/20120402101739/http://uvtapp.uvt.nl/fsw/spits.npc.ShowPressReleaseCM?v_id=4082238588785510|titolo=Press release UvT 7 September 2011|sito=web.archive.org|data=2012-04-02|accesso=2023-07-15}}</ref>. Sospetti sulla condotta fraudolenta di Stapel sono partiti dalle accuse di alcuni suoi sottoposti, portate all’attenzione dell’allora rettore Philip Eijlander<ref>{{Cita web|url=https://web.archive.org/web/20110930010614/http://news.sciencemag.org/scienceinsider/2011/09/dutch-university-sacks-social.html|titolo=Dutch University Sacks Social Psychologist Over Faked Data - ScienceInsider|sito=web.archive.org|data=2011-09-30|accesso=2023-07-15}}</ref>. Nello stesso anno, una commissione investigativa è stata formata per stabilire l’entità della gravità delle azioni di Stapel. Il rapporto, pubblicato nell’Ottobre 2011, ha stabilito come Stapel avesse fabbricato dati in almeno 30 delle sue pubblicazioni.<ref>{{Cita web|url=https://web.archive.org/web/20160627142859/https://www.tilburguniversity.edu/upload/547aa461-6cd1-48cd-801b-61c434a73f79_interim-report.pdf|titolo=Wayback Machine|sito=web.archive.org|accesso=2023-07-15}}</ref> Da quel momento in poi, più di 50 degli studi pubblicati da Stapel sono stati ritratti<ref>{{Cita web|url=https://retractionwatch.com/2015/12/08/diederik-stapel-now-has-58-retractions/|titolo=Diederik Stapel now has 58 retractions|autore=Author Shannon Palus|sito=Retraction Watch|data=2015-12-08|lingua=en-US|accesso=2023-07-15}}</ref>. Altri casi meno noti di frode verificatisi in epoca recente sono quelli dello psicologo cognitivo Marc Hauser e lo psicologo sociale Lawrence Sanna<ref name=":23" />. Nonostante la risonanza mediatica e il loro ruolo nel mettere la psicologia al centro della crisi, è importante notare come casi di effettiva frode siano relativamente rari nelle scienze. Uno studio sulla frode in ambito scientifico condotto nel 2009 dal sopracitato Fanelli ha riportato come circa il 2% degli scienziati intervistati abbia ammesso di avere fabbricato dati, e che il 14% degli stessi abbia riportato di conoscere qualcuno che l’ha fatto.<ref>{{Cita pubblicazione|nome=Daniele|cognome=Fanelli|data=29 mag 2009|titolo=How Many Scientists Fabricate and Falsify Research? A Systematic Review and Meta-Analysis of Survey Data|rivista=PLOS ONE|volume=4|numero=5|pp=e5738|lingua=en|accesso=2023-07-15|doi=10.1371/journal.pone.0005738|url=https://journals.plos.org/plosone/article?id=10.1371/journal.pone.0005738}}</ref>
L’arrivo della crisi della replicazione ha portato una serie di cambiamenti nelle varie istituzioni della comunità psicologica. Una prima conseguenza della crisi può essere vista nei cambiamenti delle politiche sui processi di revisione, report e pubblicazione messi in atto da alcune riviste scientifiche. La sopracitata Barbara Spellman fa notare come i cambiamenti nelle politiche delle riviste scientifiche siano parte di una “rivoluzione” che sta avendo luogo nelle scienze psicologiche.<ref name=":1" /> Alcuni di questi cambiamenti sono stati annunciati nei diversi editoriali delle riviste. Ad esempio, la rivista scientifica ''Psychological Science'' nel 2014 ha annunciato una serie di cambiamenti, prevedendo un ampliamento delle sezioni su metodi e risultati degli studi pubblicati, una “checklist” per rendere note varie decisioni nel processo di analisi e report (al fine di arginare eventuali PDR), l’implementazione di certe politiche volte a promuovere pratiche di open science, e cambiamenti rispetto all’utilizzo di certe analisi statistiche.<ref>{{Cita pubblicazione|nome=Eric|cognome=Eich|data=2014-01|titolo=Business Not as Usual|rivista=Psychological Science|volume=25|numero=1|pp=3–6|lingua=en|accesso=2023-07-15|doi=10.1177/0956797613512465|url=http://journals.sagepub.com/doi/10.1177/0956797613512465}}</ref> Un altro esempio può essere visto nell’annuncio di una serie di cambiamenti alle politiche della rivista ''Social Psychological and Personality Psychology'' nel 2015 quali: una maggior enfasi sulla potenza statistica nelle decisioni relative al pubblicare uno studio, una ridotta enfasi suI comparare i risultati al livello di significatività utilizzato comunemente (p < 0.05), una richiesta ai vari autori di dichiarare in maniera trasparente le decisioni prese nel processo di report e analisi dei dati, ed una promessa, da parte della rivista, di concedere pari opportunità di pubblicazione agli studi di replicazione, sottolineandone l’importanza.<ref>{{Cita pubblicazione|nome=Simine|cognome=Vazire|data=2016-01|titolo=Editorial|rivista=Social Psychological and Personality Science|volume=7|numero=1|pp=3–7|lingua=en|accesso=2023-07-15|doi=10.1177/1948550615603955|url=http://journals.sagepub.com/doi/10.1177/1948550615603955}}</ref> Aldilà di questi due esempi, un folto numero di riviste psicologiche ha operato diversi cambIamenti in risposta alla crisi della replicazione, come consultabile sulla pagina web relativa ad i “TOP scores” delle riviste sul sito del Center for Open Science.<ref>{{Cita web|url=https://topfactor.org/journals?factor=Registered+Reports+&+Publication+Bias&disciplines=Psychology&page=3|titolo=TOP Factor|sito=topfactor.org|lingua=en|accesso=2023-07-15}}</ref>
Le riviste scientifiche di psicologia hanno anche dedicato una serie di edizioni speciali alle questioni riguardanti la crisi, come, ad esempio, un’edizione speciale pubblicata nel 2012 della rivista ''Perspectives on Psychological Science''<ref>{{Cita web|url=https://journals.sagepub.com/toc/pps/7/6|titolo=Perspectives on Psychological Science, volume 7, issue 6}}</ref>, o una pubblicata nel 2014 dalla rivista ''Social Psychology''.<ref>{{Cita web|url=https://econtent.hogrefe.com/toc/zsp/45/3|titolo=Social Psychology: Vol 45, No 3|sito=Social Psychology|lingua=en|accesso=2023-07-15}}</ref>
Nel mezzo della crisi, un altro evento degno di nota è stata la critica al premio Nobel [[Daniel Kahneman]] per aver citato alcuni studi controversi sul priming sociale nel suo libro ''Thinking Fast and Slow''.<ref>{{Cita web|url=https://retractionwatch.com/2017/02/20/placed-much-faith-underpowered-studies-nobel-prize-winner-admits-mistakes/|titolo=“I placed too much faith in underpowered studies:” Nobel Prize winner admits mistakes|autore=Author Alison McCook|sito=Retraction Watch|data=2017-02-20|lingua=en-US|accesso=2023-07-15}}</ref> Kahneman ha riconosciuto e risposto alle critiche, ammettendo di aver dato troppa fiducia e credito a studi con bassa potenza statistica, però rimarcando il fatto che creda ancora nella veridictià degli stessi. Kahneman ha anche pubblicato una lettera aperta a tuti i ricercatori nel campo del priming sociale, invitandoli a rimuovere i dubbi sulla validità di quest’area di ricerca replicandone loro stessi i risultati.<ref>{{Cita pubblicazione|nome=Ed|cognome=Yong|data=2012-10-03|titolo=Nobel laureate challenges psychologists to clean up their act|rivista=Nature|lingua=en|accesso=2023-07-15|doi=10.1038/nature.2012.11535|url=https://www.nature.com/articles/nature.2012.11535}}</ref><ref>{{Cita web|url=https://static-content.springer.com/esm/art%3A10.1038%2Fnature.2012.11535/MediaObjects/41586_2012_BFnature201211535_MOESM1_ESM.pdf|titolo=Kahneman's letter}}</ref>
Dallo scoppio della crisi, in psicologia, una serie di studi e progetti sono stati condotti per investigare l'incidenza degli studi di pubblicazione rispetto al totale degli studi pubblicati, e i tassi di replicabiltà di diversi effetti riportati nella letteratura scientifica esistente.
Per ciò che riguarda la percentuale di studi pubblicati che sono replicazioni, il professore alla John Hopkins School of Education Matthew Makel e colleghi hanno condotto un’analisi degli studi pubblicati tra il 1900 e il 2012 di cento riviste di psicologia.<ref name=":24">{{Cita pubblicazione|nome=Matthew C.|cognome=Makel|nome2=Jonathan A.|cognome2=Plucker|nome3=Boyd|cognome3=Hegarty|data=2012-11|titolo=Replications in Psychology Research: How Often Do They Really Occur?|rivista=Perspectives on Psychological Science|volume=7|numero=6|pp=537–542|lingua=en|accesso=2023-07-15|doi=10.1177/1745691612460688|url=http://journals.sagepub.com/doi/10.1177/1745691612460688}}</ref> Gli autori hanno selezionato 500 studi con campionamento casuale contenenti il termine “replicat*” nel titolo, di cui il 68% è risultato essere una replicazione. Ciò ha portato ad una stima del 1.07% della percentuale di studi di replicazione rispetto al totale degli studi presi in esame. Di questi, il 78.9% ha avuto successo nel replicare lo studio originale, con poche differenze tra le percentuali di successo delle replicazioni dirette e quelle delle replicazioni concettuali. Un fatto degno di nota evidenziato dallo studio, è che la probabilità di avere successo nel replicare fosse sensibilmente più alta nel caso gli autori fossero gli stessi dello studio originale (91.7% contro un 64.6%). In sunto, lo studio suggerisce che solo un numero molto basso di studi pubblicati fino al 2012 siano state replicazioni. Allo stesso tempo, come riportato dagli autori, questo numero sembra in aumento dall’anno 2000 in poi.<ref name=":24" />
▲==== Tassi di replicazione della psicologia ====
Per quello che riguarda i tassi di replicabilità di certi effetti, uno studio di replicazione particolarmente noto è il già citato progetto ''Reproducibility Project: Psychology'' condotto da un team di ricercatori del Center for Open Science. Nello studio, gli autori hanno tentanto di replicare 100 studi selezionati con campionamento casuale da tre importanti riviste di psicologia sociale e cognitiva.<ref name=":20" /> Le replicazioni sono state progettate per avere alta potenza statistica e, quando possibile, miglioramenti nella misurazione delle variabili d’interesse. Vista l’assenza di un chiaro indice di replicabilità, nello studio, diversi criteri sono stati utlizzati per stabilire se uno studio fosse stato replicato o meno. In questo senso, le percentuali di successo nel replicare sono risultate varibili: mediamente, le replicazioni hanno mostrato una dimensione dell’effetto di circa la metà rispetto agli studi originali, e solamente il 36% delle replicazioni è risultata statisticamente significativa (contro il 97% di risultati significativi negli studi originali); nel 47% dei casi, la dimensione dell’effetto trovata nello studio originale è ricaduta nell’intervallo di confidenza calcolato dalla replicazione; allo stesso tempo, solo il 39% degli studi è stato reputato come replicato con successo dalle valutazioni soggettive degli autori della replicazione; conducendo una meta-analisi basata sui risultati combinati dell’originale e della replicazione, il 68% degli effetti è risultato statisticamente significativo. Gli autori fanno notare come in generale, il successo nel replicare rispetto ai questi parametri sembra fosse principalmente collegato alla dimensione dell’effetto originale: gli effetti che mostravano una dimensione maggiore sono risultati più facili da replicare. In sunto, i risultati dello studio hanno mostrato dati variabili per quello che riguarda i tassi di replicabilità degli studi psicologici, e i parametri dalle stime più basse hanno suggerito come solo ⅓ degli studi presi in esame fosse replicabile.<ref name=":20" />
Una serie di progetti di replicazione di una certa importanza sono i considetti progetti ''Many Labs'', mirati a studiare la replicabilità di certi effetti in diversi campioni e contesti. Il primo di questi progetti, condotto dal sopracitato Richard Klein e colleghi, ha esaminato la replicabilità di 13 effetti psicologici utlizzando campioni da 36 siti in varie parti del mondo.<ref name=":0" /> Il protocollo del progetto prevedeva una standardizzazione generale delle procedure sperimentali e alti livelli di potenza statistica nei vari studi di replicazione. I vari effetti sono stati testati in singole sessioni sperimentali nei 26 siti. Dai risultati dello studio, 10 effetti su 13 sono stati replicati con successo, mentre uno degli effetti è stato replicato solo in 4 dei 26 campioni sperimentali. Due degli effetti non sono invece stati replicati: i cosiddetti effetti del “flag priming” e del “currency priming”. Gli autori hanno riportato un certo grado di variabilità nella dimensione degli effetti presi in esame, ma questa variabilità non sembra fosse dovuta a l’utilizzo di diversi campioni, ma che fosse propria degli effetti stessi.<ref name=":0" />
Il secondo della serie di progetti ''Many Labs'' condotto da Klein e colleghi nel 2015, ha investigato la replicabilità di 28 effetti psicologici, utilizzando 125 diversi campioni provenienti da 36 diversi siti.<ref name=":22" /> Oltre allo stimare i tassi di replicabilità degli effetti, il progetto era mirato ad investigare quanto la replicabilità di certi effetti dipenda dal contesto in cui avvengono. Come in altri maxi-progetti di replicazione, gli autori hanno utilizzato diversi criteri per stabilire se uno studio fosse stato replicato o meno. Per esempio, operando test d’ipotesi nulla con un livello di significatività di 0.05, 15 effetti su 28 sono stati replicati con successo. Riducendo il livello di significatività a 0.001 (un criterio più rigido), 14 effetti si sono comunque mostrati statisticamente significativi. In generale, 10 effetti su 28 sono risultati replicabili secondo tutti i criteri di replicazione utilizzati, 5 su 28 hanno mostrato risultati misti secondo i vari criteri di replicabilità, mentre 13 effetti su 28 sono risultati non replicabili secondo tutti i parametri presi in esame. In altre parole, circa il 46% degli effetti investigati nel progetto non sono stati replicati con successo.<ref name=":22" />
Un dato interessante fornito dallo studio sta nella dimensione del campione stimata per trovare la dimensione degli effetti degli studi originali, calcolata secondo i dati forniti dal progetto. Svolgendo un'analisi della potenza a priori, con un valore di potenza statistica dell’80%, gli autori hanno stimato i vari campioni necessari per trovare gli effetti originali a seconda dei tassi di replicabilità dei vari effetti. Per i 10 effetti replicati con successo secondo tutti i parametri, si stima che un campione tra 12 e 54 partecipanti sia sufficiente per avere una potenza statistica dell 80%; per gli studi con tassi di replicazione misti, questi numeri salgono a 200 e 2.184; per gli effetti risultati non significativi, ma comunque diversi da zero e nella direzione prevista dall’effetto originale, si è stimato dimensioni del campione necessarie tra 6.283 e 313.998 persone; infine, per gli studi con dimensioni dell’effetto pari a zero o trovate nella direzione contraria a quella prevista originariamente, gli autori hanno dichiarato che sia ''impossibile'' ottenere una dimensione dei campioni abbastanza grande da ottenere una potenza dell’80%.<ref name=":22" />
==== Un dilemma sociale ====
|