Replikovatelnost výzkumu a metaanalýza
aneb
Jedna studie nestačí
Vít Gabrhel
vit.gabrhel@mail.muni.cz
vit.gabrhel@cdv.cz
FSS MU,
7. 11. 2017
Harmonogram
1. Úvod
2. Meta-analýza
3. Reproducibility, replicability etc.
"No isolated experiment, however significant in itself, can suffice for the experimental demonstration of any natural phenomenon."
Fisher, 1971, s. 13
Radikální skepse? I.
Radikální skepse? II.
Open Science, 2015
"We conducted a large-scale, collaborative effort to obtain an initial estimate of the reproducibility of psychological science"
Původní
Průměrná velikost účinku:
Mr = 0,403; SD = 0,188
Statistická signifikance:
97 % studií p < 0,05
Replikace
Průměrná velikost účinku:
Mr = 0,197; SD= 0,257
Statistická signifikance:
36 % studií p < 0,05
100 studií a výsledky jejich replikace
- Psychological Science,
- Journal of Personality and Social Psychology,
- Journal of Experimental Psychology: Learning, Memory, and Cognition
Hodnota velikostí účinku z původních studií se nacházela v 95% intervalu spolehlivosti při replikaci v 47 % případů
Meta-analýza I.
Myšlenkové pozadí a historie
"Věda má kumulativní povahu, ke studiím však přistupujeme nikoli jako jedné z mnoha, ale izolovaně, stojícími o sobě."
Chalmers, cit. dle Borenstein et al., 2009
Narativní review
- Expert shrne poznatky k danému tématu a dojde k závěru - např. intervence je účinná či nikoli
-
Subjektivita
- Při výběru studií a jejich počtu
- Při nastavení významu konkrétní studie
- Proces rozhodování nebývá rozpracován
- Omezené použití při větším počtu studií
- Narativní postižení variability velikostí účinků není dostatečné
Meta-analýza II.
Myšlenkové pozadí a historie
Od 90. let 20. st. přechod k Metaanalýze a Systematic Review
Metaanalýza / Systematic review
- Proces systematického vyhledávání, hodnocení a následné syntézy dat z velkého počtu zdrojů.
Systematic review
-
Jasně definovaná kritéria pro volbu studií a transparentní popis
- Volba kritérií zahrnuje určitou míru subjektivity
- Obvykle zahrnuje meta-analýzu
Meta-analýza
- Statistická syntéza předchozího výzkumu
- Význam té které studie je dán podle vnějších (matematických) pravidel
- Např. velikost vzorku či velikost účinku
Velikost účinku (Size effect)
- Hledáme míru konzistence napříč studiemi
-
Summary effect - vážený průměr velikostí účinku dle stanovených pravidel
- Jde o odhad pravého účinku (true effect)
Meta-analýza III.
Východiska a terminologie
Váhy
- Čím přesnější studie, tím větší přikládaný význam při výpočtu summary effect
Přesnost (Precision)
- Týká se přesnosti summary effect
- Souvisí s velikostí vzorku
Hodnota p
- V rámci jednotlivých studií je interpretovatelná i graficky (forest-plot)
- Odráží míru konzistence velikostí účinku napříč studiemi
Meta-analýza IV.
Příklad
Meta-analýza je kvalitní do té míry, do jaké jsou kvalitní (nezkreslené apod.) individuální studie
Meta-analýza V.
Kritika
Jedno číslo nemůže zastupovat celou výzkumnou oblast
- Nejde o jednu hodnotu, ale o míru konzistence napříč studiemi
Studie
- Výběr zkreslených studií (garbage in, garbage out apod.) a vynechání důležitých studií
- Srovnávání nesrovnatelných studií
- Rozpory mezi výsledky randomized trials a meta-analýzou
Úroveň prováděných meta-analýz není dobrá
- Zejména kvůli nedostatkům ve studiích, na kterých byla meta-analýza provedena, ale i kvůli chybnému použití
- Nejde o metodu jako takovou, ale o způsob její aplikace
Silná orientace na statisticky signifikantní výsledek
- 92 % publikovaných výsledků v psychologii je statisticky signifikantních (Fanelli, 2010)
- Nárůst zejména v období mezi lety 1990 a 2007 (Fanelli, 2012)
- Confirmation bias in publication
Bakker, Van Dijk, & Wicherts, 2012
- Medián N = 40; Statistická síla = 0,35; d = 0,5
Fraley & Marks, 2007
- Meta-analýza korelačních studií osobnosti
- Medián N = 120; Statistická síla = 0,65; r = 0,21
Jenže...
Mimo meta-analýzu
"Consequently, if all effects reported in published studies were true, only 35% would be replicable in similarly underpowered studies." Asendorpf et al. 2013, s. 110
Mimo meta-analýzu
Reproducibility, replicability, generalizability
Východiska
In a poll of more than 2000 psychologists, prevalences of ‘Deciding whether to collect more data after looking to see whether the results were significant’ and ‘Stopping data collection earlier than planned because one found the result that one had been looking for’ were subjectively estimated at 61% and 39%, respectively.
John, Loewenstein, & Prelec, cit. dle Asendorpf et al., 2013
Podvodné versus pochybné jednání
Fraud is typically limited to cases in which researchers create false data.
In contrast, QRPs typically involve the exclusion of data that are inconsistent with a theoretical hypothesis. QRPs are treated differently than fraud because QRPs can sometimes be used for legitimate purposes.
John, Loewenstein, & Prelec, 2012
Reproducibility, replicability, generalizability
jako koncepty
Reproducibility (Reprodukovatelnost)
"Researcher B must have the following: (a) the raw data; (b) the code book (variable names and labels, value labels, and codes formissing data); and (c) knowledge of the analyses that were performed by Researcher A (e.g. the syntax of a statistics program)."
Asendorpf et al., 2013, s. 109
Replicability (Replikovatelnost)
"The finding can be obtained with other random samples drawn from a multidimensional space that captures the most important facets of the research design. In psychology, the facets typically include the following: (a) individuals (or dyads or groups); (b) situations (natural or experimental); (c) operationalizations (experimental manipu- lations, methods, and measures); and (d) time points."
Asendorpf et al., 2013, s. 109
Generalizability (Zobecnitelnost)
"It does not depend on an originally unmeasured variable that has a systematic effect. In psychology, generalizability is often demonstrated by showing that a potential moderator variable has no effect on a group difference or correlation."
Asendorpf et al., 2013, s. 110
Doporučení pro
Výzkumný design a Analýzu dat
Zmenšit chybu měření
- Zvýšením velikosti vzorku
- Zvýšením statistické síly
- Zvýšením reliability měřícího nástroje
- Korektním užíváním korekcí pro vícenásobná srovnání
- Užívání postupů typu Bonferroniho korekce snižuje statistickou sílu
Od "p < 0,05" k
- Reportování skutečné velikosti "p"
- Důrazu na ukazatele velikosti účinku (Cohenovo d, intervaly spolehlivosti atd.)
- Bayesovskému přístupu
Doporučení pro
Publikační proces
Autoři studií - důraz na větší míru transparence
-
Literature review ve vztahu k dosavadnímu stavu replikace
- Existují dřívější replikační studie? Podařilo se původní výsledek replikovat? Apod.
- Zdůvodnění volby velikosti vzorku
- Zveřejnění dat, postupů analýz, work-in-progress, pre-registrací
- Provádění replikací, účast na diskuzích odborné veřejnosti atd.
Žurnály, recenzenti, editoři
- Obecně podpora dobrých praktik, např.
- Publikování replikací a podpora autorů v této činnosti
- Ústup od konfirmačního zkreslení v publikačním procesu
Doporučení pro
Vyučující metodologie etc.
Aneb co mají studenti chtít po svých učitelích?
Podpora
-
Rigorózní výuky metodologie, statistické analýzy dat apod.
- Statistická síla, velikost účinku, zobecnitelnost atd.
-
Transparentnosti
- Publikování dat, skriptů apod., analýza takovýchto souborů
-
Replikací
- Přínos pro studenty i pro obor
-
Kritického myšlení
- Obsahuje studie veškeré podstatné informace?
Zvolili výzkumníci vhodnou proceduru pro ověření stanovené hypotézy?
Jsou závěry korektně interpretovány? - Na úrovni jednotlivých studií i v rámci meta-analýz
- Obsahuje studie veškeré podstatné informace?
Doporučení pro
Vyučující metodologie etc.
Aneb co mají studenti chtít po svých učitelích?
Doporučení pro
Institucionální fungování
Změna Publish or Perish politiky
-
Počet publikací a impact faktor jako rozhodující proměnná při
- Přidělování grantů, přijetí do zaměstnání či kariérním postupu
Alternativa
- Oceňování a podpora replikační činnosti
- Vynaložení části prostředků v rámci výzkumu na replikaci
Zdroje
Asendorpf, J. B., Conner, M., De Fruyt, F., De Houwer, J., Denissen, J. J. A., Fiedler, ... & Wicherts, J. M. (2013). Recommendations for Increasing Replicability in Psychology. European Journal of Personality, 27(2), 108–119. doi: 10.1002/per.1919
Borenstein, M., Hedges, L. V., Higgins, J. P. T., & Rothstein, H. R. (2009). Introduction to Meta-Analysis. Chichester, UK: John Wiley & Sons.
Fanelli, D. (2010). “Positive” results increase down the hierarchy of the sciences. PLoS One, 5, e10068.
Fanelli, D. (2012). Negative results are disappearing from most disciplines and countries. Scientometrics, 90, 891–904.
Fisher, R. (1971). The Design of Experiments. New York: Hafner Publishing Company.
John, L. K., Loewenstein, G., & Prelec, D. (2012). Measuring the prevalence of questionable research practices with incentives for truth-telling. Psychological Science, 23, 524–532.
Open Science (2015). Estimating the reproducibility of psychological science. 349 (6251), http://doi.org/10.1126/science.aac4716
Taylor, L. E., Swerdfeger, A. L., & Eslick, G. D. (2014). Vaccines are not associated with autism: an evidence-based meta-analysis of case-control and cohort studies. Vaccine, 32(29), 3623–3629. http://doi.org/10.1016/j.vaccine.2014.04.085
Take home message
Replikovatelnost výzkumu a metaanalýza aneb Jedna studie nestačí
By Vít Gabrhel
Replikovatelnost výzkumu a metaanalýza aneb Jedna studie nestačí
- 1,299