Replikovatelnost výzkumu a metaanalýza

aneb

Jedna studie nestačí

Vít Gabrhel

vit.gabrhel@mail.muni.cz

vit.gabrhel@cdv.cz

FSS MU,

7. 11. 2017

Harmonogram

 1. Úvod

 

 2. Meta-analýza

 

 3. Reproducibility, replicability etc.

"No isolated experiment, however significant in itself, can suffice for the experimental demonstration of any natural phenomenon."


Fisher, 1971, s. 13

Radikální skepse? I.

Radikální skepse? II.

Open Science, 2015

"We conducted a large-scale, collaborative effort to obtain an initial estimate of the reproducibility of psychological science"

Původní

 Průměrná velikost účinku: 
 Mr = 0,403; SD = 0,188

 Statistická signifikance:

 97 % studií p < 0,05

Replikace

Průměrná velikost účinku:

Mr = 0,197; SD= 0,257

Statistická signifikance:

36 % studií p < 0,05

100 studií a výsledky jejich replikace

  • Psychological Science,
  • Journal of Personality and Social Psychology,
  • Journal of Experimental Psychology: Learning, Memory, and Cognition

Hodnota velikostí účinku z původních studií se nacházela v 95% intervalu spolehlivosti při replikaci v 47 % případů

Meta-analýza I.

Myšlenkové pozadí a historie

"Věda má kumulativní povahu, ke studiím však přistupujeme nikoli jako jedné z mnoha, ale izolovaně, stojícími o sobě."

Chalmers, cit. dle Borenstein et al., 2009

Narativní review

  • Expert shrne poznatky k danému tématu a dojde k závěru - např. intervence je účinná či nikoli
  • Subjektivita
    • Při výběru studií a jejich počtu
    • Při nastavení významu konkrétní studie
  • Proces rozhodování nebývá rozpracován
  • Omezené použití při větším počtu studií
  • Narativní postižení variability velikostí účinků není dostatečné

Meta-analýza II.

Myšlenkové pozadí a historie

 Od 90. let 20. st. přechod k Metaanalýze Systematic Review

Metaanalýza / Systematic review

  • Proces systematického vyhledávání, hodnocení a následné syntézy dat z velkého počtu zdrojů.

 Systematic review

  • Jasně definovaná kritéria pro volbu studií a transparentní popis
    • Volba kritérií zahrnuje určitou míru subjektivity
  • Obvykle zahrnuje meta-analýzu

 Meta-analýza

  • Statistická syntéza předchozího výzkumu
  • Význam té které studie je dán podle vnějších (matematických) pravidel
    • Např. velikost vzorku či velikost účinku

 Velikost účinku (Size effect)

  • Hledáme míru konzistence napříč studiemi
  • Summary effect - vážený  průměr velikostí účinku dle stanovených pravidel
    • Jde o odhad pravého účinku (true effect)

Meta-analýza III.

Východiska a terminologie

 Váhy

  • Čím přesnější studie, tím větší přikládaný význam při výpočtu summary effect

 Přesnost (Precision)

  • Týká se přesnosti summary effect
  • Souvisí s velikostí vzorku

 Hodnota p

  • V rámci jednotlivých studií je interpretovatelná i graficky (forest-plot)
  • Odráží míru konzistence velikostí účinku napříč studiemi

Meta-analýza IV.

Příklad

 Meta-analýza je kvalitní do té míry, do jaké jsou kvalitní (nezkreslené apod.)  individuální studie

Meta-analýza V.

Kritika

 Jedno číslo nemůže zastupovat celou výzkumnou oblast

  • Nejde o jednu hodnotu, ale o míru konzistence napříč studiemi

 Studie

  • Výběr zkreslených studií (garbage in, garbage out apod.) a vynechání důležitých studií 
  • Srovnávání nesrovnatelných studií
  • Rozpory mezi výsledky randomized trials a meta-analýzou

 Úroveň prováděných meta-analýz není dobrá

  • Zejména kvůli nedostatkům ve studiích, na kterých byla meta-analýza provedena, ale i kvůli chybnému použití 
  • Nejde o metodu jako takovou, ale o způsob její aplikace 

Silná orientace na statisticky signifikantní výsledek

  • 92 % publikovaných výsledků v psychologii je statisticky signifikantních (Fanelli, 2010)
  • Nárůst zejména v období mezi lety 1990 a 2007 (Fanelli, 2012)
    • Confirmation bias in publication

Bakker, Van Dijk, & Wicherts, 2012

  • Medián N = 40; Statistická síla = 0,35; d = 0,5

Fraley Marks, 2007

  • Meta-analýza korelačních studií osobnosti
  • Medián N = 120; Statistická síla = 0,65; r = 0,21

Jenže...

Mimo meta-analýzu

"Consequently, if all effects reported in published studies were true, only 35% would be replicable in similarly underpowered studies."                                                                                                  Asendorpf et al. 2013, s. 110

Mimo meta-analýzu

Reproducibility, replicability, generalizability

Východiska

In a poll of more than 2000 psychologists, prevalences of ‘Deciding whether to collect more data after looking to see whether the results were significant’ and ‘Stopping data collection earlier than planned because one found the result that one had been looking for’ were subjectively estimated at 61% and 39%, respectively.

                                                 John, Loewenstein, & Prelec, cit. dle Asendorpf et al., 2013

Podvodné versus pochybné jednání

 

Fraud is typically limited to cases in which researchers create false data.  

In contrast, QRPs typically involve the exclusion of data that are inconsistent with a theoretical hypothesis. 
QRPs are treated differently than fraud because QRPs can sometimes be used for legitimate purposes

John, Loewenstein, & Prelec, 2012

Reproducibility, replicability, generalizability

jako koncepty

 Reproducibility (Reprodukovatelnost)

 "Researcher B must have the following: (a) the raw data; (b) the code book (variable  names and labels, value labels, and codes formissing data); and (c) knowledge of the  analyses that were performed by Researcher A (e.g. the syntax of a statistics program)."                          

Asendorpf et al., 2013, s. 109

 Replicability (Replikovatelnost)

"The finding can be obtained with other random samples drawn from a multidimensional  space that captures the most important facets of the research design. In psychology, the  facets typically include the following: (a) individuals (or dyads or groups); (b) situations  (natural or experimental); (c) operationalizations (experimental manipu- lations, methods,  and measures); and (d) time points." 

Asendorpf et al., 2013, s. 109

 Generalizability (Zobecnitelnost)

 "It does not depend on an originally unmeasured variable that has a  systematic effect. In  psychology, generalizability is often  demonstrated  by showing that a potential moderator  variable has  no effect on a  group difference or correlation."

Asendorpf et al., 2013, s. 110

Doporučení pro

Výzkumný design a Analýzu dat

Zmenšit chybu měření

  • Zvýšením velikosti vzorku
  • Zvýšením statistické síly
  • Zvýšením reliability měřícího nástroje
  • Korektním užíváním korekcí pro vícenásobná srovnání
    • Užívání postupů typu Bonferroniho korekce snižuje statistickou sílu

Od "p < 0,05" k 

  • Reportování skutečné velikosti "p"
  • Důrazu na ukazatele velikosti účinku (Cohenovo d, intervaly spolehlivosti atd.)
  • Bayesovskému přístupu

Doporučení pro

Publikační proces

Autoři studií - důraz na větší míru transparence

  • Literature review ve vztahu k dosavadnímu stavu replikace
    • Existují dřívější replikační studie? Podařilo se původní výsledek replikovat? Apod.
  • Zdůvodnění volby velikosti vzorku
  • Zveřejnění dat, postupů analýz, work-in-progress, pre-registrací
  • Provádění replikací, účast na diskuzích odborné veřejnosti atd.

Žurnály, recenzenti, editoři

  • Obecně podpora dobrých praktik, např.
    • Publikování replikací a podpora autorů v této činnosti
    • Ústup od konfirmačního zkreslení v publikačním procesu

Doporučení pro

Vyučující metodologie etc.

Aneb co mají studenti chtít po svých učitelích?

Podpora

  • Rigorózní výuky metodologie, statistické analýzy dat apod.
    • Statistická síla, velikost účinku, zobecnitelnost atd.
  • Transparentnosti
    •  Publikování dat, skriptů apod., analýza takovýchto souborů
  • Replikací
    • Přínos pro studenty i pro obor
  • Kritického myšlení
    • Obsahuje studie veškeré podstatné informace? 
      Zvolili výzkumníci vhodnou proceduru pro ověření stanovené hypotézy?
      Jsou závěry korektně interpretovány?
    • Na úrovni jednotlivých studií i v rámci meta-analýz

Doporučení pro

Vyučující metodologie etc.

Aneb co mají studenti chtít po svých učitelích?

Doporučení pro

Institucionální fungování

Změna Publish or Perish politiky

  • Počet publikací a impact faktor jako rozhodující proměnná při
    • Přidělování grantů, přijetí do zaměstnání či kariérním postupu

Alternativa

  • Oceňování a podpora replikační činnosti
  • Vynaložení části prostředků v rámci výzkumu na replikaci

 

Zdroje

Asendorpf, J. B., Conner, M., De Fruyt, F., De Houwer, J., Denissen, J. J. A., Fiedler, ... & Wicherts, J. M. (2013). Recommendations for Increasing Replicability in Psychology. European Journal of Personality, 27(2), 108–119. doi: 10.1002/per.1919

 

Borenstein, M., Hedges, L. V., Higgins, J. P. T., & Rothstein, H. R. (2009). Introduction to Meta-Analysis. Chichester, UK: John Wiley & Sons. 

 

Fanelli, D. (2010). Positive results increase down the hierarchy of the sciences. PLoS One, 5, e10068.

 

Fanelli, D. (2012). Negative results are disappearing from most disciplines and countries. Scientometrics, 90, 891904.

 

Fisher, R. (1971). The Design of Experiments. New York: Hafner Publishing Company.

 

John, L. K., Loewenstein, G., & Prelec, D. (2012). Measuring the prevalence of questionable research practices with incentives for truth-telling. Psychological Science, 23, 524532.

 

Open Science (2015). Estimating the reproducibility of psychological science. 349 (6251), http://doi.org/10.1126/science.aac4716

 

Taylor, L. E., Swerdfeger, A. L., & Eslick, G. D. (2014). Vaccines are not associated with autism: an evidence-based meta-analysis of case-control and cohort studies. Vaccine, 32(29), 3623–3629. http://doi.org/10.1016/j.vaccine.2014.04.085

Take home message

Replikovatelnost výzkumu a metaanalýza aneb Jedna studie nestačí

By Vít Gabrhel

Replikovatelnost výzkumu a metaanalýza aneb Jedna studie nestačí

  • 1,299