Replikovatelnost výzkumu a metaanalýza

aneb

Jedna studie nestačí

Vít Gabrhel

vit.gabrhel@mail.muni.cz

vit.gabrhel@cdv.cz

FSS MU,

7. 11. 2017

Harmonogram

1. Úvod

2. Meta-analýza

3. Reproducibility, replicability etc.

"No isolated experiment, however significant in itself, can suffice for the experimental demonstration of any natural phenomenon."

Fisher, 1971, s. 13

Radikální skepse? I.

Radikální skepse? II.

Open Science, 2015

"We conducted a large-scale, collaborative effort to obtain an initial estimate of the reproducibility of psychological science"

Původní

Průměrná velikost účinku:
Mr = 0,403; SD = 0,188

Statistická signifikance:

97 % studií p < 0,05

Replikace

Průměrná velikost účinku:

Mr = 0,197; SD= 0,257

Statistická signifikance:

36 % studií p < 0,05

100 studií a výsledky jejich replikace

Psychological Science,
Journal of Personality and Social Psychology,
Journal of Experimental Psychology: Learning, Memory, and Cognition

Hodnota velikostí účinku z původních studií se nacházela v 95% intervalu spolehlivosti při replikaci v 47 % případů

Meta-analýza I.

Myšlenkové pozadí a historie

"Věda má kumulativní povahu, ke studiím však přistupujeme nikoli jako jedné z mnoha, ale izolovaně, stojícími o sobě."

Chalmers, cit. dle Borenstein et al., 2009

Narativní review

Expert shrne poznatky k danému tématu a dojde k závěru - např. intervence je účinná či nikoli
Subjektivita
- Při výběru studií a jejich počtu
- Při nastavení významu konkrétní studie
Proces rozhodování nebývá rozpracován
Omezené použití při větším počtu studií
Narativní postižení variability velikostí účinků není dostatečné

Meta-analýza II.

Myšlenkové pozadí a historie

Od 90. let 20. st. přechod k Metaanalýze a Systematic Review

Metaanalýza / Systematic review

Proces systematického vyhledávání, hodnocení a následné syntézy dat z velkého počtu zdrojů.

Systematic review

Jasně definovaná kritéria pro volbu studií a transparentní popis
- Volba kritérií zahrnuje určitou míru subjektivity
Obvykle zahrnuje meta-analýzu

Meta-analýza

Statistická syntéza předchozího výzkumu
Význam té které studie je dán podle vnějších (matematických) pravidel
- Např. velikost vzorku či velikost účinku

Velikost účinku (Size effect)

Hledáme míru konzistence napříč studiemi
Summary effect - vážený průměr velikostí účinku dle stanovených pravidel
- Jde o odhad pravého účinku (true effect)

Meta-analýza III.

Východiska a terminologie

Váhy

Čím přesnější studie, tím větší přikládaný význam při výpočtu summary effect

Přesnost (Precision)

Týká se přesnosti summary effect
Souvisí s velikostí vzorku

Hodnota p

V rámci jednotlivých studií je interpretovatelná i graficky (forest-plot)
Odráží míru konzistence velikostí účinku napříč studiemi

Meta-analýza IV.

Příklad

Meta-analýza je kvalitní do té míry, do jaké jsou kvalitní (nezkreslené apod.) individuální studie

Meta-analýza V.

Kritika

Jedno číslo nemůže zastupovat celou výzkumnou oblast

Nejde o jednu hodnotu, ale o míru konzistence napříč studiemi

Studie

Výběr zkreslených studií (garbage in, garbage out apod.) a vynechání důležitých studií
Srovnávání nesrovnatelných studií
Rozpory mezi výsledky randomized trials a meta-analýzou

Úroveň prováděných meta-analýz není dobrá

Zejména kvůli nedostatkům ve studiích, na kterých byla meta-analýza provedena, ale i kvůli chybnému použití
Nejde o metodu jako takovou, ale o způsob její aplikace

Silná orientace na statisticky signifikantní výsledek

92 % publikovaných výsledků v psychologii je statisticky signifikantních (Fanelli, 2010)
Nárůst zejména v období mezi lety 1990 a 2007 (Fanelli, 2012)
- Confirmation bias in publication

Bakker, Van Dijk, & Wicherts, 2012

Medián N = 40; Statistická síla = 0,35; d = 0,5

Fraley & Marks, 2007

Meta-analýza korelačních studií osobnosti
Medián N = 120; Statistická síla = 0,65; r = 0,21

Jenže...

Mimo meta-analýzu

"Consequently, if all effects reported in published studies were true, only 35% would be replicable in similarly underpowered studies." Asendorpf et al. 2013, s. 110

Mimo meta-analýzu

Reproducibility, replicability, generalizability

Východiska

In a poll of more than 2000 psychologists, prevalences of ‘Deciding whether to collect more data after looking to see whether the results were significant’ and ‘Stopping data collection earlier than planned because one found the result that one had been looking for’ were subjectively estimated at 61% and 39%, respectively.

John, Loewenstein, & Prelec, cit. dle Asendorpf et al., 2013

Podvodné versus pochybné jednání

Fraud is typically limited to cases in which researchers create false data.

In contrast, QRPs typically involve the exclusion of data that are inconsistent with a theoretical hypothesis. QRPs are treated differently than fraud because QRPs can sometimes be used for legitimate purposes.

John, Loewenstein, & Prelec, 2012

Reproducibility, replicability, generalizability

jako koncepty

Reproducibility (Reprodukovatelnost)

"Researcher B must have the following: (a) the raw data; (b) the code book (variable names and labels, value labels, and codes formissing data); and (c) knowledge of the analyses that were performed by Researcher A (e.g. the syntax of a statistics program)."

Asendorpf et al., 2013, s. 109

Replicability (Replikovatelnost)

"The finding can be obtained with other random samples drawn from a multidimensional space that captures the most important facets of the research design. In psychology, the facets typically include the following: (a) individuals (or dyads or groups); (b) situations (natural or experimental); (c) operationalizations (experimental manipu- lations, methods, and measures); and (d) time points."

Asendorpf et al., 2013, s. 109

Generalizability (Zobecnitelnost)

"It does not depend on an originally unmeasured variable that has a systematic effect. In psychology, generalizability is often demonstrated by showing that a potential moderator variable has no effect on a group difference or correlation."

Asendorpf et al., 2013, s. 110

Doporučení pro

Výzkumný design a Analýzu dat

Zmenšit chybu měření

Zvýšením velikosti vzorku
Zvýšením statistické síly
Zvýšením reliability měřícího nástroje
Korektním užíváním korekcí pro vícenásobná srovnání
- Užívání postupů typu Bonferroniho korekce snižuje statistickou sílu

Od "p < 0,05" k

Reportování skutečné velikosti "p"
Důrazu na ukazatele velikosti účinku (Cohenovo d, intervaly spolehlivosti atd.)
Bayesovskému přístupu

Doporučení pro

Publikační proces

Autoři studií - důraz na větší míru transparence

Literature review ve vztahu k dosavadnímu stavu replikace
- Existují dřívější replikační studie? Podařilo se původní výsledek replikovat? Apod.
Zdůvodnění volby velikosti vzorku
Zveřejnění dat, postupů analýz, work-in-progress, pre-registrací
Provádění replikací, účast na diskuzích odborné veřejnosti atd.

Žurnály, recenzenti, editoři

Obecně podpora dobrých praktik, např.
- Publikování replikací a podpora autorů v této činnosti
- Ústup od konfirmačního zkreslení v publikačním procesu

Doporučení pro

Vyučující metodologie etc.

Aneb co mají studenti chtít po svých učitelích?

Podpora

Rigorózní výuky metodologie, statistické analýzy dat apod.
- Statistická síla, velikost účinku, zobecnitelnost atd.
Transparentnosti
- Publikování dat, skriptů apod., analýza takovýchto souborů
Replikací
- Přínos pro studenty i pro obor
Kritického myšlení
- Obsahuje studie veškeré podstatné informace?
  Zvolili výzkumníci vhodnou proceduru pro ověření stanovené hypotézy?
  Jsou závěry korektně interpretovány?
- Na úrovni jednotlivých studií i v rámci meta-analýz

Doporučení pro

Vyučující metodologie etc.

Aneb co mají studenti chtít po svých učitelích?

Doporučení pro

Institucionální fungování

Změna Publish or Perish politiky

Počet publikací a impact faktor jako rozhodující proměnná při
- Přidělování grantů, přijetí do zaměstnání či kariérním postupu

Alternativa

Oceňování a podpora replikační činnosti
Vynaložení části prostředků v rámci výzkumu na replikaci

Zdroje

Asendorpf, J. B., Conner, M., De Fruyt, F., De Houwer, J., Denissen, J. J. A., Fiedler, ... & Wicherts, J. M. (2013). Recommendations for Increasing Replicability in Psychology. European Journal of Personality, 27(2), 108–119. doi: 10.1002/per.1919

Borenstein, M., Hedges, L. V., Higgins, J. P. T., & Rothstein, H. R. (2009). Introduction to Meta-Analysis. Chichester, UK: John Wiley & Sons.

Fanelli, D. (2010). “Positive” results increase down the hierarchy of the sciences. PLoS One, 5, e10068.

Fanelli, D. (2012). Negative results are disappearing from most disciplines and countries. Scientometrics, 90, 891–904.

Fisher, R. (1971). The Design of Experiments. New York: Hafner Publishing Company.

John, L. K., Loewenstein, G., & Prelec, D. (2012). Measuring the prevalence of questionable research practices with incentives for truth-telling. Psychological Science, 23, 524–532.

Open Science (2015). Estimating the reproducibility of psychological science. 349 (6251), http://doi.org/10.1126/science.aac4716

Taylor, L. E., Swerdfeger, A. L., & Eslick, G. D. (2014). Vaccines are not associated with autism: an evidence-based meta-analysis of case-control and cohort studies. Vaccine, 32(29), 3623–3629. http://doi.org/10.1016/j.vaccine.2014.04.085

Replikovatelnost výzkumu a metaanalýza

aneb

Jedna studie nestačí

Harmonogram

Radikální skepse? I.

Radikální skepse? II.

Meta-analýza I.

Myšlenkové pozadí a historie

Meta-analýza II.

Myšlenkové pozadí a historie

Meta-analýza III.

Východiska a terminologie

Meta-analýza IV.

Příklad

Meta-analýza V.

Kritika

Mimo meta-analýzu

Mimo meta-analýzu

Reproducibility, replicability, generalizability

Východiska

Reproducibility, replicability, generalizability

jako koncepty

Doporučení pro

Výzkumný design a Analýzu dat

Doporučení pro

Publikační proces

Doporučení pro

Vyučující metodologie etc.

Doporučení pro

Vyučující metodologie etc.

Doporučení pro

Institucionální fungování

Zdroje

Take home message