Åtminstone tre sorters osäkerhet

Någon gång i somras publicerade Cahill & co (2013) en vetenskaplig artikel om hur att äta eller inte äta frukost samt att äta sent på kvällen påverkar risken för kranskärlssjukdom. Ja, jag skriver ”påverkar”, för orsakssamband är precis det intressanta här. Även om författarna är duktiga forskare och medvetna om att association inte nödvändigtvis betyder klara orsakssamband, så är det vad vi vill veta. Inte om människor som tenderar att äta sent på kvällen sådär i allmänhet också tenderar att bli sjuka, utan om vi ska låta bli att äta sent på kvällen för att inte bli sjuka.

Men som alla vet är det där med orsak och verkan inte helt lätt — och det här var alltså en epidemiologisk observationsstudie där är det kan vara synnerligen knivigt. Men vad ska en göra då? Folk som slumpvis delas upp i grupper och tilldelas olika kost kan ju bara tänkas stå ut med det en kortare tid, så för att få veta något långtidseffekter på människor finns det inget annat sätt.

Jag tänker inte skriva så mycket om själva artikeln utan ta den som exempel på att det finns minst tre viktiga typer av osäkerhet som alla som analyserar och tolkar resultaten på något sätt behöver förhålla sig till. Artikeln, den här sammanfattningen, DN och Expressen gör det i olika grad och olika framgångsrikt.

1. Modellerad osäkerhet i skattningarna.

Den här typen av nog lättast att hantera — en statistisk metod värd namnet, oavsett allt annat, ger alltid någon sorts uppskattning av osäkerhet. Ibland uttrycks den i form av en sannolikhet men i det här fallet som ett intervall. Intervallet visar vilka värden som i någon mån är förenliga med data. I artikelns sammanfattning står intervallet 1,06-1,53 för riskkvoten som jämför de som äter frukost och inte — alltså en förhöjd risk på mellan 6% och 53%. Varken Medpage Today eller svenska tidningar uppger något annat än punktskattningen 27%. På ett sätt är det begripligt, för vad ska vi göra med intervallet? Konstatera att osäkerheten är stor, att 53% är en extremt stor riskökning men att 6% fortfarande är en hel del?

Å andra sidan, när osäkerheten är så här stor är det fånigt och hyfsat vilseledande att bara skriva 27% som om det vore en säker siffra. En mening om statistisk osäkerhet skulle nog gjort mer nytta för DN:s läsare än en om vad resultaten betyder för den diet som för tillfället är på modet. (Obs: Lita aldrig på bloggare i kostfrågor. Inte mig heller.) Det finns fler exempel, så klart. Härförleden skrev jag om en artikel om inflammationshämmande antikroppar som rapporterade en skillnad som mycket väl skulle kunna vara noll som om den vore ett starkt överraskande resultat. Eller ta Aftonbladets artiklar om sexuella vanor i somras som rapporterade ett gäng medelvärden men berättade väldigt lite om variationen inom grupper.

2. Osäkerhet som har med studiens upplägg att göra.

Här blir det genast svårare. Tyvärr räcker det inte alltid att titta på resultat och uppskattad osäkerhet för att veta om resultatet är trovärdigt. Ibland behöver en analysera studiens design och utförande. Kan den verkligen besvara  den fråga den är satt att besvara? En del av analysen kan vara att beräkna styrka, vilket handlar om ifall urvalet är stort nog och variationen liten nog för att det ska gå att detektera en effekt av rimlig storlek. Styrkeberäkningar kräver alltså att vi gör antaganden om vad det är vi väntar oss hitta och vad som är rimligt — och helst att vi tänker till i förhand.

Det finns flera problem med att försöka dra slutsatser från ett för litet material: en kan missa effekter som finns där eftersom att de drunknar i bruset, men vad som är ännu värre: de effekter som faktiskt är stora nog att märkas kommer ofta vara överskattningar och orimligt stora. Den här artikeln är i alla fall inget litet utgångsmaterial: omkring 27000 individer totalt, men när det kommer till att äta sent på natten är det bara 313 individer kvar som har den vanan.

Studien visade också att en sen måltid eller nattlig räd i kylskåpet är ännu värre för hjärthälsan än att hoppa över frukosten. Männen som uppgav att de åt efter att ha gått till sängs löpte 55 procents högre risk för hjärtsjukdom. (DN)

När jag läste det här tänkte jag ungefär: Skojar ni? 30% är stort nog, men 55%! Men den uppfattning att baserades helt på mitt eget huvud och uppfattningen att hälsa är komplicerat och att effekter borde vara små. Men lita inte på mig! Poängen är att vad som är rimligt går att studera. Om en tittar på ett par metaanalyser (alltså en studie som sammanställer resultaten många tidigare studier) av risken för kranskärlssjukdom finns bland annat: diabetes 1,9 (för män; för kvinnor 2,6; Lee & al 2000); passiv rökning 1,2-1,3 (He & al 1999) och 0,8 för de som äter mycket frukt och grönsaker (He & al 2007 ). Så frukost eller ej skulle vara ungefär jämförbart med passiv rökning; att äta sent värre, men inte lika illa som diabetes. Det kanske är rimligt; vad vet jag. Om 313 individer i högriskgruppen ger tillräcklig styrka för att trovärdigt kunna skatta lägre skillnader är inte lätt att veta när artikeln inte rapporterar någon formell styrkeanalys. Om inte är det stor risk att överskatta effekten.

Till studiens upplägg hör inte bara storleken utan frågan om systematiska fel. Fånigt exempel: den som vill uppskatta hur stor andel av Norrköpingsborna som håller på Vita hästen bör inte bara intervjua de som kommer ut från Himmelstalundshallen. En vanlig kritik mot olika typer av experimentell forskning på människor är att den använder folk som är WEIRD (”western, educated, and from industrialized, rich, and democratic countries … vita, välutbildade från industrialiserade, rika och demokratiska länder”) — kort och gott, det kan finnas skäl att ifrågasätta den frivilliga universitetsstudenten som modell för hela mänskligheten. Det finns en annan viktig del också, efter urvalet, nämligen förklaringsvariablerna (ovan: att äta frukost eller inte) och hur de hör ihop med andra variabler. Om en gör ett experiment går det ju att slumpvis tilldela försökspersoner att äta frukost eller inte äta frukost. Det kallas randomisering. Då kan en vara ganska säker på att isolera just effekten av frukost och inte en massa andra saker. Men i studien ovan är det ju inte fråga om slumpvis tilldelade frukostar och sena nätter, utan folks faktiska vanor. Det är ju möjligt och troligt att människor som hoppar över frukost också har andra vanor, som kanske inte är så hälsosamma, som påverkar deras risk för hjärtsjukdom. Och det för oss till den tredje typen av osäkerhet:

3. Osäkerhet om orsak och verkan.

Svårast. Jävligt svårt! Här är inte ens de lärde överens om hur en ska räkna alla gånger. Det finns i alla fall bra statistiska verktyg för att försöka hantera flera variabler som påverkar varandra: olika typer av statistiska modeller med olika sätt att ”justera för” variabler. För att fortsätta tanken från ovan: Författarna vill jämföra risken för hjärtsjukdom hos de som äter frukost och de som inte gör det, men det kan vara så att grupperna också skiljer sig på andra sätt som kan påverka risken för hjärtsjukdom: till exempel ålder och diet. Därför justerar de för demografi, diet och några livsstilsvariabler som de känner till om deltagarna. Det betyder att bygga en modell som inkluderar de variablerna förutom frukostvanor. Om modellen är bra så kan de uppskatta skillnaden mellan frukostätarna och frukosthopparna och ha viss kontroll på att den inte beror på de andra variablerna.

Men samtidigt går det inte att justera för vad som helst och hur som helst. I artikeln och i sammanfattningen jag länkade ovan står det att

The relationships between coronary heart disease and both skipping breakfast and eating late at night became nonsignificant after adjustment for potential mediators …

Författarna prövar alltså att justera för några ”potential mediators” i det här fallet är bland annat högt blodtryck. Att skillanden ”became nonsignificant” betyder att justeringen får den uppskattade skillnaden att krympa (så att det 95%-iga intervallet inte utesluter att effekten är noll). Vad betyder det? Det författarna menar med potentiellt medierande variabler är saker som orsakar hjärtsjukdom men som i sin tur skulle kunna påverkas av frukostvanor. Om ingen frukost ger högre blodtryck som ger högre risk för hjärtsjukdom borde uppskattningen av riskökningen mellan ingen frukost och frukost minska om vi justerar för blodtryck. De använder alltså justeringen som ett sätt att pröva om en del av skillnaden kan förklaras av högre blodtryck.

Men det gäller att hålla tungan rätt i munnen … Om en ska justera eller inte beror på orsakssambanden mellan variablerna. Om vi missar att justera för något som skiljer grupperna kan det ge helt fel resultat. Om vi justerar för något som är en följd av det vi är intresserade av riskerar vi att justera bort den intressanta effekten. Vilken uppskattning, ojusterad eller inte, som är den rätta beror på vad som är sant om fenomenet ifråga. Så, lite som att en behöver veta något om vilka effekter som är rimliga för att begripa effektstorlekar så måste vi redan veta något om orsak och verkan för att kunna resonera om det. (Pearl 2014)

Litteratur

Cahill & al (2013) Prospective Study of Breakfast Eating and Incident Coronary Heart Disease in a Cohort of Male US Health Professionals Circulation

He & al (1999) Passive Smoking and the Risk of Coronary Heart Disease — A Meta-Analysis of Epidemiologic Studies New England journal of medicine

He & al (2007) Increased consumption of fruit and vegetables is related to a reduced risk of coronary heart disease: meta-analysis of cohort studies Journal of human hypertension

Lee & al (2000) Impact of diabetes on coronary artery disease in women and men: a meta-analysis of prospective studies Diabetes care

Pearl (2013) Understanding Simpson’s Paradox. Förtryck på författarens webbsida

Annonser

Power overwhelming II: hur vilseledande är små studier?

Alla vet att stickprovsstorlek spelar roll: stora undersökningar och experiment är i allmänhet trovärdigare än små. Frågan är bara: hur stora och hur trovärdiga? I den förra posten skrev jag lite om klassiska styrkeberäkningar och tog som exempel en studie av Raison m. fl. om antiinflammatoriska antikroppar mot depression. (Spoiler: det verkar inte ha någon större effekt.) Nyss såg jag en kort förhandspublicerad artikel av Andrew Gelman och John Carlin som utvecklar ett lite annat sätt att se på styrka — eller designanalys, som de skriver — med två nya mått på studiers dålighet. Föreställ dig ett experiment som fungerar ungefär som det med antikropparna: två grupper av deprimerade patienter får en ny medicin (här: antikroppen infliximab) eller placebo, och det som intresserar oss är skillnaden mellan grupperna är efter en tids behandling.

I klassiska styrkeberäkningar handlar det om kontrollera risken att göra så kallat typ 2-fel, vilket betyder att missa en faktisk skillnad mellan grupperna. Typ 1-fel är att råka se en skillnad som egentligen inte finns där. Det här sättet att resonera har Gelman inte mycket till övers för. Han (och många andra) brukar skriva att vi oftast redan vet redan från början att skillnaden inte är noll: det vi behöver veta är inte om det finns en skillnad mellan de som fått infliximab och de andra, utan i vilken riktning skillnaden går — är patienterna som blivit behandlade friskare eller sjukare? — och ifall skillnaden är stor nog att vara trovärdig och betydelsefull.

Därför föreslår Gelman & Carlin att vi ska titta på två andra typer av fel, som de kallar typ S, teckenfel, och typ M, magnitudfel. Teckenfel är att säga att skillnaden går åt ena hållet när den i själva verket går åt det andra. Magnitudfel är att säga att en skillnad är stor när den i själva verket är liten — Gelman & Carlin mäter magnitudfel med en exaggeration factor, som är den skattade skillnaden i de fall där det är stort nog att anses signifikant skild från noll dividerat med den verkliga skillnaden.

Låt oss ta exemplet med infliximab och depression igen. Gelman & Carlin understryker hur viktigt det är att inte ta sina antaganden om effektstorlek ur luften, så jag har letat upp några artiklar som är sammanställningar av många studier av antidepressiva mediciner. Om vi antar att utgångsläget är 24 enheter på Hamiltons depressionsskala (vilket är ungefär vad patienterna hade i början av experimentet) motsvarar medeleffekten i Kahn & cos systematiska litteraturstudie en skillnad på 2.4 enheter. Det överensstämmer ganska väl med Gibbons & cos metaanalys av fluoxetine and venlafaxine där skillnaden överlag var 2.6 enheter. Storosum & cos metaanalys av tricykliska antidepressiva medel har en skillnad på 2.8 enheter. Det är såklart omöjligt att veta hur stor effekt infliximab skulle ha ifall det fungerar, men det verkar väl rimligt att anta något i samma storleksordning som fungerande mediciner? I antikroppsstudiens styrkeberäkning kom de fram till att de borde ha en god chans att detektera en skillnad på 5 enheter. Den uppskattningen verkar ha varit ganska optimistisk.

Precis som med den första styrkeberäkningen så har jag gjort simuleringar. Jag har prövat skillnader på 1 till 5 enheter. Det är 60 deltagare i varje grupp, precis som i experimentet, och samma variation som författarna använt till sin styrkeberäkning. Jag låter datorn slumpa fram påhittade datamängder med de parametrarna och sedan är det bara att räkna ut risken för teckenfel och överskattningsfaktorn.

typM_typS

Det här diagrammet visar chansen att få ett signifikant resultat (alltså styrkan) samt risken för teckenfel vid olika verkliga effektstorlekar. Den grå linjen markerar 2.5 enheter. Jämfört med Gelmans & Carlins exempel ser risken för teckenfel inte så farlig ut: den är väldigt nära noll vid realistiska effekter. Styrkan är fortfarande sådär, knappa 30% för en effekt på 2.5 enheter.

exaggeration

Det här diagrammet är överskattningsfaktorn vid olika effektstorlekar — jag försökte demonstrerar samma sak med histogram i förra posten. Vid 5 enheter, som är den effektstorlek författarna räknat med, har kurvan hunnit plana ut nära ett, alltså ingen större överskattning. Men vid 2.5 får vi ändå räkna med att skillnaden ser ut att vara dubbelt så stor som den är. Sammanfattningsvis: författarna bör kunna utesluta stora effekter som fem enheter på Hamiltonskalan, men dagens antidepressiva mediciner verkar ha betydligt mindre effekt än så. Alltså finns det risk att missa realistiska effekter och ännu värre blir det förstås när de börjar dela upp försöket i mindre undergrupper.

Litteratur

Gelman A & Carlin J (2013) Design analysis, prospective or retrospective, using external information. Manuskript på Gelmans hemsida.

Storosum JG, Elferink AJA, van Zwieten BJ, van den Brink W, Gersons BPR, van Strik R, Broekmans AW (2001) Short-term efficacy of tricyclic antidepressants revisited: a meta-analytic study European Neuropsychopharmacology 11 pp. 173-180 http://dx.doi.org/10.1016/S0924-977X(01)00083-9.

Gibbons RD, Hur K, Brown CH, Davis JM, Mann JJ (2012) Benefits From Antidepressants. Synthesis of 6-Week Patient-Level Outcomes From Double-blind Placebo-Controlled Randomized Trials of Fluoxetine and Venlafaxine. Archives of General Psychiatry 69 pp. 572-579 doi:10.1001/archgenpsychiatry.2011.2044

Khan A, Faucett J, Lichtenberg P, Kirsch I, Brown WA (2012) A Systematic Review of Comparative Efficacy of Treatments and Controls for Depression. PLoS ONE  e41778 doi:10.1371/journal.pone.0041778

Raison CL, Rutherford RE, Woolwine BJ, Shuo C, Schettler P, Drake DF, Haroon E, Miller AH (2013) A Randomized Controlled Trial of the Tumor Necrosis Factor Antagonist Infliximab for Treatment-Resistant DepressionJAMA Psychiatry 70 pp. 31-41. doi:10.1001/2013.jamapsychiatry.4

Kod

Gelman & Carlin skriver om en R-funktion för felberäkningarna, men jag hittar den inte. För min simulering, se github.

Något om flerfaldiga jämförelser och att prata känslor med en död lax

Som Gunnar påpekade borde vi behandla flerfaldiga statistiska jämförelser — i all enkelhet, som statistiska amatörer. Låt oss titta på Manhattandiagrammet från förra posten igen:

(Eriksson et al. 2010)

På x-axeln kommer alltså SNP:arna i den ordning de förekommer i genomet, kromosom för kromosom. Y-axeln skrev jag visade p-värde, men det är inte riktigt sant. Skalan är logaritmisk och den visar egentligen den negativa tiologaritmen av p-värdet, alltså hur många gånger man måste dela ett med tio för att få p-värdet i fråga.

Gränsen där punkterna börjar bli röda, och SNP:arna betraktas som signifikant associerade med egenskapen (i det här fallet fräknar) infaller ungefär när -log10(p-värde) är 8 (närmare bestämt 8,4). Det innebär ett mycket litet p-värde, närmare bestämt .

Det är hög tid att fundera på vad det här p-värdet är. Inom statistisk hypotesprövning (vilket är ett sätt att resonera statistiskt; det finns andra) ställer vi alltid en hypotes (den vi vill pröva) mot en nollhypotes (en sorts utgångsläge, som vi ofta inte ens tror på). Om vi vill jämföra två grupper med avseende på någon egenskap brukar nollhypotesen vara att det inte finns någon skillnad mellan gruppernas medelvärden; den hypotes vi vill pröva är såklart att det finns en skillnad som är skild från noll.

Sedan samlar vi in data, ett så kallat stickprov, och uppskattar medelvärdet (eller vilken parameter vi nu vill testa) och variationen i stickprovet. Baserat på variationen i stickprovet uppskattar vi hur stor sannolikheten är att det här resultatet, eller ett ännu bättre (alltså ett som talar starkare för vår hypotes), uppstår av en slump. Den sannolikheten är p-värdet. Om den sannolikheten är liten är vi rätt säkra på att resultatet inte uppsått av en slump, utan beror på en riktig skillnad. Då tror vi mer på vår hypotes än på nollhypotesen; vi säger att vi förkastar nollhypotesen.

p-värdet avspeglar alltså inte sannolikheten att vi har rätt, utan risken för att göra en viss typ av fel, alltså risken att förkasta nollhypotesen fast den är sann. Den här typen av resonemang har sina sidor. Ett problem är hur negativa resultat ska tolkas. Ifall vi inte får en signifikant skillnad, och alltså inte förkastar nollhypotesen, betyder det att nollhypotesen är sann? Inte nödvändigtvis. Det finns ofta inget bra sätt att visa en avsaknad av en skillnad.

I fallet genetisk association är nollhypotesen såklart att varje enskild SNP inte är associerad till egenskapen; den hypotes vi prövar är att det det finns en association. Var vi ska dra gränsen för ett signifikant resultat är en samvetsfråga. Hur stor risk att göra fel kan vi acceptera? En vanlig, och helt godtycklig, gräns är 1 på 20. Då förkastar vi nollhypotesen om p < 0.05.

Åter till Manhattandiagrammet. Där var gränsen alltså . Det är väldigt väldigt väldigt (väldigt, väldigt, väldigt…) mycket mindre än 0.05. Varför?

Jo, i studien ifråga tittade de på dryga 500 000 olika SNPs och 22 olika egenskaper. Det innebär att de sammanlagt prövade hypotesen om association mer än elva miljoner gånger. Med den vanliga gränsen vid 1 på 20 skulle de i så fall riskera att, totalt i hela studien, ha fel cirka 550 000 gånger (om vi antar att jämförelserna är oberoende; det är de förmodligen inte, så fullt så illa behöver det inte vara), av ren slump.

Det vore naturligtvis inte acceptabelt, och därför har de i artikeln ifråga justerat sitt tröskelvärde och gjort det mångfaldigt lägre. De har räknat som om testerna är oberoende, och då fått fram  som så kallad simultan signifikansnivå, det vill säga den signifikanströskel de måste hålla för att hela studien, tagen tillsammans, ska ha p < 0.05. (Det här sättet att kontrollera den simultana signifikansnivån kallas Bonferroni-justering.)

Låt oss ta ett exempel som illustrerar vad som kan hända om vi inte håller koll på den simultana signifikansen. Det är inte bara vid helgenomsassociation som det blir massvis av statistiska tester. Funktionell magnetresonans, fMRI, är ett sätt att ta bilder av hjärnan i arbete och ta reda på vilken del av hjärnan människor eller djur använder för att göra olika saker. (Exakt vad ”hjärnan i arbete” betyder i det här fallet är inte helt självklart, men nu ska det bara handla om statistiken, inte om den biologiska grunden för fMRI.)

fMRI ger upphov till en tredimensionell bild, med tusentals punkter som motsvarar volymelement — så kallade voxlar (jämför med pixlarna på den tvådimensionella datorskärmen). Craig Bennet och hans kollegor la en död lax i en fMRI-scanner, visade foton av människor i olika stiuationer och gav den i uppgift att bedöma vilka känslor människorna på bilden upplevde. Som syns i metoderna gjorde de en rad komplicerade beräkningar, men det hela leder fram till ett statistiskt test som de utför med olika tröskelvärden för p-värdet.

Titta gärna på själva postern och den snygga bilden av det lilla röda området i laxens huvud. Ett test på nivå p < 0.001, vilket kan tyckas rätt lågt, ger ändå en liten grupp voxlar mitt i den döda laxens hjärna, där det verkar pågå någon sorts verksamhet. När de däremot använde två metoder (inte Bonferroni, utan mer sofitikerade varianter) för att hålla koll på den simultana signifikansen, så försvinner det. Sensmoralen är: håll koll på den simultana signifikansen.

Litteratur

Allan Gut, (2007) Konsten att räkna: tankar om siffror och statistik, Norstedts, är en bok om statisik som introducerar hypotesprövning på ett behagligt sätt.

Signifikans vid flerfaldiga tester brukar presenteras i samband med variansanalys i läroböcker.

Craig M Bennet et al. (2009) Neural correlates of interspecies perspective taking in the post-mortem Atlantic Salmon: An argument for multiple comparisons correction.