Åtminstone tre sorters osäkerhet

Någon gång i somras publicerade Cahill & co (2013) en vetenskaplig artikel om hur att äta eller inte äta frukost samt att äta sent på kvällen påverkar risken för kranskärlssjukdom. Ja, jag skriver ”påverkar”, för orsakssamband är precis det intressanta här. Även om författarna är duktiga forskare och medvetna om att association inte nödvändigtvis betyder klara orsakssamband, så är det vad vi vill veta. Inte om människor som tenderar att äta sent på kvällen sådär i allmänhet också tenderar att bli sjuka, utan om vi ska låta bli att äta sent på kvällen för att inte bli sjuka.

Men som alla vet är det där med orsak och verkan inte helt lätt — och det här var alltså en epidemiologisk observationsstudie där är det kan vara synnerligen knivigt. Men vad ska en göra då? Folk som slumpvis delas upp i grupper och tilldelas olika kost kan ju bara tänkas stå ut med det en kortare tid, så för att få veta något långtidseffekter på människor finns det inget annat sätt.

Jag tänker inte skriva så mycket om själva artikeln utan ta den som exempel på att det finns minst tre viktiga typer av osäkerhet som alla som analyserar och tolkar resultaten på något sätt behöver förhålla sig till. Artikeln, den här sammanfattningen, DN och Expressen gör det i olika grad och olika framgångsrikt.

1. Modellerad osäkerhet i skattningarna.

Den här typen av nog lättast att hantera — en statistisk metod värd namnet, oavsett allt annat, ger alltid någon sorts uppskattning av osäkerhet. Ibland uttrycks den i form av en sannolikhet men i det här fallet som ett intervall. Intervallet visar vilka värden som i någon mån är förenliga med data. I artikelns sammanfattning står intervallet 1,06-1,53 för riskkvoten som jämför de som äter frukost och inte — alltså en förhöjd risk på mellan 6% och 53%. Varken Medpage Today eller svenska tidningar uppger något annat än punktskattningen 27%. På ett sätt är det begripligt, för vad ska vi göra med intervallet? Konstatera att osäkerheten är stor, att 53% är en extremt stor riskökning men att 6% fortfarande är en hel del?

Å andra sidan, när osäkerheten är så här stor är det fånigt och hyfsat vilseledande att bara skriva 27% som om det vore en säker siffra. En mening om statistisk osäkerhet skulle nog gjort mer nytta för DN:s läsare än en om vad resultaten betyder för den diet som för tillfället är på modet. (Obs: Lita aldrig på bloggare i kostfrågor. Inte mig heller.) Det finns fler exempel, så klart. Härförleden skrev jag om en artikel om inflammationshämmande antikroppar som rapporterade en skillnad som mycket väl skulle kunna vara noll som om den vore ett starkt överraskande resultat. Eller ta Aftonbladets artiklar om sexuella vanor i somras som rapporterade ett gäng medelvärden men berättade väldigt lite om variationen inom grupper.

2. Osäkerhet som har med studiens upplägg att göra.

Här blir det genast svårare. Tyvärr räcker det inte alltid att titta på resultat och uppskattad osäkerhet för att veta om resultatet är trovärdigt. Ibland behöver en analysera studiens design och utförande. Kan den verkligen besvara  den fråga den är satt att besvara? En del av analysen kan vara att beräkna styrka, vilket handlar om ifall urvalet är stort nog och variationen liten nog för att det ska gå att detektera en effekt av rimlig storlek. Styrkeberäkningar kräver alltså att vi gör antaganden om vad det är vi väntar oss hitta och vad som är rimligt — och helst att vi tänker till i förhand.

Det finns flera problem med att försöka dra slutsatser från ett för litet material: en kan missa effekter som finns där eftersom att de drunknar i bruset, men vad som är ännu värre: de effekter som faktiskt är stora nog att märkas kommer ofta vara överskattningar och orimligt stora. Den här artikeln är i alla fall inget litet utgångsmaterial: omkring 27000 individer totalt, men när det kommer till att äta sent på natten är det bara 313 individer kvar som har den vanan.

Studien visade också att en sen måltid eller nattlig räd i kylskåpet är ännu värre för hjärthälsan än att hoppa över frukosten. Männen som uppgav att de åt efter att ha gått till sängs löpte 55 procents högre risk för hjärtsjukdom. (DN)

När jag läste det här tänkte jag ungefär: Skojar ni? 30% är stort nog, men 55%! Men den uppfattning att baserades helt på mitt eget huvud och uppfattningen att hälsa är komplicerat och att effekter borde vara små. Men lita inte på mig! Poängen är att vad som är rimligt går att studera. Om en tittar på ett par metaanalyser (alltså en studie som sammanställer resultaten många tidigare studier) av risken för kranskärlssjukdom finns bland annat: diabetes 1,9 (för män; för kvinnor 2,6; Lee & al 2000); passiv rökning 1,2-1,3 (He & al 1999) och 0,8 för de som äter mycket frukt och grönsaker (He & al 2007 ). Så frukost eller ej skulle vara ungefär jämförbart med passiv rökning; att äta sent värre, men inte lika illa som diabetes. Det kanske är rimligt; vad vet jag. Om 313 individer i högriskgruppen ger tillräcklig styrka för att trovärdigt kunna skatta lägre skillnader är inte lätt att veta när artikeln inte rapporterar någon formell styrkeanalys. Om inte är det stor risk att överskatta effekten.

Till studiens upplägg hör inte bara storleken utan frågan om systematiska fel. Fånigt exempel: den som vill uppskatta hur stor andel av Norrköpingsborna som håller på Vita hästen bör inte bara intervjua de som kommer ut från Himmelstalundshallen. En vanlig kritik mot olika typer av experimentell forskning på människor är att den använder folk som är WEIRD (”western, educated, and from industrialized, rich, and democratic countries … vita, välutbildade från industrialiserade, rika och demokratiska länder”) — kort och gott, det kan finnas skäl att ifrågasätta den frivilliga universitetsstudenten som modell för hela mänskligheten. Det finns en annan viktig del också, efter urvalet, nämligen förklaringsvariablerna (ovan: att äta frukost eller inte) och hur de hör ihop med andra variabler. Om en gör ett experiment går det ju att slumpvis tilldela försökspersoner att äta frukost eller inte äta frukost. Det kallas randomisering. Då kan en vara ganska säker på att isolera just effekten av frukost och inte en massa andra saker. Men i studien ovan är det ju inte fråga om slumpvis tilldelade frukostar och sena nätter, utan folks faktiska vanor. Det är ju möjligt och troligt att människor som hoppar över frukost också har andra vanor, som kanske inte är så hälsosamma, som påverkar deras risk för hjärtsjukdom. Och det för oss till den tredje typen av osäkerhet:

3. Osäkerhet om orsak och verkan.

Svårast. Jävligt svårt! Här är inte ens de lärde överens om hur en ska räkna alla gånger. Det finns i alla fall bra statistiska verktyg för att försöka hantera flera variabler som påverkar varandra: olika typer av statistiska modeller med olika sätt att ”justera för” variabler. För att fortsätta tanken från ovan: Författarna vill jämföra risken för hjärtsjukdom hos de som äter frukost och de som inte gör det, men det kan vara så att grupperna också skiljer sig på andra sätt som kan påverka risken för hjärtsjukdom: till exempel ålder och diet. Därför justerar de för demografi, diet och några livsstilsvariabler som de känner till om deltagarna. Det betyder att bygga en modell som inkluderar de variablerna förutom frukostvanor. Om modellen är bra så kan de uppskatta skillnaden mellan frukostätarna och frukosthopparna och ha viss kontroll på att den inte beror på de andra variablerna.

Men samtidigt går det inte att justera för vad som helst och hur som helst. I artikeln och i sammanfattningen jag länkade ovan står det att

The relationships between coronary heart disease and both skipping breakfast and eating late at night became nonsignificant after adjustment for potential mediators …

Författarna prövar alltså att justera för några ”potential mediators” i det här fallet är bland annat högt blodtryck. Att skillanden ”became nonsignificant” betyder att justeringen får den uppskattade skillnaden att krympa (så att det 95%-iga intervallet inte utesluter att effekten är noll). Vad betyder det? Det författarna menar med potentiellt medierande variabler är saker som orsakar hjärtsjukdom men som i sin tur skulle kunna påverkas av frukostvanor. Om ingen frukost ger högre blodtryck som ger högre risk för hjärtsjukdom borde uppskattningen av riskökningen mellan ingen frukost och frukost minska om vi justerar för blodtryck. De använder alltså justeringen som ett sätt att pröva om en del av skillnaden kan förklaras av högre blodtryck.

Men det gäller att hålla tungan rätt i munnen … Om en ska justera eller inte beror på orsakssambanden mellan variablerna. Om vi missar att justera för något som skiljer grupperna kan det ge helt fel resultat. Om vi justerar för något som är en följd av det vi är intresserade av riskerar vi att justera bort den intressanta effekten. Vilken uppskattning, ojusterad eller inte, som är den rätta beror på vad som är sant om fenomenet ifråga. Så, lite som att en behöver veta något om vilka effekter som är rimliga för att begripa effektstorlekar så måste vi redan veta något om orsak och verkan för att kunna resonera om det. (Pearl 2014)

Litteratur

Cahill & al (2013) Prospective Study of Breakfast Eating and Incident Coronary Heart Disease in a Cohort of Male US Health Professionals Circulation

He & al (1999) Passive Smoking and the Risk of Coronary Heart Disease — A Meta-Analysis of Epidemiologic Studies New England journal of medicine

He & al (2007) Increased consumption of fruit and vegetables is related to a reduced risk of coronary heart disease: meta-analysis of cohort studies Journal of human hypertension

Lee & al (2000) Impact of diabetes on coronary artery disease in women and men: a meta-analysis of prospective studies Diabetes care

Pearl (2013) Understanding Simpson’s Paradox. Förtryck på författarens webbsida

Power overwhelming II: hur vilseledande är små studier?

Alla vet att stickprovsstorlek spelar roll: stora undersökningar och experiment är i allmänhet trovärdigare än små. Frågan är bara: hur stora och hur trovärdiga? I den förra posten skrev jag lite om klassiska styrkeberäkningar och tog som exempel en studie av Raison m. fl. om antiinflammatoriska antikroppar mot depression. (Spoiler: det verkar inte ha någon större effekt.) Nyss såg jag en kort förhandspublicerad artikel av Andrew Gelman och John Carlin som utvecklar ett lite annat sätt att se på styrka — eller designanalys, som de skriver — med två nya mått på studiers dålighet. Föreställ dig ett experiment som fungerar ungefär som det med antikropparna: två grupper av deprimerade patienter får en ny medicin (här: antikroppen infliximab) eller placebo, och det som intresserar oss är skillnaden mellan grupperna är efter en tids behandling.

I klassiska styrkeberäkningar handlar det om kontrollera risken att göra så kallat typ 2-fel, vilket betyder att missa en faktisk skillnad mellan grupperna. Typ 1-fel är att råka se en skillnad som egentligen inte finns där. Det här sättet att resonera har Gelman inte mycket till övers för. Han (och många andra) brukar skriva att vi oftast redan vet redan från början att skillnaden inte är noll: det vi behöver veta är inte om det finns en skillnad mellan de som fått infliximab och de andra, utan i vilken riktning skillnaden går — är patienterna som blivit behandlade friskare eller sjukare? — och ifall skillnaden är stor nog att vara trovärdig och betydelsefull.

Därför föreslår Gelman & Carlin att vi ska titta på två andra typer av fel, som de kallar typ S, teckenfel, och typ M, magnitudfel. Teckenfel är att säga att skillnaden går åt ena hållet när den i själva verket går åt det andra. Magnitudfel är att säga att en skillnad är stor när den i själva verket är liten — Gelman & Carlin mäter magnitudfel med en exaggeration factor, som är den skattade skillnaden i de fall där det är stort nog att anses signifikant skild från noll dividerat med den verkliga skillnaden.

Låt oss ta exemplet med infliximab och depression igen. Gelman & Carlin understryker hur viktigt det är att inte ta sina antaganden om effektstorlek ur luften, så jag har letat upp några artiklar som är sammanställningar av många studier av antidepressiva mediciner. Om vi antar att utgångsläget är 24 enheter på Hamiltons depressionsskala (vilket är ungefär vad patienterna hade i början av experimentet) motsvarar medeleffekten i Kahn & cos systematiska litteraturstudie en skillnad på 2.4 enheter. Det överensstämmer ganska väl med Gibbons & cos metaanalys av fluoxetine and venlafaxine där skillnaden överlag var 2.6 enheter. Storosum & cos metaanalys av tricykliska antidepressiva medel har en skillnad på 2.8 enheter. Det är såklart omöjligt att veta hur stor effekt infliximab skulle ha ifall det fungerar, men det verkar väl rimligt att anta något i samma storleksordning som fungerande mediciner? I antikroppsstudiens styrkeberäkning kom de fram till att de borde ha en god chans att detektera en skillnad på 5 enheter. Den uppskattningen verkar ha varit ganska optimistisk.

Precis som med den första styrkeberäkningen så har jag gjort simuleringar. Jag har prövat skillnader på 1 till 5 enheter. Det är 60 deltagare i varje grupp, precis som i experimentet, och samma variation som författarna använt till sin styrkeberäkning. Jag låter datorn slumpa fram påhittade datamängder med de parametrarna och sedan är det bara att räkna ut risken för teckenfel och överskattningsfaktorn.

typM_typS

Det här diagrammet visar chansen att få ett signifikant resultat (alltså styrkan) samt risken för teckenfel vid olika verkliga effektstorlekar. Den grå linjen markerar 2.5 enheter. Jämfört med Gelmans & Carlins exempel ser risken för teckenfel inte så farlig ut: den är väldigt nära noll vid realistiska effekter. Styrkan är fortfarande sådär, knappa 30% för en effekt på 2.5 enheter.

exaggeration

Det här diagrammet är överskattningsfaktorn vid olika effektstorlekar — jag försökte demonstrerar samma sak med histogram i förra posten. Vid 5 enheter, som är den effektstorlek författarna räknat med, har kurvan hunnit plana ut nära ett, alltså ingen större överskattning. Men vid 2.5 får vi ändå räkna med att skillnaden ser ut att vara dubbelt så stor som den är. Sammanfattningsvis: författarna bör kunna utesluta stora effekter som fem enheter på Hamiltonskalan, men dagens antidepressiva mediciner verkar ha betydligt mindre effekt än så. Alltså finns det risk att missa realistiska effekter och ännu värre blir det förstås när de börjar dela upp försöket i mindre undergrupper.

Litteratur

Gelman A & Carlin J (2013) Design analysis, prospective or retrospective, using external information. Manuskript på Gelmans hemsida.

Storosum JG, Elferink AJA, van Zwieten BJ, van den Brink W, Gersons BPR, van Strik R, Broekmans AW (2001) Short-term efficacy of tricyclic antidepressants revisited: a meta-analytic study European Neuropsychopharmacology 11 pp. 173-180 http://dx.doi.org/10.1016/S0924-977X(01)00083-9.

Gibbons RD, Hur K, Brown CH, Davis JM, Mann JJ (2012) Benefits From Antidepressants. Synthesis of 6-Week Patient-Level Outcomes From Double-blind Placebo-Controlled Randomized Trials of Fluoxetine and Venlafaxine. Archives of General Psychiatry 69 pp. 572-579 doi:10.1001/archgenpsychiatry.2011.2044

Khan A, Faucett J, Lichtenberg P, Kirsch I, Brown WA (2012) A Systematic Review of Comparative Efficacy of Treatments and Controls for Depression. PLoS ONE  e41778 doi:10.1371/journal.pone.0041778

Raison CL, Rutherford RE, Woolwine BJ, Shuo C, Schettler P, Drake DF, Haroon E, Miller AH (2013) A Randomized Controlled Trial of the Tumor Necrosis Factor Antagonist Infliximab for Treatment-Resistant DepressionJAMA Psychiatry 70 pp. 31-41. doi:10.1001/2013.jamapsychiatry.4

Kod

Gelman & Carlin skriver om en R-funktion för felberäkningarna, men jag hittar den inte. För min simulering, se github.

Power overwhelming: inflammation, depression och varför det är ett sådant tjat om stickprovsstorlek

förekommen anledning och vid närmare eftertanke tänkte jag utveckla varför det svaga positiva resultatet i den nyliga studien (Raison m fl 2013) av immunhämmande antikroppar mot depression inte är så trovärdigt — och varför författarna själva är mycket försiktiga i sina slutsatser. Observera — det här är inte en kritik av författarna. Jag använder bara deras artikel som räkneexempel. De är garanterat väl medvetna om problemet, men dock skyldiga till att ha uttryckt sig lite väl optimistiskt. Forskare är ofta lite väl optimistiska när de pratar om sina egna resultat.

Det finns flera lite olika sätt att räkna statistisk osäkerhet, men i den här artikeln angriper de huvudexperimentet med klassisk statistik. De mäter upp en skillnad (i det här fallet: minskning i Hamiltons depressionsskala under behandlingens gång) mellan två grupper (de som fått infliximab och placebo) och prövar om den är skild från noll. Det är ganska typiskt att säga att ett värde är signifikant skilt från noll om det är 5% chans att se ett så extremt värde av en slump ifall ingen skillnad finns. Å andra sidan, för att inte missa skillnader behöver vi göra ett experiment med tillräcklig sannolikhet att se en effekt om den faktiskt finns där. Detta kallas styrka. Små försök är inte trovärdiga därför att de har låg styrka.

I artikeln ifråga presenterar författarna en styrkeberäkning av sitt huvudexperiment: de vill visa att under rimliga antaganden om variation och effektstorlek så räcker 60 deltagare för att ha god chans att visa en effekt om den finns där (se Methods i artikeln). Med 5% signifikansnivå och en variation hämtad från litteraturen har de 80% chans att detektera en skillnad på 5 enheter på Hamiltonskalan. Så om det finns en skillnad som de missat är den antagligen betydligt mindre än så.

Sedan valde de att begränsa sig till deltagare med ”hög CRP”. Skillnaden på 3.1 enheter (se Comment och figur 3 i artikeln) är inte statistisk signifikant: alltså, osäkerheten är så stor att den skulle kunna vara noll eller mindre än noll. Hur stort borde uppföljningsförsöket vara för att kunna säga något hyfsat säkert om den här effekten? För att ha 80% styrka att detektera den skillnaden behöver de 162 deltagare, alltså hundra människor fler än första gången. Men det finns goda nyheter också: det är förstås möjligt att de genom att kontrollera CRP och begränsa sig till människor med mycket inflammation faktiskt minskar variationen jämfört med vad de antog i sin styrkeberäkning, så siffrorna behöver kanske inte vara fullt så pessimistiska.

Men antag att vi hittar en signifikant skillnad genom att bryta ner materialet i grupper och göra vidare analyser på dessa mindre grupper. Det finns två anledningar att vara lite skeptisk. Det första är att ju fler jämförelser och olika analyser vi prövar, desto större är risken att prata känslor med en död lax: alltså att råka på en tillräckligt stor skillnad bara av en slump. Även osannolika saker händer, efter hand. För det andra är det inte nog med att studier med liten styrka har liten chans att hitta något; om de hittar något tenderar resultaten att vara överskattningar.

Det kan vi se genom att simulera en situation med låg styrka: ett experiment med 22 deltagare, samma variation som ovan och en effekt på 5 enheter. Sedan låter vi datorn upprepa experimentet 1000 gånger. Resultaten varierar naturligtvis lite på grund av slumpen, men följande fick jag fram: 367 gånger var skillnaden signifikant skild från noll på 5%-nivån, vilket stämmer bra med den uppskattade styrkan på 36%. Histogrammen nedan visar den uppskattade effekten i de fall där skillnaden var signifikant. Oftast är den betydligt större än fem; när styrkan är låg är signifikanta resultat oftast överskattningar. Om vi testar att öka stickprovsstorleken, först till 60 och sedan till 100 blir problemet mindre.

infliximab_power_hist

Litteratur

Charles L. Raison, Robin E. Rutherford, Bobbi J. Woolwine, Chen Shuo, Pamela Schettler, Daniel F. Drake, Ebrahim Haroon, Andrew H. Miller. (2013) A Randomized Controlled Trial of the Tumor Necrosis Factor Antagonist Infliximab for Treatment-Resistant Depression. JAMA Psychiatry 70 ss. 31-41. doi:10.1001/2013.jamapsychiatry.4

Kod

För den intresserade finns R-kod för mina styrkeberäkningar på github.