Power overwhelming: inflammation, depression och varför det är ett sådant tjat om stickprovsstorlek

förekommen anledning och vid närmare eftertanke tänkte jag utveckla varför det svaga positiva resultatet i den nyliga studien (Raison m fl 2013) av immunhämmande antikroppar mot depression inte är så trovärdigt — och varför författarna själva är mycket försiktiga i sina slutsatser. Observera — det här är inte en kritik av författarna. Jag använder bara deras artikel som räkneexempel. De är garanterat väl medvetna om problemet, men dock skyldiga till att ha uttryckt sig lite väl optimistiskt. Forskare är ofta lite väl optimistiska när de pratar om sina egna resultat.

Det finns flera lite olika sätt att räkna statistisk osäkerhet, men i den här artikeln angriper de huvudexperimentet med klassisk statistik. De mäter upp en skillnad (i det här fallet: minskning i Hamiltons depressionsskala under behandlingens gång) mellan två grupper (de som fått infliximab och placebo) och prövar om den är skild från noll. Det är ganska typiskt att säga att ett värde är signifikant skilt från noll om det är 5% chans att se ett så extremt värde av en slump ifall ingen skillnad finns. Å andra sidan, för att inte missa skillnader behöver vi göra ett experiment med tillräcklig sannolikhet att se en effekt om den faktiskt finns där. Detta kallas styrka. Små försök är inte trovärdiga därför att de har låg styrka.

I artikeln ifråga presenterar författarna en styrkeberäkning av sitt huvudexperiment: de vill visa att under rimliga antaganden om variation och effektstorlek så räcker 60 deltagare för att ha god chans att visa en effekt om den finns där (se Methods i artikeln). Med 5% signifikansnivå och en variation hämtad från litteraturen har de 80% chans att detektera en skillnad på 5 enheter på Hamiltonskalan. Så om det finns en skillnad som de missat är den antagligen betydligt mindre än så.

Sedan valde de att begränsa sig till deltagare med ”hög CRP”. Skillnaden på 3.1 enheter (se Comment och figur 3 i artikeln) är inte statistisk signifikant: alltså, osäkerheten är så stor att den skulle kunna vara noll eller mindre än noll. Hur stort borde uppföljningsförsöket vara för att kunna säga något hyfsat säkert om den här effekten? För att ha 80% styrka att detektera den skillnaden behöver de 162 deltagare, alltså hundra människor fler än första gången. Men det finns goda nyheter också: det är förstås möjligt att de genom att kontrollera CRP och begränsa sig till människor med mycket inflammation faktiskt minskar variationen jämfört med vad de antog i sin styrkeberäkning, så siffrorna behöver kanske inte vara fullt så pessimistiska.

Men antag att vi hittar en signifikant skillnad genom att bryta ner materialet i grupper och göra vidare analyser på dessa mindre grupper. Det finns två anledningar att vara lite skeptisk. Det första är att ju fler jämförelser och olika analyser vi prövar, desto större är risken att prata känslor med en död lax: alltså att råka på en tillräckligt stor skillnad bara av en slump. Även osannolika saker händer, efter hand. För det andra är det inte nog med att studier med liten styrka har liten chans att hitta något; om de hittar något tenderar resultaten att vara överskattningar.

Det kan vi se genom att simulera en situation med låg styrka: ett experiment med 22 deltagare, samma variation som ovan och en effekt på 5 enheter. Sedan låter vi datorn upprepa experimentet 1000 gånger. Resultaten varierar naturligtvis lite på grund av slumpen, men följande fick jag fram: 367 gånger var skillnaden signifikant skild från noll på 5%-nivån, vilket stämmer bra med den uppskattade styrkan på 36%. Histogrammen nedan visar den uppskattade effekten i de fall där skillnaden var signifikant. Oftast är den betydligt större än fem; när styrkan är låg är signifikanta resultat oftast överskattningar. Om vi testar att öka stickprovsstorleken, först till 60 och sedan till 100 blir problemet mindre.

infliximab_power_hist

Litteratur

Charles L. Raison, Robin E. Rutherford, Bobbi J. Woolwine, Chen Shuo, Pamela Schettler, Daniel F. Drake, Ebrahim Haroon, Andrew H. Miller. (2013) A Randomized Controlled Trial of the Tumor Necrosis Factor Antagonist Infliximab for Treatment-Resistant Depression. JAMA Psychiatry 70 ss. 31-41. doi:10.1001/2013.jamapsychiatry.4

Kod

För den intresserade finns R-kod för mina styrkeberäkningar på github.

2 thoughts on “Power overwhelming: inflammation, depression och varför det är ett sådant tjat om stickprovsstorlek

  1. Pingback: Power overwhelming II: hur vilseledande är små studier? | There is grandeur in this view of life

  2. Pingback: Åtminstone tre sorters osäkerhet | There is grandeur in this view of life

Kommentera

Fyll i dina uppgifter nedan eller klicka på en ikon för att logga in:

WordPress.com Logo

Du kommenterar med ditt WordPress.com-konto. Logga ut / Ändra )

Twitter-bild

Du kommenterar med ditt Twitter-konto. Logga ut / Ändra )

Facebook-foto

Du kommenterar med ditt Facebook-konto. Logga ut / Ändra )

Google+ photo

Du kommenterar med ditt Google+-konto. Logga ut / Ändra )

Ansluter till %s