Using R: tibbles and the t.test function

A participant in the R course I’m teaching showed me a case where a tbl_df (the new flavour of data frame provided by the tibble package; standard in new RStudio versions) interacts badly with the t.test function. I had not seen this happen before. The reason is this:

Interacting with legacy code
A handful of functions are don’t work with tibbles because they expect df[, 1] to return a vector, not a data frame. If you encounter one of these functions, use as.data.frame() to turn a tibble back to a data frame (tibble announcement on RStudio blog)

Here is code that reproduces the situation (tibble version 1.2):

data(chickwts)
chick_tibble <- as_tibble(chickwts)
casein <- subset(chickwts, feed == "casein")
sunflower <- subset(chick_tibble, feed == "sunflower")
t.test(sunflower$weight, casein$weight) ## this works
t.test(as.data.frame(sunflower[, 1]), as.data.frame(casein[, 1])) ## this works too
t.test(sunflower[, 1], casein[, 1]) ## this doesn't

Error: Unsupported use of matrix or array for column indexing

I did not know that. The solution, which they found themselves, is to use as.data.frame.

I can see why not dropping to a vector makes sense. I’m sure you’ve at some point expected a data frame and got an ”$ operator is invalid for atomic vectors”. But it’s an unfortunate fact that number of weird little thingamajigs to remember is always strictly increasing as the language evolves. And it’s a bit annoying that the standard RStudio setup breaks code that uses an old stats function, even if it’s in somewhat non-obvious way.

EBM 2016, Marseille

In September, I went to the 20th Evolutionary Biology Meeting in Marseille. This is a very nice little meeting. I listened to a lot of talks, had some very good conversations, met some people, and presented our effort to map domestication traits in the chicken with quantitative trait locus mapping and gene expression (Johnsson & al 2015, 2016, and some unpublished stuff).

Time for a little conference report. Late, but this time less than a year from the actual conference. Here are some of my highlights:

Richard Cordaux on pill bugs, Wolbachia and sex manipulation — I did not know that Wolbachia, the intracellular parasite superstar of arthropods, had feminization of hosts in its repertoire (Cordaux & al 2004). Not only that, but in some populations of pill bugs, a large chunk of the genome of the feminizing Wolbachia has inserted into the pill bug genome, thus forming a new W chromosome (Leclercq & al 2016, published since the conference). He also told me how this is an example of the importance of preserving genetic resources — the lines of pill bugs have been maintained for a long time, and now they’re able to return to them with genomics tools and continue old lines of research. I think that is seriously cool.

Olaya Rendueles Garcia on positive frequency-dependent selection maintaining diversity in social bacterium Myxococcus xanthus (Rendueles, Amherd & Velicer 2015) — In my opinion, this was the best talk of the conference. It had everything: an interesting phenomenon, a compelling study system, good visuals and presentation. In short: M. xanthus of the same genotype tend to cooperate, inhabit their own little turfs in the soil, and exclude other genotypes. So it seems positive frequency-dependent selection maintains diversity in this case — diversity across patches, that is.

A very nice thing about this kind of meetings is that one gets a look into the amazing diversity of organisms. Or as someone put it: the complete and utter mess. In this department, I was particularly struck by … Sally Leys — sponges; Marie-Claude Marsolier-Kergoat — bison; Richard Dorrell — stramenopile chloroplasts.

I am by no means a transposable elements person. In fact, one might believe I was actively avoiding transposable elements by my choice of study species. But transposable elements are really quite interesting, and seem quite important to genome evolution, both to neutrally evolving and occasionally adaptive sequences. This meeting had a good transposon session, with several interesting talks.

Anton Crombach presented models the gap gene network in Drosophila melanogaster and Megaselia abdita, with some evolutionary perspectives (Crombach & al 2016). A couple of years ago, Marjoram, Zubair & Nuzhdin used the gap gene network as their example model to illustrate the suggestion to combine systems biology models with genetic mapping. I very much doubt (though I may be wrong; it happens a lot) that there is much meaningful variation within populations in the gap gene network. A between-species analysis seems much more fruitful, and leads to the interesting result where the outcome, in terms of gap gene expression along the embryo, is pretty similar but the way that the system gets there is quite different.

If you’ve had a beer with me and talked about the future of quantitative genetics, you’re pretty likely to have heard me talk about how in the bright future, we will not just map variation in phenotypes, but in the parameters of dynamical models. (I also think that the mapping will take place through fully Bayesian hierarchical models where the same posterior can be variously summarized for doing genomic prediction or for mapping the major quantitative trait genes, interactions etc. Of course, setting up and running whole-genome long read sequencing will be as convenient and cheap as an overnight PCR. And generally, there will be pie in the sky etc.) At any rate, what Anton Crombach showed was an example of combining systems biology modelling with variation (between clades). I thought it was exciting.

It was fun to hear Didier Raoult, one of the discoverers of giant viruses, speak. He was somewhat of a quotation machine.

”One of the major problems in biology is that people believe what they’ve learned.”

(About viruses being alive or not) ”People ask: are they alive, are they alive? I don’t care, and they don’t care either”

Very entertaining, and quite fascinating stuff about giant viruses.

If there are any readers out there who worry about social media ruining science by spilling the beans about unpublished results presented at meetings, do not worry. There were a few more cool unpublished things. Conference participants, you probably don’t know who you are, but I eagerly await your papers.

I think this will be the last evolution-themed conference for me in a while. The EBM definitely has a different range of themes than the others I’ve been to: ESEB, or rather: the subset of ESEB I see choosing my adventure through the multiple-session programme, and the Swedish evolution meetings. There was more molecular evolution, more microorganisms and even some orgin of life research.

Morning coffee: against validation and optimization

20160924_130554

It appears like I’m accumulating pet peeves at an alarming rate. In all probability, I am guilty of most of them myself, but that is no reason not to complain about them on the internet. For example: Spend some time in a genetics lab, and you will probably hear talk of ”validation” and ”optimization”. But those things rarely happen in a lab.

According to a dictionary, to ”optimize” means to make something as good as possible. That is almost never possible, nor desirable. What we really do is change things until they work according to some accepted standard. That is not optimization; that is tweaking.

To ”validate” means to confirm to that something is true, which is rarely possible. Occasionally we have something to compare to that you are really sure about, so that if a method agrees with it, we can be pretty certain that it works. But a lot of time, we don’t know the answer. The best we can do is to gather additional evidence.

Additional evidence, ideally from some other method with very different assumptions, is great. So is adjusting a protocol until it performs sufficiently well. So why not just say what we mean?

”You keep using that word. I do not think that it means what you think it means.”

A year ago in Lund: the panel discussion at Evolution in Sweden 2016

This meeting took place on the 13th and 14th of January 2016 in Lund. It feels a bit odd to write about it now, but my blog is clearly in a state of anachronistic anarchy as well as ett upphöjt tillstånd av språklig förvirring, so that’s okay. It was a nice meeting, spanning quite a lot of things, from mosasaurs to retroviruses. It ended with a panel discussion of sorts that made me want to see more panel discussions at meetings.

The panel consisted of Anna-Liisa Laine, Sergey Gavrilets, Per Lundberg, Niklas Wahlberg, and Charlie Cornwallis, and a lot of people joined in with comments. I don’t know how the participants were chosen (Anna-Liisa Laine and Sergey Gavrilets were the invited speakers, so they seem like obvious choices), or how they were briefed; Per Lundberg served as a moderator and asked the other participants about their predictions about the future of the field (if memory serves me right).

I thought some of the points were interesting. One of Sergey Gavrilets’ three anticipated future developments was links between different levels of organisation; he mentioned systems biology and community ecology in the same breath. This sounded interesting to me, who not so secretly dreams of the day when systems biology, quantitative genetics, and populations genetics can all be brought to bear on the same phenotypes. (The other two directions of research he brought up were cliodynamics and human evolution.) He himself had, earlier in his talk, provided an example where a model of human behaviour shows the possibility of something interesting — that a kind of cooperation or drive for equality can be favoured without anything like kin or group selection. That is, in some circumstances it pays to protect the weak, and thus make sure that they bullies do not get too much ahead. He said something to the effect that now is the time to apply evolutionary biology to humans. I would disagree with that. On the one hand, if you are interested in studying humans, any time is the time. On the other hand, if the claim is that now, evolutionary biology is mature and solid, so one can go out and apply it to help other disciplines to sort out their problems … I think that would be overly optimistic.

A lot of the discussion was about Mats Björklund‘s talk about predicting evolution, or failing to do so. Unfortunately, I think he had already left, and this was the one talk of the conference that I missed (due to dull practical circumstances stemming from a misplaced wallet), so this part of the discussion mostly passed me by.

A commonplace that recurred a few times was jokes about sequencing … this or that will not be solved by sequencing thousands of genomes, or by big data — you know the kind. This is true, of course; massively parallel sequencing is good when you want to 1) make a new reference genome sequence; 2) get lots and lots of genetic markers or 3) quantify sequences in some library. That certainly doesn’t cover all of evolutionary biology, but it is still quite useful. Every time this came up part of me felt like putting my hand up to declare that I do in fact think that sequencing thousands of individuals is a good idea. But I didn’t, so I write it here where even fewer people will read it.

This is (according to my notes) what the whiteboard said at the end of the session:

”It’s complicated …”
”We need more data …”
”Predictions are difficult/impossible”
”We need more models”

Business as usual
Eventually we’ll get there (where?)
Revise assumptions, models, theories, methods, what to measure

Nothing in evolutionary biology makes sense except in the light of ecology phylogeny disease

Everything in evolution makes sense in the light of mangled Dobzhansky quotes.

(Seriously, I get why pastiches of this particular quote are so common: It’s a very good turn of phrase, and one can easily substitute the scientific field and the concept one thinks is particularly important. Nothing in behavioural ecology makes sense except in the light of Zahavi’s handicap principle etc. It is a fun internal joke, but at the same time sounds properly authoritative. Michael Lynch’s version sometimes seems to be quoted in the latter way.)

Linköping–Edinburgh–Uppsala

If you are the kind of person who reads the lists of decisions from Formas, you may already know this. In March, I’m starting a new postdoc position, in collaboration with John Hickey’s AlphaGenes group at the Roslin Institute in Edinburgh and Dirk-Jan de Koning’s group at the Swedish University of Agriculture in Uppsala, funded by a mobility starting grant for young researchers from the research council Formas. Hurrah!

The project involves using huge datasets from livestock animals to search for genes and variants underlying quantitative traits. In that sense, for me, this is both a new direction (animal breeding research) and a natural continuation (the genetic basis of quantitative traits). So, in the coming years I anticipate, among other things, learning a ton about computational quantitative genetics; meeting and working with great people; travelling more than ever (relative to my relatively low baseline); writing a poem or two about the scenic environs of Edinburgh and the Royal Mounds of Uppsala; figuring out the across-borders relationship thing; discovering new and useful things about quantitative traits; and hopefully picking up a bit of a Scottish tone in my otherwise Swenglish accent.

Linköping has been very good to me, and so have my colleagues in the Wright lab and AVIAN Behavioural Genetics and Physiology group. So, naturally, I’m both happy and sad to leave. Friends in Linköping, we will meet again.

Also, happy new year!

20170101_150010

(Me holding a sign that says (in Swedish): ”Thank you, Formas! I will do my very best.”)

Den sura genetikern

Häromveckan skrev jag något kritiskt om vetenskap i medier. Det gör jag inte så ofta längre.

Det var en post om genetisk variation i MAOA-genen som kopplats till antisocialt beteende (med mera med mera) och dokumentären ”Ditt förutbestämda liv” som SVT sände ganska nyligen. Den går inte att se på SVT Play längre, men det finns en trailer i alla fall.

En gång i tiden så brukade jag läsa DN:s och SR:s vetenskapssidor och om jag hittade något intressant slå upp originalartiklarna, leta reda på pressmeddelanden, artiklar i engelskspråkiga tidningar som stått som förebild och så vidare. Ibland skrev jag kritiska brev och ibland postade jag länkar till originalartiklar, så de plockades upp av någon aggregator och länkades från nyhetsartikeln. Det var oskyldigare webbtider när nyhetstidningar var villiga att länka ogranskade bloggposter från sina artiklar. Men jag har nästan slutat med det, och när jag skriver något kritiskt gör det mig alltid lite nervös. Det är av flera anledningar:

1. Är det så viktigt att det är rätt?

Jag har förstås skaffat mig en massa onödigt bestämda åsikter om genetik, evolution och hur man bör uttrycka sig om dem. Det vore onödigt att tjafsa om alla dessa småsaker. Men jag tycker ändå att det är rimligt att kritisera beskrivningar av forskning som säger saker som inte är sanning, till exempel att ett par kandidatgenstudier från 2002-2003 är banbrytande och skriver om hela genetiken, eller att genetisk variation i MAOA är viktig för att förstå antisocialt beteende, när bevisen för det är i högsta grad skakiga. Dokumentären påstod till och med att Caspi et al 2003 (den om depression och serotonintransportgenen 5HTT) skulle vara en av världens mest refererade artiklar.

2. Tänk om jag har fel?

Det har jag ju ändå rätt ofta. Det finns en hel litteratur om MAOA, något tjog primärstudier eller så. De är, som jag skrev, en blandad kompott av positiva och negativa resultat (Foley & al 2004, Huang & al 2004, Haberstick & al 2005, Huizinga & al 2006, Kim-Cohen & al 2006, Nilsson & al 2006, Widom, Spatz & Brzustowicz 2006, Young & al 2006, Frazzetto & al 2007, Rief & al 2007, van der Vegt & al 2009, Weder & al 2009, Beach & al 2010, Derringer & al 2010, Edwards & al 2010, Enoch & al 2010). Det tyder på att effekten är för liten eller för variabel i förhållande till stickprovsstorleken. Knäckfrågan i det här fallet, som behövs för att kunna utvärdera både originalstudien och uppföljarna är: Om det nu skulle finnas en interaktion mellan varianter av MAOA och en dålig uppväxt, hur stor skulle den vara då? Tyvärr är det inte så lätt att veta.

Om vi skulle försöka oss på att rita en styrkekurva för interaktionen mellan MAOA och dålig uppväxt (Caspi & al 2002), det vill säga hur stor sannolikhet en studie av den här storleken har att hitta en effekt, så måste vi gissa vad en realistisk effekt skulle kunna vara. Artikeln gör en rad jämförelser, men om vi ska välja en så tycker jag det är rimligt att ta skillnaden mellan de som har riskvarianter och som inte blivit illa behandlade och de som har den och har blivit gravt illa behandlade under uppväxten. Om riskvarianter av MAOA verkligen gör människor mer sårbara för att bli illa behandlade under barndomen, så borde den här jämförelsen visa det. Vi behöver också välja en av variablerna att koncentrera oss på. Varför inte uppförandestörning (conduct disorder), vilket måste vara den som nämns i dokumentären.

Om vi simulerar data med olika oddskvoter (x-axeln; OR står för ”odds ratio”) och ritar en styrkekurva blir resultatet ungefär så här. (Obs, jag har läst av siffrorna från ett av diagrammen i artikeln. De är nog bara ungefär rätt.) Det vill säga, om vi antar samma andel ”gravt illa behandlade” individer och samma stickprovsstorlek, så ökar sannolikheten att hitta ett statistiskt signifikant resultat ungefär så här:

maoa_power

Det vill säga, den är inte särskilt stor. Vilka effektstorlekar kan vara rimliga? I samma artikel skattar de oddskvoten kopplad till att bli illa behandlad (hos de utan riskvarianten, och de är betydligt fler) till 2.5 för gravt illa behandlade och 1.3 för ”sannolikt” illa behandlade. Ficks & Waldman (2013) gjorde en metaanalys av studier med MAOA och antisocialt beteende (utan att ta hänsyn till interaktioner) och fick en oddskvot på 1.2. Rautiainen et al (2016) har gjort en helgenomsanalys av aggression hos vuxna och den största effekt de hittar är ungefär 2.2.

Men problemet med låg styrka är inte bara att det är svårt att få ett statistiskt signifikant resultat om det finns en stor och riktig skillnad. För om man, mot alla odds, hittar ett statistiskt signifikant resultat, hur stor ser effekten ut att vara? Den ser, med nödvändighet, ut att vara jättestor. Det här diagrammet visar den skattade effekten i simuleringar där resultatet var statistiskt signifikant (på 5%-nivån):

maoa_exaggeration

Men visst, det är förstås möjligt att de ursprungliga studierna hade tur med sina handfullar människor, att de som misslyckades med att detektera någon interaktion hade otur, och att MAOA-varianter kommer visa sig ha stora reproducerbara effekter när det efter hand börjar komma helgenomstudier som inkluderar interaktioner med miljövariabler. Jag håller inte andan.

(Koden bakom diagrammen finns på github. Förutom osäkerheten om vilken jämförelse som är den mest relevanta, så beror styrkan hos logistisk regression också på den konstanta termen, oddsen för beteendeproblem hos de som saknar riskvarianten. De är något fler än de som har den, men det är ändå en skattning med stor osäkerhet. Här har jag bara stoppat in den skattning jag fått ur data utläst ur diagrammet i Caspi & co 2002.)

3. Vill jag verkligen ha rollen som den professionella gnällspiken?

”Det finns en i varje familj. Två i min faktiskt.” Och det finns minst en på varje vetenskaplig konferens, i varje hörn av den vetenskapliga litteraturen, och på vetenskapsbloggar här och där … Alltså, någon som gjort det till sin uppgift att protestera, gärna med hög röst och blommigt språk, varje gång någon inte gör någon viss vetenskaplig idé rättvisa. Det finns förstås ett värde i kritik, och ingen har någon plikt att komma med ett bättre alternativ när de framför välgrundad kritik. Men det är ändå inte den skojigaste rollen, och det är inte riktigt vad jag vill viga mitt liv åt.

Så, varför inte skriva om något med arv och miljö som jag gillar? Här är en artikel jag såg publiceras ganska nyligen om förhållandet mellan arv, miljö och risk — i det här fallet handlar det om hjärtsjukdom.

Khera, Amit V., et al. ”Genetic Risk, Adherence to a Healthy Lifestyle, and Coronary Disease.” New England Journal of Medicine (2016).

Den här studien vinner, ur mitt perspektiv, på att den inte bara koncentrerar sig på en enda gen, utan kombinerar information från varianter av ett gäng (femtio) gener där varianter tidigare kopplats till risk för hjärtsjukdom. När det gäller komplexa egenskaper som påverkas av många genetiska varianter är det här en mycket bättre idé. Det är antagligen till och med en nödvändighet för att dra några meningsfulla slutsatser om genetisk risk. De kombinerar också ett antal miljövariabler som antas påverka risken för hjärtsjukdom, det vill säga mer eller mindre hälsosamma vanor.

(Artikeln är tillgänglig gratis men inte licensierad under någon rimlig licens, så jag visar inte det diagram från artikeln jag skulle vilja visa här. Klicka på länken och titta på ”Figure 3” om du vill se det.)

Själva sensmoralen i ”Ditt förutbestämda liv” var att gener i och för sig spelar roll, men att en bra uppväxt är bra för alla. Det kan i och för sig gömma sig gen–miljöinteraktioner under de additiva effekter som den här studien bygger på, men sensmoralen blir ändå densamma: ett hälsosamt leverne verkar vara bra för alla, även de som haft otur med sina genetiska varianter och fått hög genetisk risk.

4. Det känns orättvist mot de som försökt kommunicera vetenskap, och kanske kontraproduktivt.

Tack och lov behöver jag sällan skriva om saker som är särskilt långt ifrån det jag är utbildad inom. Vetenskapsjournalister och -reportrar gör det desto oftare, och dessutom på begränsad tid. Oftast gäller det dessutom forskning som är alldeles ny, och därför extra svår att utvärdera. Men i det här fallet gäller det faktiskt forskning som är över tio år gammal, och både de som gjorde dokumentären och Vetenskapens värld som valde dess inramning i SVT misslyckades helt, tycker jag, med att sätta den i perspektiv. Jag vet inte om det är författarna själva eller dokumentärmakarna som är orsak till att vinkeln var enastående genombrott som inte behöver ifrågasättas eller nyanseras. Kanske är det orättvist att kräva av Vetenskapens värld-redaktionen att de ska anlägga ett annat perspektiv än dokumentären de valt att sända. Eftersom att jag gärna vill vill att reportrar och journalister ska skriva entusiastiskt om genetisk forskning (inklusive helst min egen), så tvekar jag lite att skriva ner dem med arga brev. Förhoppningsvis tar de inte allt för illa upp.

Litteratur

Ficks, Courtney A., and Irwin D. Waldman. ”Candidate genes for aggression and antisocial behavior: a meta-analysis of association studies of the 5HTTLPR and MAOA-uVNTR.” Behavior genetics 44.5 (2014): 427-444.

Rautiainen, M. R., et al. ”Genome-wide association study of antisocial personality disorder.” Translational Psychiatry 6.9 (2016): e883.

Khera, Amit V., et al. ”Genetic Risk, Adherence to a Healthy Lifestyle, and Coronary Disease.” New England Journal of Medicine (2016).

(Samt en massa kandidatgenstudier om MAOA som jag länkar ovan.)

Reviewing, postscript

Later the same day as the post on reviewing was published, I saw the paper by Kovanis and coworkers on the burden of peer review in biomedical literature. It’s silly of me that it didn’t occur to me to look for data on how many papers researchers review. Their first figure shows data on the number of reviews performed 2015 by Publons users:

kovanis_reviewers_figure

Figure 1B from Kovanis & al (2016) PLOS ONE (cc:by 4.0).

If we take these numbers at face value (but we probably shouldn’t, because Publons users seem likely to be a bised sample of researchers), my 4-6 reviews in a year fall somewhere in the middle: on the one hand, more than half of the researchers review fewer papers, but it’s a lot less than those who review the most.

This paper estimates the supply and demand of reviews in biomedical literature. The conclusion is lot like the above graph: reviewer effort is unevenly distributed. In their discussion, the authors write:

Besides, some researchers may be willing to contribute but are never invited. An automated method to improve the matching between submitted articles and the most appropriate candidate peer reviewers may be valuable to the scientific publication system. Such a system could track the number of reviews performed by each author to avoid overburdening them.

This seems right to me. There may be free riders who refuse to pull their weight. But there are probably a lot more of people like me, who could and would review more if they were asked to. A way for editors to find them (us) more easily would probably be a good thing.