Reviewing, postscript

Later the same day as the post on reviewing was published, I saw the paper by Kovanis and coworkers on the burden of peer review in biomedical literature. It’s silly of me that it didn’t occur to me to look for data on how many papers researchers review. Their first figure shows data on the number of reviews performed 2015 by Publons users:

kovanis_reviewers_figure

Figure 1B from Kovanis & al (2016) PLOS ONE (cc:by 4.0).

If we take these numbers at face value (but we probably shouldn’t, because Publons users seem likely to be a bised sample of researchers), my 4-6 reviews in a year fall somewhere in the middle: on the one hand, more than half of the researchers review fewer papers, but it’s a lot less than those who review the most.

This paper estimates the supply and demand of reviews in biomedical literature. The conclusion is lot like the above graph: reviewer effort is unevenly distributed. In their discussion, the authors write:

Besides, some researchers may be willing to contribute but are never invited. An automated method to improve the matching between submitted articles and the most appropriate candidate peer reviewers may be valuable to the scientific publication system. Such a system could track the number of reviews performed by each author to avoid overburdening them.

This seems right to me. There may be free riders who refuse to pull their weight. But there are probably a lot more of people like me, who could and would review more if they were asked to. A way for editors to find them (us) more easily would probably be a good thing.

Morning coffee: reviewing

20160417_125609

(It was a long time since I did one of these posts. I’d better get going!)

One fun thing that happened after I received my PhD is that I started getting requests to review papers, four so far. Four papers (plus re-reviews of revised versions) in about a year probably isn’t that much, but it is strictly greater than zero. I’m sure the entertainment value in reviewing wears off quite fast, but so far it’s been fun, and feels good to pay off some of the sizeable review debt I’ve accumulated while publishing papers from my PhD. Maybe I’m just too naïve and haven’t seen the worst parts of the system yet, but I don’t feel that I’ve had any upsetting revelations from seeing the process from the reviewer’s perspective.

Of course, peer review, like any human endeavour, has components of politics, ego and irrationality. Maybe one could do more to quell those tendencies. I note that different journals have quite different instructions to reviewers. Some provide detailed directions, laying out things that the reviewer should and shouldn’t do, while others just tell you how to use their web form. I’m sure editorial practices also differ.

One thing that did surprise me was when an editor changed the text of a review I wrote. It was nothing major, not a case of removing something inappropriate, but rewording a recommendation to make it stronger. I don’t mind, but I feel that the edit changed the tone of the review. I’ve also heard that this particular kind of comment (when a reviewer states that something is required for a paper to be acceptable for publication) rubs some people the wrong way, because that is up to the editor to decide. In this case, the editor must have felt that a more strongly worded review was the best way to get the author to pay attention, or something like that. I wonder how often this happens. That may be a reason to be even more apprehensive about signing reviews (I did not sign).

So far, I’ve never experienced anything else than single-blind review, but I would be curious to review double-blinded. I doubt the process would differ much: I haven’t reviewed any papers from people I know about, and I haven’t spent any time trying to learn more about them, except in some cases checking out previous work that they’ve referenced. I don’t expect that I’d feel any urge to undertake search engine detective work to figure out who the authors were.

Sometimes, there is the tendency among scientists and non-scientists alike to elevate review to something more than a couple of colleagues reading your paper and commenting on it. I’m pretty convinced peer review and editorial comments improve papers. And as such, the fact that a paper has been accepted by an editor after being reviewed is some evidence of quality. But peer review cannot be a guarantee of correctness. I’m sure I’ve missed and misunderstood things. But still, I promise that I’ll do my best, and I will not have the conscience to turn down a request for peer review for a long time. So if you need a reviewer for a paper on domestication, genetic mapping, chickens or related topics, keep me in mind.

Den ökända krigargenen möter Vetenskapens värld

SVT:s Vetenskapens värld sände nyligen (17 oktober, ”Ditt förutbestämda liv”) ett program om beteendegenetik. Det handlar om en studie i Dunedin, Nya Zeeland, som kopplar varianter av vissa gener, i kombination med påfrestande händelser under livets gång, till antisocialt beteende, depression med mera. SVT och dokumentären presenterar den som ”en oerhörd studie” som ”skrivit om den klassiska frågan om arv och miljö och visat att kombinationen är det avgörande”. Men det är snarare en stilstudie i hur välmenande forskare kan ha otur, dra förhastade slutsatser och skapa ett nystan av överdrifter. Otur och otur, förresten, för dem själva ledde det ju till berömmelse och dokumentärer som når ända till Sverige. Men för vetenskapen om den genetiska grunden för beteende var det ändå mest otur.

På 00-talet, när studierna ifråga publicerades, var beteendegenetiker väldigt optimistiska om vad som krävdes för att hitta gener som förklarar komplexa egenskaper, till exempel våldsamt beteende, depression med mera. Många trodde att det räckte att göra som i Dunedin, samla in data från kanske 1000 individer och välja ut en gen, en så kallad ”kandidatgen”, att studera. Komplexa egenskaper, som mänskligt beteende, kan visst ha en avsevärd ärftlig komponent. Men den består av hundratals, kanske tusentals, okända genetiska varianter med små effekter. Dagens genetik har gått vidare till att studera tiotusentals eller hundratusentals individer för att ha en chans att hitta några varianter, och till att studera alla gener samtidigt istället för att försöka gissa vilka kandidatgener som är viktiga.

Men tusen människor, hör jag er protestera, det är väl ändå många? I fallet MAOA tittar de bara på män, så där ryker hälften. Sedan är det ungefär en tredjedel av dem som har riskvarianten, och en bråkdel av dem som haft en dålig uppväxt. I dokumentären låter kopplingen mellan MAOA, dålig uppväxt och antisocialt beteende så övertygande. Richie Poulton, en av författarna, säger: ”Om man tittar på de killar som har riskvarianten av genen och som blev gravt illa behandlade, så uppvisade hela 85% av dem någon form av antisocialt beteende när de blivit vuxna [min översättning].” I själva verket, om man läser artikeln, så består gruppen han talar om – män med riskvarianten som blivit gravt illa behandlade under uppväxten – av 13 individer. De 85% han talar om är alltså elva män. Hur många av dem hade, enligt originalartikeln dömts för något våldsbrott vid 26 års ålder? Svaret är fyra. Med ett stickprov på 13 människor får man inga bra mått på vad riskvarianten har för effekt. Man får brus.

Och brus är precis vad som kommer ur kandidatgenstudier inom psykiatrisk genetik. Det går till ungefär så här: Någon hittar en kandidatgen i en liten studie, dåförtiden med stor buller och bång. Sedan kommer dussintals liknande studier med motsägelsefulla resultat. Ibland hittar de något liknande, ibland inte. Ibland hittar de en effekt på något annat: en interaktion med något nytt, en annan vagt relaterad egenskap. Efter hand börjar folk göra meta-analyser, som lägger ihop resultaten från många studier. De visar på stor variation och små effekter. Och så går det vidare. När det till slut börjar komma studier med större urval, som tittar på hela arvsmassan, så syns det (med några lysande undantag som apolipoprotein E) oftast inte ett spår av kandidatgenerna.

Men visst, ingen har tittat efter varianter i hela genomet med just de gen–miljöinteraktioner som var i Dunedinstudien. Och associationsstudier av hela genomet har hittills bara hittat varianter som kan förklara en bråkdel av den genetiska variationen. Så de gamla kandidatgensfavoriterna kanske också gömmer sig där ute, även om det inte ser ut så. Oavsett är det klart att de inte kan vara mer än en bråkdel av förklaringen, och att metoden att gissa kandidatgener och testa dem i små stickprov inte fungerar något vidare. Men på teve och i pressmeddelanden finns det aldrig komplikationer eller negativa resultat. Därför är MAOA också känd som ”the warrior gene”. Den är ett perfekt provokativt exempel att ta upp när man vill säga att människor är stenhårt programmerade av evolutionen att bete sig på ett visst sätt. Eller, som i den här dokumentären, när man vill komma ett mer humanistiskt budskap om hur uppväxten kan övervinna generna.

Författarna och dokumentärmakarna har såklart rätt i att både arv och miljö spelar roll för komplexa egenskaper. De har kanske till och med rätt att gen–miljöinteraktioner, där effekten av en viss genetisk variant bara visar sig under speciella miljöförhållanden, är viktiga. Men de har fel i att varianter i MAOA spelar en avgörande roll. Om MAOA-varianten har någon effekt alls, vilket inte ens är säkert, så är den bara en variant med liten effekt bland hundratals andra. Resultat som MAOA-associationen i Dunedin är inte några genombrott som skakar beteendegenetiken i grunden. De är ärliga misstag från en ung vetenskap som för 15 år sedan ännu inte hade lärt sig hur svårt det är att hitta gener som förklarar komplexa egenskaper. Istället för att älta dem är det dags att lämna kandidatgenerna bakom sig och gå vidare.

(Det här inlägget är lite försenat, för jag försökte få en kortare version av den här texten publicerad. Jag vet inte vad jag tänkte där. SVT Vetenskap har inte heller svarat. Den som läste den blev väl stött, eller avskrev den ungefär som en arg insändare. Nåja. Efter själva programmet var det ett par svenska forskare som fick vara med och prata lite. De var nog bra på sina ämnen, men ingen av dem verkade veta särskilt mycket om genetik, och sa inget kritiskt om själva innehållet. Ingen kritiserade heller det orimliga skrytet som dokumentären var full av. Jag förstår att jag framstår som en surgubbe nu, men det kan inte hjälpas.)

Litteratur

Caspi et al. (2002) ”Role of genotype in the cycle of violence in maltreated children.” Science

Caspi et al. (2003) ”Influence of life stress on depression: moderation by a polymorphism in the 5-HTT gene.” Science.

Paper: ”Feralisation targets different genomic loci to domestication in the chicken”

It is out: Feralisation targets different genomic loci to domestication in the chicken. This is the second of our papers on the Kauai feral and admixed chicken population, and came out a few days ago.

The Kauai chicken population is kind of famous: you can find them for instance on Flickr, or on YouTube. We’ve previously looked at their plumage, listened to the roosters’ crowings, and sequenced mitochondrial DNA to investigate their origins. Based on this, we concur with the common view that the chickens of Kauai probably are a mixture of feral birds of domestic origin and wild Junglefowl. The Kauai chickens look and sound like a mix of wild and domestic, and we found mitochondrial DNA of two haplogroups, one of which (called D) is typical in ancient chicken DNA from Pacific islands (Gering et al 2015).

In this paper, we looked at the rest of the genome of the same chickens — you didn’t think we sequenced the whole thing just to look at the mitochondrion plus a subset of markers, did you? We turn to population genomics, and a family of methods called selective sweep mapping, to search for regions of their genome that show signs of being affected by natural selection. This lets us: 1) draw pretty rainbow plots such as  this one …

kauai2_fig1a

(Figure 1a from the paper in question, Johnsson & al 2016. cc:by The chromosomes have been laid out on the horizontal axis with different colours, and split into windows of 40 kb. Each dot represents the heterozygosity of that windows. For all the details, see the paper.)

… 2) highlight a regions of the genome that may have been selected during feralisation on Kauai (these are the icicles in the graph, highligthed by arrows); 3) conclude that the regions that look like they’ve been selected in feralisation overlap very little with the ones that look like they’ve been selected in chicken domestication. Hence the title.

That was the main result, but of course we also look at what genes are highlighted. Mostly we have no idea how they may contribute to feralisation, but a couple of regions overlap with those that we’ve previously found in genetic mapping of comb size and egg laying in our wild-by-domestic intercross. We also compare the potentially selected regions to domestic chicken sequences.

Last year, Ewen Callaway visited Dominic Wright, Eben Gering and Rie Henriksen on the last fieldtrip to Kauai. The article, When chickens go wild, was published in Nature News in January, and it explains a lot of the ideas nicely. This paper was submitted by then, so the samples they gathered on that trip do not feature in it. But, spoiler alert: there is more to come. (I don’t know what role I personally will play, but that is less important.)

As you may have guessed if you looked at the author list, this was a collaboration between quite a lot of people in Linköping, Michigan, London, and Victoria. Thanks to all involved! This was great fun, and for those of you who like this sort of thing, I hope the paper will be an interesting read.

Literature

M. Johnsson, E. Gering, P. Willis, S. Lopez, L. Van Dorp, G. Hellenthal, R. Henriksen, U. Friberg & D. Wright. (2016) Feralisation targets different genomic loci to domestication in the chicken. Nature Communications. doi:10.1038/ncomms12950

Balancing a centrifuge

I saw this cute little paper on arxiv about balancing a centrifuge: Peil & Hauryliuk (2010) A new spin on spinning your samples: balancing rotors in a non-trivial manner. Let us have a look at the maths of balancing a centrifuge.

The way I think most people (including myself) balance their samples is to put them opposite of each other, just like Peil & Hauryliuk write. However, there are many more balanced configurations, some of which look really weird. The authors generate three balanced configurations with increasing oddity, show them to researchers and ask them whether they are balanced. About half, 30% and 15% of them identified each configuration as balanced. Here are the configurations:

configuration_plot
(Drawn after their paper.)

Take a rotor in a usual bench top centrifuge. It’s a large, in itself balanced, piece of metal with holes to put microcentrifuge tubes in. We assume that all tubes have the same mass m and that the holes are equally spaced. The rotor will spin around its own axis, helping us separate samples and pellet precipitates etc. When the centrifuge is balanced, the centre of mass of the samples will be aligned with the axis of rotation. So, if we place a two-dimensional coordinate system on the axis of rotation like so,

koordinater

the tubes are positioned on a circle around it:

x_i = r \cos {\theta_i}
y_i = r \sin {\theta_i}

The angle to each position in the rotor will be

\theta(i) = \dfrac{2\pi(i - 1)}{N}

where i is the position in question, starting at 1, and N the number of positions in the rotor. Let’s label each configuration by the numbers of the positions that are occupied. So we could talk about (1, 16)30 as the common balanced pair of tubes in a 30-position rotor. (Yeah, I know, counting from 1 is a lot more confusing than counting from zero. Let’s view it as a kind of practice for dealing with genomic coordinates.)

We express the position of each tube (treated as a point mass) as a vector. Since we put the origin on the axis of rotation, these vectors have to sum to zero for the centrifuge to be balanced.

\sum \limits_{i} {m\mathbf{r_i}} = \mathbf{0}

Since the masses are equal, they can be removed, as can the radius, which is constant, and we can consider the x and y coordinates separately.

\left(\begin{array}{c} \sum \limits_{i} {\cos {\theta(i)}} \\ \sum \limits_{i} {\sin {\theta(i)}} \end{array}\right) = \left(\begin{array}{c} 0 \\ 0 \end{array}\right)

For the (1, 16)30 configuration, the vectors are

\left(\begin{array}{c} \cos {\theta(1)} \\ \sin {\theta(1)} \end{array}\right) + \left(\begin{array}{c} \cos {\theta(16)} \\ \sin {\theta(16)} \end{array}\right) = \left(\begin{array}{c} \cos {0} \\ \sin {0} \end{array}\right) + \left(\begin{array}{c} \cos {\pi} \\ \sin {\pi} \end{array}\right) = \left(\begin{array}{c} 1 \\ 0 \end{array}\right) + \left(\begin{array}{c} -1 \\ 0 \end{array}\right)

So we haven’t been deluding ourselves. This configuration is balanced. That is about as much maths as I’m prepared to do in LaTex in a WordPress blog editor. So let’s implement this in R code:

library(magrittr)
theta <- function(n, N) (n - 1) * 2 * pi / N
tube <- function(theta) c(cos(theta), sin(theta))

Now, we can look at Peil & Hauryliuk’s configurations, for instance the first (1, 11, 14, 15, 21, 29, 30)30

positions <- c(1, 11, 14, 15, 21, 29, 30)
tubes <- positions %>% lapply(theta, N = 30) %>% lapply(tube)
c(sum(unlist(lapply(tubes, function(x) x[1]))),
  sum(unlist(lapply(tubes, function(x) x[2]))))

The above code 1) defines the configuration; 2) turns positions into angles and then tube coordinates; and 3) sums the x and y coordinates separately. The result isn’t exactly zero (for computational reasons), but close enough. Putting in their third configuration, (4, 8, 14, 15, 21, 27, 28)30, we again get almost zero. Even this strange-looking configuration seems to be balanced.

I’m biased because I read the text first, but if someone asked me, I would have to think about the first two configurations, and there is no way I would allow a student to run with the third if I saw it in the lab. That conservative attitude, though not completely scientific, might not be the worst thing. Centrifuge accidents are serious business, and as the authors note:

Finally, non-symmetric arrangement (Fig. 1C) was recognized as balanced by 17% of researchers. Some of these were actually calculating moment of inertia, i.e. were coming to solution knowingly, the rest where basically guessing. The latter should be banished from laboratory practice, since these people are ready to make dangerous decisions without actual understanding of the case, which renders them extremely dangerous in the laboratory settings.

(Plotting code for the first figure is on Github.)

På dna-dagen: Genetik utan dna

Så här på dna-dagen tänkte jag skriva lite om vad som går att göra utan att veta något om dna, och varför det (förstås) blir ännu bättre med dna.

Vi tänker oss tillbaka till tiden före genomprojekt, sekvenseringsmaskiner och kloning. Säg någon gång i 1900-talets början. Vad vet vi om ärftlighet? Vi vet att egenskaper går i arv. Det behöver man inte vara något ljushuvud för att lägga märke till. Vi vet att djuravel och växtförädling fungerar. Det vill säga, om man väljer ut de individer som har egenskaper vi behöver och låter dem para sig, så kommer nästa generation bli ännu bättre. Det är 1700-talskunskap allra minst, och förmodligen mycket äldre än så. Vi har en teori om ärftlighet, från Mendel och hans berömda ärtor  Vi vet att ärftligheten består av anlag som blandas om varje generation, men utan att spädas ut. Det är de som idag kallas genetiska varianter.

Varje individ har en uppsättning genetiska varianter. De påverkar individens egenskaper, och de går vidare till nästa generation när individen får barn. Modernt uttryckt: Alla individer har gener, och de finns i olika genetiska varianter. Alla har två varianter av varje gen, och en av dem kommer gå vidare till varje avkomma. Vi vet ännu inte vad generna består av (spoiler: det är dna).

En del egenskaper är enkla, och verkar styras av varianter av en enda gen. En höna kan ha vita fjädrar eller färgade, till exempel; det styrs av varianter av en enda gen. Den ena varianten gör hönan vita fjädrar, och den andra tillåter andra färger att komma fram. Egenskapen delar in höns i två typer: vita höns och höns med andra färger.

Men de flesta egenskaper är inte så enkla. Ta hur mycket hönan väger. Höns kommer i alla storlekar, små, stora och mittemellan. Det är ofta sådana egenskaper som är viktigast. Hur stor blir hönan? Hur många ägg lägger hon? Hur rädd är hon för människor? Och så vidare. Hur gör vi om vi vill förstå en sådan kvantitativ egenskap?

Vi utgår ifrån det faktum att det finns många gener som påverkar en kvantitativ egenskap. Varje gen finns i flera varianter, och varje individ har två varianter. Vi börjar med att anta något helt orealistiskt, nämligen att vi vet exakt vilka genetiska varianter som finns, och vilka effekter de har. Då kan vi skriva ner en individs egenskap som en summa, där varje term beror på de genetiska varianter individen bär på, plus ett slumpvis bidrag från olika miljöfaktorer. Därifrån kan vi dra slutsatser om medelvärden och variation inom en population av individer och, viktigast av allt, formler för hur nära släktingar liknar varandra.

Då trillar det ut något användbart. De här orealistiska sakerna vi antog i början, att vi kände till varje genetisk variant och vad den gör, visar det sig att vi inte behöver veta. De försvinner ur formlerna. Det är som om vi hade en ekvation med X på båda sidor om likhetstecknet. Då kan vi dividera med X, så den okända variabeln försvinner. Med bara ett släktträd och mätningar av individernas egenskaper går det att räkna fram en massa användbara genetiska värden, utan att behöva veta exakt vilken gen som gör vad. Till exempel kan vi ta reda på vilka individer vi helst borde avla på, eller hur stor del genetiska varianter spelar för en viss egenskap.

Teorin om kvantitativa egenskaper utvecklades i början av 1900-talet. Det är en statistisk teori, som beskriver hur ärftliga egenskaper förs vidare i släktträd och populationer. Den är väl medveten om att det finns gener och genetiska varianter, men klarar sig bra utan att hantera dem direkt.

Ungefär vid samma tid började helt andra forskare reda ut vad arvsanlagen består av. 1953 visste vi inte bara att är dna som är boven i dramat, utan också hur dna-molekylen ser ut. Sedan kom molekylärgenetik, det vill säga genetik som arbetar direkt med dna.

På senare år har kvantitativ genetik och molekylärgenetik mötts på flera sätt. Det har blivit så lätt och billigt (relativt sätt) att göra dna-tester, att många börjat använda dem istället för släktträd. Istället för att mödosamt hålla reda på individers släktskap kan vi titta på deras genetiska varianter direkt, och uppskatta släktträdet från dna.

Det har också blivit möjligt att ta reda på vilka genetiska varianter som påverkar egenskaper, hur mycket de påverkar, och hur de fungerar. Då kan vi får reda på saker som inte syns i släktträd: hur många genetiska varianter som spelar roll för en egenskap, om varianterna är vanliga eller ovanliga, hur stora eller små deras effekter är, och hur de åstadkommer dem. Hur kan små skillnader i dna göra en höna större eller mindre, mer eller mindre rädd för människor, eller få henne att lägga fler eller färre ägg? Men det får vi prata mer om en annan dag.

(Idag var det tydligen dna-dagen, även om den snart är slut. Gamla dna-dagsposter: Gener, orsak och verkan (2015), På dna-dagen (2014))

Undervisning: Molekylärgenetik

NBIC45 utgår! Leve NBIC52! Den senaste varianten av molekylärgenetikkursen har just börjat. Nu var det inte tänkt att jag skulle undervisa något i år, men jag hoppar in som ställföreträdande skägg. Så läraruppställningen ändras lite mindre än det var tänkt från början.

Provrörsställ, rör, lösningar, pipetter och blåsippor som inte har med saken att göra.

Laborationerna, där en kan träffa mig, handlar om nöjsamma saker som genotypning med polymeraskedjereaktionen och att transformera bakterier med plasmider. Och att tolka inte alltid helt tydliga band på geler, samt stå i kö till centrifugen. Jag tycker det är rätt roligt. Att stå i kö till centrifugen är kanske inte det roligaste i världen. Men alla som arbetat i ett molekylärt laboratorium kan intyga att det i alla fall är realistiskt.

Jag har skrivit (och twittrat) något om innehållet i labbarna förut.