”Forskaren är fri”

Politiska ideologier
eländets filosofi
etablissemangets kotterier
men forskaren är fri
dogmatiska religiösa sekter
vetenskapens trolleri
materialismens effekter
men forskaren är fri

Kjell Höglund, Forskaren är fri

En behöver egentligen inte ens veta att Kjell Höglund skrivit böcker med någon sorts esoteriskt innehåll. Det räcker med att lyssna på texten för att förstå att forskaren i det här fallet inte är en akademisk forskare. Men ändå.

 

Journal club of one: ”Genome-wide association of foraging behavior in Drosophila melanogaster fails to support large-effect alleles at the foraging gene” (preprint)

This preprint was posted on bioRxiv and Haldane’s sieve. It tells the story of one of the best known genetic variants affecting behaviour, the foraging gene in Drosophila melanogaster. for is still a nice example of a large-effect variant causing (developmentally) pleiotropic effects. However, Turner & al present evidence questioning whether for has any substantial effect in natural populations of flies. I think it’s self-evident why I’m interested.

They look at previous evidence for foraging as a quantitative trait gene in files sampled from natural populations and perform genome-wide association and population genetic tests with 35 DGRP lines, finding nothing at the for locus.

Comments:

(Since this is a preprint, I will feel free to suggest what I think could be improvements to the manuscript. Obviously, these are just my opinions.)

I’m not convinced one can really separate a unimodal from a bimodal distribution with 36 data points? Below are a few histograms simulated from a mixture of two normal distributions where 25 samples are ”rovers” and 11 ”sitters”.

bimodal

For fun, I also tested for normality with the Shapiro-Wilks’ test as the authors did, and about half of 1000 tests reject. My histograms should not be overinterpreted; I just generated two normal distributions with means log10(2.66) and log10(1.3) with standard deviations 0.1. I don’t know the actual standard deviations of the forS and forR reference strains. Of course, when the standard deviation is small enough, the distributions clearly separate and Shapiro-Wilks’ test will reject.

Power is difficult, but in this case the authors are looking at a well-known effect. They should be able to postulate some reasonable effect-sizes given the literature and the difference between the reference strains and make sure that they’re actually powered to detect it. 35 individuals for a GWAS is not much. They may still have good power to detect a effect of the size expected at for, at least in the single-point test, but it would be nice to demonstrate it. Power feels particularly pertinent as the authors claim to find evidence of absence. The same thing should apply to the population genetic tests, though it’s probably harder to know what effects to expect there.

The authors discuss alternative interpretations, and mention  the fact that in their hands the reference strains did not travel nearly as long as in previous experiments. How likely is it, though, that the variant isn’t segregating in Raleigh but in the populations previously sampled?

Literature

Thomas Turner, Christopher C Giauque, Daniel R Schrider, Andrew D Kern. (2014) Genome-wide association of foraging behavior in Drosophila melanogaster fails to support large-effect alleles at the foraging gene. Preprint on bioaRxiv. doi: 10.1101/004325

Dagens rekommendation: Hans Rosling

TED talks är ofta inget vidare men det finns lysande undantag. Hans Roslings tal är några av dem. Ed Yong, som jag rekommenderade häromveckan, ett annat.

Se inte bara den här videon, utan leta runt lite på Youtube.

Några saker att lägga märke till:

Rosling använder inte vilken visualisering som helst; han använder en visualisering som är en polerad variant av ett enkelt diagram med prickar.

Han drar slutsatser från modeller, inte bara grafik. Dels lutar han sig på demografiska modeller, som såvitt jag förstår är mekanistiska modeller över hur populationen av människor kommer växa. Dels extrapolerar han trender i sina diagram. Utan att han säger det skulle jag tro att det skulle motsvara linjära modeller.

Förutom att han uppenbarligen funderat mycket på vilka illustrationer han ska använda, så är han bra på att kalibrera sina jämförelser och ställa dem i relation till begripliga saker. Det är inget som kommer ur siffrorna, utan en fråga om tolkning.

Och, viktig: Rosling tolkar sina modeller som orsakssamband, inte bara som associationer. Han är intresserad av frågor om vad människor borde göra och vad som kommer hända då. Det är inte heller något som går att utläsa ur siffrorna. Det kräver tolkning och antaganden om orsakssamband, men är en oumbärlig del av Roslings argument.

Könsurval: Propellrar, Batemangradient och operationell könskvot

Könsurval är den del av evolution genom naturligt urval som handlar om att hitta en partner att fortplanta sig med. Sexuellt reproducerande organismer kan ha olika anpassningar för att attrahera en partner av motsatt kön eller konkurrera med andra individer av samma kön. De formas av könsurval, men exakt hur de formas beror på organismens livsstil, ekologi och historia. Kokko, Klug & Jennisons (2012) har publicerat en teoretisk modell för att illustrera när anpassningar till könsurval kan uppstå, och i somras hörde jag Hanna Kokko presentera den. Föreställ er en organism, vilken som helst, som ska till att fortplanta sig. Tänk att individerna rör sig på måfå tills de stöter på någon av motsatt kön. De parar sig, får ungar, och är upptagna med det ett tag; de är alltså borta från poolen av tillgängliga individer som kan para sig ett tag innan det är dags igen. Än så länge är detta en (något) förenklad sammanfattning av livet som sexuellt reproducerande organism. Tänk sedan att någon individ utvecklar en ärftlig egenskap som ökar sannolikheten att träffa på en partner. Kokko illustrerade det med en propeller som får dem att färdas omkring fortare. Under vilka förhållanden kommer propellern att främjas av könsurval och spridas i populationen under generationernas gång?

Nu är det frågan om en annan sorts modeller än de modeller jag ibland bloggar om. När jag skriver ”modell” menar jag oftast en statistisk modell som är ett hjälpmedel för att analysera empiriska data. Ett enkelt exempel är om jag mätt någon egenskap hos en population individer och är intresserad av medelvärdet. Då är det rimligt att använda någon sorts statistisk modell för att beskriva variationen inom populationen och få en uppfattning om osäkerheten i min uppskattning av medelvärdet. Men här är det frågan om mekanistiska modeller som gör anspråk på att beskriva någon generell egenskap hos ett fenomen (här: könsurval i en sexuellt reproducerande population), för att sedan dra slutsatser om hur sådana system beter sig. Det är inte en modell av data från en viss population, utan en modell av ett förenklat idealiserat system. I teoretisk biologi använder en ofta matematiska modeller som en sorts logiska argument kring hur biologiska fenomen fungerar.

Operationell könskvot är antalet hanar som är redo att para sig dividerat med antalet honor som är redo att para sig. De som är upptagna med annat och för tillfället inte kan reproducera sig räknas inte. Tanken är att när det är fler som är redo av det ena könet än det andra så blir det konkurrens emellan dem där fler är redo. Beroende på olika arters livsstil kan det vara fler eller färre honor och hanar som är redo att para sig vid en given tid. Det kanske till exempel tar väldigt lång tid att föda upp en kull ungar innan en har tid att skaffa och ta hand om en ny. På så sätt borde den operationella könskvoten påverka utrymmet för könsurval. Om det, till exempel, finns många hanar och få honor finns det stort utrymme för hanarna att utveckla olika anpassningar för att stå sig bra i konkurrensen. Om den operationella könskvoten är ungefär lika finns det ingen större konkurrens om partners och ingen vidare nytta med att lägga energi på det.

Nu till en gammal favorit: Batemangradienten! Vad den mäter är hur mycket det lönar sig att para sig med ännu en partner. Det vill säga: hur många fler ungar får en individ per extra partner. Batemans klassiska hypotes är att gradienten ska vara nära noll för honor, vilket betyder att de begränsas av resurserna de investerar i avkomman, och positiv för hanar, som investerar mindre i avkomman. Men det beror naturligtvis på hur organismen ifråga lever och hur dess könsroller ser ut.

De två ovanstående begreppen används ofta för att beskriva olika arters sociala system kring fortplantning. Men de mäter olika saker: den operationella könskvoten visar hur svårt eller lätt det är att hitta en partner till; Batemangradienten mäter hur mycket det skulle höja ens reproduktiva framgång. Sammantaget: det är mer lönsamt med anpassningar till könsurval om det finns en positiv Batemangradient (så att fler parningar betyder fler överlevande ungar) och en sned operationell könskvot (så att en faktiskt måste anstränga sig för att få para sig flera gånger), men räcker inte att titta på bara det ena eller det andra. Se Hanna Kokko själv prata bland annat om detta på ESEB2013 förra sommaren. Ja, videon är bitvis inget vidare men presentationsbilderna är mestadels läsbara och talarens röst är klar och tydlig! Jag gillar särskilt bilden med vattenglaset, som sammanfattar det tillstånd som ofta råder i biologi. Optimisten tycker att naturen är spännande med all sin komplexitet och pessimisten att den är en enda svårtolkad röra.

Litteratur

Kokko, H., Klug, H., & Jennions, M. D. (2012). Unifying cornerstones of sexual selection: operational sex ratio, Bateman gradient and the scope for competitive investment. Ecology letters, 15(11), 1340-1351.

Jag påmindes om presentationen när jag såg en bloggpost om ämnet av Lilly Herridge.

Interactions between genetic and epigenetic

More speculation about epigenetics and ways that epigenetic mechanisms of gene regulation could contribute to differences between individuals. Many cases, both in plants and animals, have to do with transposable elements, which makes a lot of sense since DNA methylation is involved in silencing the expression of transposable elements. Think about genetical genomics studies such as Gibbs & al (2010), where gene expression and DNA methylation is mapped to genomic regions. First, when expression QTL and methylation QTL coincide, it might be a good idea to start looking for transposable element insertions. Finding them are not as easy as finding SNPs, but hopefully, there will be SNPs tagging the actual variant and DNA methylation will spread outside of the inserted element to CpGs that are being typed. The element itself could of course work as a promoter, but it could also spread methylation into regulatory sequences of the gene, suppressing expression, or increase expression by changing the effect of an insulator.

Second, apparently the DNA methylation of transposable elements can sometimes be variable. This is the case with axin fused, Cabp-IAP and the agouti epialleles (Druker & al 2004; Vasicek & al 1997; Morgan & al 1999); among mice that carry the insertion there is DNA methylation variation causing phenotypic differences. This means that in populations where the insertion segregates, there should be a DNA methylation by gene interaction in the effect on the phenotype. I think that is fun, and I’d like to see someone find that in a mapping study. It might make things more difficult, though. The methylation–gene expression association might be hard to detect because it only exists in one of the alleles.

Third, maybe that is actually how a DNA methylation variant might escape reprogramming. Since some transposable elements are among the sequences that are not demethylated after fertilisation, and if that effect also applies to the newly inserted copy of the transposable element, our hypothetical regulatory methylation difference might be preserved through meiosis that way.

Literature

Gibbs, J. R., van der Brug, M. P., Hernandez, D. G., Traynor, B. J., Nalls, M. A., Lai, S. L., … & Singleton, A. B. (2010). Abundant quantitative trait loci exist for DNA methylation and gene expression in human brain. PLoS genetics, 6(5), e1000952.

Morgan, H. D., Sutherland, H. G., Martin, D. I., & Whitelaw, E. (1999). Epigenetic inheritance at the agouti locus in the mouse. Nature genetics, 23(3), 314-318.

Vasicek, T. J., Zeng, L. I., Guan, X. J., Zhang, T., Costantini, F., & Tilghman, S. M. (1997). Two dominant mutations in the mouse fused gene are the result of transposon insertions. Genetics, 147(2), 777-786.

Druker, R., Bruxner, T. J., Lehrbach, N. J., & Whitelaw, E. (2004). Complex patterns of transcription at the insertion site of a retrotransposon in the mouse. Nucleic acids research, 32(19), 5800-5808.

”Made obvious by our use of contraceptives”

I recently reread part of The Selfish Gene. The introduction to the 30th anniversary edition is great fun. For one thing, Dawkins expresses doubts about the word ”selfish” in the title, and ponders whether he should have called it the Immortal or Cooperative gene instead. That feels very ironic, and I for one think that he made the right choice. It also contains this nugget:

Our brains have evolved to a point where we are capable of rebelling against our selfish genes. The fact that we can do so is made obvious by our use of contraceptives. The same principle can and should work on a larger scale.

På dna-dagen

Idag är det tydligen dna-dagen enligt någon; det är i alla fall roligare än kanelbullens dag. Den 25 april 1953 var dagen då artiklarna (Watson & Crick 1953; Franklin & Gosling 1953; Wilkins, Stokes & Wilson 1953) om dna-molekylens struktur publicerades, och dagen då en typ 150-årig jakt på arvsanlagens molekylära natur på något sätt kulminerade. Från äckligt var från något sår till dna-sekvenser, typ. Alla har sett någon bild på dna-strängen, så jag väljer medvetet att inte visa någon sådan. Istället tänkte jag skriva några rader om dna som kod, en vanlig metafor som både är bra och dålig.

Deoxyribonukleinsyra (dna) är en uppbyggt av en ryggrad av deoxyribos samt olika kombinationer av fyra kvävebaser (adenosin, tymin, guanidin och cytosin; de förkortas med sin begynnelsebokstav som A, T, G och C). De kan kombineras i olika ordning och det är följden av A, T, G och C som bildar den dna-sekvens som lagrar biologisk information. En normal dna-molekyl består av två strängar som löper i motsatt riktning. Baserna bildar par där G kombineras med C och A med T. Båda strängarna lagrar alltså samma information men i motsatt och, som det kallas, komplementär riktning.

Sedan bildar dna-molekyler kromosomer: en kromosom är en lång dna-molekyl upplindad på proteiner. Vi diploida organismer har två uppsättningar av våra kromosomer: en från mamma och en från pappa. Genomet är den sammanlagda sekvensen från en uppsättning av alla kromosomer. När en pratar om det mänskliga genomet menar en den mänskliga referenssekvensen, som är ett exempel på hur en uppsättning kromosomer kan se ut. Det finns naturligtvis genetisk variation mellan indiver. Ta till exempel följande bit från människans kromosom 1:

>1 dna:chromosome chromosome:GRCh37:1:11013:12345:1
GGGGGTTGGGGGGGCGTGTGTTGCAGGAGCAAAGTCGCACGGCGCCGGGCTGGGGCGGGG
GGAGGGTGGCGCCGTGCACGCGCAGAAACTCACGTCACGGTGGCGCGGCGCAGAGACGGG
TAGAACCTCAGTAATCCGAAAAGCCGGGATCGACCGCCCCTTGCTTGCAGCCGGGCACTA
CAGGACCCGCTTGCTCACGGTGCTGTGCCAGGGCGCCCCCTGCTGGCGACTAGGGCAACT
GCAGGGCTCTCTTGCTTAGAGTGGTGGCCAGCGCCCCCTGCTGGCGCCGGGGCACTGCAG
GGCCCTCTTGCTTACTGTATAGTGGTGGCACGCCGCCTGCTGGCAGCTAGGGACATTGCA
GGGTCCTCTTGCTCAAGGTGTAGTGGCAGCACGCCCACCTGCTGGCAGCTGGGGACACTG
CCGGGCCCTCTTGCTCCAACAGTACTGGCGGATTATAGGGAAACACCCGGAGCATATGCT
GTTTGGTCTCAGTAGACTCCTAAATATGGGATTCCTGGGTTTAAAAGTAAAAAATAAATA
TGTTTAATTTGTGAACTGATTACCATCAGAATTGTACTGTTCTGTATCCCACCAGCAATG
TCTAGGAATGCCTGTTTCTCCACAAAGTGTTTACTTTTGGATTTTTGCCAGTCTAACAGG
TGAAGCCCTGGAGATTCTTATTAGTGATTTGGGCTGGGGCCTGGCCATGTGTATTTTTTT
AAATTTCCACTGATGATTTTGCTGCATGGCCGGTGTTGAGAATGACTGCGCAAATTTGCC
GGATTTCCTTTGCTGTTCCTGCATGTAGTTTAAACGAGATTGCCAGCACCGGGTATCATT
CACCATTTTTCTTTTCGTTAACTTGCCGTCAGCCTTTTCTTTGACCTCTTCTTTCTGTTC
ATGTGTATTTGCTGTCTCTTAGCCCAGACTTCCCGTGTCCTTTCCACCGGGCCTTTGAGA
GGTCACAGGGTCTTGATGCTGTGGTCTTCATCTGCAGGTGTCTGACTTCCAGCAACTGCT
GGCCTGTGCCAGGGTGCAAGCTGAGCACTGGAGTGGAGTTTTCCTGTGGAGAGGAGCCAT
GCCTAGAGTGGGATGGGCCATTGTTCATCTTCTGGCCCCTGTTGTCTGCATGTAACTTAA
TACCACAACCAGGCATAGGGGAAAGATTGGAGGAAAGATGAGTGAGAGCATCAACTTCTC
TCACAACCTAGGCCAGTAAGTAGTGCTTGTGCTCATCTCCTTGGCTGTGATACGTGGCCG
GCCCTCGCTCCAGCAGCTGGACCCCTACCTGCCGTCTGCTGCCATCGGAGCCCAAAGCCG
GGCTGTGACTGCT

Men om jag intresserade mig för den här sekvensen skulle jag antagligen betrakta den på en ännu högre abstraktionsnivå, ungefär såhär. Detta är en bild från genomläsaren Ensembl. Detaljerna är inte så viktiga; poängen med den här illustrationen är att genetiken till stor del abstraherar bort den underliggande biokemin. Vi betraktar inte dna-sekvensen direkt, utan med olika bekvämare representationer av dna-sekvensen.

ensembl_human_chr1

Ibland pratar en om den genetiska koden. Med det uttrycket avses inte hela genomet, utan de ungefär 2% som specificerar sekvensen för proteiner. Det är nämligen så att vissa dna-sekvenser, proteinkodande gener, följer en viss kod som motsvarar en sekvens av aminosyror. Aminosyror, i sin tur, bygger upp proteiner, som är biologiskt aktiva stora organiska molekyler som gör saker i celler och kroppar. Proteiner kan vara enzymer som katalyserar olika reaktioner, transportproteiner som flyttar molekyler fram och tillbaka, strukturella proteiner som bygger upp vävnader etc etc. Den genetiska koden, som det kallas, betsår av tripletter av baser, där en tre baser motsvarar en aminosyra. ATG till exempel, motsvara aminosyran metionin samt även startsignalen för att bygga ett protein. TTT motsvarar fenylalanin, GTA valin och så vidare. TAA, TAG eller TGA innebär att den kodande genen är slut och att proteinsekvensen är färdig.

Men det finns andra dna-sekvenser som har andra funktioner än att koda för proteiner. De är svårare att beskriva och hantera, för deras kod är inte lika regelbunden och lätthanterlig som den genetiska koden, men de är ändå viktiga. Till exempel finns det dna-sekvenser som reglerar när och hur mycket olika delar av kroppen kommer använda proteinkodande gener till att faktiskt tillverka proteiner.

Majoriteten av genomet består inte av gener, utan av diverse jox som inte fyller någon direkt funktion. Spaghettikod är ett skällsord som programmerare ibland använder för kod som är svår att överblicka, förvirrande, och som när den körs kommer hoppa hit och dit. Om det mänskliga genomet ska beskrivas som kod är det förmodligen någon sorts spaghettikod. Jag tänkte länge att ett datorprogram är en fruktansvärt dålig metafor för ett genom, eftersom programkod är konstruerad av mänskliga medvetanden som har en plan. Men mina vänner som arbetar med programmering har övertygat mig om att ett tillräckligt stort mjukvaruprojekt med många inblandade ibland utvecklas lite som ett genom, med en kombination av slumpvisa händelser och naturligt urval, inte bara som en process av rationell design.

Bibliometrics and I

Dear diary,

I’m attending a course about scientific publishing, and the other day there was lecture about bibliometrics by Lovisa Österlund and David Lawrence from the Linköping University library. I don’t think I know anyone who particularly likes bibliometrics, but I guess it makes sense that if one needs to evaluate research without trying to understand what it is about there are only citations, the reputation of the publication channel and the cv of the researcher to look at. I imagine it’s a bit like reviewing a novel in a language one doesn’t know. A couple of things occured to me, though.

What to do when different instruments of evaluation give different results? Take the two papers (so far) published during my PhD: they both deal with the genetics of chicken comb size; one is published in PLOS Genetics and one in Molecular Ecology. If we look at journal impact factors (and we shouldn’t, but say that we do), PLOS Genetics comes out ahead with an impact factor of 8.5 against 6.3. For those that do not know this about it, journal impact factor is the mean number of citations for papers in that journal the last two years calculated by Thomson Reuters in their own secret way. However, Linköping University has for some reason decided to use the Norwegian index for evaluating publication channels. I don’t know why, and I don’t think it matters that much for me personally, since the system will change soon and I will finish in about a year and a half. In the Norwegian system journals are ranked as level one or two, where two is better and is supposed to represent the top 20% of that subject area. According to their database, Molecular ecology is level 2, while PLOS Genetics is level 1. The source of the discrepancy is probably that PLOS Genetics is counted as biomedicine, while Molecular Ecology is biology, according to the Norwegian database.

They also mentioned Altmetrics, and I don’t know what to make of it. On one hand, I guess it’s good to keep tabs on social media. On the other hand, what do numbers of tweets really tell you, except that one of the authors has a Twitter account? One of the examples in the lecture was the metrics page for this paper that I happen to be a contributor to. It is actually pretty strange. It shows three tweets or 11 tweets, depending on where on the page you look. Also, when I accessed this page earlier today it linked a blog. Now it doesn’t. That says something about the ephemeral nature of internet media. Regardless, when I first saw the page I thought perhaps the metrics page had picked up on my post about the paper, but that was not the case. I don’t know how altmetric.com define a ”science blog”, maybe the blog has to be listed on some aggregation site or another, and I’m not pretending my post is particularly insightful or important. Still it’s a little strange that the altmetrics page doesn’t list a post by one of the authors about the paper, but listed a post that referred to the paper with only two sentences and was mistaken about the conclusion.

Morning coffe: ”epigenetics” is also ambiguous

IMG_20140228_175448

I believe there is an analogy between the dual meaning of the word ”gene” and two senses of epigenetics, that this distinction is easy to get wrong and that it contributes to the confusion about the meaning of epigenetics. Gene can mean a sequence that has a name and a function, or it can mean a genetic variant. I sometimes, half-jokingly, call this genetics(1) and genetics(2). The order is wrong from a historical perspective, since the study of heritable variation predates the discovery of molecular genes. The first deals with the function of sequences and their products. The second deals with differences between individuals carrying different variants.

The same can be said about epigenetics. On one hand there is epigenetics(1), aiming to understand the normal function of certain molecular features, i.e. gene regulatory states that can be passed on through cell division. On the other hand, epigenetics(2) aims to explain individual variation between individuals that differ not in their DNA sequence but in other types of heritable states. And the recurring reader knows that I think that, since a lot of genetics(2) makes no assumptions about the molecular nature of the variation it studies, it will mostly work even if some of these states turn out to be epigenetic. In that sense, epigenetics(2) is a part of genetics.

#blogg100, språkförbistring och etologens topplista

Jag måste säga att jag är ganska nöjd med att det gått över 50 poster i #blogg100 innan jag skriver en post om #blogg100. Överhuvudtaget tycker jag att det fallit ganska väl ut så långt. Har lyckats avsluta och publicera ett gäng poster som legat och väntat ett bra tag. ”Åtminstone tre sorters osäkerhet”, till exempel, är ungefär ett halvår gammal. Jag hade väntat mig att komma på mig själv med många sluga knep för att dela upp poster på flera dagar, men jag har inte gjort så många dumheter, mer än posta korta länktips, rekommendationer och citat. Jag har i alla fall ingen intention att fortsätta om jag inte har något vettigt att säga, så det är mycket möjligt att jag lägger av innan etthundrastrecket och återgår till vanlig takt.

Min blogg lider av en viss språkförbistring (vilket jag skrivit om på engelska här). En del saker vill jag skriva på engelska så att eventuella icke-svensktalande läsare kan förstå. Samtidigt vill jag inte driva två bloggar. Någon måtta får det vara. Jag har ingen aning om ifall språkblandningen jag håller på med nu är en bra idé eller inte, men det får vara så tills vidare

Hur som helst är det inte bara jag som ägnar mig åt #blogg100-galenskaper. En annan deltagare med biologianknytning är Johan Lind, docent i etologi, som gör en topp 100-lista över djur med egna fotografier. Mycket fint och allmänbildande! Om jag gjorde en topplista skulle den bli betydligt kortare, men hönan skulle i alla fall komma på plats ett. Titta till exempel på nummer 98, mindre havsnål och nummer 83, Chromodoris reticulata!