There is grandeur in this view of life

martins bioblogg

Archive for the ‘genetik’ Category

Finding the distance from ChIP signals to genes

with one comment

I’ve had a couple of months off from blogging. Time for some computer-assisted biology! Robert Griffin asks on Stack Exchange about finding the distance between HP1 binding sites and genes in Drosophila melanogaster.  We can get a rough idea with some public chromatin immunoprecipitation data, R and the wonderful BEDTools.

Finding some binding sites

There are indeed some ChIP-seq datasets on HP1 available. I looked up these ones from modENCODE: modENCODE_3391 and modENCODE_3392, using two different antibodies for Hp1b in 16-24 h old embroys. I’m not sure since the modENCODE site doesn’t seem to link datasets to publications, but I think this is the paper where the results are reported: A cis-regulatory map of the Drosophila genome (Nègre & al 2011).

What they’ve done, in short, is cross-linking with formaldehyde, sonicate DNA into fragments, capture fragments with either of the two antibodies and sequence those fragments. They aligned reads with Eland (Illumina’s old proprietary aligner) and called peaks (i.e. regions where there is a lot of reads, which should reflect regions bound by Hp1b) with MACS. We can download their peaks in general feature format.

I don’t know whether there is any way to make completely computation predictions of Hp1 binding sites but I doubt it.

Some data cleaning

The files are available from ftp, and for the below analysis I’ve unzipped them and called them modENCODE_3391.gff3 and modENCODE_3392.gff3. GFF is one of all those tab separated text files that people use for genomic coordinates. If you do any bioinformatics type work you will have to convert back and forth between them and I suggest bookmarking the UCSC Genome Browser Format FAQ.

Even when we trust in their analysis, some processing of files is always required. In this case, MACS sometimes outputs peaks with negative start coordinates in the beginning of a chromosome. BEDTools will have none of that, because ”malformed GFF entry at line … Start was greater than end”. In this case, it happens only at a few lines, and I decided to set those start coordinates to 1 instead.

We need a small script to solve that. As I’ve written before, any language will do, but I like R and tend to do my utility scripting in R (and bash). If the files were incredibly huge and didn’t fit in memory, we’d have to work through the files line by line or chunk by chunk. But in this case we can just read everything at once and operate on it with vectorised R commands, and then write the table again.

modENCODE_3391 <- read.table("modENCODE_3391.gff3", stringsAsFactors=F, sep="\t")
modENCODE_3392 <- read.table("modENCODE_3392.gff3", stringsAsFactors=F, sep="\t")

fix.coord <- function(gff) {
  gff$V4[which(gff$V4 < 1)] <- 1

write.gff <- function(gff, file) {
  write.table(gff, file=file, row.names=F, col.names=F,
              quote=F, sep="\t")

write.gff(fix.coord(modENCODE_3391), file="cleaned_3391.gff3")
write.gff(fix.coord(modENCODE_3392), file="cleaned_3392.gff3")

Flybase transcripts

To find the distance to genes, we need to know where the genes are. The best source is probably the annotation made by Flybase, which I downloaded from the Ensembl ftp in General transfer format (GTF, which is close enough to GFF that we don’t have to care about the differences right now).

This file contains a lot of different features. We extract the transcripts and find where the transcript model starts, taking into account whether the transcript is in the forward or reverse direction (this information is stored in columns 4, 5 and 7 of the GTF file). We store this in a new GTF file of transcript start positions, which is the one we will feed to BEDTools:

ensembl <- read.table("Drosophila_melanogaster.BDGP5.75.gtf",
                      stringsAsFactors=F, sep="\t")

transcript <- subset(ensembl, V3=="transcript")
transcript.start <- transcript
transcript.start$V3 <- "transcript_start"
transcript.start$V4 <- transcript.start$V5 <- ifelse(transcript.start$V7 == "+",
                                                     transcript$V4, transcript$V5)

write.gff(transcript.start, file="ensembl_transcript_start.gtf")

Finding distance with BEDTools

Time to find the closest feature to each transcript start! You could do this in R with GenomicRanges, but I like BEDTools. It’s a command line tool, and if you haven’t already you will need to download and compile it, which I recall being painless.

bedtools closest is the command that finds, for each feature in one file, the closest feature in the other file. The -a and -b flags tells BEDTools which files to operate on, and the -d flag that we also want it to output the distance. BEDTools writes output to standard out, so we use ”>” to capture it in a text file.

Here is the bash script. I put the above R code in clean_files.R and added it as an Rscript line at the beginning, so I could run it all with one file.

Rscript clean_files.R

bedtools closest -d -a ensembl_transcript_start.gtf -b cleaned_3391.gff3 \
    > closest_element_3391.txt
bedtools closest -d -a ensembl_transcript_start.gtf -b cleaned_3392.gff3 \
    > closest_element_3392.txt

Some results

With the resulting file we can go back to R and ggplot2 and draw cute graphs like this, which shows the distribution of distances from transcript to Hp1b peak for protein coding and noncoding transcripts separately. Note the different y-scales (there are way more protein coding genes in the annotation) and the 10-logarithm plus one transformation on the x-axis. The plus one is to show the zeroes; BEDTools returns a distance of 0 for transcripts that overlap a Hp1b site.

closest_3391 <- read.table("~/blogg/dmel_hp1/closest_element_3391.txt", header=F, sep="\t")

qplot(x=log10(V19 + 1), data=subset(closest_3391, V2 %in% c("protein_coding", "ncRNA"))) +
  facet_wrap(~V2, scale="free_y")


Or by merging the datasets from different antibodies, we can draw this strange beauty, which pretty much tells us that the antibodies do not give the same result in terms of the closest feature. To figure out how they differ, one would have to look more closely into the genomic distribution of the peaks.

closest_3392 <- read.table("~/blogg/dmel_hp1/closest_element_3392.txt", header=F, sep="\t")

combined <- merge(closest_3391, closest_3392,
                  by.x=c("V1", "V2","V4", "V5", "V9"),
                  by.y=c("V1", "V2","V4", "V5", "V9"))

qplot(x=log10(V19.x+1), y=log10(V19.y+1), data=combined)


(If you’re wondering about the points that end up below 0, those are transcripts where there are no peaks called on that chromosome in one of the datasets. BEDTools returns -1 for those that lack matching features on the same chromosome and R will helpfully transform them to -Inf.)

About the DGRP

The question mentioned the DGRP. I don’t know that anyone has looked at ChIP in the DGRP lines, but wouldn’t that be fun? Quantitative genetics of DNA binding protein variation in DGRP and integration with eQTL … What one could do already, though, is take the interesting sites of Hp1 binding and overlap them with the genetic variants of the DGRP lines. I don’t know if that would tell you much — does anyone know what kind of variant would affect Hp1 binding?

Happy hacking!

Written by mrtnj

4 juli, 2014 at 20:08

Journal club of one: ”Genome-wide association of foraging behavior in Drosophila melanogaster fails to support large-effect alleles at the foraging gene” (preprint)

with 4 comments

This preprint was posted on bioRxiv and Haldane’s sieve. It tells the story of one of the best known genetic variants affecting behaviour, the foraging gene in Drosophila melanogaster. for is still a nice example of a large-effect variant causing (developmentally) pleiotropic effects. However, Turner & al present evidence questioning whether for has any substantial effect in natural populations of flies. I think it’s self-evident why I’m interested.

They look at previous evidence for foraging as a quantitative trait gene in files sampled from natural populations and perform genome-wide association and population genetic tests with 35 DGRP lines, finding nothing at the for locus.


(Since this is a preprint, I will feel free to suggest what I think could be improvements to the manuscript. Obviously, these are just my opinions.)

I’m not convinced one can really separate a unimodal from a bimodal distribution with 36 data points? Below are a few histograms simulated from a mixture of two normal distributions where 25 samples are ”rovers” and 11 ”sitters”.


For fun, I also tested for normality with the Shapiro-Wilks’ test as the authors did, and about half of 1000 tests reject. My histograms should not be overinterpreted; I just generated two normal distributions with means log10(2.66) and log10(1.3) with standard deviations 0.1. I don’t know the actual standard deviations of the forS and forR reference strains. Of course, when the standard deviation is small enough, the distributions clearly separate and Shapiro-Wilks’ test will reject.

Power is difficult, but in this case the authors are looking at a well-known effect. They should be able to postulate some reasonable effect-sizes given the literature and the difference between the reference strains and make sure that they’re actually powered to detect it. 35 individuals for a GWAS is not much. They may still have good power to detect a effect of the size expected at for, at least in the single-point test, but it would be nice to demonstrate it. Power feels particularly pertinent as the authors claim to find evidence of absence. The same thing should apply to the population genetic tests, though it’s probably harder to know what effects to expect there.

The authors discuss alternative interpretations, and mention  the fact that in their hands the reference strains did not travel nearly as long as in previous experiments. How likely is it, though, that the variant isn’t segregating in Raleigh but in the populations previously sampled?


Thomas Turner, Christopher C Giauque, Daniel R Schrider, Andrew D Kern. (2014) Genome-wide association of foraging behavior in Drosophila melanogaster fails to support large-effect alleles at the foraging gene. Preprint on bioaRxiv. doi: 10.1101/004325

Written by mrtnj

30 april, 2014 at 19:59

På dna-dagen

leave a comment »

Idag är det tydligen dna-dagen enligt någon; det är i alla fall roligare än kanelbullens dag. Den 25 april 1953 var dagen då artiklarna (Watson & Crick 1953; Franklin & Gosling 1953; Wilkins, Stokes & Wilson 1953) om dna-molekylens struktur publicerades, och dagen då en typ 150-årig jakt på arvsanlagens molekylära natur på något sätt kulminerade. Från äckligt var från något sår till dna-sekvenser, typ. Alla har sett någon bild på dna-strängen, så jag väljer medvetet att inte visa någon sådan. Istället tänkte jag skriva några rader om dna som kod, en vanlig metafor som både är bra och dålig.

Deoxyribonukleinsyra (dna) är en uppbyggt av en ryggrad av deoxyribos samt olika kombinationer av fyra kvävebaser (adenosin, tymin, guanidin och cytosin; de förkortas med sin begynnelsebokstav som A, T, G och C). De kan kombineras i olika ordning och det är följden av A, T, G och C som bildar den dna-sekvens som lagrar biologisk information. En normal dna-molekyl består av två strängar som löper i motsatt riktning. Baserna bildar par där G kombineras med C och A med T. Båda strängarna lagrar alltså samma information men i motsatt och, som det kallas, komplementär riktning.

Sedan bildar dna-molekyler kromosomer: en kromosom är en lång dna-molekyl upplindad på proteiner. Vi diploida organismer har två uppsättningar av våra kromosomer: en från mamma och en från pappa. Genomet är den sammanlagda sekvensen från en uppsättning av alla kromosomer. När en pratar om det mänskliga genomet menar en den mänskliga referenssekvensen, som är ett exempel på hur en uppsättning kromosomer kan se ut. Det finns naturligtvis genetisk variation mellan indiver. Ta till exempel följande bit från människans kromosom 1:

>1 dna:chromosome chromosome:GRCh37:1:11013:12345:1

Men om jag intresserade mig för den här sekvensen skulle jag antagligen betrakta den på en ännu högre abstraktionsnivå, ungefär såhär. Detta är en bild från genomläsaren Ensembl. Detaljerna är inte så viktiga; poängen med den här illustrationen är att genetiken till stor del abstraherar bort den underliggande biokemin. Vi betraktar inte dna-sekvensen direkt, utan med olika bekvämare representationer av dna-sekvensen.


Ibland pratar en om den genetiska koden. Med det uttrycket avses inte hela genomet, utan de ungefär 2% som specificerar sekvensen för proteiner. Det är nämligen så att vissa dna-sekvenser, proteinkodande gener, följer en viss kod som motsvarar en sekvens av aminosyror. Aminosyror, i sin tur, bygger upp proteiner, som är biologiskt aktiva stora organiska molekyler som gör saker i celler och kroppar. Proteiner kan vara enzymer som katalyserar olika reaktioner, transportproteiner som flyttar molekyler fram och tillbaka, strukturella proteiner som bygger upp vävnader etc etc. Den genetiska koden, som det kallas, betsår av tripletter av baser, där en tre baser motsvarar en aminosyra. ATG till exempel, motsvara aminosyran metionin samt även startsignalen för att bygga ett protein. TTT motsvarar fenylalanin, GTA valin och så vidare. TAA, TAG eller TGA innebär att den kodande genen är slut och att proteinsekvensen är färdig.

Men det finns andra dna-sekvenser som har andra funktioner än att koda för proteiner. De är svårare att beskriva och hantera, för deras kod är inte lika regelbunden och lätthanterlig som den genetiska koden, men de är ändå viktiga. Till exempel finns det dna-sekvenser som reglerar när och hur mycket olika delar av kroppen kommer använda proteinkodande gener till att faktiskt tillverka proteiner.

Majoriteten av genomet består inte av gener, utan av diverse jox som inte fyller någon direkt funktion. Spaghettikod är ett skällsord som programmerare ibland använder för kod som är svår att överblicka, förvirrande, och som när den körs kommer hoppa hit och dit. Om det mänskliga genomet ska beskrivas som kod är det förmodligen någon sorts spaghettikod. Jag tänkte länge att ett datorprogram är en fruktansvärt dålig metafor för ett genom, eftersom programkod är konstruerad av mänskliga medvetanden som har en plan. Men mina vänner som arbetar med programmering har övertygat mig om att ett tillräckligt stort mjukvaruprojekt med många inblandade ibland utvecklas lite som ett genom, med en kombination av slumpvisa händelser och naturligt urval, inte bara som en process av rationell design.

Written by mrtnj

25 april, 2014 at 20:58

Publicerat i genetik, molekylärgenetik

Tagged with ,

Oxytocin, amning, gener, orsak och verkan

leave a comment »

Det här är en anledning att skriva lite mer om en gammal käpphäst om orsak och verkan i genetik. Hur kommer det sig att vi som sysslar med genetik är så säkra på att det är genetiska varianter som orsakar skillnader mellan individer, och inte skillnaderna i egenskaper som orsakar genetiska skillnader? Som exempel: den här artikeln (av Jonas m.fl 2013) om genetiska varianter i två gener, den som kodar för hormonet oxytocin och den som kodar receptorn för oxytocin, och deras association med amning. Författarna har tidigare studerat sambandet mellan hur mödrar mår, traumatiska händelser i deras uppväxt och hur länge de ammar sina barn. I den här artikeln undersöker de om genetiska varianter av oxytocingenen och oxytocinreceptorn har någon inverkan på de effekterna. Det verkar som att det spelar roll vilken variant av oxytocingenen mödrarna har. Men hur vet de att det inte är tvärtom?

Tänk på saken: varför är det inte rimligt att genetiska varianter ändras av att en ammar eller inte ammar eller mår mer eller mindre psykiskt dåligt? Jo, tänk på hur kroppen utvecklas ur en befruktad äggcell. Vi börjar alla med två uppsättningar kromosomer, en från mamma och en från pappa, som kopieras när cellerna delar sig för att bygga hela vår kropp. Det kan hända och händer mutationer här och där, så alla celler har inte exakt samma genom. Men, och det här är poängen, mutationerna är slumpvisa, och det finns inget sätt för mutationer i någon del av kroppen att föra över samma ändring till en annan del av kroppen. Dessutom, i genetiska studier av olika slag kommer dna-proverna oftast från något prov som är lätt att komma åt (här: munskrap), oftast inte samma celler som de som är inblandade i den intressanta egenskapen. Det dna de typar kommer inte från hjärnan eller brösten. Därför kan en vara helt säker på att associationerna orsakas av genetiska varianter och inte tvärtom.

Det är hyfsat vanligt att, som författarna gjort i ett par av sina figurer, illustrera det här med lådor och pilar som symboliserar orsaker och verkan. Det finns till och med flera förslag på hur en kan använda genetiska varianter associerade med egenskaper som en sorts ankare för att reda ut orsaksförhållanden mellan egenskaper (Aten m.fl 2008). Det finns ingen pil som leder från individens egenskaper till den genetiska varianten (en teknisk term för detta är att den är exogen). Lägg märke till att det här inte är någon statistisk slutledning som kommer ur de data författarna samlat in. Det är ett antagande baserat på vad en vet om organismens utveckling och hur arvsmassan fungerar.


De ovanstående lådorna och pilarna visar hur författarna antar att det hänger ihop. Det kan finnas en direkt effekt från traumatiska händelser i barndomen och hur länge en ammar, och så finns det en effekt som beror på depression. Deras resultat tyder på att en genetisk variant i oxytocinreceptorn har en indirekt effekt på amning genom att ändra effekten av depression. Att de tittar på oxytocin och dess receptor är rimligt: oxytocin är direkt involverat i amning, men det oxytocin uttrycks också i hjärnan och är inblandat i band mellan moder och barn. Författarna spekulerar såhär:

The mechanism behind the association between OXT genotype and breastfeeding is less clear. OXT rs2740210 [detta är namnet på den genetiska varianten] may be linked to breastfeeding performance through its association with the milk ejection reflex (Lincoln & Paisley 1982) and to the oxytocin release pattern (Johnston & Amico 1986), which is associated with the amount of milk expressed during a breastfeeding  session (Nissen et al. 1998). Mothers carrying at least one A allele may have a more efficient milk release in response to the  suckling stimulus to facilitate further breastfeeding. /…/ OXT rs2740210 may also associate with breastfeeding beyond  ‘lactation’ through an effect on maternal behavior, i.e. an effect moderated by brain oxytocin.

Men utan att det nödvändigtvis är någon kritik av just den här studien, så är jag alltid lite misstänksam mot associationsstudier baserade på rimliga kandidater. Tänk distinktionen mellan geners molekylära funktion och varianter av gener som förklarar skillnader mellan individer. Att oxytocingenerna är inblandade i amning betyder inte nödvändigtvis att det finns genetiska varianter i oxytocingenerna som förklarar skillnader mellan individer i hur mycket de ammar. Det finns många gener som är inblandade i att forma beteenden under någon fas i organismens utveckling. Vi är definitivt inte på det stadiet att vi kan plocka de rätta nålarna ur höstacken.

För det andra, tänk på statistisk osäkerhet. Å ena sidan kan det vara att begränsa sig till varianter nära vissa gener. Ju färre genetiska markörer en desto mindre risk att prata känslor med en död lax. Å andra sidan, är en associationsstudie med cirka 200 individer stor nog att uppskatta en realistisk effekt av varianter nära oxytocin och oxytocinreceptorn? Tvåhundra låter stort, men allt beror på variationen. Om bruset blir för stort i förhållande till effekten och studiens storlek kommer det en punkt där det är helt omöjligt att trovärdigt mäta upp effekten. Allt som kommer fram kommer vara brus. Problemet är att det är svårt att veta var den nivån går. En måste inte bara räkna efter, utan också göra diverse antaganden om den genetiska effektens storlek. Om sanningen ska fram så är det ingen som vet hur stor effekten av en genetisk variant bör vara, mer än att den antagligen kommer vara liten. Gen–miljöinteraktioner är väldigt intressant, och antagligen viktigt, så jag gillar att författarna försöker, men med komplexa mänskliga beteenden är det svårt.

(Den här posten stammar ur en diskussion jag såg på Twitter mellan Mia Fahlen, Per Köhler och Frida Olsson Skog. Det bästa med Twitter är att det ibland är som ett stort seminarierum. Nu pratade de mest om andra saker än jag skrivit här, men artikeltipset kommer därifrån.)


Jonas, W., Mileva‐Seitz, V., Girard, A. W., Bisceglia, R., Kennedy, J. L., Sokolowski, M., … & Steiner, M. (2013). Genetic variation in oxytocin rs2740210 and early adversity associated with postpartum depression and breastfeeding duration. Genes, Brain and Behavior, 12(7), 681-694.

Aten, J. E., Fuller, T. F., Lusis, A. J., & Horvath, S. (2008). Using genetic markers to orient the edges in quantitative trait networks: the NEO software. BMC Systems Biology, 2(1), 34.

Written by mrtnj

17 april, 2014 at 19:06

Publicerat i genetik

Tagged with , , ,

Vilken funktion? Katedralen i Venedig, honors penisar och proopiomelanokortin

leave a comment »

Apropå geners funktion: Per Köhler frågade:


Bra fråga. Han hänvisar det en viss artikel och en viss terminologi från Stephen Gould och Richard Lewontin: The Spandrels of San Marco and the Panglossian Paradigm: A Critique of the Adaptationist Programme (1979). Det är en pamflett om evolution som verkar ha haft stort inflytande; den kommer på tal med jämna mellanrum i olika sällskap och biologer har mycket olika åsikter om den. Jag tror den är relativt tillgänglig och värd att läsa en bit av, om en bara kommer ihåg att den är en inlaga i en debatt som inte riktigt finns längre.

Kort och gott skäller Gould & Lewontin på forskare som för lättvindigt antar att organismers olika egenskaper är anpassningar som hjälper dem fortplanta sig. Naturligt urval kan inte åstadkomma vad som helst och har ingen plan för framtiden, så många av levande varelsers egenheter kan bara ha råkat bli så. Som ett exempel på saker som är så för att de blir så lanserar de en liknelse om St Markuskyrkan i Venedig. De tar valvbågarna i kyrkans tak som exempel. De kilformiga ytorna, spandrillerna, är förgyllda och har porträtt av de fyra evangelisterna, men Gould & Lewontin hävdar att det är fel att börja med att anta att spandrillernas funktion är att bära dekorationer, för spandrillerna är en nödvändig bieffekt av andra val vid utformningen av kyrkan. De myntar ordet spandrill (spandrel på engelska) för biologiska egenskaper som har den sortens historia: de uppstod som en bieffekt av något annat och råkar sedan få en ny funktion.


(Foto: Ricardo André Frantz, via Wikimedia Commons. cc:by-sa 2.5)

Jag vet ingenting om arkitektur, men liknelsen om St Markuskyrkan handlar tack och lov inte om det, utan om genetisk arkitektur. Gould & Lewontin föreslår att många egenskaper inte uppstår för att de är föremål för naturligt urval själva, utan för att de är genetiskt korrelerade till andra egenskaper som främjas av naturligt urval. Det är samma genetiska varianter, så att välja den ena egenskapen betyder att den andra hänger med.

För att det här ska bli något begripligare, låt oss ta ett par exempel! Först ett från Gould (1997) och sedan ett nyare exempel (Franchini m.fl 2011). Hos fläckiga hyenor har inte bara hanar utan också honorna en penis. Ibland kallas den pseudopenis, men jag vet inte riktigt vad det är som är pseudo- med den mer än att den sitter på en hona. Hyenorna har också ett socialt system där honorna är bildar en dominanshierarki över hanarna och är jämförelsevis aggressiva. De använder sina penisar i hälsningsceremonier, så den verkar fylla någon social funktion. Som Gould skriver finns det åtminstone två möjliga hypoteser. Är honornas penis en produkt av naturligt urval för bättre social signalering, eller är det kanske en naturligt urval för ändrat beteende som påverkat hormoner som orsakat en ”maskuliniserad” klitoris som bieffekt? Ibland går det att titta närbesläktade arter med och utan egenskapen och ta reda på vad som kom först. Och ibland går det att testa om en viss bieffekt är rimlig, i det här fallet att undersöka om det verkligen är samma hormoner som är inblandade i hyenans penis och beteende. Men det är svårt att säkert veta om något är en anpassning eller inte.

För att göra språkbruket ännu rörigare myntade Gould & Lewontin ett ord till för sina spandriller: exaptation. En adaptation är en evolutionär anpassning; en exaptation är en evolutionär anpassning som bygger vidare på något som från början uppstod som bieffekt. En exapation är en spandrill som har en ny funktion, som när någon kom på att sätta upp mosaiker av evangelisterna i katedralen. Det finns en bunt molekylära exempel på exaptationer: dna-sekvenser som haft någon annan funktion men som av någon mutation flyttats om så att de hamnat i ett nytt sammanhang och börjat göra något nytt. Ett fint exempel kommer från Franchini & co (2011) som studerade regleringen av en gen som heter POMC. Den kodar för proopiomelanokortin som är ett förstadium till flera hormoner som är inblandade i bland annat aptitreglering. POMC uttrycks i hypothalamus under kontroll av två reglerande sekvenser. Den ena, som heter nPE2, uppstod i en urmoder till däggdjuren, medan den andra, nPE1, är yngre och uppstod i en urmoder till placentadjuren. Själva POMC-genen finns bland käkförsedda ryggradsdjur. Poängen är att när Franchini & co letade efter nPE1:s ursprung så fann de att den matchar väl med familj retrotransposoner, alltså en sekvens som från början kommer från ett retrovirus. Virusgenom formas naturligtvis bland annat av naturligt urval, men inte för att reglera däggdjurs hormoner.

Med det i åtanke kan en dela upp spandriller i två sorter: de som uppstått som bieffekter men idag inte har någon evolutionär funktion och de som har fått en ny evolutionär funktion och är exaptationer. I det första fallet är frågan att skilja det som har evolutionär nytta från det som bara råkar ha blivit så, och problemet är att det är ganska lätt att hitta på hyfsat trovärdiga hypoteser om hur det mesta skulle kunna ha någon funktion, men väldigt svårt att avgöra hur det egentligen har gått till. I det andra fallet är det frågan om att avgöra i vilken ordning saker har ägt rum, vilken funktion som kom först och när den nya funktionen kom till. Och till saken hör att på molekylär nivå kommer (nästan) alla egenskaper ha en exaptation någon gång i sin historia. Det är omöjligt, eller i alla fall väldigt osannolikt, att komplexa reglerande sekvenser uppstår i ett slag. Nya sekvenser byggs upp av evolution för någon annan funktion eller process av neutral evolution innan de råkar arrangeras om och få en ny funktion. Nya reglerande sekvenser, som nPE1 ovan, kan flyttas om så att de börjar reglera en ny gen. Gener med nya funktioner uppstår ofta från duplicerade kopior av gener med någon annan funktion (se IRX3, till exempel). Jag ber om ursäkt om det låter som att jag trivialiserar deras fina metafor, men vad Gould & Lewontin egentligen säger är att att evolutionen tager om den så hava kan.


Gould, S. J., & Lewontin, R. C. (1979). The spandrels of San Marco and the Panglossian paradigm: a critique of the adaptationist programme. Proceedings of the Royal Society of London. Series B. Biological Sciences, 205(1161), 581-598.

Gould, S. J. (1997). The exaptive excellence of spandrels as a term and prototype. Proceedings of the National Academy of Sciences, 94(20), 10750-10755.

Franchini, L. F., López-Leal, R., Nasif, S., Beati, P., Gelman, D. M., Low, M. J., … & Rubinstein, M. (2011). Convergent evolution of two mammalian neuronal enhancers by sequential exaptation of unrelated retroposons. Proceedings of the National Academy of Sciences, 108(37), 15270-15275.

Written by mrtnj

14 april, 2014 at 17:36

Publicerat i evolution, genetik

Tagged with , ,

Journal club of one: ”Maternal and additive gentic effects contribute to variation in offspring traits in a lizard”

leave a comment »

The posts this week have been about epigenetics. However, let’s step back from the molecular mechanisms and what not to look at the bigger picture. This recent paper by Noble, McFarlane, Keogh and Whiting (2014) looks at maternal effects and additive genetic effects on fitness-related traits in a lizard. Now we are in quantitative genetics territory where one uses pedigrees and phenotypes to look at the determinants of a trait while abstracting away the mechanistic details. Nowadays, quantitative genetics is also equipped with Bayesian animal models and the ability to do parentage assignment with molecular methods.

The authors measured at size, body mass, and growth and as well as the speed and endurance when running. The fun part is that while only endurance had a substantial heritability (0.4), the other traits had maternal components in the 0.2-0.5 range. So for most of the traits there’s little heritability while a big chunk of the trait variance is explained by maternal effects.


I like the idea to include maternal traits to see look at what causes the maternal effect. Clutch size, maternal size and condition seem matter for some trait or another. In two cases the maternal effect is entirely explained away: the effect on growth by birth date and clutch size, and sprint speed by birth date.

The inferences come from an animal model that include a maternal effect. Something I’m curious about is how heritability would be overestimated if the maternal component was not accounted for. That is beside the point of the paper, though.

Another interesting point: I think everyone who deals with animals in some type of controlled environment wonder about how much our measurements differ from what would’ve been measured in a more natural environment. In this case, the authors measured offspring growth both in the test environment and in an enclosure. They find a maternal effect in the test environment, while the interval for the heritability goes from almost zero to 0.5. In the wilder environment they estimate very little genetic and maternal variance, as well as a larger residual variance. I don’t know if this is just because of increased noise, or because maternal effects actually interact with condition.

Also, I love figure 1 (the one figure). If more papers had caterpillar plots of most important estimated quantities, the world would be a better place.


Noble, D. W., McFarlane, S. E., Keogh, J. S., & Whiting, M. J. (2014). Maternal and additive genetic effects contribute to variation in offspring traits in a lizard. Behavioral Ecology, aru032.

Written by mrtnj

11 april, 2014 at 18:46

Paper: ”Heritable genome-wide variation of gene expression and promoter methylation between wild and domesticated chickens”

with one comment

Since I love author blog posts about papers, I thought I’d write a little about papers I’ve contributed too. So far, they’re not that many, but maybe it can be a habit.

Heritable genome-wide variation of gene expression and promoter methylation between wild and domesticated chickens” was published in BMC Genomics in 2012. The title says it very well: the paper looks at differential expression and DNA methylation of a subset of genes in the hypothalamus of Red Junglefowl and domestic White Leghorn chickens. My contribution was during my MSc project in the group. Previously (Lindqvist & al 2007; Nätt & al 2009) Daniel Nätt, Pelle Jensen and others found a transgenerational effect of unpredictable light stress on domestic chickens. After that, and being interested in chicken domestication, a DNA methylation comparison of wild and domestic seems like a natural thing to do. And it turns out Red Junglefowl and White Leghorns differ in expression of a bunch of genes and in methylation of certain promoters (where promoter is operationally defined as a region around the start of the gene model). And when looking at two generations, the contrasts are correlated between parent and offspring. There is some heritable basis of the differences in gene expression and  DNA methylation.

In Red Junglefowl, ancestor of domestic chickens, gene expression and methylation profiles in thalamus/hypothalamus differed substantially from that of a domesticated egg laying breed. Expression as well as methylation differences were largely maintained in the offspring, demonstrating reliable inheritance of epigenetic variation.

What I did was methylation sensitive high resolution melting. HRM is a typing method based on real time PCR. After PCR you often make a melting curve by ramping up the temperature, denaturing the PCR product. The melting characteristics depend on the sequence, so you can use melting to check that you get the expected PCR product, and it turns out that the difference can be big enough to type SNPs. And if you can type SNPs, you can analyse DNA methylation. So we treat the DNA with bisulfite, which deaminates cytosines to uracil unless they are protected by methylation, and get a converted sequence where an unmethylated C is like a C>T SNP. We set up standard curves with a mixture of whole-genome amplified and in vitro methylated DNA and measured the degree of methylation.

That is averaging over the population of DNA molecules in the sample; I’ve been wondering how HRM performs when the CpGs in the amplicon have heterogenous methylation differences. We’ve used HRM for genotyping as well, and it works, but we’ve switched to pyrosequencing, which gives cleaner results and where the assay design is much easier to get right the first time. I don’t know whether the same applies for methylation analysis with pyro.


My favourite part of the paper is figure 4b (licence: cc:by 2.0) which shows methylation analysis in the advanced intercross of Red Junglefowl and White Leghorns, which immediately leads to, as mentioned in the paper, the thought of DNA methylation QTL mapping.


Nätt, D., Rubin, C. J., Wright, D., Johnsson, M., Beltéky, J., Andersson, L., & Jensen, P. (2012). Heritable genome-wide variation of gene expression and promoter methylation between wild and domesticated chickens. BMC genomics, 13(1), 59.

Lindqvist C, Janczak AM, Nätt D, Baranowska I, Lindqvist N, et al. (2007) Transmission of Stress-Induced Learning Impairment and Associated Brain Gene Expression from Parents to Offspring in Chickens. PLoS ONE 2(4): e364. doi:10.1371/journal.pone.0000364

Nätt D, Lindqvist N, Stranneheim H, Lundeberg J, Torjesen PA, et al. (2009) Inheritance of Acquired Behaviour Adaptations and Brain Gene Expression in Chickens. PLoS ONE 4(7): e6405. doi:10.1371/journal.pone.0006405

Written by mrtnj

10 april, 2014 at 17:57

Also: the spectre of epigenetic inheritance

leave a comment »

What is is that is so scandalous about epigenetic inheritance? Not much, in my opinion. Some of the points on the spectrum clearly happen in the wild: stable and fluctuating epigenetic inheritance in plants, parental effects in animals and genomic imprinting in both. Widespread epigenetic inheritance in animals would change a lot of things, of course, but even if epigenetic inheritance turns out to be really important and common, genetics and evolution as we know them will not break. The tools to study and understand them are there.

Looking back at the post from yesterday, there are different flavours of epigenetic inheritance. At the most heritable end of the spectrum, epigenetic variants behave pretty much like genetic variants. Because quantitative genetics is agnostic to the molecular nature of the variants, as long as they behave like an inheritance system, most high-level genetic analysis will work the same. It’s just that on the molecular level, one would have to look to epigenetic marks, not to sequence changes, for the causal variant. Even if a substantial proportion of the genetic variance is caused by epigenetic variants rather than DNA sequence variants, this would not be a revolution that changes genetics or evolution into something incommensurable with previous thought.

The most revolutionary potential lies somewhere in the middle of the scale, in parental effects with really high fidelity of transmission that are potentially responsive to the environment, but in principle these things can still be dealt with by the same theoretical tools. Most people just didn’t think they were that important. How about soft inheritance? It seems dramatic, but all examples deal with specific programmed mechanisms: soft inheritance of the sensitivity to a particular odour or of the DNA methylation and expression state of a particular locus. No-one has yet suggested a generalised Lamarckian mechanism; that is still out of the question. DNA mutations are still unable to pass from somatic cells to gametes. Whatever tricks transgenerational mechanisms use to skip over the soma–germline distinction, they must be pretty exceptional. Discoveries of widespread soft inheritance in nature would be surprising, a cause for rethinking certain things and great fun. But conceptually, it is parental effects writ large. We can understand that. We have the technology.

Written by mrtnj

9 april, 2014 at 18:40

Morning coffee: the spectrum of epigenetic inheritance

leave a comment »


Let us think aloud about the different possible meanings of epigenetic inheritance. I don’t want to contribute to unnecessary proliferation of terminology — people have already coined molar/molecular epigenetics (Crews 2009), intergenerational/transgenerational effects (Heard & Martienssen 2014), and probably several more dichotomies. But I thought it could be instructive to try to think about epigenetic inheritance in terms of the contribution it could make to variance components of a quantitative genetic model. After all, quantitative genetics is mostly agnostic about the molecular nature of the heritable variation.

At one end of the spectrum we find molecular epigenetic marks such as DNA methylation, as they feature in the normal development of the organism. Regardless of how faithfully they are transmitted through mitosis, or even if they pass through meiosis, they only contribute to individual variation if they are perturbed in different ways between individuals. If they do vary between individuals, though, in a fashion that is not passed on to the offspring, they will end up in the environmental variance component.

What about transmissible variation? There are multiple non-genetic ways for information to be passed a single generation: maternal or paternal effects need not be epigenetic in the molecular sense. They could be, like genomic imprinting, but they could also be caused by some biomolecule in the sperm, something that passes the blood–placenta barrier or something deposited by the mother into the egg. Transgenerational effects of this kind make related individuals more similar, they will affect the genetic variance component unless they are controlled. And in the best possible world of experimental design, parental effects can be controlled and modelled, and we can in principle separate out the maternal, paternal and genetic component. Think of effects like in Weaver & al (2004) that are perpetuated by maternal behaviour. If the behavioural transmission is strong enough they might form a pretty stable heritable effect that would appear in the genetic variance component if it’s not broken up by cross-fostering.

However, if the variation behaves like germ-line variation it will be irreversible by cross-fostering, inseparable from the genetic variance component, and it will have the potential to form a genuine parallel inheritance system. The question is: how stable will it be? Animals seem to be very good at resetting the epigenetic germline each generation. The most provocative suggestion is probably some type of variation that is both faithfully transmitted and sometimes responsive to the environment. Responsiveness means less fidelity of transmission, though, and it seems (Slatkin 2009) like epigenetic variants need to be stable for many generations to make any lasting impact on heritability. Then, at the heritable end of the spectrum, we find epigenetic variants that arise from some type of random mutation event and are transmitted faithfully through the germline. If they exist, they will behave just like any genetic variants and even have a genomic locus.

Written by mrtnj

8 april, 2014 at 07:45

Vad är funktion?

with one comment

Igår påstod jag att när jag skriver ”gen” så menar jag en dna-sekvens med ett namn och en funktion. Befogad fråga: vad sjutton är en funktion? Om det tvistar de lärda med flera, vilket illustreras av debatten om dna-encyklopedin ENCODE. Jag har skrivit lite om det förut, men kortfattat: ENCODE gick ut på att använda olika sekvenseringsbaserade experiment för att hitta de sekvenser i det mänskliga genomet som har någon funktion. Projektet hävdade at en väldigt stor de av genomet, upp till 80%, dök upp i något av experimenten som kopplade till någon biokemisk aktivitet. Deras motståndare svarade att ENCODE använt fel definition av ”funktion”; det viktiga är inte aktivitet utan om den aktiviteten bevarats av naturligt urval.

För det första: en dna-sekvens gör ingenting i sig själv; det är inte det som är frågan. Det intressanta är vad cellen och dess maskineri av biologiskt aktiva proteiner och rna-molekyler gör med en dna-sekvens. Det enklaste är kanske att säga att en sekvens’ funktion är vad cellen gör med den, åtminstone om det sker tillräckligt pålitligt och reproducerbart. Å andra sidan kan en ha en evolutionär syn på funktion, där en sekvens endast har en funktion om den främjats av naturligt urval. Alltså: sekvensen ser ut som den gör och cellen använder den som den gör därför att det på något sätt givit individer som bär den reproduktiv framgång. Dan Graur & co (2013) skrev en mycket arg artikel om ENCODE där de bland annat förespråkar den evolutionära synen på funktion. Artikeln är kanske lite för arg, men det här är ett bra exempel:

In biology, there are two main concepts of function: the “selected effect” and “causal role” concepts of function. /…/ For clarity, let us use the following illustration (Griffiths 2009). There are two almost identical sequences in the genome. The first, TATAAA, has been maintained by natural selection to bind a transcription factor; hence, its selected effect function is to bind this transcription factor. A second sequence has arisen by mutation and, purely by chance, it resembles the first sequence; therefore, it also binds the transcription factor. However, transcription factor binding to the second sequence does not result in transcription, that is, it has no adaptive or maladaptive consequence. Thus, the second sequence has no selected effect function, but its causal role function is to bind a transcription factor.

Jag tror inte att jag förvränger Graur & co:s argument om jag säger att de ser 80%-siffran som en sorts reductio ad absurdum av att prata om funktion som bara vad en dna-sekvens används till. Genomet är stort och fullt med sekvenser som bara av en slump innehåller bindingsställen för olika reglerande proteiner etc. Oavsett om det råkar skrivas av till rna ibland eller binda till transkriptionsfaktorer så är det mesta ändå att betrakta som irrelevant från det naturliga urvalets synpunk. Sedan finns det en del som tycker att skräp-dna låter slarvigt och vulgärt, men det är en fråga om språkbruk, inte om genomets funktion.

Hur vet en då om en sekvens har funktion ur det naturliga urvalets perspektiv? När genomet kopieras drabbas det av slumpvisa mutationer, avskrivningsfel helt enkelt, som ändrar sekvensen här och där. Om mutationen gör att något går sönder och det påverkar individens förmåga att reproducera sig tillräckligt kommer varianten sorteras bort av naturligt urval. Därför är vissa viktiga delar av genomet, framför allt de gener som kodar för proteiner, konserverade. Därför går de också att känna igen mellan arter som är mycket avlägset släkt, även om den omkringliggande icke-kodande sekvensen kan vara helt olika.

Men det är inte självklart att det alltid är funktion-genom-naturligt-urval som är det intressanta. För det första, allt är inte lika väl konserverat som de proteinkodande sekvenserna, så det är inte säkert att alla reglerande sekvenser och nyligen tillkomna gener som är specifika för ett visst släkte kommer gå att hitta med metoder som letar efter konservering. Det finns en risk att missa de absolut senaste intressanta sekvenserna under naturligt urval bara för att det inte finns något att jämföra med. Dessutom är det inte alls säkert att en bara är intresserad av sekvenser som bevaras av naturligt urval. Om en studerar mänsklig sjukdom, till exempel, är det mycket möjligt att de intressanta sekvenserna faktiskt är neutrala i förhållande till naturligt urval. De kan till exempel ha sin effekt sent i livet, efter reproduktiv ålder.

Written by mrtnj

3 april, 2014 at 21:00

Publicerat i evolution, genetik

Tagged with , ,


Få meddelanden om nya inlägg via e-post.

Gör sällskap med 1 135 andra följare