There is grandeur in this view of life

martins bioblogg

Gruppselektion fungerar, men är det viktigt?

leave a comment »

Det här kommer bara vara roligt för dem som redan bryr sig om gruppselektion, men de är förvånansvärt många. Av någon anledning är gruppselektion väldigt provocerande. Ordet ”selektion” är en omskrivning för naturligt urval. Naturligt urval händer när vissa individer i en population har egenskaper som gör dem bättre på att överleva och fortplanta sig än andra. Om egenskaperna ifråga är ärftliga gör det att populationens egenskaper ändras över generationerna. Detta är evolution genom naturligt urval. De genetiska varianter som får individer att klara sig bättre ökar i frekvens. Men tänk om populationen består av grupper av individer som lever särskilt nära varandra. Kan det finnas egenskaper hos en grupp som gör den framgångsrik och som inte kan förklaras av selektion på individer? Ja, det fullt möjligt. Frågan är hur viktigt det är i naturen.

Organismer gör vanligtvis inte saker för populationens, artens eller gruppens skull. De gör saker för sig själva och sin avkomma. Men det finns många situationer där det är lönsamt, alltså förknippat med större reproduktiv framgång, att samarbeta, hjälpa andra och bete sig altruistiskt. Det är ganska tydligt varför det kan vara fördelaktigt för en individ att hjälpa sina ungar. De bär ju på hälften av ens genetiska material! Vi tänker oss en art där ungarna behöver omvårdnad medan de är små. Där kan en genetisk variant som ökar föräldrabeteendet sprida sig, eftersom den ger bäraren fler överlevande ungar, där i medeltal hälften i av dem kommer bära på samma variant. Samma resonemang fungerar för mer avlägsna släktingar, bara i mindre grad, eftersom sannolikheten att vi delar genetiska varianter blir mindre ju längre från varandra i släktträdet vi befinner oss. Detta kallas släktskapsselektion (engelska: kin selection), att förbättra sin reproduktiva förmåga indirekt genom släktingar. Tyvärr är det ett ganska uselt namn, eftersom det är ett namn på en typ av strategier, inte en egen form av selektion. Ett annat namn för samma sak är inclusive fitness, men det är typ omöjligt att översätta till något vettigt.

Det finns en lång lista med möjliga sätt som altruism kan löna sig i längden (se t.ex. West, Griffin & Gardner 2006). Det kan handla om att hjälpa sina släktingar, som ovan, eller att byta tjänster och gentjänster, eller min favorit: grönt skägg-altruism. Det är en situation där vi tänker oss en genetisk variant som har två olika effekter. Å ena sidan får den individen att bete sig altruistiskt mot individer som har ett visst kännetecken, hypotesens ”gröna skägg”. Dessutom får den individen själv att odla ett grönt skägg, alltså uttrycka samma signal. På så sätt kan den sprida sig genom att bärarna känner igen och hjälper varandra.

Så sociala interaktioner och altruism är inga stora mysterier som helt saknar förklaringar. Men att det inte verkar finnas ett skriande teoretiskt behov av gruppselektion betyder inte att effekter på gruppnivå inte finns. Låt oss därför ta ett exempel där selektion på gruppnivå utan tvivel fungerar och påverkar egenskaper. Naturligtvis kommer exemplet från artificiell selektion, inte naturligt urval, och det handlar om höns. En första version av experimentet ifråga beskrivs av William Muir (1996). Höns är inte riktigt anpassade för ett liv i industriell uppfödning. Ett vanligt problematiskt beteende är att hönsen hackar varandra, i värsta fall till döds. Det här experimentet gick ut på att försöka avla dem för att klara sig bättre i gruppburar med flera höns — utan att klippa i deras näbbar, vilket knappast löser problemet för hönsen men hindrar symptomen … Näbbtrimning är förbjudet bland annat i Sverige. Muir avlade höns på överlevnad i gruppburar, där invånarna i en bur valdes eller valdes bort tillsammans som en grupp. I generation 2 var dödligheten 70%. Jag upprepar: på ett år dog 70% av hönsen. I generation 6 var dödligheten 9% procent, vilket är samma dödlighet som kontrolldjur som hölls ensamma.

En stor del av dödligheten förklaras av hur mycket individen blir hackad. Det kan såklart finnas genetiska varianter som skyddar offer mot fjäderhackning, men det viktigaste för individens överlevnad är inte hur mycket den själv hackar utan hur mycket de andra hackar. Det här fenomenet, när en individs egenskaper påverkas av vilka genetiska varianter som finns hos dem hen interagerar med, kan beskrivas med indirekta genetiska effekter. Indirekta genetiska effekter är en mekanism för hur gruppselektion kan fungera. Okej, men vad hade hänt med vanlig avel på individuell nivå? I ett liknande experiment, med höns i gruppburar, tittade författarna (Bijma & co 2007) på direkta och indirekta genetiska effekter på överlevnad. Jag har skrivit om heritabilitet förut, ett mått på hur stor del av variationen i en egenskap som beror på genetisk variation. Den kan skattas med en statistisk modell (se t.ex. Kruuk 2004) där en lägger samman mätningar och släktträd från ett antal individer och uppskattar hur stor del av egenskapen som går i släkten. Bijma & co använde en utökad version av samma modell som också tar hänsyn till effekten av andra gruppmedlemmar och deras släktträd. Det ger dels en vanlig direkt genetisk varianskomponent, den som används till heritabilitet, och en total varians som räknar med påverkan från de andra gruppmedlemmarna. I det här fallet var den totala genetiska variansen för överlevnad ungefär tre gånger så stor som den direkta genetiska variansen. Det intressanta med genetisk varians i avelssammanhang är att den visar hur snabbt en population kommer påverkas av selektion. I den här populationen bör alltså gruppselektion vara betydligt effektivare än individuell selektion i att minska dödligheten. I princip är det möjligt att ha en direkt och indirekt genetisk effekt i motsatt riktning, där selektion på individ och grupp skulle ge motsatta resultat.

Så långt hönshuset. Kan något liknande hända i naturen? Nyligen kom det en artikel (Pruitt & Goodnight 2014) som hävdar att de sett lokal anpassning på gruppnivå hos spindlar av arten Anelosimus studiosus. Spindlarna lever i kolonier där individerna kan klassificeras i två olika beteendetyper: lugna och aggressiva spindlar. Beroende på hur mycket resurser det finns i omgivningarna har naturliga kolonier olika sammansättning. Så författarna samlade in spindlar från olika ställen, födde upp dem i laboratoriet, testade deras beteende och satte ut dem igen i konstruerade kolonier med olika gruppsammansättning. Sedan kom de tillbaka med jämna mellanrum för att se hur bra experimentkolonierna klarade sig. Kort och gott löpte kolonierna större risk att dö ut om deras sammansättning inte matchade sammansättningen hos naturliga kolonier på den platsen. Det verkar som att på vissa platser är det bra att ha många aggressiva spindlar i en koloni, på andra färre, och om en koloni har för många eller för få kommer den klara sig sämre. I rika omgivningar med mycket att äta verkar det fungera bättre att ha många aggressiva individer. I fattigare omgivningar är det bättre med många lugna.

joe_lapp_astud

(A. studiosus av Joe Lapp, på Flickr. cc:by 2.0)

Beteendetyperna, ”lugn” och ”aggressiv” verkar i det här fallet vara till största del bestämda av genetiska varianter. Så frågan är: Vilka interaktioner mellan individer inom kolonin är det som gör att en koloni får en viss sammansättning? Någonting verkar det vara i alla fall, för författarna prövade också att flytta kolonier mellan rik och fattig miljö. Och det ser ut som att kolonier behåller sin karaktäristiska sammansättning över generationerna. Spindlar som kommer från en fattig miljö fortsätter hålla en låg andel aggressiva individer i sina kolonier, även om det vore bättre för dem att ha fler. De verkar vara lokalt anpassade till en resursfattig miljö, där en låg andel aggressiva spindlar hade fungerat bättre.

Oftast det såklart så att de en lever närmast ofta också är de en är närmast släkt med. Så om släktskapsselektion och gruppselektion händer samtidigt kommer det vara svårt eller omöjligt att skilja dem åt. Att jag har svårt att komma på hur en alternativ förklaring med släktsskapsselektion skulle se ut i fallet spindlarna kan bara vara min bristande fantasi. Det är populärt att påstå något i stil med ”gruppselektion och släktskapsselektion är samma sak” av matematiska skäl. Men bevisen för att de bara är beskrivningar av samma process verkar inte vara entydiga. van Veelen m.fl. (2012) ger ett motexempel på en modell där de inte ger samma resultat. Jag kan inte påstå att jag förstår den teoretiska litteraturen på det här området, men att modeller av gruppselektion och av släktskapsselektion är bevisat matematiskt ekvivalenta verkar vara för mycket sagt.

Litteratur

West, S. A., Griffin, A. S., & Gardner, A. (2007). Social semantics: altruism, cooperation, mutualism, strong reciprocity and group selection. Journal of evolutionary biology, 20(2), 415-432.
Bijma, P., Muir, W. M., Ellen, E. D., Wolf, J. B., Van Arendonk, J. A. (2007). Multilevel selection 2: estimating the genetic parameters determining inheritance and response to selection. Genetics, 175(1), 289-299.
Kruuk, L. E. (2004). Estimating genetic parameters in natural populations using the ‘animal model’. Philosophical Transactions of the Royal Society of London. Series B: Biological Sciences, 359(1446), 873-890.
Nature.

Interaktioner mellan gener förklarar antagligen inte den saknade ärftligheten

leave a comment »

Har fått flera tips om den här artikeln:

Asko Mäki-Tanila & William Hill (2014)  Influence of Gene Interaction on Complex Trait Variation with Multilocus Models. Genetics.

Den har en hyfsat torr titel och rätt många ekvationer och handlar om något av det intressantaste nämligen kvantitativa egenskaper och gen–gen-interaktioner. Saknad heritabilitet är ett känt genetiskt problem. Det finns flera förslag på lösningar och det är bara att välja sin favorit. Författarnas beräkningar tyder på att den antagligen inte förklaras av interaktioner mellan gener. (Varning: ganska lång och nördig bloggpost. Som vanligt.)

Vad är heritabilitet? Vi tänker oss en egenskap som varierar i en population. Om egenskapen är ärftlig kommer en del av variationen att gå i familjen. Och om vi mäter den och har ett släktträd över individerna kan vi uppskatta hur stor del av variationen som förklaras av släktskap. Detta uttrycks som varianser och kvoten mellan additiv genetisk varians och den totala variansen kallas heritabilitet. (Vadå ”additiv”? Vi kommer tillbaka till det.) Heritabiliteten är ett bråktal mellan noll och ett där ett större värde är en större ärftlig komponent.

Vad är det som saknas? Vi ska inte göra någon katalog, men det finns otaliga olika egenskaper hos växter och djur som är delvis ärftliga. Många har också gjort genetisk kartläggning (en samling tekniker som jag ofta tjatar om, bara delvis för att jag jobbar med dem) för att hitta de gener som förklarar ärftligheten och kunna undersöka hur de fungerar. Problemet är att de gener som går att hitta nästan alltid bara förklarar en liten andel av den ärftliga variationen. För nästan alla egenskaper finns det en avsevärd ”saknad heritabilitet” som måste bero på okända genetiska varianter. Den saknade delen är nästan alltid mycket större än den som förklaras av kända varianter. Exempel: Nyligen publicerades en analys av mänsklig längd baserad på 250 000 individer (Wood & al 2014). Den hittar cirka 700 genetiska varianter som tillsammans förklarar ungefär en femtedel av heritabiliteten.

Okej, så var gömmer den sig? Förmodligen är det är många varianter som bidrar med mycket små enskilda effekter. Då skulle det behövas ännu större studier för att hitta dem. I vissa egenskaper kanske det också är frågan om ovanliga varianter som bara finns i vissa familjer. I så fall skulle de inte hittas i stora populationsstudier utan drunkna i bruset. Men det finns också mer exotiska hypoteser om den saknade heritabiliteten. En är att det skulle vara epigenetisk variation snarare än genetisk (varför jag inte tror det är förklaringen borde jag skriva mer om någon annan gång). En annan är gen–gen-interaktioner, eller på genetiskt fikonspråk epistasi.

Dags att återvända till den additiva genetiska variansen. Det kan nämligen finnas en genetisk komponent som inte direkt går i arv från föräldrar till avkomma. Anlagen går i arv, naturligtvis, men avkommans egenskaper kan bli helt annorlunda om det finns interaktioner mellan olika genetiska varianter. Det blir tydligast med ett exempel med en egenskap som kan delas in i tydliga kategorier och som styrs av varianter på två gener. Det här är ett exempel från världens bästa organism, nämligen hönan.

Titta på bilden. Panel A: en vanlig enkel hönskam. Panel C: pärlkam som orsakas av en genreglerande variant i genen SOX5 (Wright & al 2009). Panel B: rosenkam, som orsakas av omflyttning som påverkar regleringen av genen NMR2 (Imsland & al 2012). Panel D: valnötskam, vilket är vad som händer de som bär båda mutationern. SOX5 och NMR2 är aktiva i samma cellpopulation i förstadiet till kammen under embroynalutvecklingen. Interaktionen mellan varianter som påverkar SOX5 och NMR2 beror förmodligen på att de ingår samma system som bygger upp kammen.

kammar_imsland

(Figur 1 från Imsland & co 2012. cc:by-3.0)

Nu är de flesta intressanta egenskaper inte så enkla och kategoriska som kamtyperna. Principen är ändå densamma. Effekten av en genetisk variant kan bero på vilka andra varianter individen bär på. Detta kallas epistasi.

Det Mäki-Tanilas & Hill tittat närmare på är vad som händer på populationsnivå. De utgår från en hyfsat realistisk situation, det finns ett antal genetiska varianter på olika gener, som alla påverkar samma egenskap. Om varianterna dessutom interagerar med varandra, vad händer med den genetiska variansen? Är den fortfarande huvudsakligen additiv, alltså sådan som går i arv från föräldrar till avkomma, eller blir det en stor icke-additv genetisk varianskomponent istället? På det hela taget så blir det oftast mest additiv genetisk varians, även om det finns interaktioner mellan varianterna.

Varför? Om vi tittar på undantagen: Interaktioner blir märkbara på populationsnivå när det är få varianter som påverkar en egenskap eller när varianterna är vanliga i populationen. Om det är många gener som påverkar egenskapen så späs interaktioneffekterna ut, men epistasi kan ha stor effekt på egenskaper med relativt enkel genetik och få gener. Sådana egenskaper verkar inte vara så vanliga, men de kan finnas. Om en av allelerna (de räknade bara på bara fallet med två alleler per gen) är ovanlig betyder det också att epistasi spelar mindre roll. Om de flesta indiver är genetiskt lika kommer det vara väldigt ovanligt att samma individ bär på flera av varianterna som krävs för att interaktionseffekten ska märkas.

Ta ett helt hypotetiskt exempel: Gen 1 har två varianter stora A och lilla a. Gen 2 ha två varianter stora B och lilla b. Varianten A gör dig i medeltal 1 mm längre. B gör dig också i medeltal 1 mm längre. Men om du råkar ha både A och B får du en extra skjuts på 2 mm, förutom den sammanlagda effekten. Men om populationens genpool nästan helt domineras av a på Gen 1 och b på Gen 2 så kommer individer med både A och B vara väldigt ovanliga. De har ingen större effekt på längdfördelningen i populationen, sådär i allmänhet. Men de gör att enskilda individer med ovanliga genotyper blir ovanligt långa.

Så, författarna hävdar att interaktioner antagligen inte förklarar den saknade heritabiliteten. Tidigare har Zuk m.fl (Zuk & al 2012) föreslagit att en förklaring skulle kunna vara att interaktioner mellan gener stör skattningen av heritabilitet. Mäki-Tanilas & Hills modell tyder på att egenskaper beter sig additivt i alla fall, så det är okej att ignorera interaktioner i heritabilitetsmätningar. Vem som har rätt beror på vilken modell som stämmer bäst med hur komplexa ärftliga egenskaper egentligen fungerar. Jag är böjd att tro att det är den senare modellen, men är inte helt säker.

Det finns en sorts motsättning om epistasi. Å ena sidan verkar egenskaper ha mycket additiv varians. Å andra sidan går det att hitta mängder av interaktioner på molekylär nivå. Gener borde interagera. Om Mäki-Tanila & Hill har rätt så har de förklaringen: det är mycket möjligt att det finns massor av epistasi, men under de vanliga förhållanden är den dominerande varianskomponenten ändå den additiva. Vi som gillar interaktioner kan äta kakan och ha den kvar.

Interaktioner är fortfarande intressanta. För att kunna förutsäga en individs egenskaper från dess genotyper behövs information om hur varianter interagerar med varandra. Det är möjligt att epistasi visar sig vara vanligt i komplexa egenskaper (som en del misstänker). Problemet är att det är så svårt att studera. Att söka efter interagerande par av gener är rutin i vissa typer av kartläggning (som de experimentkorsningar jag sysslar med) men svårare i helgenomsassociation. Jag tror inte det är någon som vet riktigt hur det ska gå till.

Written by mrtnj

12 oktober, 2014 at 12:39

Finding the distance from ChIP signals to genes

with one comment

I’ve had a couple of months off from blogging. Time for some computer-assisted biology! Robert Griffin asks on Stack Exchange about finding the distance between HP1 binding sites and genes in Drosophila melanogaster.  We can get a rough idea with some public chromatin immunoprecipitation data, R and the wonderful BEDTools.

Finding some binding sites

There are indeed some ChIP-seq datasets on HP1 available. I looked up these ones from modENCODE: modENCODE_3391 and modENCODE_3392, using two different antibodies for Hp1b in 16-24 h old embroys. I’m not sure since the modENCODE site doesn’t seem to link datasets to publications, but I think this is the paper where the results are reported: A cis-regulatory map of the Drosophila genome (Nègre & al 2011).

What they’ve done, in short, is cross-linking with formaldehyde, sonicate DNA into fragments, capture fragments with either of the two antibodies and sequence those fragments. They aligned reads with Eland (Illumina’s old proprietary aligner) and called peaks (i.e. regions where there is a lot of reads, which should reflect regions bound by Hp1b) with MACS. We can download their peaks in general feature format.

I don’t know whether there is any way to make completely computation predictions of Hp1 binding sites but I doubt it.

Some data cleaning

The files are available from ftp, and for the below analysis I’ve unzipped them and called them modENCODE_3391.gff3 and modENCODE_3392.gff3. GFF is one of all those tab separated text files that people use for genomic coordinates. If you do any bioinformatics type work you will have to convert back and forth between them and I suggest bookmarking the UCSC Genome Browser Format FAQ.

Even when we trust in their analysis, some processing of files is always required. In this case, MACS sometimes outputs peaks with negative start coordinates in the beginning of a chromosome. BEDTools will have none of that, because ”malformed GFF entry at line … Start was greater than end”. In this case, it happens only at a few lines, and I decided to set those start coordinates to 1 instead.

We need a small script to solve that. As I’ve written before, any language will do, but I like R and tend to do my utility scripting in R (and bash). If the files were incredibly huge and didn’t fit in memory, we’d have to work through the files line by line or chunk by chunk. But in this case we can just read everything at once and operate on it with vectorised R commands, and then write the table again.

modENCODE_3391 <- read.table("modENCODE_3391.gff3", stringsAsFactors=F, sep="\t")
modENCODE_3392 <- read.table("modENCODE_3392.gff3", stringsAsFactors=F, sep="\t")

fix.coord <- function(gff) {
  gff$V4[which(gff$V4 < 1)] <- 1
  gff
}

write.gff <- function(gff, file) {
  write.table(gff, file=file, row.names=F, col.names=F,
              quote=F, sep="\t")
}

write.gff(fix.coord(modENCODE_3391), file="cleaned_3391.gff3")
write.gff(fix.coord(modENCODE_3392), file="cleaned_3392.gff3")

Flybase transcripts

To find the distance to genes, we need to know where the genes are. The best source is probably the annotation made by Flybase, which I downloaded from the Ensembl ftp in General transfer format (GTF, which is close enough to GFF that we don’t have to care about the differences right now).

This file contains a lot of different features. We extract the transcripts and find where the transcript model starts, taking into account whether the transcript is in the forward or reverse direction (this information is stored in columns 4, 5 and 7 of the GTF file). We store this in a new GTF file of transcript start positions, which is the one we will feed to BEDTools:

ensembl <- read.table("Drosophila_melanogaster.BDGP5.75.gtf",
                      stringsAsFactors=F, sep="\t")

transcript <- subset(ensembl, V3=="transcript")
transcript.start <- transcript
transcript.start$V3 <- "transcript_start"
transcript.start$V4 <- transcript.start$V5 <- ifelse(transcript.start$V7 == "+",
                                                     transcript$V4, transcript$V5)

write.gff(transcript.start, file="ensembl_transcript_start.gtf")

Finding distance with BEDTools

Time to find the closest feature to each transcript start! You could do this in R with GenomicRanges, but I like BEDTools. It’s a command line tool, and if you haven’t already you will need to download and compile it, which I recall being painless.

bedtools closest is the command that finds, for each feature in one file, the closest feature in the other file. The -a and -b flags tells BEDTools which files to operate on, and the -d flag that we also want it to output the distance. BEDTools writes output to standard out, so we use ”>” to capture it in a text file.

Here is the bash script. I put the above R code in clean_files.R and added it as an Rscript line at the beginning, so I could run it all with one file.

#!/bin/bash
Rscript clean_files.R

bedtools closest -d -a ensembl_transcript_start.gtf -b cleaned_3391.gff3 \
    > closest_element_3391.txt
bedtools closest -d -a ensembl_transcript_start.gtf -b cleaned_3392.gff3 \
    > closest_element_3392.txt

Some results

With the resulting file we can go back to R and ggplot2 and draw cute graphs like this, which shows the distribution of distances from transcript to Hp1b peak for protein coding and noncoding transcripts separately. Note the different y-scales (there are way more protein coding genes in the annotation) and the 10-logarithm plus one transformation on the x-axis. The plus one is to show the zeroes; BEDTools returns a distance of 0 for transcripts that overlap a Hp1b site.

closest_3391 <- read.table("~/blogg/dmel_hp1/closest_element_3391.txt", header=F, sep="\t")

library(ggplot2)
qplot(x=log10(V19 + 1), data=subset(closest_3391, V2 %in% c("protein_coding", "ncRNA"))) +
  facet_wrap(~V2, scale="free_y")

distance_hist

Or by merging the datasets from different antibodies, we can draw this strange beauty, which pretty much tells us that the antibodies do not give the same result in terms of the closest feature. To figure out how they differ, one would have to look more closely into the genomic distribution of the peaks.

closest_3392 <- read.table("~/blogg/dmel_hp1/closest_element_3392.txt", header=F, sep="\t")

combined <- merge(closest_3391, closest_3392,
                  by.x=c("V1", "V2","V4", "V5", "V9"),
                  by.y=c("V1", "V2","V4", "V5", "V9"))

qplot(x=log10(V19.x+1), y=log10(V19.y+1), data=combined)

between_antibodies

(If you’re wondering about the points that end up below 0, those are transcripts where there are no peaks called on that chromosome in one of the datasets. BEDTools returns -1 for those that lack matching features on the same chromosome and R will helpfully transform them to -Inf.)

About the DGRP

The question mentioned the DGRP. I don’t know that anyone has looked at ChIP in the DGRP lines, but wouldn’t that be fun? Quantitative genetics of DNA binding protein variation in DGRP and integration with eQTL … What one could do already, though, is take the interesting sites of Hp1 binding and overlap them with the genetic variants of the DGRP lines. I don’t know if that would tell you much — does anyone know what kind of variant would affect Hp1 binding?

Happy hacking!

Written by mrtnj

4 juli, 2014 at 20:08

”Forskaren är fri”

leave a comment »

Politiska ideologier
eländets filosofi
etablissemangets kotterier
men forskaren är fri
dogmatiska religiösa sekter
vetenskapens trolleri
materialismens effekter
men forskaren är fri

Kjell Höglund, Forskaren är fri

En behöver egentligen inte ens veta att Kjell Höglund skrivit böcker med någon sorts esoteriskt innehåll. Det räcker med att lyssna på texten för att förstå att forskaren i det här fallet inte är en akademisk forskare. Men ändå.

 

Written by mrtnj

1 maj, 2014 at 23:26

Publicerat i citerat

Tagged with ,

Journal club of one: ”Genome-wide association of foraging behavior in Drosophila melanogaster fails to support large-effect alleles at the foraging gene” (preprint)

with 4 comments

This preprint was posted on bioRxiv and Haldane’s sieve. It tells the story of one of the best known genetic variants affecting behaviour, the foraging gene in Drosophila melanogaster. for is still a nice example of a large-effect variant causing (developmentally) pleiotropic effects. However, Turner & al present evidence questioning whether for has any substantial effect in natural populations of flies. I think it’s self-evident why I’m interested.

They look at previous evidence for foraging as a quantitative trait gene in files sampled from natural populations and perform genome-wide association and population genetic tests with 35 DGRP lines, finding nothing at the for locus.

Comments:

(Since this is a preprint, I will feel free to suggest what I think could be improvements to the manuscript. Obviously, these are just my opinions.)

I’m not convinced one can really separate a unimodal from a bimodal distribution with 36 data points? Below are a few histograms simulated from a mixture of two normal distributions where 25 samples are ”rovers” and 11 ”sitters”.

bimodal

For fun, I also tested for normality with the Shapiro-Wilks’ test as the authors did, and about half of 1000 tests reject. My histograms should not be overinterpreted; I just generated two normal distributions with means log10(2.66) and log10(1.3) with standard deviations 0.1. I don’t know the actual standard deviations of the forS and forR reference strains. Of course, when the standard deviation is small enough, the distributions clearly separate and Shapiro-Wilks’ test will reject.

Power is difficult, but in this case the authors are looking at a well-known effect. They should be able to postulate some reasonable effect-sizes given the literature and the difference between the reference strains and make sure that they’re actually powered to detect it. 35 individuals for a GWAS is not much. They may still have good power to detect a effect of the size expected at for, at least in the single-point test, but it would be nice to demonstrate it. Power feels particularly pertinent as the authors claim to find evidence of absence. The same thing should apply to the population genetic tests, though it’s probably harder to know what effects to expect there.

The authors discuss alternative interpretations, and mention  the fact that in their hands the reference strains did not travel nearly as long as in previous experiments. How likely is it, though, that the variant isn’t segregating in Raleigh but in the populations previously sampled?

Literature

Thomas Turner, Christopher C Giauque, Daniel R Schrider, Andrew D Kern. (2014) Genome-wide association of foraging behavior in Drosophila melanogaster fails to support large-effect alleles at the foraging gene. Preprint on bioaRxiv. doi: 10.1101/004325

Written by mrtnj

30 april, 2014 at 19:59

Dagens rekommendation: Hans Rosling

leave a comment »

TED talks är ofta inget vidare men det finns lysande undantag. Hans Roslings tal är några av dem. Ed Yong, som jag rekommenderade häromveckan, ett annat.

Se inte bara den här videon, utan leta runt lite på Youtube.

Några saker att lägga märke till:

Rosling använder inte vilken visualisering som helst; han använder en visualisering som är en polerad variant av ett enkelt diagram med prickar.

Han drar slutsatser från modeller, inte bara grafik. Dels lutar han sig på demografiska modeller, som såvitt jag förstår är mekanistiska modeller över hur populationen av människor kommer växa. Dels extrapolerar han trender i sina diagram. Utan att han säger det skulle jag tro att det skulle motsvara linjära modeller.

Förutom att han uppenbarligen funderat mycket på vilka illustrationer han ska använda, så är han bra på att kalibrera sina jämförelser och ställa dem i relation till begripliga saker. Det är inget som kommer ur siffrorna, utan en fråga om tolkning.

Och, viktig: Rosling tolkar sina modeller som orsakssamband, inte bara som associationer. Han är intresserad av frågor om vad människor borde göra och vad som kommer hända då. Det är inte heller något som går att utläsa ur siffrorna. Det kräver tolkning och antaganden om orsakssamband, men är en oumbärlig del av Roslings argument.

Written by mrtnj

29 april, 2014 at 19:52

Publicerat i med mera

Tagged with , , ,

Könsurval: Propellrar, Batemangradient och operationell könskvot

leave a comment »

Könsurval är den del av evolution genom naturligt urval som handlar om att hitta en partner att fortplanta sig med. Sexuellt reproducerande organismer kan ha olika anpassningar för att attrahera en partner av motsatt kön eller konkurrera med andra individer av samma kön. De formas av könsurval, men exakt hur de formas beror på organismens livsstil, ekologi och historia. Kokko, Klug & Jennisons (2012) har publicerat en teoretisk modell för att illustrera när anpassningar till könsurval kan uppstå, och i somras hörde jag Hanna Kokko presentera den. Föreställ er en organism, vilken som helst, som ska till att fortplanta sig. Tänk att individerna rör sig på måfå tills de stöter på någon av motsatt kön. De parar sig, får ungar, och är upptagna med det ett tag; de är alltså borta från poolen av tillgängliga individer som kan para sig ett tag innan det är dags igen. Än så länge är detta en (något) förenklad sammanfattning av livet som sexuellt reproducerande organism. Tänk sedan att någon individ utvecklar en ärftlig egenskap som ökar sannolikheten att träffa på en partner. Kokko illustrerade det med en propeller som får dem att färdas omkring fortare. Under vilka förhållanden kommer propellern att främjas av könsurval och spridas i populationen under generationernas gång?

Nu är det frågan om en annan sorts modeller än de modeller jag ibland bloggar om. När jag skriver ”modell” menar jag oftast en statistisk modell som är ett hjälpmedel för att analysera empiriska data. Ett enkelt exempel är om jag mätt någon egenskap hos en population individer och är intresserad av medelvärdet. Då är det rimligt att använda någon sorts statistisk modell för att beskriva variationen inom populationen och få en uppfattning om osäkerheten i min uppskattning av medelvärdet. Men här är det frågan om mekanistiska modeller som gör anspråk på att beskriva någon generell egenskap hos ett fenomen (här: könsurval i en sexuellt reproducerande population), för att sedan dra slutsatser om hur sådana system beter sig. Det är inte en modell av data från en viss population, utan en modell av ett förenklat idealiserat system. I teoretisk biologi använder en ofta matematiska modeller som en sorts logiska argument kring hur biologiska fenomen fungerar.

Operationell könskvot är antalet hanar som är redo att para sig dividerat med antalet honor som är redo att para sig. De som är upptagna med annat och för tillfället inte kan reproducera sig räknas inte. Tanken är att när det är fler som är redo av det ena könet än det andra så blir det konkurrens emellan dem där fler är redo. Beroende på olika arters livsstil kan det vara fler eller färre honor och hanar som är redo att para sig vid en given tid. Det kanske till exempel tar väldigt lång tid att föda upp en kull ungar innan en har tid att skaffa och ta hand om en ny. På så sätt borde den operationella könskvoten påverka utrymmet för könsurval. Om det, till exempel, finns många hanar och få honor finns det stort utrymme för hanarna att utveckla olika anpassningar för att stå sig bra i konkurrensen. Om den operationella könskvoten är ungefär lika finns det ingen större konkurrens om partners och ingen vidare nytta med att lägga energi på det.

Nu till en gammal favorit: Batemangradienten! Vad den mäter är hur mycket det lönar sig att para sig med ännu en partner. Det vill säga: hur många fler ungar får en individ per extra partner. Batemans klassiska hypotes är att gradienten ska vara nära noll för honor, vilket betyder att de begränsas av resurserna de investerar i avkomman, och positiv för hanar, som investerar mindre i avkomman. Men det beror naturligtvis på hur organismen ifråga lever och hur dess könsroller ser ut.

De två ovanstående begreppen används ofta för att beskriva olika arters sociala system kring fortplantning. Men de mäter olika saker: den operationella könskvoten visar hur svårt eller lätt det är att hitta en partner till; Batemangradienten mäter hur mycket det skulle höja ens reproduktiva framgång. Sammantaget: det är mer lönsamt med anpassningar till könsurval om det finns en positiv Batemangradient (så att fler parningar betyder fler överlevande ungar) och en sned operationell könskvot (så att en faktiskt måste anstränga sig för att få para sig flera gånger), men räcker inte att titta på bara det ena eller det andra. Se Hanna Kokko själv prata bland annat om detta på ESEB2013 förra sommaren. Ja, videon är bitvis inget vidare men presentationsbilderna är mestadels läsbara och talarens röst är klar och tydlig! Jag gillar särskilt bilden med vattenglaset, som sammanfattar det tillstånd som ofta råder i biologi. Optimisten tycker att naturen är spännande med all sin komplexitet och pessimisten att den är en enda svårtolkad röra.

Litteratur

Kokko, H., Klug, H., & Jennions, M. D. (2012). Unifying cornerstones of sexual selection: operational sex ratio, Bateman gradient and the scope for competitive investment. Ecology letters, 15(11), 1340-1351.

Jag påmindes om presentationen när jag såg en bloggpost om ämnet av Lilly Herridge.

Written by mrtnj

28 april, 2014 at 19:48

Följ

Få meddelanden om nya inlägg via e-post.

Gör sällskap med 1 168 andra följare