Den ökända krigargenen möter Vetenskapens värld

SVT:s Vetenskapens värld sände nyligen (17 oktober, ”Ditt förutbestämda liv”) ett program om beteendegenetik. Det handlar om en studie i Dunedin, Nya Zeeland, som kopplar varianter av vissa gener, i kombination med påfrestande händelser under livets gång, till antisocialt beteende, depression med mera. SVT och dokumentären presenterar den som ”en oerhörd studie” som ”skrivit om den klassiska frågan om arv och miljö och visat att kombinationen är det avgörande”. Men det är snarare en stilstudie i hur välmenande forskare kan ha otur, dra förhastade slutsatser och skapa ett nystan av överdrifter. Otur och otur, förresten, för dem själva ledde det ju till berömmelse och dokumentärer som når ända till Sverige. Men för vetenskapen om den genetiska grunden för beteende var det ändå mest otur.

På 00-talet, när studierna ifråga publicerades, var beteendegenetiker väldigt optimistiska om vad som krävdes för att hitta gener som förklarar komplexa egenskaper, till exempel våldsamt beteende, depression med mera. Många trodde att det räckte att göra som i Dunedin, samla in data från kanske 1000 individer och välja ut en gen, en så kallad ”kandidatgen”, att studera. Komplexa egenskaper, som mänskligt beteende, kan visst ha en avsevärd ärftlig komponent. Men den består av hundratals, kanske tusentals, okända genetiska varianter med små effekter. Dagens genetik har gått vidare till att studera tiotusentals eller hundratusentals individer för att ha en chans att hitta några varianter, och till att studera alla gener samtidigt istället för att försöka gissa vilka kandidatgener som är viktiga.

Men tusen människor, hör jag er protestera, det är väl ändå många? I fallet MAOA tittar de bara på män, så där ryker hälften. Sedan är det ungefär en tredjedel av dem som har riskvarianten, och en bråkdel av dem som haft en dålig uppväxt. I dokumentären låter kopplingen mellan MAOA, dålig uppväxt och antisocialt beteende så övertygande. Richie Poulton, en av författarna, säger: ”Om man tittar på de killar som har riskvarianten av genen och som blev gravt illa behandlade, så uppvisade hela 85% av dem någon form av antisocialt beteende när de blivit vuxna [min översättning].” I själva verket, om man läser artikeln, så består gruppen han talar om – män med riskvarianten som blivit gravt illa behandlade under uppväxten – av 13 individer. De 85% han talar om är alltså elva män. Hur många av dem hade, enligt originalartikeln dömts för något våldsbrott vid 26 års ålder? Svaret är fyra. Med ett stickprov på 13 människor får man inga bra mått på vad riskvarianten har för effekt. Man får brus.

Och brus är precis vad som kommer ur kandidatgenstudier inom psykiatrisk genetik. Det går till ungefär så här: Någon hittar en kandidatgen i en liten studie, dåförtiden med stor buller och bång. Sedan kommer dussintals liknande studier med motsägelsefulla resultat. Ibland hittar de något liknande, ibland inte. Ibland hittar de en effekt på något annat: en interaktion med något nytt, en annan vagt relaterad egenskap. Efter hand börjar folk göra meta-analyser, som lägger ihop resultaten från många studier. De visar på stor variation och små effekter. Och så går det vidare. När det till slut börjar komma studier med större urval, som tittar på hela arvsmassan, så syns det (med några lysande undantag som apolipoprotein E) oftast inte ett spår av kandidatgenerna.

Men visst, ingen har tittat efter varianter i hela genomet med just de gen–miljöinteraktioner som var i Dunedinstudien. Och associationsstudier av hela genomet har hittills bara hittat varianter som kan förklara en bråkdel av den genetiska variationen. Så de gamla kandidatgensfavoriterna kanske också gömmer sig där ute, även om det inte ser ut så. Oavsett är det klart att de inte kan vara mer än en bråkdel av förklaringen, och att metoden att gissa kandidatgener och testa dem i små stickprov inte fungerar något vidare. Men på teve och i pressmeddelanden finns det aldrig komplikationer eller negativa resultat. Därför är MAOA också känd som ”the warrior gene”. Den är ett perfekt provokativt exempel att ta upp när man vill säga att människor är stenhårt programmerade av evolutionen att bete sig på ett visst sätt. Eller, som i den här dokumentären, när man vill komma ett mer humanistiskt budskap om hur uppväxten kan övervinna generna.

Författarna och dokumentärmakarna har såklart rätt i att både arv och miljö spelar roll för komplexa egenskaper. De har kanske till och med rätt att gen–miljöinteraktioner, där effekten av en viss genetisk variant bara visar sig under speciella miljöförhållanden, är viktiga. Men de har fel i att varianter i MAOA spelar en avgörande roll. Om MAOA-varianten har någon effekt alls, vilket inte ens är säkert, så är den bara en variant med liten effekt bland hundratals andra. Resultat som MAOA-associationen i Dunedin är inte några genombrott som skakar beteendegenetiken i grunden. De är ärliga misstag från en ung vetenskap som för 15 år sedan ännu inte hade lärt sig hur svårt det är att hitta gener som förklarar komplexa egenskaper. Istället för att älta dem är det dags att lämna kandidatgenerna bakom sig och gå vidare.

(Det här inlägget är lite försenat, för jag försökte få en kortare version av den här texten publicerad. Jag vet inte vad jag tänkte där. SVT Vetenskap har inte heller svarat. Den som läste den blev väl stött, eller avskrev den ungefär som en arg insändare. Nåja. Efter själva programmet var det ett par svenska forskare som fick vara med och prata lite. De var nog bra på sina ämnen, men ingen av dem verkade veta särskilt mycket om genetik, och sa inget kritiskt om själva innehållet. Ingen kritiserade heller det orimliga skrytet som dokumentären var full av. Jag förstår att jag framstår som en surgubbe nu, men det kan inte hjälpas.)

Litteratur

Caspi et al. (2002) ”Role of genotype in the cycle of violence in maltreated children.” Science

Caspi et al. (2003) ”Influence of life stress on depression: moderation by a polymorphism in the 5-HTT gene.” Science.

Paper: ”Feralisation targets different genomic loci to domestication in the chicken”

It is out: Feralisation targets different genomic loci to domestication in the chicken. This is the second of our papers on the Kauai feral and admixed chicken population, and came out a few days ago.

The Kauai chicken population is kind of famous: you can find them for instance on Flickr, or on YouTube. We’ve previously looked at their plumage, listened to the roosters’ crowings, and sequenced mitochondrial DNA to investigate their origins. Based on this, we concur with the common view that the chickens of Kauai probably are a mixture of feral birds of domestic origin and wild Junglefowl. The Kauai chickens look and sound like a mix of wild and domestic, and we found mitochondrial DNA of two haplogroups, one of which (called D) is typical in ancient chicken DNA from Pacific islands (Gering et al 2015).

In this paper, we looked at the rest of the genome of the same chickens — you didn’t think we sequenced the whole thing just to look at the mitochondrion plus a subset of markers, did you? We turn to population genomics, and a family of methods called selective sweep mapping, to search for regions of their genome that show signs of being affected by natural selection. This lets us: 1) draw pretty rainbow plots such as  this one …

kauai2_fig1a

(Figure 1a from the paper in question, Johnsson & al 2016. cc:by The chromosomes have been laid out on the horizontal axis with different colours, and split into windows of 40 kb. Each dot represents the heterozygosity of that windows. For all the details, see the paper.)

… 2) highlight a regions of the genome that may have been selected during feralisation on Kauai (these are the icicles in the graph, highligthed by arrows); 3) conclude that the regions that look like they’ve been selected in feralisation overlap very little with the ones that look like they’ve been selected in chicken domestication. Hence the title.

That was the main result, but of course we also look at what genes are highlighted. Mostly we have no idea how they may contribute to feralisation, but a couple of regions overlap with those that we’ve previously found in genetic mapping of comb size and egg laying in our wild-by-domestic intercross. We also compare the potentially selected regions to domestic chicken sequences.

Last year, Ewen Callaway visited Dominic Wright, Eben Gering and Rie Henriksen on the last fieldtrip to Kauai. The article, When chickens go wild, was published in Nature News in January, and it explains a lot of the ideas nicely. This paper was submitted by then, so the samples they gathered on that trip do not feature in it. But, spoiler alert: there is more to come. (I don’t know what role I personally will play, but that is less important.)

As you may have guessed if you looked at the author list, this was a collaboration between quite a lot of people in Linköping, Michigan, London, and Victoria. Thanks to all involved! This was great fun, and for those of you who like this sort of thing, I hope the paper will be an interesting read.

Literature

M. Johnsson, E. Gering, P. Willis, S. Lopez, L. Van Dorp, G. Hellenthal, R. Henriksen, U. Friberg & D. Wright. (2016) Feralisation targets different genomic loci to domestication in the chicken. Nature Communications. doi:10.1038/ncomms12950

På dna-dagen: Genetik utan dna

Så här på dna-dagen tänkte jag skriva lite om vad som går att göra utan att veta något om dna, och varför det (förstås) blir ännu bättre med dna.

Vi tänker oss tillbaka till tiden före genomprojekt, sekvenseringsmaskiner och kloning. Säg någon gång i 1900-talets början. Vad vet vi om ärftlighet? Vi vet att egenskaper går i arv. Det behöver man inte vara något ljushuvud för att lägga märke till. Vi vet att djuravel och växtförädling fungerar. Det vill säga, om man väljer ut de individer som har egenskaper vi behöver och låter dem para sig, så kommer nästa generation bli ännu bättre. Det är 1700-talskunskap allra minst, och förmodligen mycket äldre än så. Vi har en teori om ärftlighet, från Mendel och hans berömda ärtor  Vi vet att ärftligheten består av anlag som blandas om varje generation, men utan att spädas ut. Det är de som idag kallas genetiska varianter.

Varje individ har en uppsättning genetiska varianter. De påverkar individens egenskaper, och de går vidare till nästa generation när individen får barn. Modernt uttryckt: Alla individer har gener, och de finns i olika genetiska varianter. Alla har två varianter av varje gen, och en av dem kommer gå vidare till varje avkomma. Vi vet ännu inte vad generna består av (spoiler: det är dna).

En del egenskaper är enkla, och verkar styras av varianter av en enda gen. En höna kan ha vita fjädrar eller färgade, till exempel; det styrs av varianter av en enda gen. Den ena varianten gör hönan vita fjädrar, och den andra tillåter andra färger att komma fram. Egenskapen delar in höns i två typer: vita höns och höns med andra färger.

Men de flesta egenskaper är inte så enkla. Ta hur mycket hönan väger. Höns kommer i alla storlekar, små, stora och mittemellan. Det är ofta sådana egenskaper som är viktigast. Hur stor blir hönan? Hur många ägg lägger hon? Hur rädd är hon för människor? Och så vidare. Hur gör vi om vi vill förstå en sådan kvantitativ egenskap?

Vi utgår ifrån det faktum att det finns många gener som påverkar en kvantitativ egenskap. Varje gen finns i flera varianter, och varje individ har två varianter. Vi börjar med att anta något helt orealistiskt, nämligen att vi vet exakt vilka genetiska varianter som finns, och vilka effekter de har. Då kan vi skriva ner en individs egenskap som en summa, där varje term beror på de genetiska varianter individen bär på, plus ett slumpvis bidrag från olika miljöfaktorer. Därifrån kan vi dra slutsatser om medelvärden och variation inom en population av individer och, viktigast av allt, formler för hur nära släktingar liknar varandra.

Då trillar det ut något användbart. De här orealistiska sakerna vi antog i början, att vi kände till varje genetisk variant och vad den gör, visar det sig att vi inte behöver veta. De försvinner ur formlerna. Det är som om vi hade en ekvation med X på båda sidor om likhetstecknet. Då kan vi dividera med X, så den okända variabeln försvinner. Med bara ett släktträd och mätningar av individernas egenskaper går det att räkna fram en massa användbara genetiska värden, utan att behöva veta exakt vilken gen som gör vad. Till exempel kan vi ta reda på vilka individer vi helst borde avla på, eller hur stor del genetiska varianter spelar för en viss egenskap.

Teorin om kvantitativa egenskaper utvecklades i början av 1900-talet. Det är en statistisk teori, som beskriver hur ärftliga egenskaper förs vidare i släktträd och populationer. Den är väl medveten om att det finns gener och genetiska varianter, men klarar sig bra utan att hantera dem direkt.

Ungefär vid samma tid började helt andra forskare reda ut vad arvsanlagen består av. 1953 visste vi inte bara att är dna som är boven i dramat, utan också hur dna-molekylen ser ut. Sedan kom molekylärgenetik, det vill säga genetik som arbetar direkt med dna.

På senare år har kvantitativ genetik och molekylärgenetik mötts på flera sätt. Det har blivit så lätt och billigt (relativt sätt) att göra dna-tester, att många börjat använda dem istället för släktträd. Istället för att mödosamt hålla reda på individers släktskap kan vi titta på deras genetiska varianter direkt, och uppskatta släktträdet från dna.

Det har också blivit möjligt att ta reda på vilka genetiska varianter som påverkar egenskaper, hur mycket de påverkar, och hur de fungerar. Då kan vi får reda på saker som inte syns i släktträd: hur många genetiska varianter som spelar roll för en egenskap, om varianterna är vanliga eller ovanliga, hur stora eller små deras effekter är, och hur de åstadkommer dem. Hur kan små skillnader i dna göra en höna större eller mindre, mer eller mindre rädd för människor, eller få henne att lägga fler eller färre ägg? Men det får vi prata mer om en annan dag.

(Idag var det tydligen dna-dagen, även om den snart är slut. Gamla dna-dagsposter: Gener, orsak och verkan (2015), På dna-dagen (2014))

Toying with models: The Luria–Delbrück fluctuation test

I hope that Genetics will continue running expository papers about their old classics, like this one by Philip Meneely about Luria & Delbrück (1943). Luria & Delbrück performed an experiment on bacteriophage resistance in Escherichia coli, growing bacterial cultures, exposing them to a phage, and then plating and counting the survivors, who have become resistant to the phage. They considered two hypotheses: either resistance occurs adaptively, in response to the phage, or it occurs by mutation some time during the growth of the culture but before the phages are added. They find the latter to be the case, and this is an example of how mutations happen irrespective of their effects of fitness, in a sense at random. Their analysis is based on a model of bacterial growth and mutation, and the aim of this exercise is to explore this model by simulating some data.

First, we assume that mutation happens with a fixed mutation rate \mu = 2 \cdot 10^{-8} , which is quite close to their estimated value, and that the mutation can’t reverse. We also assume that the bacteria grow by doubling each generation up to 30 generations. We start a culture from a single susceptible bacterium, and let it grow for a number of generations before the phage is added. (We’re going to use discrete generations, while Luria & Delbrück use a continuous function.) Then:

n_{susceptible,i+1}= 2 (n_{susceptible,i} - n_{mutants,i})

n_{resistant,i+1} = 2 (n_{resistant,i} + n_{mutants,i})

That is, every generation i, the mutants that occur move from the susceptible to the resistant category. The number of mutants that happen among the susceptible is binomially distributed:

n_{mutants,i} \sim Binomial(n_{susceptible,i}, \mu) .

This is an R function to simulate a culture:

culture <- function(generations, mu) {
  n_susceptible <- numeric(generations)
  n_resistant <- numeric(generations)
  n_mutants <- numeric(generations)
  n_susceptible[1] <- 1
  for (i in 1:(generations - 1)) {
    n_mutants[i] <- rbinom(n = 1, size = n_susceptible[i], prob = mu)
    n_susceptible[i + 1] &lt;- 2 * (n_susceptible[i] - n_mutants[i])
    n_resistant[i + 1] &lt;- 2 * (n_resistant[i] + n_mutants[i])
  }
  data.frame(generation = 1:generations,
             n_susceptible,
             n_resistant,
             n_mutants)
}
cultures <- replicate(1000, culture(30, 2e-8), simplify = FALSE)

We run a few replicate cultures and plot the number of resistant bacteria. This graph shows the point pretty well: Because of random mutation and exponential growth, the cultures where mutations happen to arise relatively early will give rise to a lot more resistant bacteria than the ones were the first mutations are late. Therefore, there will be a lot of variation between the cultures because of their different histories.

resistant

combined <- Reduce(function (x, y) rbind(x, y), cultures)
combined$culture <- rep(1:1000, each = 30)

resistant_plot <- qplot(x = generation, y = n_resistant, group = culture,
      data = combined, geom = "line", alpha = I(1/10), size = I(1)) + theme_bw()

We compare this to what happens under the alternative hypothesis where resistance arises as a consequence of introduction of the phage with some resistance rate (this is not the same as the mutation rate above, even though we’re using the same value). Then the number of resistant cells in a culture will be: n_{acquired} \sim Binomial(2^{29}, \mu_{aquried}) .

resistant <- unlist(lapply(cultures, function(x) max(x$n_resistant)))

acquired_resistant <- rbinom(n = 1000, size = 2^29, 2e-8)

resistant_combined <- rbind(transform(data.frame(resistant = acquired_resistant), model = "acquired"),
                            transform(data.frame(resistant = resistant), model = "mutation"))

resistant_histograms <- qplot(x = resistant, data = resistant_combined,bins = 10) +
  facet_wrap(~ model, scale = "free_x")

histograms

Here are two histograms side by side to compare the cases. The important thing is the shape. If the acquired resistance hypothesis holds, the number of resistant bacteria in replicate cultures follows a Poisson distribution, because it arises when one counts the number of binomially distributed events that occur in a given number of trials. The interesting thing about the Poisson distribution in this case is that its mean is equal to the variance. However, under the mutation model (as we’ve already illustrated), there is a lot of variation between cultures. These fluctuations make the variance much larger than the mean, which is also what Luria and Delbrück found in their data. Therefore, the results are inconsistent with acquired mutation, and hence the experiment is called the Luria–Delbrück fluctuation test.

mean(resistant)
var(resistant)
mean(acquired_resistant)
var(acquired_resistant)

Literature

Luria, S. E., & Delbrück, M. (1943). Mutations of bacteria from virus sensitivity to virus resistance. Genetics, 28(6), 491.

Meneely, P. M. (2016). Pick Your Poisson: An Educational Primer for Luria and Delbrück’s Classic Paper. Genetics, 202(2), 371-375.

Code on github.

På dna-dagen: Gener, orsak och verkan

”DNA, livets molekyl” … Visst, DNA är en viktig och snygg biomolekyl. Men varför skulle inte en komplex kolhydrat, ett protein eller en membranlipid förtjäna det namnet?

Det finns två perspektiv på genetik som jag brukar tjata om. Å ena sidan: genetik som handlar om vad molekylära gener gör och vad de har för funktion. Å andra sidan: genetik som är studiet av ärftliga skillnader mellan individer, och i förlängningen populationer och arter. Genetik beskrivs ibland som en vetenskap som handlar om ”koder” och ”information”. Det ligger något i det, men jag tror det är bra att vara lite försiktig med metaforerna. Jag misstänker att koder och information inte är något vi bara hittar liggande ute i naturen, så att säga, utan mänskliga tolkningar.

Ja, vissa DNA-sekvenser skrivs av till mRNA som kodar för proteiner. Här betyder ”kodar för” att sekvensen har tripletter av baser som är komplementära mot tRNA-molekyler som bär aminosyror. Andra sekvenser motsvarar RNA-molekyler som har någon annan funktion. Men de orsakande faktorerna till att ett visst RNA uttrycks vid en viss tid finns inte i DNA, utan någon annan stans. DNA är en del av mekanismen, men det är också RNA-polymeraset som skriver av det, spliceosomen som sätter ihop aktivt mRNA, de system av enzymer som tillverkar nukleotiderna och så vidare, och så vidare. Processen aktiveras av vad som händer i organismens miljö, interna processer som omfattar många delar av cellen eller helt olika delar av kroppen osv. På så sätt är kärnan med sitt DNA en organell vilken som helst.

Men! Det finns ett sammanhang där det är befogat att prata om genetiska orsaker, nämligen ärftliga skillnader mellan individer. Det går att hitta (och faktiskt konstruera) exempel på individer där dramatiska skillnader i egenskaper som utseende och beteende beror på en skillnad i DNA-sekvens — en genetisk variant eller ”gen” i den klassiska bemärkelsen. Det förstås, det kan finnas andra typer av ärftlighet som inte beror på DNA, och i så fall borde de också räknas med här. Men de flesta saker som inuti celler kan göra skillnad i en organisms egenskaper — proteiner, membranlipider, kolhydrater, små organiska molekyler osv — nollställs mellan generationerna, när könsceller bildas och utvecklingen så att säga börjar om varje generation. Men DNA går i arv — med sin ”information”, om en så vill.

(Den 25 april 1953 publicerades artiklarna som presenterade DNA-molekylens struktur. Därav DNA-dagen. Min DNA-dagspost från förra året: På dna-dagen)

Paper: ”Mixed ancestry and admixture in Kauai’s feral chickens: invasion of domestic genes into ancient Red Junglefowl reservoirs”

We have a new paper almost out (now in early view) in Molecular Ecology about the chickens on the Pacific island Kauai. These chickens are pretty famous for being everywhere on the island. Where do they come from? If you use your favourite search engine you’ll find an explanation with two possible origins: ancient wild birds brought over by the Polynesians and escaped domestic chickens. This post on Kauaiblog is great:

Hawaii’s official State bird is the Hawaiian Goose, or Nene, but on Kauai, everyone jokes that the “official” birds of the Garden Island are feral chickens, especially the wild roosters.

Wikepedia says the “mua” or red jungle fowl were brought to Kauai by the Polynesians as a source of food, thriving on an island where they have no real predators. /…/
Most locals agree that wild chickens proliferated after Hurricane Iniki ripped across Kauai in 1992, destroying chicken coops and releasing domesticated hens, and well as roosters being bred for cockfighting. Now these brilliantly feathered fowl inhabit every part of this tropical paradise, crowing at all hours of the day and night to the delight or dismay of tourists and locals alike.

In this paper, we look at phenotypes and genetics and find that this dual origin explanation is probably true.

jeff_trimble_kauai_chickens_cc_by_nc_sa

(Chickens on Kauai. This is not from our paper, but by Jeff Trimble (cc:by-sa-nc) published on Flickr. There are so many pretty chicken pictures there!)

Dom, Eben, and Pamela went to Kauai to photograph, record to and collect DNA from the chickens. (I stayed at home and did sequence bioinformatics.) The Kauai chickens look and sound like mixture of wild and domestic chickens. Some of them have the typical Junglefowl plumage, and other have flecks of white. Their crows vary in the length of the characteristic fourth syllable. Also, some of them have yellow legs, a trait that domestic chickens seem to have gotten not from the Red but from the Grey Junglefowl.

We looked at DNA sequences by massively parallel (SOLiD) sequencing of 23 individuals. We find mitochondrial sequences that fall in two haplogroups: E and D. The presence of the D haplogroup, which is the dominating one in ancient DNA sequences from the Pacific, means that there is a Pacific component to their ancestry. The E group, on the other hand, occurs in domestic chickens. It also shows up in some ancient DNA samples from the Pacific, but not from Kauai (and there is a scientific debate about these sequences). The nuclear genome analysis is pretty inconclusive. I think what we would need is some samples of possible domestic source populations (Where did the escapee  chickens came from? Are there other traditional domestic sources?) and a better sampling of Red Junglefowl to make better sense of it.

When we take the plumage, vocalisation and mitochondrial DNA together, it looks like this is a feral admixed population of either Red Junglefowl or traditional Pacific chickens mixed with domestics. A very interesting population indeed.

Kenneth Chang wrote about the paper in New York Times; includes quotes from Eben and Dom.

E Gering, M Johnsson, P Willis, T Getty, D Wright (2015) Mixed ancestry and admixture in Kauai’s feral chickens: invasion of domestic genes into ancient Red Junglefowl reservoirs. Molecular ecology

Morning coffee: cost per genome

I recently heard this thing referred to as ”the most overused slide in genomics” (David Klevebring). It might be: what it shows is some estimate of the cost of sequencing a human genome over time, and how it plummets around 2008. Before that, the curve is Sanger sequencing, and then the costs show second generation sequencing (454, Illumina and SOLiD).

cost_genome

The source is the US National Human Genome Research Institute, and they’ve put some thought into how to estimate costs so that machines, reagents, analysis and people to do the work are included and that the different platforms are somewhat comparable. One must first point out that downstream analysis to make any sense of the data (assembly and variant calling) isn’t included. But the most important thing that this graph hides, even if the estimates of the cost would be perfect, is that to ”sequence a genome” means something completely different in 2001 and 2015. (Well, with third generation sequencers that give long reads coming up, the old meaning might come back.)

For data since January 2008 (representing data generated using ‘second-generation’ sequencing platforms), the ”Cost per Genome” graph reflects projects involving the ‘re-sequencing’ of the human genome, where an available reference human genome sequence is available to serve as a backbone for downstream data analyses.

The human genome project was of course about sequencing and assembling the genome into high quality sequences. Very few of the millions of human genomes resequenced since are anywhere close. As people in the sequencing loop know, resequencing with short reads doesn’t give you a genome sequence (and neither does trying to assemble a messy eukaryote genome with short reads only). It gives you a list of variants compared to the reference sequence. The usual short read business has no way of detect anything but single nucleotide variants and small indels. (And the latter depends … Also, you can detect copy number variants, but large scale structural variants are mostly off the table.) Of course, you can use these edits to reconstruct a consensus sequence from the reference, but it would be a total lie.

Again, none of this is news for people who deal with sequencing, and I’m not knocking second-generation sequencing. It’s very useful and has made a lot of new things possible. It’s just something I think about every time I see that slide.