Vad är funktion?

Igår påstod jag att när jag skriver ”gen” så menar jag en dna-sekvens med ett namn och en funktion. Befogad fråga: vad sjutton är en funktion? Om det tvistar de lärda med flera, vilket illustreras av debatten om dna-encyklopedin ENCODE. Jag har skrivit lite om det förut, men kortfattat: ENCODE gick ut på att använda olika sekvenseringsbaserade experiment för att hitta de sekvenser i det mänskliga genomet som har någon funktion. Projektet hävdade at en väldigt stor de av genomet, upp till 80%, dök upp i något av experimenten som kopplade till någon biokemisk aktivitet. Deras motståndare svarade att ENCODE använt fel definition av ”funktion”; det viktiga är inte aktivitet utan om den aktiviteten bevarats av naturligt urval.

För det första: en dna-sekvens gör ingenting i sig själv; det är inte det som är frågan. Det intressanta är vad cellen och dess maskineri av biologiskt aktiva proteiner och rna-molekyler gör med en dna-sekvens. Det enklaste är kanske att säga att en sekvens’ funktion är vad cellen gör med den, åtminstone om det sker tillräckligt pålitligt och reproducerbart. Å andra sidan kan en ha en evolutionär syn på funktion, där en sekvens endast har en funktion om den främjats av naturligt urval. Alltså: sekvensen ser ut som den gör och cellen använder den som den gör därför att det på något sätt givit individer som bär den reproduktiv framgång. Dan Graur & co (2013) skrev en mycket arg artikel om ENCODE där de bland annat förespråkar den evolutionära synen på funktion. Artikeln är kanske lite för arg, men det här är ett bra exempel:

In biology, there are two main concepts of function: the “selected effect” and “causal role” concepts of function. /…/ For clarity, let us use the following illustration (Griffiths 2009). There are two almost identical sequences in the genome. The first, TATAAA, has been maintained by natural selection to bind a transcription factor; hence, its selected effect function is to bind this transcription factor. A second sequence has arisen by mutation and, purely by chance, it resembles the first sequence; therefore, it also binds the transcription factor. However, transcription factor binding to the second sequence does not result in transcription, that is, it has no adaptive or maladaptive consequence. Thus, the second sequence has no selected effect function, but its causal role function is to bind a transcription factor.

Jag tror inte att jag förvränger Graur & co:s argument om jag säger att de ser 80%-siffran som en sorts reductio ad absurdum av att prata om funktion som bara vad en dna-sekvens används till. Genomet är stort och fullt med sekvenser som bara av en slump innehåller bindingsställen för olika reglerande proteiner etc. Oavsett om det råkar skrivas av till rna ibland eller binda till transkriptionsfaktorer så är det mesta ändå att betrakta som irrelevant från det naturliga urvalets synpunk. Sedan finns det en del som tycker att skräp-dna låter slarvigt och vulgärt, men det är en fråga om språkbruk, inte om genomets funktion.

Hur vet en då om en sekvens har funktion ur det naturliga urvalets perspektiv? När genomet kopieras drabbas det av slumpvisa mutationer, avskrivningsfel helt enkelt, som ändrar sekvensen här och där. Om mutationen gör att något går sönder och det påverkar individens förmåga att reproducera sig tillräckligt kommer varianten sorteras bort av naturligt urval. Därför är vissa viktiga delar av genomet, framför allt de gener som kodar för proteiner, konserverade. Därför går de också att känna igen mellan arter som är mycket avlägset släkt, även om den omkringliggande icke-kodande sekvensen kan vara helt olika.

Men det är inte självklart att det alltid är funktion-genom-naturligt-urval som är det intressanta. För det första, allt är inte lika väl konserverat som de proteinkodande sekvenserna, så det är inte säkert att alla reglerande sekvenser och nyligen tillkomna gener som är specifika för ett visst släkte kommer gå att hitta med metoder som letar efter konservering. Det finns en risk att missa de absolut senaste intressanta sekvenserna under naturligt urval bara för att det inte finns något att jämföra med. Dessutom är det inte alls säkert att en bara är intresserad av sekvenser som bevaras av naturligt urval. Om en studerar mänsklig sjukdom, till exempel, är det mycket möjligt att de intressanta sekvenserna faktiskt är neutrala i förhållande till naturligt urval. De kan till exempel ha sin effekt sent i livet, efter reproduktiv ålder.

ENCODE, 80% och varför det mesta av skräpet fortfarande är skräp

ENCODE, encyclopedia of DNA elements, är på tapeten igen: det är några som skrivit en rätt elak kritisk artikel. Den är i och för sig open access så att alla kan läsa den, men jag rekommenderar den här i stället: Sean R Eddy, The C-value paradox, junk DNA, and ENCODE. Den är skriven i faq-/katekesform och är mer pedagogisk än Graur & co.

Vad är det då folk är så arga på? Tja, den här lilla filmen sammanfattar hypen kring ENCODE-projektet ganska väl: en gigantisk robot som slår cancer på käften. Och hela genomet är fullt av aktivitet ”even the parts we used to think of as junk”. Suck.

(Själv samlar jag mod för att redigera eller åtminstone diskutera svenska Wikipedias sida som är lika missvisande.)

Å andra sidan: den här artikeln ger en ganska fin sammanfattning av vad projektet egentligen gjorde. Alltså, precis som namnet antyder, är det fråga om en encyklopedi över dna-element i det mänskliga genomet. För ett par andra förträffliga varelser se modENCODE. Det ENCODE (och många andra) mätte var olika typer av aktivitet: olika saker som fäster vid, skriver av eller modifierar dna. Åtminstone en del av resultaten finns tillgängliga i UCSC-genomläsaren så att vi kan titta på vad som försiggår kring våra favoritgener.

Jag har skrivit lite om genetiskt skräp förut: i korthet så är det en väldigt liten del av dna-sekvensen i en stor flercellig organism som faktiskt innehåller instruktioner för några biomolekyler (proteiner och rna). Ytterligare en del innehåller icke-kodande reglerande sekvenser som styr när generna uttrycks. Men lejonparten av genomet är varken eller. Och det är inte bara så att ingen vet vad de gör — många av sekvenerna är tydligt trasiga virussekvenser och andra omflyttningsbara element. Det visar sig att räknar en generöst är det omkring 80% av sekvensen som någon gång skrivs av, interagerar med ett protein eller har vissa modifikationer (som också brukar bäras av dna som används till något). Därmed inte sagt att de gör någon direkt nytta för organismen.

Sean Eddy:

The question that the “junk DNA” concept addresses is not whether these sequences are biochemically “active”, but whether they’re there primarily because they’re useful for the organism. Sequence conservation analyses, including ENCODE’s, consistently indicate that only around 5-20% of the human genome is under detectable selective pressure. Some additional fraction of sequences has probably evolved new human-specific regulatory functions that are not conserved with other closely related species, but ENCODE’s publicized interpretation would require that such nonconserved regulatory sequences account for 80-95% of the genome, far outnumbering evolutionary conserved regulatory sequences. Given the C-value paradox, mutational load, and the massive impact of transposons, the data remain consistent with the view that the nonconserved 80-95% of the human genome is mostly composed of nonfunctional decaying transposons: “junk”.

Litteratur

The ENCODE Project Consortium (2011) A User’s Guide to the Encyclopedia of DNA Elements (ENCODE). PLOS Biology 9 e1001046. doi:10.1371/journal.pbio.1001046

Sean R Eddy (2012) The C-value paradox, junk DNA, and ENCODE (pdf från hans hemsida)

Dan Graur , Yichen Zheng, Nicholas Price, Ricardo B. R. Azevedo, Rebecca A. Zufall, Eran Elhaik. (2013) On the immortality of television sets: “function” in the human genome according to the evolution-free gospel of ENCODEGenome Biology and Evolution doi:10.1093/gbe/evt028