På dna-dagen

Idag är det tydligen dna-dagen enligt någon; det är i alla fall roligare än kanelbullens dag. Den 25 april 1953 var dagen då artiklarna (Watson & Crick 1953; Franklin & Gosling 1953; Wilkins, Stokes & Wilson 1953) om dna-molekylens struktur publicerades, och dagen då en typ 150-årig jakt på arvsanlagens molekylära natur på något sätt kulminerade. Från äckligt var från något sår till dna-sekvenser, typ. Alla har sett någon bild på dna-strängen, så jag väljer medvetet att inte visa någon sådan. Istället tänkte jag skriva några rader om dna som kod, en vanlig metafor som både är bra och dålig.

Deoxyribonukleinsyra (dna) är en uppbyggt av en ryggrad av deoxyribos samt olika kombinationer av fyra kvävebaser (adenosin, tymin, guanidin och cytosin; de förkortas med sin begynnelsebokstav som A, T, G och C). De kan kombineras i olika ordning och det är följden av A, T, G och C som bildar den dna-sekvens som lagrar biologisk information. En normal dna-molekyl består av två strängar som löper i motsatt riktning. Baserna bildar par där G kombineras med C och A med T. Båda strängarna lagrar alltså samma information men i motsatt och, som det kallas, komplementär riktning.

Sedan bildar dna-molekyler kromosomer: en kromosom är en lång dna-molekyl upplindad på proteiner. Vi diploida organismer har två uppsättningar av våra kromosomer: en från mamma och en från pappa. Genomet är den sammanlagda sekvensen från en uppsättning av alla kromosomer. När en pratar om det mänskliga genomet menar en den mänskliga referenssekvensen, som är ett exempel på hur en uppsättning kromosomer kan se ut. Det finns naturligtvis genetisk variation mellan indiver. Ta till exempel följande bit från människans kromosom 1:

>1 dna:chromosome chromosome:GRCh37:1:11013:12345:1
GGGGGTTGGGGGGGCGTGTGTTGCAGGAGCAAAGTCGCACGGCGCCGGGCTGGGGCGGGG
GGAGGGTGGCGCCGTGCACGCGCAGAAACTCACGTCACGGTGGCGCGGCGCAGAGACGGG
TAGAACCTCAGTAATCCGAAAAGCCGGGATCGACCGCCCCTTGCTTGCAGCCGGGCACTA
CAGGACCCGCTTGCTCACGGTGCTGTGCCAGGGCGCCCCCTGCTGGCGACTAGGGCAACT
GCAGGGCTCTCTTGCTTAGAGTGGTGGCCAGCGCCCCCTGCTGGCGCCGGGGCACTGCAG
GGCCCTCTTGCTTACTGTATAGTGGTGGCACGCCGCCTGCTGGCAGCTAGGGACATTGCA
GGGTCCTCTTGCTCAAGGTGTAGTGGCAGCACGCCCACCTGCTGGCAGCTGGGGACACTG
CCGGGCCCTCTTGCTCCAACAGTACTGGCGGATTATAGGGAAACACCCGGAGCATATGCT
GTTTGGTCTCAGTAGACTCCTAAATATGGGATTCCTGGGTTTAAAAGTAAAAAATAAATA
TGTTTAATTTGTGAACTGATTACCATCAGAATTGTACTGTTCTGTATCCCACCAGCAATG
TCTAGGAATGCCTGTTTCTCCACAAAGTGTTTACTTTTGGATTTTTGCCAGTCTAACAGG
TGAAGCCCTGGAGATTCTTATTAGTGATTTGGGCTGGGGCCTGGCCATGTGTATTTTTTT
AAATTTCCACTGATGATTTTGCTGCATGGCCGGTGTTGAGAATGACTGCGCAAATTTGCC
GGATTTCCTTTGCTGTTCCTGCATGTAGTTTAAACGAGATTGCCAGCACCGGGTATCATT
CACCATTTTTCTTTTCGTTAACTTGCCGTCAGCCTTTTCTTTGACCTCTTCTTTCTGTTC
ATGTGTATTTGCTGTCTCTTAGCCCAGACTTCCCGTGTCCTTTCCACCGGGCCTTTGAGA
GGTCACAGGGTCTTGATGCTGTGGTCTTCATCTGCAGGTGTCTGACTTCCAGCAACTGCT
GGCCTGTGCCAGGGTGCAAGCTGAGCACTGGAGTGGAGTTTTCCTGTGGAGAGGAGCCAT
GCCTAGAGTGGGATGGGCCATTGTTCATCTTCTGGCCCCTGTTGTCTGCATGTAACTTAA
TACCACAACCAGGCATAGGGGAAAGATTGGAGGAAAGATGAGTGAGAGCATCAACTTCTC
TCACAACCTAGGCCAGTAAGTAGTGCTTGTGCTCATCTCCTTGGCTGTGATACGTGGCCG
GCCCTCGCTCCAGCAGCTGGACCCCTACCTGCCGTCTGCTGCCATCGGAGCCCAAAGCCG
GGCTGTGACTGCT

Men om jag intresserade mig för den här sekvensen skulle jag antagligen betrakta den på en ännu högre abstraktionsnivå, ungefär såhär. Detta är en bild från genomläsaren Ensembl. Detaljerna är inte så viktiga; poängen med den här illustrationen är att genetiken till stor del abstraherar bort den underliggande biokemin. Vi betraktar inte dna-sekvensen direkt, utan med olika bekvämare representationer av dna-sekvensen.

ensembl_human_chr1

Ibland pratar en om den genetiska koden. Med det uttrycket avses inte hela genomet, utan de ungefär 2% som specificerar sekvensen för proteiner. Det är nämligen så att vissa dna-sekvenser, proteinkodande gener, följer en viss kod som motsvarar en sekvens av aminosyror. Aminosyror, i sin tur, bygger upp proteiner, som är biologiskt aktiva stora organiska molekyler som gör saker i celler och kroppar. Proteiner kan vara enzymer som katalyserar olika reaktioner, transportproteiner som flyttar molekyler fram och tillbaka, strukturella proteiner som bygger upp vävnader etc etc. Den genetiska koden, som det kallas, betsår av tripletter av baser, där en tre baser motsvarar en aminosyra. ATG till exempel, motsvara aminosyran metionin samt även startsignalen för att bygga ett protein. TTT motsvarar fenylalanin, GTA valin och så vidare. TAA, TAG eller TGA innebär att den kodande genen är slut och att proteinsekvensen är färdig.

Men det finns andra dna-sekvenser som har andra funktioner än att koda för proteiner. De är svårare att beskriva och hantera, för deras kod är inte lika regelbunden och lätthanterlig som den genetiska koden, men de är ändå viktiga. Till exempel finns det dna-sekvenser som reglerar när och hur mycket olika delar av kroppen kommer använda proteinkodande gener till att faktiskt tillverka proteiner.

Majoriteten av genomet består inte av gener, utan av diverse jox som inte fyller någon direkt funktion. Spaghettikod är ett skällsord som programmerare ibland använder för kod som är svår att överblicka, förvirrande, och som när den körs kommer hoppa hit och dit. Om det mänskliga genomet ska beskrivas som kod är det förmodligen någon sorts spaghettikod. Jag tänkte länge att ett datorprogram är en fruktansvärt dålig metafor för ett genom, eftersom programkod är konstruerad av mänskliga medvetanden som har en plan. Men mina vänner som arbetar med programmering har övertygat mig om att ett tillräckligt stort mjukvaruprojekt med många inblandade ibland utvecklas lite som ett genom, med en kombination av slumpvisa händelser och naturligt urval, inte bara som en process av rationell design.