Co zawdzięczamy wirusom (4): dygresja o naszym genomie i ukrytych w nim wirusach

Inne wpisy z tej serii:
Co zawdzięczamy wirusom (1): kilka pytań fundamentalnych
Co zawdzięczamy wirusom (2): bakteriofagi, czyli wielopoziomowa gra strategiczna
Co zawdzięczamy wirusom (3): podstępni włamywacze, czyli wirusy w stylu retro
Co zawdzięczamy wirusom (5): nie ma tego złego, co by na dobre nie wyszło
Co zawdzięczamy wirusom (6): nowy obraz ewolucji życia

Co siedzi w naszym genomie?

Genom Homo sapiens podzielony jest między 46 chromosomów (nie licząc maleńkiego genomu mitochondrialnego). 44 chromosomy (tzw. autosomy) tworzą pary (numerowane od 1 do 22). Ostatnia para (chromosomy płciowe) składa się z dwóch chromosomów X (odziedziczonych po ojcu i matce) u kobiet, natomiast u mężczyzn jest asymetryczna: jeden chromosom X (odziedziczony po matce) i chromosom Y (odziedziczony po ojcu). Ponieważ chromosom Y zawiera tylko 40% ilości DNA występującej w chromosomie X, całkowity (diploidalny) genom męski jest o ok. 1,5% krótszy od żeńskiego. Długość genomu liczymy w parach zasad (stanowiących cegiełki, z których zbudowany jest łańcuch DNA).1 Całkowita długość ludzkiego genomu to średnio ok. 6–6,1 mld par zasad (w zależności od płci). Długość ta nieco się waha w populacji ludzkiej, ale jej osobnicza zmienność nie przekracza dziesiątych części procenta.

Na ogół wyobrażamy sobie, że genom – jak sama nazwa wskazuje – składa się z genów, czyli odcinków DNA, które służą jako podstawa do syntezy jakichś biologicznie funkcjonalnych produktów. Część z nich to geny kodujące białka – najważniejsze składniki życia na Ziemi, pełniące najrozmaitsze funkcje. Pozostałe geny, niekodujące, zawierają sekwencje służące jako wzorce do produkcji cząsteczek RNA o różnej długości. One także wykonują w komórce mnóstwo istotnych zadań. Szczególnie ważne kategorie stanowią cząsteczki RNA wchodzące w skład rybosomów (maszynerii molekularnej służącej do syntezy białek) i działające jako rybozymy (katalizujące reakcje biochemiczne, podobnie jak enzymy białkowe). Niekodujące RNA może także regulować ekspresję genów i wykonywać wiele innych, często słabo poznanych funkcji. Ważne, że RNA jest tu produktem końcowym, a nie pośrednim. Nie jest tworzone po to, aby poddać je translacji, czyli przetłumaczyć na aminokwasową sekwencję białka przy zastosowaniu kodu genetycznego.

Genów kodujących białka mamy około 20 tysięcy2; genów niekodujących  – które o wiele trudniej jest zidentyfikować i policzyć – z pewnością wiele tysięcy. Są to liczby dość typowe dla zwierząt (niekoniecznie kręgowców) i nie świadczą o złożoności ani zaawansowaniu ewolucyjnym organizmu. Jeszcze mniejsze znaczenie ma wielkość genomu, która – w odróżnieniu od względnie stałej liczby genów – może się wahać między różnymi gatunkami zwierząt o całe rzędy wielkości.

Mogłoby się wydawać „na zdrowy rozum”, że natura nie lubi rozrzutności, więc w genomie powinno być tylko to, co naprawdę konieczne. Jest jednak inaczej. U człowieka odcinki genów kodujące sekwencje białek zajmują łącznie ok. 0,9% genomu. Odcinki genów niekodujących, z których powstaje funkcjonalne RNA, stanowią prawdopodobnie ok. 0,6%. Do tego dochodzą sekwencje regulatorowe różnego typu, od których zależy ekspresja genów, a także inne sekwencje DNA o znanej funkcji (centromery, telomery, punkty wyjściowe replikacji itp.). Składają się one na nieco ponad 2% naszego DNA. W sumie uzbierało się na razie ok. 3,5%. Do tego trzeba jednak dodać ok. 5% DNA, którego roli jeszcze nie zbadano w szczegółach, ale mamy dobre powody przypuszczać, że jest funkcjonalne, bo jego sekwencja jest zachowywana przez dobór naturalny (czyli nie jest bez znaczenia dla przeżycia i sukcesu reprodukcyjnego swoich nosicieli). Reasumując, około 8–9% ludzkiego genomu (mniej więcej pół miliarda par zasad) to sekwencje na pewno funkcjonalne.

Większość genów (zarówno kodujących, jak i niekodujących) u człowieka oraz innych eukariontów3 składa się z odcinków zawierających informację o sekwencji produktu genu (eksonów) rozdzielonych „przerywnikami” (intronami), często o wiele dłuższymi niż sąsiadujące z nimi eksony. Po transkrypcji, czyli przepisaniu genu na RNA, części transkryptu odpowiadające intronom zostają wycięte, a eksony są sklejane w jedną całość (proces ten to tzw. splicing). Oczywiście geny rozumiane jako odcinki wstępnie poddawane transkrypcji w celu wyprodukowania białek lub RNA (czyli eksony wraz z intronami) zajmują o wiele więcej miejsca niż same eksony: stanowią ok. 45% genomu. Ale znaczna większość tych 45% jest transkrybowana po to, żeby następnie ulec wycięciu.

Introny nie są bynajmniej z zasady niefunkcjonalne. Mogą zawierać elementy regulujące ekspresję genów; mogą się też w nich mieścić geny niekodujące, produkujące RNA pozyskiwane już po wycięciu intronu, a także inne sekwencje ważne dla organizmu. Zostały one jednak już uwzględnione w podanych wyżej oszacowaniach.

Zauważmy, że DNA kodujące stanowi około jednej dziesiątej DNA funkcjonalnego, toteż w żadnym razie nie można tych pojęć utożsamiać. Reszta DNA nie jest zresztą całkiem niepotrzebna. Może odgrywać choćby rolę wypełniacza lub separatora – np. introny muszą mieć pewną minimalną długość, żeby splicing eksonów przebiegał poprawnie. Niefunkcjonalność dotyczy sekwencji DNA, a nie np. jego objętości.

Dlaczego genom się zaśmieca?

Podczas podziałów komórkowych genom jest powielany (replikowany) w całości. Maszyneria replikacyjna nie wnika w to, które składniki genomu są potrzebne, a które można by było usunąć. Zadanie optymalizowania składu genomu pozostawione jest doborowi naturalnemu. Jeśli podczas kopiowania DNA przekazywanego z pokolenia na pokolenie uszkodzony zostanie jakiś odcinek ważny funkcjonalnie, skutki bywają opłakane dla nosiciela: może szybko umrzeć lub spadną jego szanse na sukces reprodukcyjny. Jeśli modyfikacji ulegnie fragment DNA nie pełniący istotnej funkcji, organizm ani na tym nie straci, ani nie zyska. Takie fragmenty ewoluują neutralnie, powoli gromadząc mutacje wskutek nieuniknionych błędów replikacji. Część z tych mutacji z czasem zostaje wyparta z puli genetycznej gatunku, inne ulegają utrwaleniu, ale decyduje o tym losowy dryf genetyczny, a nie dobór naturalny. Wydawałoby się, że dobór powinien premiować zmiany genetyczne, wskutek których takie niepotrzebne odcinki są usuwane na zawsze z genomu, ponieważ mniejszy genom o tej samej użytecznej zawartości jest mniej kosztowny w utrzymaniu i powielaniu. Jednak koszt metaboliczny zależny od wielkości genomu jest pomijalny w „rachunku za energię” komórki. Tylko w szczególnych, rzadko zachodzących okolicznościach presja na „odchudzanie” genomu jest na tyle silna, żeby przeważyć nad drugą tendencją dobrze widoczną w różnych grupach eukariontów: do powiększania genomu.

Wraki genetyczne

Tu dla porządku zaznaczę, że uszkodzenie funkcjonalnego fragmentu genomu nie zawsze oznacza śmierć lub kłopoty. W innej serii wpisów wspominałem o tym, jak u przodka małp i wyraków mutacje uszkadzające „zepsuły” gen GULO, niezbędny do syntezy kwasu L-askorbinowego (witaminy C). To samo zdarzyło się niezależnie u przodka endemicznych gryzoni południowoamerykańskich (świnek morskich, kapibar, szynszyli itd.). Obie grupy zmuszone są pobierać witaminę C wraz z pokarmem, a mimo to odniosły duży sukces ewolucyjny. Małpy (zwłaszcza człekokształtne) utraciły także większość odziedziczonych po przodkach genów kodujących receptory węchowe.4 Stało się to dlatego, że są bardziej wzrokowcami niż węchowcami, a zatem defekty węchu nie miały w ich życiu istotnego znaczenia. Z tej przyczyny dobór naturalny nie usuwał z populacji „daltonistów zapachowych”. Normalna kolej rzeczy jest taka, że osłabienie nacisku selekcyjnego na utrzymanie funkcjonalności sprzyja gromadzeniu się mutacji, które w końcu mogą nieodwracalnie uszkodzić gen.

Utrata funkcji przez gen GULO miała miejsce ok. 60 mln lat temu, a mimo to resztki tego genu są nadal widoczne (choć pełne luk i poszatkowane przez mutacje). Podobnie ma się rzecz z setkami fragmentów ludzkiego DNA, które kiedyś były genami kodującymi receptory zapachowe. Taki wciąż rozpoznawalny, ale już niezdolny do funkcjonowania gen nazywamy pseudogenem. Liczba znanych ludzkich pseudogenów, które kiedyś kodowały białka, wynosi ok. 14 tys. Liczba pseudogenów, które w przeszłości produkowały niekodujące RNA, nie jest dokładnie znana, bo trudniej je zidentyfikować, ale na pewno sięga tysięcy.

A co do tego mają wirusy?

Jak już wiemy, retrowirusy mogą tworzyć sekwencję DNA, która jest włączana do genomu gospodarza jako prowirus. Jeśli infekcja, której skutkiem jest taka wstawka, zajdzie w komórce linii płciowej, to prowirus może zostać odziedziczony przez potomstwo wraz z DNA rodzicielskim. O ile prowirus nie wyrządza nosicielowi szkody albo przynosi korzyść, która kompensuje ewentualne szkody, może się szerzyć w populacji nie dzięki zakażaniu jej przedstawicieli, ale dzięki dziedziczeniu. Staje się składnikiem puli genetycznej i w sprzyjających okolicznościach może w końcu utrwalić się w całej populacji, często w postaci wielu kopii wklejonych w różnych miejscach genomu.

Dziedziczony prowirus przez pewien czas pozostaje potencjalnie aktywny, tzn. zdolny do wyprodukowania postaci zakażającej (wirionów opuszczających komórkę) lub do tworzenia nowych kopii samego siebie dzięki retrotranspozycji (o której będzie mowa poniżej). Ale po upływie czasu odpowiadającego setkom lub tysiącom pokoleń mutacje w końcu uszkadzają go, odbierając mu tę zdolność. Jak już jednak wiemy, nie oznacza to, że wirusowe DNA znika z genomu gospodarza, choćby nawet nie było do niczego potrzebne. Może w nim trwać po wieczne czasy, a po dziesiątkach milionów lat jest nadal rozpoznawalne – podobnie jak pseudogeny. Ściślej mówiąc, z czasem sam staje się grupką pseudogenów (chyba że jakaś jego część uzyskuje „nowe życie”, o czym będzie mowa w kolejnym odcinku).

Ryc. 1.

Taką utrwaloną pozostałość po infekcji retrowirusowej nazywany retrowirusem endogennym lub w skrócie ERV (endogenous retrovirus). Powstanie ERV i jego utrwalenie się w populacji jest ogólnie zjawiskiem rzadkim, ale w ewolucyjnej skali czasu dochodziło do niego wielokrotnie w każdej linii rodowej kręgowców (innych zwierząt, jak wspominałem w poprzednim wpisie, wirusy z rodziny Retroviridae nie atakują). W genomie Homo sapiens rozpoznawalne retrowirusy endogenne stanowią około 8% jego zawartości. To dość dużo, jeśli zważymy, że funkcjonalnego DNA mamy mniej więcej tyle samo.

Porównując wstawki ERV w genomach różnych kręgowców, stwierdzamy, że w dużym stopniu odzwierciedlają one strukturę niezależnie ustalonych pokrewieństw ewolucyjnych. Gatunki tworzące klad (grupę wywodzącą się od wspólnego przodka i obejmującą wszystkich jego potomków) mają zwykle wiele ERV wyraźnie ortologicznych (reprezentujących te same „gatunki” retrowirusów zajmujące te same lokalizacje w genomie), co świadczy o tym, że odpowiednie prowirusy były obecne u ostatniego wspólnego przodka całej grupy. Z jednej strony oznacza to, że retrowirusy endogenne mogą być wykorzystywane w badaniach filogenetycznych, a z drugiej strony – możemy w ten sposób rekonstruować historię retrowirusów i datować punkty rozchodzenia się ich linii ewolucyjnych. Co prawda przeszkadzają w tym pewne komplikacje. „Klasyczne” retrowirusy mogą zmieniać gospodarzy, przeskakując czasem nawet między odlegle spokrewnionymi gatunkami kręgowców, a nieunikniony rozkład resztek prowirusów w genomie wskutek kumulowania się mutacji powoduje, że rozpoznanie śladów infekcji starszych niż 100 mln lat staje się trudne lub niemożliwe. Te organiczenia daje się jednak obejść, na przykład uwzględniając w analizach dane dotyczące słabiej zbadanych, a za to bardziej swoistych dla konkretnych gospodarzy retrowirusów z podrodziny Spumaretrovirinae (wirusów pienistych), które również pozostawiają ślady w postaci ERV. Badania wskazują, że Retroviridae wyewoluowały najpóżniej w ordowiku (ok. 450 mln lat temu), a być może nawet znacznie wcześniej, i infekowały już wspólnych przodków wszystkich współczesnych kręgowców. Musiały zatem pojawić się najpierw w środowisku morskim, a na ląd wyszły wraz z czworonogami.

Dalsi krewni retrowirusów

Mówiliśmy dotąd o retrowirusach w ścisłym sensie, ale ich prowirusy nie są jedynymi składnikami genomu zdolnymi do powielania się kosztem gospodarza i realizującymi swoje egoistyczne interesy w formie „samolubnego DNA”. Do tej kategorii należą fragmenty genomu samopowielające się za pośrednictwem RNA – tak zwane retrotranspozony.6 Niektóre z nich zaopatrzone są na obu końcach w długie powtórzenia końcowe (long terminal repeats, LTR), podobnie jak prowirusy i pochodzące od nich retrowirusy endogenne. Właściwie różnica między retrotraspozonami LTR a retrowirusami endogennymi polega głównie na tym, że u tych drugich widać pozostałości genów kodujących białka współtworzące otoczkę wirusową, w zasadzie nieobecne u retrotranspozonów LTR. Natomiast jedne i drugie posiadają geny białek potrzebnych do replikacji wewnątrzkomórkowej, m.in. białek strukturalnych tworzących opakowanie genomu RNA (kapsyd) oraz własnej odwrotnej transkryptazy i integrazy. Pozostają na swoim miejscu w genomie, lecz za pomocą kodowanych przez siebie białek mogą produkować wirusopodobne twory umożliwiające transport swojego materiału genetycznego wraz z niezbędnymi enzymami w postaci dwu pojedynczych nici RNA i – po odwrotnej transkrypcji z RNA na DNA przeprowadzonej wewnątrz opakowania – wklejanie własnej kopii do innej lokalizacji w genomie bez opuszczania komórki. Taki sposób namnażania się, charakterystyczny dla retrowirusów i retrotranspozonów, nazywamy retrotranspozycją.

Retrotranspozony LTR zaliczane do rodziny Metaviridae (znane też jako Ty3-gypsy) spotyka się w genomach gatunków należących do wszystkich głównych gałęzi ewolucyjnych eukariontów, a pod względem zestawu, kolejności i sekwencji nukleotydowej występujących w nich genów są tak bliskie Retroviridae, że na podstawie analiz filogenomicznych obie rodziny uważa się za ściśle spokrewnione. Biorąc pod uwagę ich zasięg występowania wśród eukariontów, można sądzić, że Metaviridae wywodzą się od znacznie starszych przodków, a Retroviridae wyewoluowały w ich obrębie, choć przy obecnym stanie wiedzy szczegółowe scenariusze filogenetyczne są trudne do zweryfikowania. W każdym razie jedne i drugie są wirusami z ewolucyjnego punktu widzenia, nawet jeśli uległy całkowitej endogenizacji w DNA gospodarza. To samo dotyczy ich nieco dalszych kuzynów, retrotranspozonów LTR z rodziny Pseudoviridae (znanych jako Ty1-copia).

Ryc. 2.

W genomie ludzkim oprócz ERV szczególnie znaczącą rolę odgrywają jednak inne retrotranspozony – nieposiadające LTR. Są to tzw. długie i krótkie rozproszone elementy jądrowe, LINE i SINE. Ich pochodzenie nie jest jasne. LINE zawierają dwa geny białek, z których jedno wiąże mRNA, a drugie może pełnić funkcje odwrotnej transkryptazy i endonukleazy (rozcinającej łańcuch DNA). Oba białka wraz mRNA tworzą kompleks, który tworzy się w cytoplazmie, przenika do jądra i po dokonaniu odwrotnej transkrypcji wkleja nową kopię LINE do genomu. SINE nie kodują własnej odwrotnej transkryptazy, ale tworzą swoje „wklejane” kopie, korzystając z enzymów innych retrotranspozonów (są więc w zasadzie pasożytami pasożytów genomu). Od czasu do czasu (choć skrajnie rzadko) odwrotna transkryptaza LINE umożliwia genomom wirusów RNA nieposiadających takiego enzymu endogenizację „na gapę”. Badacze ewolucji wirusów znaleźli w genomach wielu linii rodowych ssaków utrwalone ślady dawnych infekcji dokonanych zwłaszcza przez bornawirusy (Bornaviridae), których szczególny cykl replikacji (w obrębie jądra komórkowego) najwyraźniej zwiększa prawdopodobieństwo takich zdarzeń.

Omawianie innych „skaczących genów”, czyli transpozonów DNA, wycinających się z jednego miejsca w genomie i wklejających w innym bez pośrednictwa RNA (a występujących nie tylko u eukariontów, ale także u bakterii i archeowców), nie należy już to tego wątku. Wspomnę tylko, że wszystkie elementy określane jako „transpozony” składają się co najmniej na ok. 45% ludzkiego DNA, a być może dodatkowo spora część pochodzi od transpozonów już nierozpoznawalnych. W stosunku do całej objętości genomu 8% stanowią retrowirusy endogenne, ok. 21% – retrotranspozony LINE (tak wysoki udział jest charakterystyczny dla ssaków oprócz stekowców), 13% – SINE, a 3% – transpozony DNA. W ogromnej większości są to elementy współcześnie nieaktywne – i dobrze, bo jako czynniki mutagenne mogłyby poważnie zakłócać normalne funkcje genomu. Tylko jeden ludzki retrowirus endogenny (HERV-K) uchodzi za potencjalnie zdolny do „wybudzenia się z letargu”, a spośród ok. 850 tys. kopii LINE w naszym genomie tylko 80–100 zachowało zdolność do retrotranspozycji (ich liczba może być różna u różnych ludzi).

W kolejnym odcinku serii będzie mowa o tym, jaką ewentualną korzyść dla swojego nosiciela (oprócz bardziej oczywistych zagrożeń) mogą oferować endogenizowane retrowirusy.

Przypisy

1) W przypadku jednoniciowego RNA lub DNA mówimy o nukleotydach (zawierających pojedyncze zasady) jako ich podstawowych jednostkach strukturalnych i za długość nici przyjmujemy liczbę nukleotydów.
2) Liczba ta dotyczy genomu haploidalnego, na który składa się po jednym z każdej pary chromosomów. Drugi chromosom z każdej pary autosomalnej zawiera w zasadzie te same elementy genetyczne, ale mogą się one nieco różnić (czyli stanowić różne allele – warianty tej samej sekwencji DNA), bo każdy z pary genów pochodzi od innego z rodziców.
3) Introny występują także u prokariontów (bakterii i archeowców) oraz wirusów, ale nie są tak rozpowszechnione ani tak długie jak u eukariontów.
4) W wielu przypadkach eksony stanowiące część jednego genu mogą być łączone w różny sposób, co oznacza, że ten sam gen może kodować różne białka (złożone z tych samych modułów w różnych kombinacjach) lub produkować różne cząsteczki niekodującego RNA. Jest to tzw. splicing alternatywny.
5) Jest to ogromna superrodzina białek. Szczur ma prawie 1300 genów kodujących sprawne  receptory zapachów; człowiek – niecałe 300 (pomijając ponad drugie tyle pseudogenów), co i tak stanowi ok. 1,5% wszystkich naszych genów kodujących białka.
6) Technicznie rzecz biorąc, retrowirusy endogenne także są jedną z kategorii retrotranspozonów.

Lektura dodatkowa

Więcej o retroelementach endogennych w genomie człowieka: https://postepybiochemii.ptbioch.edu.pl/index.php/PB/article/view/272/443
O pochodzeniu retrowirusów: https://www.sciencedirect.com/science/article/pii/S187962571730041X

Opisy ilustracji

Ryc. 1. Schemat replikacji aktywnych retrotraspozonów RTL typów Ty3-gypsy i Ty1-copia (rodziny Metaviridae, Pseudoviridae), bardzo podobny jak u aktywnych endogennych Retroviridae. RNA tworzone na podstawie transpozonowego DNA jest eksportowane do cytoplazmy, tam ulega translacji, po czym nici RNA wraz z potrzebnymi enzymami zamykane są w białkowych kapsydach, tworząc „cząstki wirusopodobne”, wewnątrz których zachodzi traskrypcja odwrotna. Wyprodukowane w ten sposób DNA wraca do jądra i zostaje wplecione w genom gospodarza w nowej lokalizacji. Źródło: Pachulska-Wieczorek et. al. 2016 (licencja: CC-BY 4.0).
Ryc. 2. Barbara McClintock (1902–1992), odkrywczyni ruchomych elementów genetycznych, czyli transpozonów (nagroda Nobla z fizjologii i medycyny 1983, trzydzieści lat po odkryciu, które przez długi czas było ignorowane i zapomniane). Gatunkiem badanym przez przyszłą noblistkę była kukurydza (Zea mays). Genom kukurydzy jest nieco mniejszy niż ludzki, choć zawiera ok. dwa razy więcej genów kodujących białka. Jego wyjątkowo duża część (ok. 84%) składa się z transpozonów, z których 90% to retrotraspozony LTR. Nie popełnimy więc przesady, jeśli stwierdzimy, że trzy czwarte DNA kukurydzy jest pochodzenia wirusowego. Foto: Cristian472735. Źródło: Wikipedia (licencja CC BY-SA 4.0).