niedziela, 2 lutego 2020

Czy nowy koronawirus powstał z krzyżówki z wirusem HIV?

Ostatnio media ekscytują się doniesieniem z Indii, że sekwencja genów nowego koronawirusa z Wuhanu wykazuje podobieństwo do wirusa HIV, a ponieważ wirusy nie mogły się połączyć naturalnie, to ktoś musiał go sztucznie zrobić. Przeanalizowałem jednak źródłową publikację i nie był bym tego taki pewny.
https://www.biorxiv.org/content/10.1101/2020.01.30.927871v1.full.pdf

Omówmy na początek czego dotyczyła analiza - badano gen odpowiedzialny za tak zwane białko S, czyli "spike protein", będące tą częścią otoczki wirusa, która przyczepia się do komórki gospodarza. Tworzy ono na zewnątrz wirusa otoczkę grubych wypustek, które na zdjęciach mikroskopowych układają się w jakby koronkę. Stąd nazwa Koronawirus. Jego dokładny kształt i sekwencja decydują o tym, jaki gatunek zwierzęcia będzie łatwo zarażany a jaki trudno. Wcześniejsze analizy pokazały, że w przypadku wirusa z Wuhanu dopasowanie jest wysokie, co przekłada się na dobrą zakaźność i osiąganie wysokiej wiremii (stężenia cząstek wirusa w ustroju i wydalanych wydzielinach, którymi zarażają się kolejni).
Wiele wersji genomu wirusa zostało opublikowanych w naukowych bazach danych, daje więc to możliwość sprawdzania podobieństw do innych wirusów i opracowania ewentualnych źródeł, czy śladów transferu genów. Stąd biorące się już podejrzenia niektórych badaczy, że nowy wirus to mieszanka szczepów nietoperzych, wężych i może nawet ptasich, bo do receptorów komórkowych tych zwierząt też w pewnym stopniu pasuje końcówka proteiny.

Podobną analizę przedstawiono w tej pracy, tylko tutaj wykonano porównanie z innymi wirusami ludzkimi, nawet niespokrewnionymi z koronowirusami. Przetłumaczono geny wirusów na aminokwasy, które kodują, i które są podczas sczytywania kodu łączone w ostateczne białko (trzy kwasy nukleinowe kodują jeden aminokwas białka). Odsiano ze znanych sekwencji fragmenty identyczne ze znanymi koronawirusami (czyli 75-90% genomu, bo takie było podobieństwo z wirusem SARS) i przeanalizowano tylko sekwencje unikalne dla nowego wirusa.W sumie znaleziono cztery sekwencje aminokwasów, które były wspólne dla wszystkich wtedy dostępnych genomów wirusa z Wuhanu i nie pojawiały się w pozostałych koronawirusach. 

Następnie na różne sposoby porównywano te fragmenty z zapisanymi w naukowych bazach danych o genach wirusów ludzkich i znaleziono je całe lub przedzielone krótkimi odstępami w danych na temat trzech szczepów wirusa HIV.  Trzy fragmenty pasowały do białka  HIV1-gp120 tworzącego strukturę kapsydu a jeden do białka HIV1-gag odpowiedzialnego między innymi za interakcję wirusa z błoną infekowanej komórki.

Idąc dalej autorzy twierdzą, że mało jest prawdopodobne, aby był to zbieg okoliczności, bo może krótkie fragmenty białek mogłyby przypadkiem się zgadzać, to niemożliwe jest aby cztery fragmenty jednego wirusa pasowały do czterech fragmentów drugiego ale tego samego wirusa. Na dodatek stwierdzają, że fragmenty te wykazują podobne specyficzne cechy umożliwiające lepsze wiązanie z komórką gospodarza. Zwierają głównie aminokwasy mające w warunkach ustroju dodatni ładunek, które mogą silniej oddziaływać z błoną komórkową zawierającą fosfolipidy o ładunku ujemnym i to też nie może być przypadek, że akurat te fragmenty wykazują takie cechy. Zaś w modelowaniu kształtu białka wirusowego te cztery wstawki znajdują się na zewnętrznych częściach cząsteczki, pełniących rolę w oddziaływaniach z komórką gospodarza.

Konkludują, że wyniki te wskazują na niekonwencjonalną ewolucję wirusa.

Wniosku, że wirusa ktoś stworzył, jawnie w pracy nie przedstawiają, to już sobie dośpiewali dziennikarze.

Problemy
Nie jestem może w tym zakresie specjalistą, ale widzę tu trochę problemów do wyłapania dla każdego, kto poczytał sobie kiedyś trochę prac naukowych. Zacznijmy od drobniejszych, związanych z logiką wywodu. A może w zasadzie od braku dobrego wywodu.

* Dlaczego to nie może być zbieg okoliczności? - Bo to mało prawdopodobne... Czyli właściwie jakie jest to prawdopodobieństwo? Tego autorzy nawet nie próbują szacować. Stwierdzają to jakby szło o coś oczywistego.

* Faktem mającym wspierać pełnienie w białku podobnej funkcji tych sekwencji ma być ilość dodatnio naładowanych aminokwasów, która w sekwencjach wirusa z Wuhanu i HIV jest taka sama. Sęk w tym, że nie jest to nowy fakt. W zasadzie wyliczenie jaki jest stosunek ilości aminokwasów dodatnich, obojętnych i ujemnych w tych sekwencjach, co zajmuje trochę miejsca w tabelach, ja bym nazwał nieco bardziej skomplikowaną wersją stwierdzenia, że te sekwencje są identyczne.
Oni najpierw stwierdzili, że sekwencje zawierają te same aminokwasy, a potem wyliczają że... zawierają te same aminokwasy w takiej samej ilości. Nie dość, że stwierdziliśmy, że sekwencja ABAADAAB wirusa X jest taka sama jak sekwencja ABAADAAB wirusa Y, to jeszcze w dodatku stwierdziliśmy, że sekwencja ta w wirusie X zawiera  5 A, 2B i 1D a w wirusie Y 5 A, 2B i 1D i to drugi fakt, który wspiera nasze wnioski!

* Czy nie może to być efekt konwergencji? - W wyniku podobnych warunków reprodukcyjnych ewolucja może doprowadzać do podobnych rozwiązań u niespokrewnionych organizmów. Jeśli dodatnio naładowane aminokwasy polepszają wiązanie białka wirusa z błoną komórki, to ewolucja powinna promować szczepy zawierające na odsłoniętych fragmentach białka większe zagęszczenie takich właśnie aminokwasów.
Zmniejsza to liczbę możliwych kombinacji aminokwasów (same ujemne aminokwasy i ich zagęszczenia będą eliminowane) i zwiększa szansę, że może to być jednak zbieg okoliczności. W zasadzie można by to zbadać, patrząc czy fragmenty białka odpowiadające tym właśnie miejscom w Spike Protein SARS też mają takie zagęszczenie dodatnich aminokwasów, mimo innej sekwencji. Wiemy, że SARS całkiem nieźle zarażał ludzi, więc w jakiś sposób musiał także być dostosowany do wiązania z komórkami.

Główny problem jest bardziej podstawowy. Chodzi tu mianowicie o to jakie właściwie sekwencje wykazały identyczność. Otóż fragmenty białek identyczne w obu wirusach są cholernie krótkie. Mówimy tu o białkach mających po kilka tysięcy połączonych aminokwasów. Autorzy znaleźli identyczne fragmenty o długości 6-12 aminokwasów...
Oto te kawałki (litery to oznaczenia aminokwasów:
1. CoV - TNGTKR  HIV - TNGTKR
2. CoV - HKNNKS  HIV - HKNNKS
3. CoV - RSYLTPGDSSSG  HIV - RTYLFNETRGNSSSG
4. CoV - QTNSPRRA  HIV - QTNSSILMQRSNFKGPRRA

W niektórych przypadkach identyczne są fragmenty przedzielone innymi aminokwasami, oraz z niektórymi podmienionymi na inne o podobnej polarności. Ciężko tu mówić o 100% identyczności. Jeśli więc mamy cztery kawałki tak małej długości, o nie do końca spełnionej identyczności, z możliwym wpływem konwergencji, to pytanie o to jakie dokładnie jest prawdopodobieństwo przypadkowego zajścia takiej zbieżności, staje się kluczowe. Ale właśnie tego autorzy pracy nawet nie szacowali.

W dodatku używając tej samej bazy danych, z której korzystali autorzy można zauważyć, że sekwencje te nie są specyficzne dla wirusa HIV. Tu jedna z tych sekwencji:
https://blast.ncbi.nlm.nih.gov/Blast.cgi?CMD=Get&RID=394BN2KE016
Występuje w trzech szczepach koronawirusa z Wuhanu oraz dziesięciu szczepach wirusa HIV. Oraz w białku kapsydu szczurzego astrowirusa. Oraz w kilku szczepach bakterii Streptococcus. Oraz w bakteriofagu Mycobacterium. Oraz w bakteriach z rodzajów Escherichia i Yersinia... Wszystkich wyników w bazie jest ponad dwieście.Wśród wyników są też białka kapsydu nietoperzych koronawirusów co oznacza, że zgodnie z metodologią autorów ta sekwencja powinna się w pracy w ogóle nie znaleźć, bo mieli badać tylko unikalne dla wirusa z Wuhanu.

Ogółem: autorzy chyba się bardzo spieszyli, więc wyciągali wnioski za szybko, bez postarania się o dobry wywód i z nadmiernym skupieniem na sensacyjnie brzmiących wynikach. Można to zresztą ocenić dużo gorzej ale nie wiem jak jest, nie znam ich, nie wiem czy są tacy cyniczni aby wypuścić wiarygodnie z pozoru wyglądającą fałszywkę.