bioinformatyka wykłady zdalne.rtf

(5217 KB) Pobierz

WYKŁAD 1

 

 

Białka są materiałem zawierającym informację, która może być przedmiotem badań porównawczych. Struktura białek. Analiza białek na różnych poziomach strukturalnych: od I-rzędowego do IV-rzędowego. Sekwencje aminokwasowe, kierunki ułożenia aminokwasów. Poszukiwanie cech wspólnych białek. Różne sposoby graficznego przedstawienia modelu cząsteczki białka w zależności od informacji, którą chcemy wyeksponować. Minimalna liczba aminokwasów w białku. Pozycja konserwatywna białka, sekwencje konsensusowe, konformacja cząsteczki białkowej. Możliwości zastosowania badań porównawczych białka w medycynie.

 

 

PORÓWNYWANIE SEKWENCJI BIAŁKOWYCH

 

ęłęóPorównywanie nowych sekwencji białkowych oraz nukleotydowych często o nieznanej jeszcze funkcji stało się narzędziem metod ich potencjalnego wyjaśnienia poprzez porównywanie ich sekwencji do sekwencji podobnych, analogicznych lub homologicznych białek o znanych właściwościach.

ęłęóPoprzez tego typu badania można wykryć niektóre strukturalne i funkcjonalne właściwości porównywanych białek jak również mechanizm ich różnicowania i ewolucji.

ęłęóNajważniejszymi elementami tego typu badań decydującymi o jakości uzyskanego wyniku jest: ilość dostępnych sekwencji odpowiadających białkom o znanych właściwościach fizykochemicznych i strukturze oraz oprogramowanie zdolne do przedstawienia jakościowo znaczących wyników.

 

NOWE RODZINY BIAŁEK

 

ęłęóBadania nad porównywaniem sekwencji doprowadziły do odkrycia wielu nowych rodzin białkowych np.:

-ęłęóonkogenne kinazy tyrozynowe,

-ęłęósteroidowy receptor,

-ęłęórodzina onkogenów v-erb A,

-ęłęórodzina receptorów dla czynników wzrostowych,

-ęłęóczynniki transkrypcyjne zawierające palce cynkowe.

ęłęóCzęsto wyniki pochodzące z porównań nowego białka do znanych pozwalają na pierwsze przybliżone poznanie mechanizmów jego działania.

 

PIERWSZA KOLEKCJA SEKWENCJI BIAŁKOWYCH

 

ęłęóW początku lat 60-tych pojawiła się pierwsza kolekcja sekwencji białkowych. Jej założycielką była Margaret O. Dayhoff [Dayhoff M. O. i Eck R. V. (1968) Atlas of Protein Sequence and Structure (Wyd. przez Dayhoff M. O. i Eck R. V.) 3, str. 33. National Biomedical Research Foundation, Silver Spring, Maryland.]. Była pierwszą osobą, która zajęła się komputerowymi metodami analizy i gromadzenia sekwencji.

 

ęłęóPoczątkowo dane były gromadzone według kryterium ewolucyjnego i funkcjonalnego. W tym również kierunku prowadzone były badania. Ostatecznie kolekcja przekształciła się w Bazę Sekwencji Białkowych prowadzoną przez National Biochemical Research Foundation (NBRF).

 

ęłęóObecnie program jest wspomagany również przez NHI Division of Research, National Library of Medicine i National Institute of General Medical Science. Głównym celem tych badań jest wsparcie w identyfikacji i interpretacji sekwencji białkowych.

 

SYSTEM PIR

 

ęłęóPIR (Protein Identification Resources) zawiera obecnie zbiór sekwencji białkowych i nukleotydowych oraz oprogramowanie konieczne do identyfikacji oraz analizy magazynowanych sekwencji. Obecnie dostęp do PIR możliwy jest na kilka sposobów, poprzez:

-ęłęóbezpośredni dostęp do systemu komputerowego PIR,

-ęłęótaśmy magnetyczne zawierające sekwencje,

-ęłęóoraz poprzez współpracujące z nim oprogramowanie.

ęłęóPonieważ wiele ośrodków oferuje podobne badania, PIR jest rozwijany jako rozległa precyzyjna i wyczerpująca baza sekwencji oraz związanych z nimi informacji uzupełniających.

ęłęóW związku z postępującym wzrostem liczby sekwencji białkowych oraz gwałtownym wzrostem liczby nowych sekwencji nukleotydowych pojawił się problem ich gromadzenia, katalogowania i wstępnej obróbki.

 

RODZAJE BAZ DANYCH

 

ęłęóZasadniczo istnieją trzy rodzaje baz danych zawierających sekwencje:

ęłęóPierwszym typem są bazy 'surowych'

- nieobrobionych sekwencji zawierające wszystkie dostępne sekwencje tylko w niewielkim stopniu standaryzowane oraz kontrolowane w inny sposób.

ęłęóPrzykładem tego typu bazy może być PSeq1p, która złożona jest z publikowanych oraz dostępnych w inny sposób sekwencji. Podczas wstępnej obróbki eliminowane są jedynie sekwencje identyczne lub prawie identyczne.

 

CZUŁOŚĆ METOD POSZUKIWAŃ

 

ęłęóInnym przykładem może być GenBank Genetic Sequence Database. Składa się on z czytelnych we wszystkich ramkach odczytu sekwencji nukleotydowych.

 

ęłęóPonieważ czułość metod poszukiwań jest bardzo duża, błąd popełniany podczas ich prowadzenia w nieobrobionych sekwencjach jest niewielki i istnieje duża szansa znalezienia sekwencji podobnych do danej.

 

ęłęóJeśli celem poszukiwań jest znalezienie podobieństwa i przypuszczalnej funkcji nowego białka bardziej liczy się dostępna ilość sekwencji niż dokładność prowadzonych poszukiwań. Po znalezieniu podobieństwa możliwe jest sprawdzenie wyników w celu wykluczenia ewentualnych wyników spornych.

 

ABSTRAKTOWE BAZY DANYCH

 

ęłęóDrugim typem baz danych są 'abstraktowe' bazy danych. Baza tego typu zawiera sekwencje pochodzące z publikacji. Wadą tego typu metody składowania sekwencji jest to, że często sekwencje pokrywają się.

 

ęłęóPodczas tworzenia bazy dane wejściowe mogą być standaryzowane i porządkowane (na podstawie dostępnych wraz z nimi informacji) według pochodzenia w celu ułatwienia późniejszych poszukiwań.

 

ęłęóNowe zasoby NBFR Protein Sequence Database oraz wiele z sekwencji GenBank’u jest właśnie tego typu.

 

CECHY ABSTRAKTOWYCH BAZ DANYCH

 

ęłęóAbstraktowa baza dostarcza szeroki zakres sekwencji oraz powiązanych z nimi informacji, które mogą być automatycznie obsługiwane i analizowane przez komputer.

 

ęłęóPoza tym abstraktowa baza danych może służyć jako archiwum informacji niepublikowanych w innych miejscach, przez co nie są one tracone.

 

ęłęóPonieważ cała sekwencja nie zawsze jest prezentowana w jednej publikacji może ona nie odpowiadać biologicznie ważnym rejonom białka.

 

WADY ABSTRAKTOWYCH BAZ DANYCH

 

ęłęóTego typu bazy danych są trudniejsze w obsłudze, spowodowane jest to dłuższym czasem przeszukiwań oraz obliczeń statystycznych. Inną wadą jest możliwość istnienia wielu podobnych lub identycznych sekwencji, wówczas prawdopodobieństwo popełnienia błędu tzn. nieznalezienia znaczącej sekwencji wzrasta.

 

ęłęóWiele metod poszukiwań tego typu baz danych daje w wyniku zbiór najbardziej podobnych sekwencji. Jeśli jednak baza jest wysoce zdegenerowana (istnieje wiele podobnych sekwencji) znalezione sekwencje i tak mogą nie być jakościowo znaczące.

 

ęłęóPoza tym ostateczna klasyfikacja uzyskanych wyników wymaga obecności badacza w celu uzyskania końcowego wyniku. Jedną z metod poprawienia efektywności metod pracy w tego typu bazie jest zwiększenie ilości najbardziej prawdopodobnych sekwencji uzyskanych z danej sesji poszukiwania.

 

BAZY ZAWIERAJĄCE KOMPENDIUM INFORMACJI

 

ęłęóTrzecim typem są bazy zawierające kompendium informacji o danej sekwencji. W przeciwieństwie do rekordów bazy pierwszego typu zawierających tylko sekwencje tego typu baza wraz z sekwencją dostarcza jakościowo znaczących informacji.

 

ęłęóInformacja w tego typu bankach danych jest testowana, analizowana i przeglądana przez obsługę. Akcent położony jest raczej na efekt analizy niż jakość danych.

 

ęłęóPIR Protein Sequence Database jest prowadzona jako referencyjna baza zawierająca całościowe informacje o danej sekwencji w przeciwieństwie do abstraktowej bazy danych, która może zawierać tylko część informacji o białku i kodującej go sekwencji.

 

ęłęóSposób prowadzenia przez PIR bazy ma na celu minimalizację zbędnych informacji poprzez łączenie w poszczególnych elementach bazy wielu informacji o danej sekwencji lub cząsteczce.

 

METODY WYKORZYSTANIA BAZ DANYCH

 

ęłęóPrzeszukiwanie baz w celu znalezienia sekwencji podobnych jest najbardziej znaną metodą ich wykorzystania.

 

ęłęóPoza tym można uzyskać dodatkowe informacje np. Protein Sequence Database oferuje odnośniki literaturowe do metod uzyskania sekwencji inne nazwy cząsteczki, informacje o strukturze domenowej i częściach składowych danego białka informacje genetyczne, dane o pochodzeniu, funkcji, strukturze III i IV-rzędowej oraz innych właściwościach fizykochemicznych.

* Tego typu informacje są dostępne po znalezieniu podobnych sekwencji. Ich obecność jest bardzo użyteczna przy identyfikacji nowych białek dając informacje o strukurze lokalizacji, oraz chemicznych mechanizmach działania. Może służyć również do przewidywania struktury III i IV - rzędowej.

 

ęłęóPomimo dużych nakładów na znalezienie metod przewidywania struktur, lub funkcji, najbardziej efektywną metodą uzyskania przynajmniej przybliżonych informacji tego typu jest wykorzystanie wyników porównań struktury pierwszorzędowej badanej sekwencji z sekwencjami białek homologicznych lub analogicznych dla których prowadzono już badania krystalograficzne, lub NMR.

 

PORÓWNYWANIE BIAŁEK

 

ęłęóBardzo dobre rezultaty daje porównywanie białek wykazujących ponad 50% identyczności z danej nadrodziny białkowej zawartej w bazie.

 

ęłęóZmiany w strukturze pierwszorzędowej pokazują na zdolność akumulowania i zachowywania zmian aminokwasowych bez znaczących efektów dla funkcji badanych białek.

*Silnie konserwatywne regiony są generalnie identyfikowane jako ważne z biologicznego punktu widzenia ( decydujące o aktywności lub istotnej strukturze ).

 

ęłęóTe obserwacje mogą stać się podstawą dla zdefiniowania charakterystycznych układów sekwencji biologicznie znaczących.

 

BAZY DANYCH II GENERACJI

 

ęłęóW jednym kroku mógłby być tworzony profil danej sekwencji, a następnie byłby porównywany do innych profili białek danej grupy.

 

ęłęóTak więc baza, która byłaby zorganizowana według biologicznych założeń i z której znaczące biologicznie informacje byłyby łatwe do uzyskania może stać się bezcennym materiałem do tworzenia tzw. baz danych II generacji.

 

ęłęóTego typu baza byłaby o wiele lepsza niż abstraktowa baza, która wymaga większego czasu potrzebnego do uzyskania i późniejszego zweryfikowania informacji. Ponadto baza zawierająca zweryfikowane kolekcje fragmentów białek o biologicznych funkcjach stymulowałaby dalsze badania w zakresie struktura-funkcja.

 

ATLAS SEKWENCJI I STRUKTUR BIAŁKOWYCH

 

ęłęóNajbardziej znanym pierwszym efektem badań nad sekwencjami gromadzonymi w Protein Sequence Database jest Atlas Sekwencji i Struktur Białkowych.

 

ęłęóPierwsze wydanie zawierało poza wszystkimi znanymi sekwencjami białkowymi i nukleotydowymi tabele homologii oraz drzewa ewolucyjne.

 

ęłęóNastępne wydania zawierały omówienia molekularnych podstaw zmienności metody analizy sekwencji, tabele mutacji w niektórych znanych białkach np. hemoglobinie oraz tabele przypuszczalnych miejsc mutacji.

 

KONCEPCJA NADRODZINY

 

ęłęóW początku lat 80-tych baza przekształciła się w system programowy służący szybkiemu dostępowi do zawartych w niej informacji, wzbogacony o wiele dodatkowych możliwości usprawniających uzyskiwanie informacji.

 

ęłęóMetody analizy i gromadzenia danych opierające się na ewolucyjnych pokrewieństwach miały decydujący wpływ na obecny kształt baz danych trzeciego z wymienionych typów.

 

ęłęóU podstaw tego systemu znajduje się koncepcja nadrodziny.

*Białka są łączone w grupy, których sekwencje aminokwasowe mogą być uznane za ewolucyjnie podobne oraz dla każdej nadrodziny może być skonstruowane drzewo ewolucyjne.

 

BIAŁKA HOMOLOGICZNE

 

ęłęóPrzynależność danego białka do nadrodziny oznacza, że jest ono homologiczne (wywodzi się ze wspólnego przodka) z innymi białkami nadrodziny. Same metody porównujące sekwencje nie są wystarczające, aby można stwierdzić, że daleko spokrewnione białka są homologiczne.

 

ęęłęóOznacza to jedynie, że podobieństwo między nimi nie jest przypadkowe. Funkcjonalne podobieństwo musi być potwierdzone eksperymentalnie, a homologia musi wynikać także z innych biologicznych powodów.

 

ęęłęóMetody, które posłużyły do stworzenia koncepcji nadrodziny nie mogą być używane oddzielnie. Każde białko wchodzące w ten system posiada klasyfikacyjne numery: rodzimy podrodziny, numer kolejnej grupy w nadrodzinie dzielącej białka na homologiczne w 50%, 80% i 95%.

 

UŻYTECZNOŚĆ KONCEPCJI NADRODZINY

 

ęęłęóKoncepcja nadrodziny jest o tyle użyteczna, że jeżeli nowa sekwencja jest homologiczna do jednego białka, w nadrodzinie powinna być również homologiczna do innych członów tej nadrodziny. Koncepcja nadrodzin powstała na długo przedtem zanim stwierdzono, że duże białka mogą składać się z domen pochodzących z różnych cząsteczek RNA, czyli posiadać inne pochodzenie ewolucyjne, poza tym mogło dojść do utraty lub pojawienia się egzonów, zmian ramek odczytu czy włączenia obcego DNA.

 

ęęłęóZałożeniem bazy jest kolekcjonowanie, o ile to możliwe, pierwotnego transkryptu, co niestety nie uwzględnia procesów potranslacyjnych.

*Innym problemem są wirusowe poliproteiny, które powstają jako tłumaczenia dużego fragmentu genomu, które następnie są selektywnie dzielone na funkcjonalne fragmenty.

 

ęęłęóZ tego powodu sekwencje są grupowane np: oddzielnie rodziny immunoglobulinowego regionu v i oddzielnie regionu c; w wirusowe gag i oddzielnie pol poliproteiny. Inne sekwencje są grupowane na podstawie wspólnych domen np: trypsynozależne proteazy serynowe.

 

BAZY DANYCH JIPID

 

ęęłęóWraz z pojawianiem się nowych technik sekwencjonowania białek, automatyzacją procesów klonowania, hybrydyzacji i sekwencjonowania DNA ilość sekwencji białkowych oraz DNA gwałtownie wzrosła.

 

ęęłęóHuman Genom Project jest czynnikiem powodującym o wiele większy napływ nowych sekwencji niż istniał do tej pory.

 

ęęłęóTe czynniki stały się główną przyczyną powstania współpracy i umiędzynarodowienia w zakresie białkowych banków danych.

 

ęęłęóProtein Identification Resources prowadzony przez NBRF współpracuje z Martinsried Institute for Protein Sequences (MIPS) w Niemczech i International Protein Information Database w Japonii (JIPID) co doprowadziło do stworzenia ostatecznej międzynarodowej bazy danych. JIPID rozwija również bazę danych NMR oraz krystalograficznych.

*Każde z centrów kolekcjonujących sekwencje białkowe współpracuje z bankami sekwencji DNA PIR z GenBank, MIPS z EMBL ( European Molecular Biology Laboratory w Heilderbergu), a JIPID z DDBJ ( DNA Database of Japan, Mishima ).

 

 

CEL WSPÓŁPRACY MIĘDZYNARODOWEJ

 

ęęłęóCelem współpracy jest utworzenie identycznych form składowanych danych oraz ich publikowania, ułatwienie dostępu do zasobów, poprawienie szybkości, trafności poszukiwań oraz ilości dodatkowych informacji powiązanych z sekwencjami.

 

ęęłęóIstotnym powodem jest również ujednolicenie nomenklatury i adnotacji oraz wzrost skuteczności oprogramowania ułatwiającego analizę i przegląd banków sekwencji.

 

ęęłęóOd czasu kiedy zaczęły pojawiać się sekwencje białkowe (lata 60), metody ich porównywania i analizy stały się narzędziem o dużym znaczeniu dla badań strukturalnych jak i właściwości funkcjonalnych białek.

 

PODOBIEŃSTWO STRUKTURY TRZECIORZĘDOWEJ

 

ęęłęóFundamentalnym problemem jest rozstrzygnięcie kiedy dwie lub więcej sekwencji posiada podobną strukturę trzeciorzędową lub funkcję. W oparciu o podobieństwa obserwowane w sekwencji aminokwasowej.

 

ęęłęóObecne zrozumienie procesów biorących udział w determinowaniu struktury trzeciorzędowej, lub funkcji nie jest na tyle pełne aby przeprowadzić adekwatne opracowania jedyne na podstawie struktury pierwszorzędowej.

 

ęęłęóW rezultacie tego algorytmy porównujące sekwencje są ograniczone przez przyjęty model porównywania sekwencji i stąd nie gwarantują uzyskania pełnowartościowych biologiczne danych.

 

ęęłęóW tym znaczeniu rezultaty tych badań muszą być przyjmowane tak samo jak wyniki uzyskane klasycznymi metodami biologii molekularnej.

 

UŁOŻENIE RESZTA-RESZTA

 

ęęłęóNie istnieje żadna nadrzędna metoda służąca do tego typu porównań, do badań musi być włączona wiedza z innych dziedzin biologii. Interpretacja ewolucyjnych zależności bazująca na badaniach struktury pierwszorzędowej dowodzi, że procesy ewolucyjne ciągle nie są w pełni zrozumiane.

 

ęęłęóPodstawą wszystkich metod porównawczych jest koncepcja takiego dopasowania, która definiuje relacje między sekwencjami na podstawie ułożenia reszta-reszta.

 

SPRAWDZANIE DOPASOWANYCH SEKWENCJI

 

ęęłęóOdpowiednio dopasowane sekwencje są sprawdzane pod kątem posiadania ewolucyjnego lub funkcjonalnego sensu. Reszty znajdujące się w ekwiwalentnych miejsc...

Zgłoś jeśli naruszono regulamin