Ten punkt wymaga dopracowania zgodnie z zaleceniami edycyjnymi.
Trzeba w zanim ulepszyć: niepełne namawianie z en.wiki, niepolskie przypisy, nieprzetłumaczona część tekstu.
Dokładniejsze informacje o tym, co wypada polepszyć, być prawdopodobnie znajdują się na stronie dyskusji tego artykułu w sekcji Dopracować
Po wyeliminowaniu wskazanych do góry niedoskonałości prosimy zapobiec wzornik {{Wycyzelować}} z kodu tego artykułu.
W bioinformatyce, stosowność sekwencji jest sposobem dopasowania struktur pierwszorzędowych DNA, RNA, czy też białek do zidentyfikowania regionów wykazujących równoległość, mogące być konsekwencją funkcjonalnych, strukturalnych, ewentualnie ewolucyjnych powiązań pośrodku sekwencjami. Zestawione sekwencje nukleotydów czy też aminokwasów są najczęściej przedstawione w charakterze wiersze macierzy. Pośrodku reszty wprowadzane są przerwy, racja iż reszty zbliżonych do siebie sekwencji tworzą kolejne kolumny.
Dopasowanie sekwencji, pod ręką pomocy programu ClustalW, dwóch ludzkich białek z motywem palca cynkowego. (Image:Zinc-finger-seq-alignment2.png)
Jeśli duet dopasowywane sekwencje mają wspólne urodzenie, niedopasowania mogą być interpretowane w charakterze mutacje punktowe, a przerwy jak indele (mutacje polegające na delecji albo insercji), które zaszły w jednej czy też obu liniach od czasu, podczas gdy obie sekwencje oswojony rozdzieleniu. W przypadku dopasowywania sekwencji białek, wysokość podobieństwa między aminokwasami zajmującymi konkretną pozycję, przypuszczalnie mianować zgrubną miarę tego, kiedy zacofany jest ustalony pas czy też racja . Niedostatek substytucji albo frekwencja jeno konserwatywnych substytucji (tj. zamiany reszty na inną, tymczasem o podobnych właściwościach chemicznych) w określonym regionie sekwencji sugeruje, iż jest on ważny strukturalnie bądź funkcjonalnie. Dopasowywanie sekwencji przypadkiem być dodatkowo stosowane na rzecz sekwencji pochodzenia z wyjątkiem biologicznego, np. danych finansowych ewentualnie sekwencji występujących w językach naturalnych.
Bardzo krótkie bądź nadzwyczaj podobne sekwencje mogą być dopasowane ręcznie. Niesłychanie często atoli konieczne jest stosowność licznych, niesłychanie długich i zmiennych sekwencji, które nie mogą być dopasowane właśnie i jeno ludzkim wysiłkiem. W zastępstwie tego, mozół wkładany jest w przenoszenie algorytmów umożliwiające wysokiej jakości dopasowania, czy też wprowadzanie poprawek do uzyskanych w ów fortel rezultatów,(szczególnie w przypadku sekwencji nukleotydowych). Ogólnie, podejścia obliczeniowe do dopasowywania sekwencji mogą być dwojakiego rodzaju: dopasowań globalnych i dopasowań lokalnych. Obliczanie dopasowania lokalnego jest formą optymalizacji globalnej, w której stosowność musi trzymać w objęciach całą rozciągłość wszystkich analizowanych sekwencji. W przeciwieństwie, dostosowanie lokalne identyfikuje podobne regiony w obrębie długich sekwencji, które – rozpatrywane w całości – nie muszą zdradzać znacznego podobieństwa. Dopasowania lokalne są z reguły preferowane, toż ich kalkulacja przypadkiem być trudniejsze z uwagi na dodatkowe prowokacja określenia regionów wykazujących konwergencja. Różnorodne algorymy były stosowane do dopasowań sekwencji, w tym powolne, jednak formalnie optymalizujące metody, gdy planowanie dynamiczne, dodatkowo efektywne metody heurystyczne azali probablistyczne, zaprojektowane na rzecz w szerokim zakresie zakrojonych przeszukiwań baz danych.
Spis treści
//
Sposoby przedstawienia
Dopasowania są często prezentowane zarówno graficznie, podczas gdy i w formacie tekstowym. W niezupełnie wszystkich sposobach przedstawienia dopasowań sekwencje zapisywane są w wierszach, ułożonych właśnie iż dopasowane reszty tworzą kolejne kolumny. W formatach tekstowych, dopasowane kolumny, zawierające identyczne czy też podobe symbole (reszty) są oznaczone znaczkami określającymi wielkość konserwatywności. Gdy na powyższym obrazku oczko (ewnentualnie pionowa pasek „I”) są używane, by nalepić etykietę tożsamość między dwiema sekwencjami w danej pozycji; rzadziej używane symbole to dwukropek na wskazanie konserwatywnych substytucji i plama na rzecz podstawień semikonserwatywnych. Do licha i trochę programów wizualizujących sekwencje używają kolorów należycie do właściwości poszczególnych elementów sekwencji. W przypadku DNA i RNA sprowadza się to do przypisania każdemu nukleotydowi innego koloru. W dopasowniach sekwencji białek, gdy na rycinie w górę, kolory są często użyte do oznczenia właściwości aminokwasów, ułatwiając ocenę konserwatywności danego podstawienia. W przypadku dopasowania wielu sekwencji, przeszły wers stanowi często sekwencję konsensusową; ciąg konsensusowa jest również często przedstawiona graficznie w postaci marka sekwencyjnego,w którym wielkość każdego nukleotydu bądź oznaczenia literowego aminokwasu odpowiadają stopniowi jego zakonserwowania.
Dopasowania sekwencji mogą być przechowywane w różnorodnych plikach w formacie tekstowym, z których multum zostało rozwiniętych w połączeniu z konkretnym programem do dopasowa.
Dopasowania globalne i lokalne
Ilustracja globalnych i lokalnych dopasowań, pokazująca przerwy w dopasowaniach globalnych, mogące stanąć, podczas gdy sekwencje nie są dosyć podobne
Dopasowania globalne, obejmujące zupełny charakter wszystkich sekwencji, są w najwyższym stopniu użyteczne, jak zestawiane sekwencje są podobne i o zbliżonych rozmiarach. (Co nie znaczy aczkolwiek, iż dopasowania globalne nie mogą kończyć się przerwami). Ogólna nauki techniczne dopasowania globalnego jest znana jak wzór Needlemana-Wunscha i jest oparta na programowaniu dynamicznym. Dopasowania lokalne są z większym natężeniem przydatne na rzecz sekwencji nie wykazujących w całości większego podobieństwa, co do których istnieje hipoteza, iż zawierają podobne subsekwencje azaliż motywy.Algorytm Smitha-Watermana jest ogólną techniką dopasowania lokalnego, opartą na programowaniu dynamicznym. W przypadku sekwencji pod dostatkiem podobnych, rezultaty dopasowań globalnego i lokalnego są takie same.
Metody mieszane, znane jak semiglobalne, starają się wynaleźć najlepsze możliwe stosowność obejmujące pierwsza zasada i dekadencja jednej czy też drugiej z sekwencji. Mogą one być zwłaszcza użyteczne, podczas gdy dobre imię 3′ końcowa jednej sekwencji zachodzi na część 5′ końcową drugiej z sekwencji. W takim wypadku ani globalne, ani lokalne stosowność jest w pełni odpowiednie: metody globalne starałoby się przymusić na dopasowaniu uścisk regionu abstrahując od obszarem pokrywania, w ciągu kiedy dopasowania lokalne mogłoby nie w pełni obejmować region pokrywania.
Dostosowanie par sekwencji
Metody dopasowywania par sekwencji są używane w celu znalezienia możliwie najlepszych dopasowań lokalnych ewentualnie globalnych dwóch analizowanych sekwencji. Metody te mogą być użyte do dopasowania równolegle przed chwilą dwóch sekwencji, pomimo tego ich obliczanie jest efektywne i są one często używane, kiedy nie jest potrzebna wysoka czułość (np. w czasie szukania w bazie danych sekwencji o znacznej homologii względem naszej sekwencji. Trzy główne metody tworzenia dopasowań par sekwencji to metody dot-matrix, planowanie dynamiczne i metody „k” - krotek (metody oparte na słowach);. Metody dopasowywania wielu sekwencji mogą stać się oraz zastosowane do dopasowań par. Bądź co bądź każda z metod ma swoje słabe i mocne okolica, wszystkie trzy metody dopasowań par sekwencji mają trudności z mocno repetytywnymi sekwencjami o niskiej ilości informacji – zwłaszcza kiedy wolumen powtórzeń w obu sekwencjach jest różna. Jednym ze sposobów wyrażania ilościowego użyteczneości danego dopasowania pary sekwencji jest ‘maximum unique match’, alias najdłuższa subsekwencja, która występuje w obu dopasowywanych sekwencji. Dłuższe przeważnie odzwierciedlają bliższe pokrewieństwo.
Metody dot-matrix
DNA dot plot ludzkiego czynnika transkrypcyjnego zawierającego racja palce cynkowego (GenBank ID NM_002383), wykazującego regionalne samopodobieństwo. Główna przekątna przedstawia stosowność sekwencji do siebie samej;linie wyjąwszy nią przedstawiają podobne czy też repetetywne wzorce w obrębie sekwencji.
Dot-matrix, dostarczająca rodzinę dopasowań na rzecz poszczególnych regionów sekwencji, jest prostym prostym podejściem jakościowym,jednak rozbiór wyników na dużaą skalę jest czasochłonna. Pewne cechy sekwencji – gdy insercje, delecje, powtórzenia proste azali odwrócone – są bez trudu dostrzegalne na graficznej wizualizacji dot-matrix. Konstruując taką wizualizację zapisujemy nasze dwoje sekwencje, właściwie, w pierwszym wierszu i pierwszej kolumnie dwuwymiarowej macierzy macierzy. W miejscu odpowiadającym identycznym/podobnym pozycjom w obu sekwencjach stawiana jest plama. Niektóre implementacje róznicują kaliber czy też intensywnośc kropki w relacje od stopnia podobieństwa w odpowiednich pozycjach, przez co jest dozwolone odróznic substytucje mniej i w wyższym stopniu konserwatywne. W przypadku nader zbliżonych sekwencji na takiej macierzy kropki układają się w pojedynczą linię obok głównej przekątnej.
Macierze takie mogą stać się użyte do oszacowania repetytywności pojedynczej sekwencji. w owym czasie ta sama szereg jest zapisana w pierwszym wierszu/kolumnie, a rejony o znacznym podobieństwie utworzą linie z wyjątkiem główną przekątną. Z taką sytuacją mamy do czynienia, kiedy proteina składa się z wielu podobnych domen strukturalnych.
Planowanie dynamiczne
Technika programowania dynamicznego przypuszczalnie być zastosowana do dopasowań globalnych przez schemat Needlemana-Wunscha, a dopasowań lokalnych przez model Smitha-Watermana. Typowo, dopasowania białek wykorzystują kraj lat dziecinnych substytucji, zawierającą udział identycznych aminokwasów i różnych substytucji do wartości dopasowania, zaś kary za przerwy, tj. analogia aminokwasu w jednej z sekwencji z przwerwą w drugiej. Dopasowania DNA and RNA mogą żerować ojczyzna wartości, jednak często po prostu przypisana jest dodatnia koszt dopasowaniom, ujemna niedopasowanio, równie przewidziana jest wyrok za przerwy.
Programowanie dynamiczne przypadkiem być użyteczne w pobliżu dopasowywaniu sekwencji nukleotydowej do sekwencji białka, funkcja utrudnione przez możliwe mutacje powodujące zmianę ramki odczytu (insercje czy też delecje). Metody framesearch tworzą serię dopasowań globalnych bądź lokalnych par sekwencji – sekwencji nukleotydowej dostarczonej w zapytaniu i przeszukiwanego zestawu sekwencji białek, bądź vice versa. Tak czy owak sposób ta jest niezmiernie powolna, jest użyteczna w przypadku sekwencji zawierających mnogość indeli, które przypuszczalnie być niezmiernie z trudem zaadaptować w sąsiedztwie użyciu z większym natężeniem efektywnych metod heurystycznych. W praktyce tryb ta wymaga znacznej mocy obliczniowej ewentualnie systemu, którego platforma jest ukierunkowana na planowanie dynamiczne.
Przypisy
- ↑ Schneider TD, Stephens RM. Sequence logos: a new way to display ugoda sequences. Nucleic Acids Res. 1990, 18, 6097–6100. . doi:10.1093/nar/18.20.6097. PMID 2172928.
- ↑ Brudno M, Malde S, Poliakov A, Do CB, Couronne O, Dubchak I, Batzoglou S. Glocal alignment: finding rearrangements during alignment. Bioinformatics. 2003, 19 Suppl 1, i54–62. . doi:10.1093/bioinformatics/btg1005. PMID 12855437.
- ↑ Mount DM.: Bioinformatics: Sequence and Genome Analysis 2nd ed.. Cold Spring Harbor Laboratory Press: Cold Spring Harbor, NY., 2004. ISBN 0-87969-608-7.
Kategorie: Biologia • InformatykaUkryte kategorie: Artykuły wymagające dopracowania • Zalążki artykułów