En multippel sekvensanalyse er en modell som brukes til å finne igjen bevarte trekk hos ulike organismer i en gen-familie.
En multippel sekvensanalyse kan defineres som en todimensjonal tabell (figur 1). Rekkene i tabellen er aminosyre/base-sekvensene som skal analyseres, og kolonnene er de enkelte aminosyrene/basene. Sekvensene plasseres i tabellen slik at rekkefølgen på aminosyrene/basene i hver enkelt sekvens beholdes, men samtidig justeres avstanden mellom aminosyrene/basene ved hjelp av mellomrom (-) slik at de mest like aminosyrene/basene fra de ulike sekvensene plasseres i samme kolonne.
Den multipple sekvensanalysen kan oppsummeres med en pseudo-sekvens som vanligvis skrives til slutt i analysen; consensus-sekvensen (figur 1). Consensus-sekvensen består av symboler som oppsummerer informasjonen gitt i hver enkelt kolonne. I eksempelet i figur 1 er consensus-sekvensen skrevet etter følgende regler:
|
Kolonne1 |
Kolonne 2 |
Kolonne 3 |
Kolonne 4 |
Kolonne 5 |
Kolonne 6 |
Kolonne 7 |
Kolonne 8 |
Kolonne 9 |
Kolonne 10 |
Sekvens 1 Sekvens 2 Sekvens 3 Sekvens 4 Sekvens 5 |
Y Y F F Y |
D D E D E |
G G G - G |
G G G G G |
A - I I A |
V - L L V |
- - V V V |
E E E Q Q |
A A A A A |
L L L V L |
Consensus
sekvens |
y |
d |
G |
G |
A/I |
V/L |
V |
e |
A |
l |
Figur 1. Multippel sekvensanalyse av fem korte aminosyresekvenser. Sekvensene er ordnet slik at de mest like aminosyrene er
plassert under hverandre, ved hjelp av mellomrom (-), samtidig som rekkefølgen på aminosyrene i hver enkelt sekvens er beholdt.
Den siste sekvensen, consensus-sekvensen, er en oppsummering av aminosyrene i hver enkelte kolonne.
Det er utviklet mange forskjellige programmer som utfører multipple sekvensanalyser. Programmene bruker enten en simultan eller en progressiv metode i analysen. Clustal er kanskje det best kjente programmet som bruker en progressiv metode. Dette innebærer at sekvensene først analyseres parvis; de like sekvensene først, deretter de mer ulike (benytter et familie tre). Sekvensene gis poeng etter hvor like de er. Etter den parvise sammenlikningen grupperes sekvensene på grunnlag av poengene de har fått og analyseres gruppevis. Dette danner grunnlaget for den endelige multipple sekvensanalysen.
Tiden det tar for å utføre en multippel sekvensanalyse øker eksponentielt med antall sekvenser som skal analyseres.
En multippel sekvensanalyse gjengis ofte i farger for å gjøre det lettere å trekke ut viktig informasjon fra analysen. Et typisk fargeskjema kan for eksempel være:
Aminosyre Egenskap Farge
¾¾¾¾¾¾¾¾¾¾¾¾¾¾¾¾¾¾¾¾¾¾¾¾¾¾¾¾¾
Asp, Glu Sur Rød
His, Arg, Lys Basisk Blå
Ser, Thr, Asn, Gln Polar nøytral Grønn
Ala, Val, Leu, Ile, Met Hydrofob alifatisk Hvit
Phe, Tyr, Trp Hydrofob aromatisk Lilla
Pro, Gly Spesielle strukturelle egenskaper Brun
Cys Danner disulfidbindinger Gul
¾¾¾¾¾¾¾¾¾¾¾¾¾¾¾¾¾¾¾¾¾¾¾¾¾¾¾¾¾