108
sp1_human x egr1_human October 10, 2001 10:50 .. . . . . . 526 RGSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCG 575 | | | .: : | :: | : : :. | |:| |||::|| | | 327 RPSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQC .. RICM 374 . . . . . 576 KRFTRSDELQRHKRTHTGEKKFACPECPKRFMRSDHLSKHIKTH...QNK 622 : |.||| | | ||||||| ||| | ::| ||| :| | | ..| 375 RNFSRSDHLTTHIRTHTGEKPFACDICGRKFARSDERKRHTKIH LRQKDK 424 . . . 623 KGGPGVALSVGTLPLDSGAGSEGSGTATPSALITT 657 | | | | | | |. || . |. 425 KADKSVVASSATSSLSSYPSP..VATSYPSPVTTS 457 Bestfit Output

Bestfit Output

  • Upload
    brinda

  • View
    32

  • Download
    0

Embed Size (px)

DESCRIPTION

Bestfit Output. sp1_human x egr1_human October 10, 2001 10:50 .. . . . . . 526 RGSGDPGKKKQ HICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCG 575 | | | .: : | :: | : : :. | |:| |||::|| | | - PowerPoint PPT Presentation

Citation preview

Page 1: Bestfit Output

sp1_human x egr1_human October 10 2001 1050

526 RGSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCG 575

| | | | | | || ||||| | |

327 RPSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICM 374

576 KRFTRSDELQRHKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNK 622

|||| | | ||||||| ||| | | ||| | | | |

375 RNFSRSDHLTTHIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDK 424

623 KGGPGVALSVGTLPLDSGAGSEGSGTATPSALITT 657

| | | | | | | || |

425 KADKSVVASSATSSLSSYPSPVATSYPSPVTTS 457

Bestfit Output

SP1 at swissprot

EGR1 at swissprot

Вывод

bull Оба белка имеют laquoобщейraquo только небольшую зону похожих последовательностей Поэтому использование bestfit больше подходит для построения локального выравнивания

bull Мы нашли такое локальное выравнивание которое

соответствует возможному структурному выравниванию

bull Структурная laquoпохожестьraquo может свидетельствовать о domainfunction similarity

Bl2Seq at NCBI

Bl2seq results

Bl2seq оценка

bull Bits score ndash оценка выравнивания в соответствии с количеством совпадений laquoпохожестиraquo и тд

bull Expected-score (E) ndash Вероятность

случайности выравнивания Чем ближе к 0 тем больше вероятность что наше выравнивание верно

Оптимизация времени вычислений при парном выравнивании

Алгоритм FASTA

Нахождение оптимального выравнивания требует значительных затрат времени

k ndash длина диагоналей

b ndash фактор отступа от диагонали

bull Basic Local Alignment Search Tool

bull Чувствителен также как FastA но намного быстрее

bull Также как FASTA требует параметр k (длина слова)ndash Белки k= 3 letter wordsndash ДНК k= 11 letter words

Алгоритм BLAST

1 Поиск идентичныхпохожих участков

2 Попытка laquoудлинитьraquo эти участки насколько возможно (те пока score растёт)

В результате High-scoring Segment Pairs (HSPs)

THEFIRSTLINIHAVEADREAMESIRPATRICKREAD

INVIEIAMDEADMEATTNAMHEWASNINETEEN

Алгоритм BLAST (шаг 1)

Попытка соединить соседние HSPs путем выравнивания последовательностей между ними

THEFIRSTLINIHAVEADREA____M_ESIRPATRICKREAD

INVIEIAMDEADMEATTNAMHEW___ASNINETEEN

Алгоритм BLAST (шаг 2)

Blastbull Blast ndash это семейство программ BlastN BlastP

BlastX tBlastN

bull BlastN - ДНК vs ДНКbull BlastP ndash белок vs белокbull BlastX - translated ДНК vs белокbull tBlastN - белок vs translated ДНК

Query ДНК Белок

Database ДНК Белок

Поиск гомологов

По ДНК или по белку

Какой поиск предпочтительней

ДНК или белок

Какая последовательность более постоянна в эволюционном плане

UCAUAC

Or

Serine -Tyrosine

ДНК

OO=P-O O

Фосфатная группаФосфатная группа

NАзотистое основаниеАзотистое основание

(A G C or T)(A G C or T)

CH2

O

C1C4

C3 C2

5

СахарСахар(дезоксирибоза)(дезоксирибоза)

ДНК

ДНК

ДНК состоит из двух цепей нуклеотидов ДНК состоит из двух цепей нуклеотидов соединённых попарносоединённых попарно

ADENINEADENINE ndash ndash THYMINETHYMINE

CYTOSINECYTOSINE - - GUANINEGUANINE

Правило комплементарностиПравило комплементарности

Двойная спиральДвойная спираль

P

P

P

O

O

O

1

23

4

5

5

3

3

5

P

P

PO

O

O

1

2 3

4

5

5

3

5

3

G C

T A

ДНК дальнейшая упаковка

ДНК

Функции ДНК mdash наследственность и изменчивость

Репликация ДНК

Репликация ДНК

bull Генетический код избыточен ndash почти все аминокислоты кодируются более чем 1 кодоном (тройка нуклеотидов)

bull Последовательность ДНК может меняться в то время как последовательность белка остается постоянной

Ser-Tyrhellip

UCAUAC UCUUAC UCGUAC Uhelliphellip

Поиск гомологов

bull Нуклеотиды ndash 4-х буквенный алфавитbull Аминокислоты ndash 20-и буквенный алфавит

Две случайные последовательности ДНК будут идентичны ~ 25Две случайные белковые последовательности будут идентичны ~ 5

Поиск гомологов

Матрицы для сравнения белков более чувствительны чем матрицы для ДНК

Базы данных ДНК намного больше белковых rarr будут случайные совпадения

Поиск гомологов

Использование белковых последовательностей более предпочтительно при поиске гомологов

Поиск гомологов

Множественное выравнивание последовательностей (MSA)

VTISCTGSSSNIGAG-NHVKWYQQLPGVTISCTGTSSNIGS--ITVNWYQQLPGLRLSCSSSGFIFSS--YAMYWVRQAPGLSLTCTVSGTSFDD--YYSTWVRQPPGPEVTCVVVDVSHEDPQVKFNWYVDG--ATLVCLISDFYPGA--VTVAWKADS--AALGCLVKDYFPEP--VTVSWNSG---VSLTCLVKGFYPSD--IAVEWWSNG--

Основные предположения

bull Гены фиксированы сохранены у очень широкого круга биологических видов у совершенно различных представителей laquoдрева жизниraquo

bull Фиксированный генетический код для белков вероятно несёт похожие зачастую идентичные функции

Например

bull Гистоны небольшие белки присутствуют у всех эукариот

Демонстрируют выраженное постоянство последовательности в MSA

Постоянство структуры и функции (упаковка DNA)

Почему множественное выравнивание

Позволяет дать характеристику семействам белков найти общие участки гомологов

Например семейство Serine protease семейство отвечающее за катализ гидролиз пептидных связей

bull Одинаковые активные центры

bull Общие участка последовательности

bull MSA ndash это первый предварительный шаг к анализу в области молекулярной эволюции и построения эволюционных деревьев

bull База для филогенеза ndash данные молекулярной биологии или морфологические данные

Подходы в MSA

2 разных подходаndash 1D sequence based ndash сравнение

последовательностейndash 2D-3D based ndash выравнивание базирующееся на

структуре

MSA algorithm

bull Попарное выравнивание всех последовательностей (pairwise alignment)

bull Кластерный анализ данных парного выравнивания для получения иерархии выравниваний (guide tree)

bull Построение множественного выравнивания (MSA) пошагово в соответствии с guide tree сначала выравнивают наиболее похожие пары затем добавляют остальные и тд

Multiple Alignment - алгоритм

(1) Парное выравнивание (подготовка guide tree)

6 pairwise alignments

then cluster analysis

(2) Множественное выравнивание следуя древу из п 1

successive alignments

Комментарии

bull Парное выравнивание - оптимальный алгоритм

bull Множественное выравнивание не является оптимальным алгоритмом Вполне могут существовать и лучшие выравнивания

bull Редакторы выравниваний могут быть полезны для корректировки

GCG

Pileup глобальный MSA

pileup [list of sequence names]

pileup hemoglobin_list

1 The sign means that the file contains a list of names

2 The list can include names from the userrsquos directory or code names (accession numbers) from the GCG databases

GCGПример входного файла

swhbb_human

swhbb_rat

swhbb_mouse

Hemoglobin_Alpha

Hemoglobin_Gamma

Hemogolibin_Delta

Syntax the file starts with ldquordquo

Sequences from the databases

Sequences from the userrsquos directory

GCG PileUp creates a multiple sequence alignment from a group of relatedsequences using progressive pairwise alignments It can also plot atree showing the clustering relationships used to create the alignment

1 IPNS_STRJU 329 aa 2 IPNS_STRCL 329 aa 3 IPNS_CEPAC 338 aa 4 IPNS_NOCLA 328 aa

What is the gap creation penalty ( 8 ) What is the gap extension penalty ( 2 )

This program can display the clustering relationships graphically Do you want to A) Plot to a FIGURE file called pileupfigure B) Plot graphics on HP7550 attached to devtty15 C) Suppress the plot Please choose one ( A ) c What should I call the output file name ( ipnsmsf )

Determining pairwise similarity scores

1 x 2 443 1 x 3 312 1 x 4 412 2 x 3 294 2 x 4 405 3 x 4 309

Aligning

Total sequences 4 Alignment length 338 CPU time 0021

Output filedatausersracheliothersracheliipnsmsf

Regular GCG syntaxDefault parametersoutput file etc

GCGAA_MULTIPLE_ALIGNMENT 10PileUp of ipnsfil

Symbol comparison table GenRunDatablosum62cmp CompCheck 1102 GapWeight 8 GapLengthWeight 2 ipnsmsf MSF 338 Type P March 14 2002 0929 Check 7631

Name IPNS_STRJU Len 338 Check 6344 Weight 100 Name IPNS_STRCL Len 338 Check 4249 Weight 100 Name IPNS_NOCLA Len 338 Check 7020 Weight 100 Name IPNS_CEPAC Len 338 Check 18 Weight 100

1 50IPNS_STRJU ~MPILMPSAE VPTIDISPLS GDDAKAKQRV AQEINKAARG SGFFYASNHGIPNS_STRCL ~MPVLMPSAH VPTIDISPLF GTDAAAKKRV AEEIHGACRG SGFFYATNHGIPNS_NOCLA ~~~MKMPSAE VPTIDVSPLF GDDAQEKVRV GQEINKACRG SGFFYAANHGIPNS_CEPAC MGSVPVPVAN VPRIDVSPLF GDDKEKKLEV ARAIDAASRD TGFFYAVNHG

51 100IPNS_STRJU VDVQLLQDVV NEFHRNMSDQ EKHDLAINAY NKDNPHVRN GYYKAIKGKKIPNS_STRCL VDVQQLQDVV NEFHGAMTDQ EKHDLAIHAY NPDNPHVRN GYYKAVPGRKIPNS_NOCLA VDVQRLQDVV NEFHRTMSPQ EKYDLAIHAY NKNNSHVRN GYYMAIEGKKIPNS_CEPAC VDLPWLSRET NKFHMSITDE EKWQLAIRAY NKEHESQIRA GYYLPIPGKK

Output filemsf format

GCG

Prettybox генерирует графический файл из файла MSA

prettybox [MSA file]

prettybox hemoglobinsmsf

1 The ldquordquo is a syntax sign meaning all the sequences in the MSA file

2 Can also calculate the consensus sequence

GCG

ClustalWbull Очень известная и широко распространённая

программа UNIX Internet Windows

bull Выполняет MSA может строить филогенетические деревья

bull Входной файл ndash формат multi-fasta

ClustalW

bull tofasta list

gtIPNS_STRJU P18286

MPILMPSAEVPTIDISPLSGDDAKAKQRVAQEINKAARGSGFFYASNHGVDVQLLQDVVN

EFHRNMSDQEKHDLAINAYNKDNPHVRNGYYKAIKGKKAVESFCYLNPSFSDDHPMIKSE

TPMHEVNLWPDEEKHPRFRPFCEDYYRQLLRLSTVIMRGYALALGRREDFFDEALAEADT

LSSVSLIRYPYLEEYPPVKTGADGTKLSFEDHLDVSMITVLYQTEVQNLQVETVDGWQDI

PRSDEDFLVNCGTYMGHITHDYFPAPNHRVKFINAERLSLPFFLNAGHNSVIEPFVPEGA

AGTVKNPTTSYGEYLQHGLRALIVKNGQT

gtIPNS_STRCL P10621

MPVLMPSAHVPTIDISPLFGTDAAAKKRVAEEIHGACRGSGFFYATNHGVDVQQLQDVVN

EFHGAMTDQEKHDLAIHAYNPDNPHVRNGYYKAVPGRKAVESFCYLNPDFGEDHPMIAAG

TPMHEVNLWPDEERHPRFRPFCEGYYRQMLKLSTVLMRGLALALGRPEHFFDAALAEQDS

LSSVSLIRYPYLEEYPPVKTGPDGQLLSFEDHLDVSMITVLFQTQVQNLQVETVDGWRDI

PTSENDFLVNCGTYMAHVTNDYFPAPNHRVKFVNAERLSLPFFLNGGHEAVIEPFVPEGA

SEEVRNEALSYGDYLQHGLRALIVKNGQT

input fileMulti-fasta

Making the file in unix

ClustalWCLUSTAL W (17) multiple sequence alignment

IPNS_STRJU -MPILMPSAEVPTIDISPLSGDDAKAKQRVAQEINKAARGSGFFYASNHGVDVQLLQDVVIPNS_STRGR -MPIPMLPAHVPTIDISPLSGGDADDKKRVAQEINKACRESGFFYASHHGIDVQLLKDVVIPNS_FLASS ----MNRHADVPVIDISGLSGNDMDVKKDIAARIDRACRGSGFFYAANHGVDLAALQKFTIPNS_PENCH --MASTPKANVPKIDVSPLFGDNMEEKMKVARAIDAASRDTGFFYAVNHGVDVKRLSNKTIPNS_CEPAC MGSVPVPVANVPRIDVSPLFGDDKEKKLEVARAIDAASRDTGFFYAVNHGVDLPWLSRET

IPNS_STRJU NEFHRNMSDQEKHDLAINAYNKDNP-HVRNGYYKAIKGKKAVESFCYLNPSFSDDHPMIKIPNS_STRGR NEFHRTMTDEEKYDLAINAYNKNNP-RTRNGYYMAVKGKKAVESWCYLNPSFSEDHPQIRIPNS_FLASS TDWHMAMSAEEKWELAIRAYNPANP-RNRNGYYMAVEGKKANESFCYLNPSFDADHATIKIPNS_PENCH REFHFSITDEEKWDLAIRAYNKEHQDQIRAGYYLSIPEKKAVESFCYLNPNFKPDHPLIQIPNS_CEPAC NKFHMSITDEEKWQLAIRAYNKEHESQIRAGYYLPIPGKKAVESFCYLNPSFSPDHPRIK

Выходной файл aln format

httpwwwebiacukhelpformatshtml

форматы

ClustalW на EMBL

ClustalW на EMBL - результат

ClustalW at EMBL - Jalview

Conservation

Consensus Sequence

Мы можем вывести consensus sequence из результатов MSA The consensus sequence содержит наиболее часто встречающийся символ в кажной колонке выравнивания

A T C T T G T

A A C T T G T

A A C T T C T

A A C T T G T

Ещё пара терминовhelliphellip

Профиль (Profile)

Также возможно вывести статистическую модель описывающую MSA Профиль содержит информацию о символах в каждом столбце выравнивания

A T C T T G T

A A C T T G T

A A C T T C T

1 2 3 4 5 6

A 1 067 0 0

T 0 033 1 1

C 0 0 0 0

G 0 0 0 0

Profile vs Consensus

Consensus каждая позиция отражает наиболее часто встречающийся символ

Profile каждая позиция отражает частоту символа в данной позиции

Profile vs Consensus

Данный MSA будет иметь одинаковый consensus

A A C T T G C

A A G T C G T

C A C T T C T

A A C T T G T

A A C T T G T

A A C T T C T

A A C T T G T

Profile vs Consensus

Но разный профиль

A A C T T G C

A A G T C G T

C A C T T C T

A A C T T G T

A A C T T G T

A A C T T C T

1 2 3 4 5 6

A 066 1 0 0

T 0 0 0 1

C 033 0 066 0

G 0 0 033 0

1 2 3 4 5 6

A 1 1 0 0

T 0 0 0 1

C 0 0 1 0

G 0 0 0 0

Psi Blast (NCBI)

Position Specific Iterated ndash автоматизированный поиск по профилю

Regular blast

Construct profile from blast results

Blast profile search

Final results

PSI-Blast

Psi-Blast вывод

Проблема формулировки выводов при использовании МSA

1 Сайт выглядит общим (фиксированным) из-за того что это ndash близкородственные последовательности

2 Сайт выглядит общим из-за того что это ndash исключительно жизненно важный сайт

ФилогенезЭволюция ndash случайный процесс с неслучайным результатом

Цели филогенетического исследования

bull Реконструкция корректных генеалогических связей

между биологическими объектами

bull Оценка времени расхождения организмов

bull Определение порядка эволюционных событий в процессе

эволюции

Формат Newick

((A(BC))(DE))

Типы данных

Molecular (DNA RNA proteins)

Morphological (soft tissue hard tissue extant extinct)

Преимущества молекулярных данных

bull Наследуемость

bull Недвусмысленность в описании молекулярных характеристик

bull Поддаются количественному анализу

bull Оценка гомологии легче чем морфологические исследования

bull Данных много

Древо видов и геновbull Древо видов ndash эволюционные взаимосвязи

между видами (видообразование)bull Древо генов

Page RDM and Cotton JC (2000) GeneTree a tool for exploring gene family evolution In D Sankoff and J Nadeau (eds) Comparative Genomics Empirical and Analytical Approaches to Gene Order Dynamics Map Alignment and the Evolution of Gene Families Kluwer Academic Publishers Dordrecht pp 525-536

Figure 2 (a) Incongruent gene and species trees This incongruence can be explained by hypothesizing a gene duplication (h) at the base of the gene tree (b)The presence of only a single gene (a-d) extant in each of the present-day species(1-4) requires postulating three gene losses (c) The corresponding reconciled tree

Ортологи и паралоги

bull Гены-паралоги ndash событие дупликация (and

bull Гены-ортологи ndash событие видообразования (in the two species and in the two species

Duplication

Speciation

Species a Species b

Шаги реконструирования филогенетического

древа

1 Выбор последовательностей и поиск гомологов

2 MSA3 Матрица белков4 Филогенетическое дерево

Филогенетическое дерево

Филогения - раздел биологии изучающий родственные взаимоотношения разных групп живых организмов Филогению отображается обычно в виде эволюционных древ или систематических названий

Зачем нужны филогенетические деревья

Биологические задачи

сравнение 3-х и более объектов (кто на кого более похож )

реконструкция эволюции (кто от кого как и когда произошелhellip)

ТерминологияУзел (node) mdash точка разделения предковой последовательности(вида популяции) на две независимо эволюционирующиеСоответствует внутренней вершине графа изображающего эволюциюЛист (leaf OTU ndash оперативная таксономическая единица) mdash реальный (современный) объект внешняя вершина графаВетвь (branch) mdash связь между узлами или между узлом и листом ребро графаКорень (root) mdash общий предокКлада (clade) - группа двух или более таксонов или последователь-ностей ДНК которая включает как своего общего предка так и всех его потомков

OTU

HTU (hypotetical taxonomic unit)

Какие бывают деревья

Бинарное (разрешённое)(в один момент времени может

произойти только одно событие )

Небинарное (неразрешённое) (может ли в один момент времени

произойти два события )

Время

Какие бывают деревья

Укорененное дерево (rooted tree)отражает направление эволюции

Неукорененное (бескорневое) дерево(unrooted tree) показывает только связи между узлами

Время

Если число листьев равно n существует (2n-3)разных бинарных укоренных деревьевПо определению (2n-3) = 1middot3 middot middot(2n-3)

Существует (2n-5) разных бескорневых деревьев с n листьями

Rooting

A C B B C AA B C

3 OTUs 3 OTUs 1 н 1 неукорененное деревоеукорененное дерево 33 укорененных деревьев укорененных деревьев

A

B

C

D

C

A

B

4 OTUs 4 OTUs 3 3 неукорененных филогенетических неукорененных филогенетических деревьевдеревьев

D

B

A

C C

B

A

D

4 OTUs

15 укорененных

деревьев

Количество Количество Количество

OTU укорененных неукорененных

2 1 13 3 14 15 35 105 156 954 1057 103959548 135135 103959 2027025 13513510 34459425 202702511 654729075 3445942512 13749310575 654729075

Количество возможных деревьев

Рутинная процедура или как строят деревья

Составление выборки последовательностей

Множественное выравнивание

Построение дерева фрагмент записи в виде скобочной формулы

Визуализация и редактура дерева

(((((con1013851018(f539692826973((f67220839851max42750591)492893con923019677)1362315)953075)2583145

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Множественное выравнивание

Matches

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Multiple Alignment

Matches

Mismatches

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Multiple Alignment

Matches

Mismatches

Gaps

Seq 1 A G C G A GSeq 1 A G C G A GSeq 2 G C G G A CSeq 2 G C G G A C

Шаг 3 Перевод количества расхождений в индексы замен

Distance Matrix

Units количество замен нуклеотидов на 1000

Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86

Rice 00 118 122 122

Mosquito 00 55 51

Monkey 00 3

Human 00

Шаг 4 построение филогенетического дерева

Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86

Rice 00 118 122 122

Mosquito 00 55 51

Monkey 00 3

Human 00

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Дистанция между человеком и обезьяной минимальна Эти группы объединяются в Monkey-Human а все остальные дистанции пересчитываются

Dist[Spinach MonHum] = (Dist[Spinach Monkey] +

Dist[Spinach Human])2 = (91 + 86)2 = 885

Spinach Rice Mosquito Mon-HumSpinach 00 9 106 885

Rice 00 118 122

Mosquito 00 53

Mon-Hum 00

Редуцированная матрица дистанций

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Spi-Ric

HumanMosquito

Mon-Hum

MonkeySpinachRice

Mos-Mon-Hum

Spi-Ric

Mos-Mon-Hum-Spi-Ric

Как выбирать последовательности для дерева

Кроме случаев очень близких последовательностей проще работать с белками (а не с ДНК)

Придерживайтесь небольшой выборки (lt 50 последовательностей)

Избегайтеndash фрагментовndash Ксенологов (горизонтальный перенос генов)ndash рекомбинантных последовательностейndash многодоменных белков и повторов

Используйте outgroup (последовательность ответвившаяся от общего предка заведомо (но минимально) раньше разделения интересующих групп-клад)

Самое главное ndash хорошее выравнивание

Максимальный вклад в финальное дерево нельзя построить хорошее дерево по плохому выравниванию

Блоки содержащие много гэпов плохо выровненные N- и C- концы можно просто вырезать

Основные алгоритмы построения филогенетических деревьев

Методы основанные на оценке

расстояний (матричные методы)

bull UPGMA (кластеризация)

bull Neighbor-joining

bull Минимальная эволюция

Наибольшего правдоподобия Maximal likelihood ML Используется модель эволюции и строится дерево которое наиболее правдоподобно при данной модели

Максимальной экономии (бережливости)

maximal parsimony MP Выбирается дерево с минимальным количеством

мутаций необходимых для объяснения данных

Пример матрицы расстояний

1 2 3 4 5 6 7 8 000 1053 977 1278 1203 1654 1353 2500 HUMAN 1

000 902 1203 977 1579 902 2727 HORSE 2 000 977 902 1654 1203 2424 RABIT 3

000 226 1729 1053 2576 MOUSE 4 000 1579 827 2576 RAT 5

000 1053 2955 BOVIN 6 000 2500 PIG 7

000 CHICK 8

Расстояние (уровень дивергенции) между соответствующими последовательностями из геномов мыши и свиньи

Как понимать расстояние между объектами

bull Как время в течение которого они эволюционировалиbull Как число laquoэволюционных событийraquo (мутаций)

В первом случае объекты образуют ультраметрическое пространство(если все объекты наблюдаются в одно время что как правило верно)

Но время непосредственно измерить невозможно

Гипотеза laquoмолекулярных часовraquo(EZuckerkandl LPauling 1962)

За равное время во всех ветвях эволюции данного генабелка накапливается равное число мутацийЕсли гипотеза молекулярных часов

принимается число различий между выровненными последовательностями можно считать примерно пропорциональным времени Отклонения от ультраметричности можно считать случайными Эволюция реконструируется в виде ультраметрического дерева

Укоренённое дерево называется ультраметрическим если расстояние от корня до любого из листьев одинаково

UPGMAUnweighted Pair Group Method with Arithmetic Mean

разновидность кластерного метода

Расстояние между кластерами вычисляется как среднее арифметическое всевозможных расстояний между последовательностями из кластеров

Недостатки UPGMA

Алгоритм строит ультраметрическое дерево ndash скорость эволюции предполагается одинаковой для всех ветвей дерева Использовать этот алгоритм имеет смысл только в случае ультраметрических данных (справедливости laquoмолекулярных часовraquo)

Реальное дерево UPGMA

Метод ближайших соседей (Neighbor-joining NJ)

Строит неукоренённое дерево

Может работать с большим количеством данных

Достаточно быстрый

Если есть недвусмысленное с точки зрения эксперта дерево то оно будет построено

Метод Neighbor-joining

Рисуем laquoзвездноеraquo дерево и будем laquoотщипыватьraquo от него по паре листьев

Пусть ui = Σk Mik(n-2) mdash среднее расстояние от листа i до других

листьев

1 Рассмотрим все возможные пары листьев Выберем 2 листа i и j с минимальным значением величины

Mij ndash ui ndashuj

те выбираем 2 узла которые близки друг к другу но далеки ото всех остальных

Метод ближайших соседей (Neighbor-joining NJ)

2 Кластер (i j) ndash новый узел дерева

Расстояние от i или от j до узла (ij) D(i (ij)) = 05middot(Mij + ui ndash uj) D(j (ij)) = 05middot (Mij + uj ndash ui) те длина ветви зависит от среднего расстояния до других вершин

3 Вычисляем расстояние от нового кластера до всех других

M(ij)k = Mik+Mjk ndash Mij 2

5 В матрице М убираем i и j и добавляем (i j) Повторяем пока не останутся 3 узла

Input MSA для n последовательностей одна последовательность для каждого вида

AAAAATC

AAAAAAG

CCCCCCG

AAAAATCAAAAAAG

CCCCCCG

Длинная ветвь ndash непохоже на правду

Длинная ветвь -Похоже на правду

Методы основанные на последовательностях Maximum Likelihood (ML) Maximum Parsimony (MP)

Как изобразить дерево Топология дерева

Топология дерева mdash только листья узлы (корень) и связывающие их ветви (топология не зависит от способа изображения дерева)

A

B

C

D

E A BC D E

Два изображения одной и той же топологии

Bacterium 1

Bacterium 3

Bacterium 2

Eukaryote 1

Eukaryote 4

Eukaryote 3

Eukaryote 2

Bacterium 1

Bacterium 3Bacterium 2

Eukaryote 1

Eukaryote 4Eukaryote 3

Eukaryote 2

Филограммы ndash длины ветвей

пропорциональны

эволюционному расстоянию

Кладограммы и филограммы

Кладограммы ndash только

топологя Длины ветвей не

учитываются

6

31

2

46

24

53

Как можно нарисовать построенное дерево

Какие on-line программы строят деревья

ClustalW ldquoTree typerdquo ndash nj phylip строит только методом NJ но результат ndash в разных форматах no bootstraps

Phylip (Felsenstein 1993) ndash пакет программ для построения филогенетических деревьев (stand-alone)On-line (partly) например

httpbiowebpasteurfrseqanalphylogenyphylip-ukhtml PAUP (Phylogenetic Analysis Using Parsimony)

MEGA филогенетический анализ последовательностей

httpwwwmegasoftwarenet

Эволюция ndash исторический процесс

Из 8200794532637891559375 деревьев для 20 OTUs 1

является верным и 8200794532637891559374

неверны

Truth is one falsehoods are many

Какое из 8200794532637891559375

деревьев истинно

Мы не знаем Можно применить иные критетии

Например ldquoпохожесть=родствоraquo

GCGbull Строковый поиск простой текстовый

поиск по локальной базе данных

bull Поиск в определениях или в аннотациях

bull Определения содержат минимальное количество информации для каждой статьи доступ имя организма имя гена длина последовательности дата

  • Bestfit Output
  • SP1 at swissprot
  • EGR1 at swissprot
  • Вывод
  • Bl2Seq at NCBI
  • Bl2seq results
  • Bl2seq оценка
  • Оптимизация времени вычислений при парном выравнивании
  • Slide 9
  • Алгоритм BLAST (шаг 1)
  • Slide 11
  • Blast
  • Поиск гомологов
  • ДНК или белок
  • ДНК
  • Slide 16
  • Slide 17
  • Двойная спираль
  • ДНК дальнейшая упаковка
  • Slide 20
  • Репликация ДНК
  • Slide 22
  • Slide 23
  • Slide 24
  • Slide 25
  • Множественное выравнивание последовательностей (MSA)
  • Slide 27
  • Основные предположения
  • Например
  • Почему множественное выравнивание
  • Slide 31
  • Подходы в MSA
  • MSA algorithm
  • Multiple Alignment - алгоритм
  • Комментарии
  • GCG
  • Slide 37
  • GCG
  • Slide 39
  • Slide 40
  • Slide 41
  • ClustalW
  • Slide 43
  • Slide 44
  • ClustalW на EMBL
  • ClustalW на EMBL - результат
  • ClustalW at EMBL - Jalview
  • Consensus Sequence
  • Профиль (Profile)
  • Profile vs Consensus
  • Slide 51
  • Slide 52
  • Psi Blast (NCBI)
  • PSI-Blast
  • Psi-Blast вывод
  • Slide 56
  • Филогенез
  • Slide 58
  • Slide 59
  • Slide 60
  • Slide 61
  • Древо видов и генов
  • Ортологи и паралоги
  • Шаги реконструирования филогенетического древа
  • Филогенетическое дерево
  • Зачем нужны филогенетические деревья
  • Терминология
  • Slide 68
  • Какие бывают деревья
  • Slide 70
  • Slide 71
  • Slide 72
  • 4 OTUs 3 неукорененных филогенетических деревьев
  • Slide 74
  • Slide 75
  • Slide 76
  • Slide 77
  • Рутинная процедура или как строят деревья
  • Slide 79
  • Slide 80
  • Slide 81
  • Slide 82
  • Slide 83
  • Slide 84
  • Slide 85
  • Slide 86
  • Slide 87
  • Slide 88
  • Slide 89
  • Как выбирать последовательности для дерева
  • Самое главное ndash хорошее выравнивание
  • Основные алгоритмы построения филогенетических деревьев
  • Пример матрицы расстояний
  • Slide 94
  • Гипотеза laquoмолекулярных часовraquo (EZuckerkandl LPauling 1962)
  • UPGMA Unweighted Pair Group Method with Arithmetic Mean
  • Недостатки UPGMA
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Метод Neighbor-joining
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Slide 101
  • Как изобразить дерево Топология дерева
  • Slide 103
  • Какие on-line программы строят деревья
  • MEGA филогенетический анализ последовательностей
  • Slide 106
  • Slide 107
  • Slide 108
Page 2: Bestfit Output

SP1 at swissprot

EGR1 at swissprot

Вывод

bull Оба белка имеют laquoобщейraquo только небольшую зону похожих последовательностей Поэтому использование bestfit больше подходит для построения локального выравнивания

bull Мы нашли такое локальное выравнивание которое

соответствует возможному структурному выравниванию

bull Структурная laquoпохожестьraquo может свидетельствовать о domainfunction similarity

Bl2Seq at NCBI

Bl2seq results

Bl2seq оценка

bull Bits score ndash оценка выравнивания в соответствии с количеством совпадений laquoпохожестиraquo и тд

bull Expected-score (E) ndash Вероятность

случайности выравнивания Чем ближе к 0 тем больше вероятность что наше выравнивание верно

Оптимизация времени вычислений при парном выравнивании

Алгоритм FASTA

Нахождение оптимального выравнивания требует значительных затрат времени

k ndash длина диагоналей

b ndash фактор отступа от диагонали

bull Basic Local Alignment Search Tool

bull Чувствителен также как FastA но намного быстрее

bull Также как FASTA требует параметр k (длина слова)ndash Белки k= 3 letter wordsndash ДНК k= 11 letter words

Алгоритм BLAST

1 Поиск идентичныхпохожих участков

2 Попытка laquoудлинитьraquo эти участки насколько возможно (те пока score растёт)

В результате High-scoring Segment Pairs (HSPs)

THEFIRSTLINIHAVEADREAMESIRPATRICKREAD

INVIEIAMDEADMEATTNAMHEWASNINETEEN

Алгоритм BLAST (шаг 1)

Попытка соединить соседние HSPs путем выравнивания последовательностей между ними

THEFIRSTLINIHAVEADREA____M_ESIRPATRICKREAD

INVIEIAMDEADMEATTNAMHEW___ASNINETEEN

Алгоритм BLAST (шаг 2)

Blastbull Blast ndash это семейство программ BlastN BlastP

BlastX tBlastN

bull BlastN - ДНК vs ДНКbull BlastP ndash белок vs белокbull BlastX - translated ДНК vs белокbull tBlastN - белок vs translated ДНК

Query ДНК Белок

Database ДНК Белок

Поиск гомологов

По ДНК или по белку

Какой поиск предпочтительней

ДНК или белок

Какая последовательность более постоянна в эволюционном плане

UCAUAC

Or

Serine -Tyrosine

ДНК

OO=P-O O

Фосфатная группаФосфатная группа

NАзотистое основаниеАзотистое основание

(A G C or T)(A G C or T)

CH2

O

C1C4

C3 C2

5

СахарСахар(дезоксирибоза)(дезоксирибоза)

ДНК

ДНК

ДНК состоит из двух цепей нуклеотидов ДНК состоит из двух цепей нуклеотидов соединённых попарносоединённых попарно

ADENINEADENINE ndash ndash THYMINETHYMINE

CYTOSINECYTOSINE - - GUANINEGUANINE

Правило комплементарностиПравило комплементарности

Двойная спиральДвойная спираль

P

P

P

O

O

O

1

23

4

5

5

3

3

5

P

P

PO

O

O

1

2 3

4

5

5

3

5

3

G C

T A

ДНК дальнейшая упаковка

ДНК

Функции ДНК mdash наследственность и изменчивость

Репликация ДНК

Репликация ДНК

bull Генетический код избыточен ndash почти все аминокислоты кодируются более чем 1 кодоном (тройка нуклеотидов)

bull Последовательность ДНК может меняться в то время как последовательность белка остается постоянной

Ser-Tyrhellip

UCAUAC UCUUAC UCGUAC Uhelliphellip

Поиск гомологов

bull Нуклеотиды ndash 4-х буквенный алфавитbull Аминокислоты ndash 20-и буквенный алфавит

Две случайные последовательности ДНК будут идентичны ~ 25Две случайные белковые последовательности будут идентичны ~ 5

Поиск гомологов

Матрицы для сравнения белков более чувствительны чем матрицы для ДНК

Базы данных ДНК намного больше белковых rarr будут случайные совпадения

Поиск гомологов

Использование белковых последовательностей более предпочтительно при поиске гомологов

Поиск гомологов

Множественное выравнивание последовательностей (MSA)

VTISCTGSSSNIGAG-NHVKWYQQLPGVTISCTGTSSNIGS--ITVNWYQQLPGLRLSCSSSGFIFSS--YAMYWVRQAPGLSLTCTVSGTSFDD--YYSTWVRQPPGPEVTCVVVDVSHEDPQVKFNWYVDG--ATLVCLISDFYPGA--VTVAWKADS--AALGCLVKDYFPEP--VTVSWNSG---VSLTCLVKGFYPSD--IAVEWWSNG--

Основные предположения

bull Гены фиксированы сохранены у очень широкого круга биологических видов у совершенно различных представителей laquoдрева жизниraquo

bull Фиксированный генетический код для белков вероятно несёт похожие зачастую идентичные функции

Например

bull Гистоны небольшие белки присутствуют у всех эукариот

Демонстрируют выраженное постоянство последовательности в MSA

Постоянство структуры и функции (упаковка DNA)

Почему множественное выравнивание

Позволяет дать характеристику семействам белков найти общие участки гомологов

Например семейство Serine protease семейство отвечающее за катализ гидролиз пептидных связей

bull Одинаковые активные центры

bull Общие участка последовательности

bull MSA ndash это первый предварительный шаг к анализу в области молекулярной эволюции и построения эволюционных деревьев

bull База для филогенеза ndash данные молекулярной биологии или морфологические данные

Подходы в MSA

2 разных подходаndash 1D sequence based ndash сравнение

последовательностейndash 2D-3D based ndash выравнивание базирующееся на

структуре

MSA algorithm

bull Попарное выравнивание всех последовательностей (pairwise alignment)

bull Кластерный анализ данных парного выравнивания для получения иерархии выравниваний (guide tree)

bull Построение множественного выравнивания (MSA) пошагово в соответствии с guide tree сначала выравнивают наиболее похожие пары затем добавляют остальные и тд

Multiple Alignment - алгоритм

(1) Парное выравнивание (подготовка guide tree)

6 pairwise alignments

then cluster analysis

(2) Множественное выравнивание следуя древу из п 1

successive alignments

Комментарии

bull Парное выравнивание - оптимальный алгоритм

bull Множественное выравнивание не является оптимальным алгоритмом Вполне могут существовать и лучшие выравнивания

bull Редакторы выравниваний могут быть полезны для корректировки

GCG

Pileup глобальный MSA

pileup [list of sequence names]

pileup hemoglobin_list

1 The sign means that the file contains a list of names

2 The list can include names from the userrsquos directory or code names (accession numbers) from the GCG databases

GCGПример входного файла

swhbb_human

swhbb_rat

swhbb_mouse

Hemoglobin_Alpha

Hemoglobin_Gamma

Hemogolibin_Delta

Syntax the file starts with ldquordquo

Sequences from the databases

Sequences from the userrsquos directory

GCG PileUp creates a multiple sequence alignment from a group of relatedsequences using progressive pairwise alignments It can also plot atree showing the clustering relationships used to create the alignment

1 IPNS_STRJU 329 aa 2 IPNS_STRCL 329 aa 3 IPNS_CEPAC 338 aa 4 IPNS_NOCLA 328 aa

What is the gap creation penalty ( 8 ) What is the gap extension penalty ( 2 )

This program can display the clustering relationships graphically Do you want to A) Plot to a FIGURE file called pileupfigure B) Plot graphics on HP7550 attached to devtty15 C) Suppress the plot Please choose one ( A ) c What should I call the output file name ( ipnsmsf )

Determining pairwise similarity scores

1 x 2 443 1 x 3 312 1 x 4 412 2 x 3 294 2 x 4 405 3 x 4 309

Aligning

Total sequences 4 Alignment length 338 CPU time 0021

Output filedatausersracheliothersracheliipnsmsf

Regular GCG syntaxDefault parametersoutput file etc

GCGAA_MULTIPLE_ALIGNMENT 10PileUp of ipnsfil

Symbol comparison table GenRunDatablosum62cmp CompCheck 1102 GapWeight 8 GapLengthWeight 2 ipnsmsf MSF 338 Type P March 14 2002 0929 Check 7631

Name IPNS_STRJU Len 338 Check 6344 Weight 100 Name IPNS_STRCL Len 338 Check 4249 Weight 100 Name IPNS_NOCLA Len 338 Check 7020 Weight 100 Name IPNS_CEPAC Len 338 Check 18 Weight 100

1 50IPNS_STRJU ~MPILMPSAE VPTIDISPLS GDDAKAKQRV AQEINKAARG SGFFYASNHGIPNS_STRCL ~MPVLMPSAH VPTIDISPLF GTDAAAKKRV AEEIHGACRG SGFFYATNHGIPNS_NOCLA ~~~MKMPSAE VPTIDVSPLF GDDAQEKVRV GQEINKACRG SGFFYAANHGIPNS_CEPAC MGSVPVPVAN VPRIDVSPLF GDDKEKKLEV ARAIDAASRD TGFFYAVNHG

51 100IPNS_STRJU VDVQLLQDVV NEFHRNMSDQ EKHDLAINAY NKDNPHVRN GYYKAIKGKKIPNS_STRCL VDVQQLQDVV NEFHGAMTDQ EKHDLAIHAY NPDNPHVRN GYYKAVPGRKIPNS_NOCLA VDVQRLQDVV NEFHRTMSPQ EKYDLAIHAY NKNNSHVRN GYYMAIEGKKIPNS_CEPAC VDLPWLSRET NKFHMSITDE EKWQLAIRAY NKEHESQIRA GYYLPIPGKK

Output filemsf format

GCG

Prettybox генерирует графический файл из файла MSA

prettybox [MSA file]

prettybox hemoglobinsmsf

1 The ldquordquo is a syntax sign meaning all the sequences in the MSA file

2 Can also calculate the consensus sequence

GCG

ClustalWbull Очень известная и широко распространённая

программа UNIX Internet Windows

bull Выполняет MSA может строить филогенетические деревья

bull Входной файл ndash формат multi-fasta

ClustalW

bull tofasta list

gtIPNS_STRJU P18286

MPILMPSAEVPTIDISPLSGDDAKAKQRVAQEINKAARGSGFFYASNHGVDVQLLQDVVN

EFHRNMSDQEKHDLAINAYNKDNPHVRNGYYKAIKGKKAVESFCYLNPSFSDDHPMIKSE

TPMHEVNLWPDEEKHPRFRPFCEDYYRQLLRLSTVIMRGYALALGRREDFFDEALAEADT

LSSVSLIRYPYLEEYPPVKTGADGTKLSFEDHLDVSMITVLYQTEVQNLQVETVDGWQDI

PRSDEDFLVNCGTYMGHITHDYFPAPNHRVKFINAERLSLPFFLNAGHNSVIEPFVPEGA

AGTVKNPTTSYGEYLQHGLRALIVKNGQT

gtIPNS_STRCL P10621

MPVLMPSAHVPTIDISPLFGTDAAAKKRVAEEIHGACRGSGFFYATNHGVDVQQLQDVVN

EFHGAMTDQEKHDLAIHAYNPDNPHVRNGYYKAVPGRKAVESFCYLNPDFGEDHPMIAAG

TPMHEVNLWPDEERHPRFRPFCEGYYRQMLKLSTVLMRGLALALGRPEHFFDAALAEQDS

LSSVSLIRYPYLEEYPPVKTGPDGQLLSFEDHLDVSMITVLFQTQVQNLQVETVDGWRDI

PTSENDFLVNCGTYMAHVTNDYFPAPNHRVKFVNAERLSLPFFLNGGHEAVIEPFVPEGA

SEEVRNEALSYGDYLQHGLRALIVKNGQT

input fileMulti-fasta

Making the file in unix

ClustalWCLUSTAL W (17) multiple sequence alignment

IPNS_STRJU -MPILMPSAEVPTIDISPLSGDDAKAKQRVAQEINKAARGSGFFYASNHGVDVQLLQDVVIPNS_STRGR -MPIPMLPAHVPTIDISPLSGGDADDKKRVAQEINKACRESGFFYASHHGIDVQLLKDVVIPNS_FLASS ----MNRHADVPVIDISGLSGNDMDVKKDIAARIDRACRGSGFFYAANHGVDLAALQKFTIPNS_PENCH --MASTPKANVPKIDVSPLFGDNMEEKMKVARAIDAASRDTGFFYAVNHGVDVKRLSNKTIPNS_CEPAC MGSVPVPVANVPRIDVSPLFGDDKEKKLEVARAIDAASRDTGFFYAVNHGVDLPWLSRET

IPNS_STRJU NEFHRNMSDQEKHDLAINAYNKDNP-HVRNGYYKAIKGKKAVESFCYLNPSFSDDHPMIKIPNS_STRGR NEFHRTMTDEEKYDLAINAYNKNNP-RTRNGYYMAVKGKKAVESWCYLNPSFSEDHPQIRIPNS_FLASS TDWHMAMSAEEKWELAIRAYNPANP-RNRNGYYMAVEGKKANESFCYLNPSFDADHATIKIPNS_PENCH REFHFSITDEEKWDLAIRAYNKEHQDQIRAGYYLSIPEKKAVESFCYLNPNFKPDHPLIQIPNS_CEPAC NKFHMSITDEEKWQLAIRAYNKEHESQIRAGYYLPIPGKKAVESFCYLNPSFSPDHPRIK

Выходной файл aln format

httpwwwebiacukhelpformatshtml

форматы

ClustalW на EMBL

ClustalW на EMBL - результат

ClustalW at EMBL - Jalview

Conservation

Consensus Sequence

Мы можем вывести consensus sequence из результатов MSA The consensus sequence содержит наиболее часто встречающийся символ в кажной колонке выравнивания

A T C T T G T

A A C T T G T

A A C T T C T

A A C T T G T

Ещё пара терминовhelliphellip

Профиль (Profile)

Также возможно вывести статистическую модель описывающую MSA Профиль содержит информацию о символах в каждом столбце выравнивания

A T C T T G T

A A C T T G T

A A C T T C T

1 2 3 4 5 6

A 1 067 0 0

T 0 033 1 1

C 0 0 0 0

G 0 0 0 0

Profile vs Consensus

Consensus каждая позиция отражает наиболее часто встречающийся символ

Profile каждая позиция отражает частоту символа в данной позиции

Profile vs Consensus

Данный MSA будет иметь одинаковый consensus

A A C T T G C

A A G T C G T

C A C T T C T

A A C T T G T

A A C T T G T

A A C T T C T

A A C T T G T

Profile vs Consensus

Но разный профиль

A A C T T G C

A A G T C G T

C A C T T C T

A A C T T G T

A A C T T G T

A A C T T C T

1 2 3 4 5 6

A 066 1 0 0

T 0 0 0 1

C 033 0 066 0

G 0 0 033 0

1 2 3 4 5 6

A 1 1 0 0

T 0 0 0 1

C 0 0 1 0

G 0 0 0 0

Psi Blast (NCBI)

Position Specific Iterated ndash автоматизированный поиск по профилю

Regular blast

Construct profile from blast results

Blast profile search

Final results

PSI-Blast

Psi-Blast вывод

Проблема формулировки выводов при использовании МSA

1 Сайт выглядит общим (фиксированным) из-за того что это ndash близкородственные последовательности

2 Сайт выглядит общим из-за того что это ndash исключительно жизненно важный сайт

ФилогенезЭволюция ndash случайный процесс с неслучайным результатом

Цели филогенетического исследования

bull Реконструкция корректных генеалогических связей

между биологическими объектами

bull Оценка времени расхождения организмов

bull Определение порядка эволюционных событий в процессе

эволюции

Формат Newick

((A(BC))(DE))

Типы данных

Molecular (DNA RNA proteins)

Morphological (soft tissue hard tissue extant extinct)

Преимущества молекулярных данных

bull Наследуемость

bull Недвусмысленность в описании молекулярных характеристик

bull Поддаются количественному анализу

bull Оценка гомологии легче чем морфологические исследования

bull Данных много

Древо видов и геновbull Древо видов ndash эволюционные взаимосвязи

между видами (видообразование)bull Древо генов

Page RDM and Cotton JC (2000) GeneTree a tool for exploring gene family evolution In D Sankoff and J Nadeau (eds) Comparative Genomics Empirical and Analytical Approaches to Gene Order Dynamics Map Alignment and the Evolution of Gene Families Kluwer Academic Publishers Dordrecht pp 525-536

Figure 2 (a) Incongruent gene and species trees This incongruence can be explained by hypothesizing a gene duplication (h) at the base of the gene tree (b)The presence of only a single gene (a-d) extant in each of the present-day species(1-4) requires postulating three gene losses (c) The corresponding reconciled tree

Ортологи и паралоги

bull Гены-паралоги ndash событие дупликация (and

bull Гены-ортологи ndash событие видообразования (in the two species and in the two species

Duplication

Speciation

Species a Species b

Шаги реконструирования филогенетического

древа

1 Выбор последовательностей и поиск гомологов

2 MSA3 Матрица белков4 Филогенетическое дерево

Филогенетическое дерево

Филогения - раздел биологии изучающий родственные взаимоотношения разных групп живых организмов Филогению отображается обычно в виде эволюционных древ или систематических названий

Зачем нужны филогенетические деревья

Биологические задачи

сравнение 3-х и более объектов (кто на кого более похож )

реконструкция эволюции (кто от кого как и когда произошелhellip)

ТерминологияУзел (node) mdash точка разделения предковой последовательности(вида популяции) на две независимо эволюционирующиеСоответствует внутренней вершине графа изображающего эволюциюЛист (leaf OTU ndash оперативная таксономическая единица) mdash реальный (современный) объект внешняя вершина графаВетвь (branch) mdash связь между узлами или между узлом и листом ребро графаКорень (root) mdash общий предокКлада (clade) - группа двух или более таксонов или последователь-ностей ДНК которая включает как своего общего предка так и всех его потомков

OTU

HTU (hypotetical taxonomic unit)

Какие бывают деревья

Бинарное (разрешённое)(в один момент времени может

произойти только одно событие )

Небинарное (неразрешённое) (может ли в один момент времени

произойти два события )

Время

Какие бывают деревья

Укорененное дерево (rooted tree)отражает направление эволюции

Неукорененное (бескорневое) дерево(unrooted tree) показывает только связи между узлами

Время

Если число листьев равно n существует (2n-3)разных бинарных укоренных деревьевПо определению (2n-3) = 1middot3 middot middot(2n-3)

Существует (2n-5) разных бескорневых деревьев с n листьями

Rooting

A C B B C AA B C

3 OTUs 3 OTUs 1 н 1 неукорененное деревоеукорененное дерево 33 укорененных деревьев укорененных деревьев

A

B

C

D

C

A

B

4 OTUs 4 OTUs 3 3 неукорененных филогенетических неукорененных филогенетических деревьевдеревьев

D

B

A

C C

B

A

D

4 OTUs

15 укорененных

деревьев

Количество Количество Количество

OTU укорененных неукорененных

2 1 13 3 14 15 35 105 156 954 1057 103959548 135135 103959 2027025 13513510 34459425 202702511 654729075 3445942512 13749310575 654729075

Количество возможных деревьев

Рутинная процедура или как строят деревья

Составление выборки последовательностей

Множественное выравнивание

Построение дерева фрагмент записи в виде скобочной формулы

Визуализация и редактура дерева

(((((con1013851018(f539692826973((f67220839851max42750591)492893con923019677)1362315)953075)2583145

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Множественное выравнивание

Matches

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Multiple Alignment

Matches

Mismatches

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Multiple Alignment

Matches

Mismatches

Gaps

Seq 1 A G C G A GSeq 1 A G C G A GSeq 2 G C G G A CSeq 2 G C G G A C

Шаг 3 Перевод количества расхождений в индексы замен

Distance Matrix

Units количество замен нуклеотидов на 1000

Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86

Rice 00 118 122 122

Mosquito 00 55 51

Monkey 00 3

Human 00

Шаг 4 построение филогенетического дерева

Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86

Rice 00 118 122 122

Mosquito 00 55 51

Monkey 00 3

Human 00

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Дистанция между человеком и обезьяной минимальна Эти группы объединяются в Monkey-Human а все остальные дистанции пересчитываются

Dist[Spinach MonHum] = (Dist[Spinach Monkey] +

Dist[Spinach Human])2 = (91 + 86)2 = 885

Spinach Rice Mosquito Mon-HumSpinach 00 9 106 885

Rice 00 118 122

Mosquito 00 53

Mon-Hum 00

Редуцированная матрица дистанций

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Spi-Ric

HumanMosquito

Mon-Hum

MonkeySpinachRice

Mos-Mon-Hum

Spi-Ric

Mos-Mon-Hum-Spi-Ric

Как выбирать последовательности для дерева

Кроме случаев очень близких последовательностей проще работать с белками (а не с ДНК)

Придерживайтесь небольшой выборки (lt 50 последовательностей)

Избегайтеndash фрагментовndash Ксенологов (горизонтальный перенос генов)ndash рекомбинантных последовательностейndash многодоменных белков и повторов

Используйте outgroup (последовательность ответвившаяся от общего предка заведомо (но минимально) раньше разделения интересующих групп-клад)

Самое главное ndash хорошее выравнивание

Максимальный вклад в финальное дерево нельзя построить хорошее дерево по плохому выравниванию

Блоки содержащие много гэпов плохо выровненные N- и C- концы можно просто вырезать

Основные алгоритмы построения филогенетических деревьев

Методы основанные на оценке

расстояний (матричные методы)

bull UPGMA (кластеризация)

bull Neighbor-joining

bull Минимальная эволюция

Наибольшего правдоподобия Maximal likelihood ML Используется модель эволюции и строится дерево которое наиболее правдоподобно при данной модели

Максимальной экономии (бережливости)

maximal parsimony MP Выбирается дерево с минимальным количеством

мутаций необходимых для объяснения данных

Пример матрицы расстояний

1 2 3 4 5 6 7 8 000 1053 977 1278 1203 1654 1353 2500 HUMAN 1

000 902 1203 977 1579 902 2727 HORSE 2 000 977 902 1654 1203 2424 RABIT 3

000 226 1729 1053 2576 MOUSE 4 000 1579 827 2576 RAT 5

000 1053 2955 BOVIN 6 000 2500 PIG 7

000 CHICK 8

Расстояние (уровень дивергенции) между соответствующими последовательностями из геномов мыши и свиньи

Как понимать расстояние между объектами

bull Как время в течение которого они эволюционировалиbull Как число laquoэволюционных событийraquo (мутаций)

В первом случае объекты образуют ультраметрическое пространство(если все объекты наблюдаются в одно время что как правило верно)

Но время непосредственно измерить невозможно

Гипотеза laquoмолекулярных часовraquo(EZuckerkandl LPauling 1962)

За равное время во всех ветвях эволюции данного генабелка накапливается равное число мутацийЕсли гипотеза молекулярных часов

принимается число различий между выровненными последовательностями можно считать примерно пропорциональным времени Отклонения от ультраметричности можно считать случайными Эволюция реконструируется в виде ультраметрического дерева

Укоренённое дерево называется ультраметрическим если расстояние от корня до любого из листьев одинаково

UPGMAUnweighted Pair Group Method with Arithmetic Mean

разновидность кластерного метода

Расстояние между кластерами вычисляется как среднее арифметическое всевозможных расстояний между последовательностями из кластеров

Недостатки UPGMA

Алгоритм строит ультраметрическое дерево ndash скорость эволюции предполагается одинаковой для всех ветвей дерева Использовать этот алгоритм имеет смысл только в случае ультраметрических данных (справедливости laquoмолекулярных часовraquo)

Реальное дерево UPGMA

Метод ближайших соседей (Neighbor-joining NJ)

Строит неукоренённое дерево

Может работать с большим количеством данных

Достаточно быстрый

Если есть недвусмысленное с точки зрения эксперта дерево то оно будет построено

Метод Neighbor-joining

Рисуем laquoзвездноеraquo дерево и будем laquoотщипыватьraquo от него по паре листьев

Пусть ui = Σk Mik(n-2) mdash среднее расстояние от листа i до других

листьев

1 Рассмотрим все возможные пары листьев Выберем 2 листа i и j с минимальным значением величины

Mij ndash ui ndashuj

те выбираем 2 узла которые близки друг к другу но далеки ото всех остальных

Метод ближайших соседей (Neighbor-joining NJ)

2 Кластер (i j) ndash новый узел дерева

Расстояние от i или от j до узла (ij) D(i (ij)) = 05middot(Mij + ui ndash uj) D(j (ij)) = 05middot (Mij + uj ndash ui) те длина ветви зависит от среднего расстояния до других вершин

3 Вычисляем расстояние от нового кластера до всех других

M(ij)k = Mik+Mjk ndash Mij 2

5 В матрице М убираем i и j и добавляем (i j) Повторяем пока не останутся 3 узла

Input MSA для n последовательностей одна последовательность для каждого вида

AAAAATC

AAAAAAG

CCCCCCG

AAAAATCAAAAAAG

CCCCCCG

Длинная ветвь ndash непохоже на правду

Длинная ветвь -Похоже на правду

Методы основанные на последовательностях Maximum Likelihood (ML) Maximum Parsimony (MP)

Как изобразить дерево Топология дерева

Топология дерева mdash только листья узлы (корень) и связывающие их ветви (топология не зависит от способа изображения дерева)

A

B

C

D

E A BC D E

Два изображения одной и той же топологии

Bacterium 1

Bacterium 3

Bacterium 2

Eukaryote 1

Eukaryote 4

Eukaryote 3

Eukaryote 2

Bacterium 1

Bacterium 3Bacterium 2

Eukaryote 1

Eukaryote 4Eukaryote 3

Eukaryote 2

Филограммы ndash длины ветвей

пропорциональны

эволюционному расстоянию

Кладограммы и филограммы

Кладограммы ndash только

топологя Длины ветвей не

учитываются

6

31

2

46

24

53

Как можно нарисовать построенное дерево

Какие on-line программы строят деревья

ClustalW ldquoTree typerdquo ndash nj phylip строит только методом NJ но результат ndash в разных форматах no bootstraps

Phylip (Felsenstein 1993) ndash пакет программ для построения филогенетических деревьев (stand-alone)On-line (partly) например

httpbiowebpasteurfrseqanalphylogenyphylip-ukhtml PAUP (Phylogenetic Analysis Using Parsimony)

MEGA филогенетический анализ последовательностей

httpwwwmegasoftwarenet

Эволюция ndash исторический процесс

Из 8200794532637891559375 деревьев для 20 OTUs 1

является верным и 8200794532637891559374

неверны

Truth is one falsehoods are many

Какое из 8200794532637891559375

деревьев истинно

Мы не знаем Можно применить иные критетии

Например ldquoпохожесть=родствоraquo

GCGbull Строковый поиск простой текстовый

поиск по локальной базе данных

bull Поиск в определениях или в аннотациях

bull Определения содержат минимальное количество информации для каждой статьи доступ имя организма имя гена длина последовательности дата

  • Bestfit Output
  • SP1 at swissprot
  • EGR1 at swissprot
  • Вывод
  • Bl2Seq at NCBI
  • Bl2seq results
  • Bl2seq оценка
  • Оптимизация времени вычислений при парном выравнивании
  • Slide 9
  • Алгоритм BLAST (шаг 1)
  • Slide 11
  • Blast
  • Поиск гомологов
  • ДНК или белок
  • ДНК
  • Slide 16
  • Slide 17
  • Двойная спираль
  • ДНК дальнейшая упаковка
  • Slide 20
  • Репликация ДНК
  • Slide 22
  • Slide 23
  • Slide 24
  • Slide 25
  • Множественное выравнивание последовательностей (MSA)
  • Slide 27
  • Основные предположения
  • Например
  • Почему множественное выравнивание
  • Slide 31
  • Подходы в MSA
  • MSA algorithm
  • Multiple Alignment - алгоритм
  • Комментарии
  • GCG
  • Slide 37
  • GCG
  • Slide 39
  • Slide 40
  • Slide 41
  • ClustalW
  • Slide 43
  • Slide 44
  • ClustalW на EMBL
  • ClustalW на EMBL - результат
  • ClustalW at EMBL - Jalview
  • Consensus Sequence
  • Профиль (Profile)
  • Profile vs Consensus
  • Slide 51
  • Slide 52
  • Psi Blast (NCBI)
  • PSI-Blast
  • Psi-Blast вывод
  • Slide 56
  • Филогенез
  • Slide 58
  • Slide 59
  • Slide 60
  • Slide 61
  • Древо видов и генов
  • Ортологи и паралоги
  • Шаги реконструирования филогенетического древа
  • Филогенетическое дерево
  • Зачем нужны филогенетические деревья
  • Терминология
  • Slide 68
  • Какие бывают деревья
  • Slide 70
  • Slide 71
  • Slide 72
  • 4 OTUs 3 неукорененных филогенетических деревьев
  • Slide 74
  • Slide 75
  • Slide 76
  • Slide 77
  • Рутинная процедура или как строят деревья
  • Slide 79
  • Slide 80
  • Slide 81
  • Slide 82
  • Slide 83
  • Slide 84
  • Slide 85
  • Slide 86
  • Slide 87
  • Slide 88
  • Slide 89
  • Как выбирать последовательности для дерева
  • Самое главное ndash хорошее выравнивание
  • Основные алгоритмы построения филогенетических деревьев
  • Пример матрицы расстояний
  • Slide 94
  • Гипотеза laquoмолекулярных часовraquo (EZuckerkandl LPauling 1962)
  • UPGMA Unweighted Pair Group Method with Arithmetic Mean
  • Недостатки UPGMA
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Метод Neighbor-joining
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Slide 101
  • Как изобразить дерево Топология дерева
  • Slide 103
  • Какие on-line программы строят деревья
  • MEGA филогенетический анализ последовательностей
  • Slide 106
  • Slide 107
  • Slide 108
Page 3: Bestfit Output

EGR1 at swissprot

Вывод

bull Оба белка имеют laquoобщейraquo только небольшую зону похожих последовательностей Поэтому использование bestfit больше подходит для построения локального выравнивания

bull Мы нашли такое локальное выравнивание которое

соответствует возможному структурному выравниванию

bull Структурная laquoпохожестьraquo может свидетельствовать о domainfunction similarity

Bl2Seq at NCBI

Bl2seq results

Bl2seq оценка

bull Bits score ndash оценка выравнивания в соответствии с количеством совпадений laquoпохожестиraquo и тд

bull Expected-score (E) ndash Вероятность

случайности выравнивания Чем ближе к 0 тем больше вероятность что наше выравнивание верно

Оптимизация времени вычислений при парном выравнивании

Алгоритм FASTA

Нахождение оптимального выравнивания требует значительных затрат времени

k ndash длина диагоналей

b ndash фактор отступа от диагонали

bull Basic Local Alignment Search Tool

bull Чувствителен также как FastA но намного быстрее

bull Также как FASTA требует параметр k (длина слова)ndash Белки k= 3 letter wordsndash ДНК k= 11 letter words

Алгоритм BLAST

1 Поиск идентичныхпохожих участков

2 Попытка laquoудлинитьraquo эти участки насколько возможно (те пока score растёт)

В результате High-scoring Segment Pairs (HSPs)

THEFIRSTLINIHAVEADREAMESIRPATRICKREAD

INVIEIAMDEADMEATTNAMHEWASNINETEEN

Алгоритм BLAST (шаг 1)

Попытка соединить соседние HSPs путем выравнивания последовательностей между ними

THEFIRSTLINIHAVEADREA____M_ESIRPATRICKREAD

INVIEIAMDEADMEATTNAMHEW___ASNINETEEN

Алгоритм BLAST (шаг 2)

Blastbull Blast ndash это семейство программ BlastN BlastP

BlastX tBlastN

bull BlastN - ДНК vs ДНКbull BlastP ndash белок vs белокbull BlastX - translated ДНК vs белокbull tBlastN - белок vs translated ДНК

Query ДНК Белок

Database ДНК Белок

Поиск гомологов

По ДНК или по белку

Какой поиск предпочтительней

ДНК или белок

Какая последовательность более постоянна в эволюционном плане

UCAUAC

Or

Serine -Tyrosine

ДНК

OO=P-O O

Фосфатная группаФосфатная группа

NАзотистое основаниеАзотистое основание

(A G C or T)(A G C or T)

CH2

O

C1C4

C3 C2

5

СахарСахар(дезоксирибоза)(дезоксирибоза)

ДНК

ДНК

ДНК состоит из двух цепей нуклеотидов ДНК состоит из двух цепей нуклеотидов соединённых попарносоединённых попарно

ADENINEADENINE ndash ndash THYMINETHYMINE

CYTOSINECYTOSINE - - GUANINEGUANINE

Правило комплементарностиПравило комплементарности

Двойная спиральДвойная спираль

P

P

P

O

O

O

1

23

4

5

5

3

3

5

P

P

PO

O

O

1

2 3

4

5

5

3

5

3

G C

T A

ДНК дальнейшая упаковка

ДНК

Функции ДНК mdash наследственность и изменчивость

Репликация ДНК

Репликация ДНК

bull Генетический код избыточен ndash почти все аминокислоты кодируются более чем 1 кодоном (тройка нуклеотидов)

bull Последовательность ДНК может меняться в то время как последовательность белка остается постоянной

Ser-Tyrhellip

UCAUAC UCUUAC UCGUAC Uhelliphellip

Поиск гомологов

bull Нуклеотиды ndash 4-х буквенный алфавитbull Аминокислоты ndash 20-и буквенный алфавит

Две случайные последовательности ДНК будут идентичны ~ 25Две случайные белковые последовательности будут идентичны ~ 5

Поиск гомологов

Матрицы для сравнения белков более чувствительны чем матрицы для ДНК

Базы данных ДНК намного больше белковых rarr будут случайные совпадения

Поиск гомологов

Использование белковых последовательностей более предпочтительно при поиске гомологов

Поиск гомологов

Множественное выравнивание последовательностей (MSA)

VTISCTGSSSNIGAG-NHVKWYQQLPGVTISCTGTSSNIGS--ITVNWYQQLPGLRLSCSSSGFIFSS--YAMYWVRQAPGLSLTCTVSGTSFDD--YYSTWVRQPPGPEVTCVVVDVSHEDPQVKFNWYVDG--ATLVCLISDFYPGA--VTVAWKADS--AALGCLVKDYFPEP--VTVSWNSG---VSLTCLVKGFYPSD--IAVEWWSNG--

Основные предположения

bull Гены фиксированы сохранены у очень широкого круга биологических видов у совершенно различных представителей laquoдрева жизниraquo

bull Фиксированный генетический код для белков вероятно несёт похожие зачастую идентичные функции

Например

bull Гистоны небольшие белки присутствуют у всех эукариот

Демонстрируют выраженное постоянство последовательности в MSA

Постоянство структуры и функции (упаковка DNA)

Почему множественное выравнивание

Позволяет дать характеристику семействам белков найти общие участки гомологов

Например семейство Serine protease семейство отвечающее за катализ гидролиз пептидных связей

bull Одинаковые активные центры

bull Общие участка последовательности

bull MSA ndash это первый предварительный шаг к анализу в области молекулярной эволюции и построения эволюционных деревьев

bull База для филогенеза ndash данные молекулярной биологии или морфологические данные

Подходы в MSA

2 разных подходаndash 1D sequence based ndash сравнение

последовательностейndash 2D-3D based ndash выравнивание базирующееся на

структуре

MSA algorithm

bull Попарное выравнивание всех последовательностей (pairwise alignment)

bull Кластерный анализ данных парного выравнивания для получения иерархии выравниваний (guide tree)

bull Построение множественного выравнивания (MSA) пошагово в соответствии с guide tree сначала выравнивают наиболее похожие пары затем добавляют остальные и тд

Multiple Alignment - алгоритм

(1) Парное выравнивание (подготовка guide tree)

6 pairwise alignments

then cluster analysis

(2) Множественное выравнивание следуя древу из п 1

successive alignments

Комментарии

bull Парное выравнивание - оптимальный алгоритм

bull Множественное выравнивание не является оптимальным алгоритмом Вполне могут существовать и лучшие выравнивания

bull Редакторы выравниваний могут быть полезны для корректировки

GCG

Pileup глобальный MSA

pileup [list of sequence names]

pileup hemoglobin_list

1 The sign means that the file contains a list of names

2 The list can include names from the userrsquos directory or code names (accession numbers) from the GCG databases

GCGПример входного файла

swhbb_human

swhbb_rat

swhbb_mouse

Hemoglobin_Alpha

Hemoglobin_Gamma

Hemogolibin_Delta

Syntax the file starts with ldquordquo

Sequences from the databases

Sequences from the userrsquos directory

GCG PileUp creates a multiple sequence alignment from a group of relatedsequences using progressive pairwise alignments It can also plot atree showing the clustering relationships used to create the alignment

1 IPNS_STRJU 329 aa 2 IPNS_STRCL 329 aa 3 IPNS_CEPAC 338 aa 4 IPNS_NOCLA 328 aa

What is the gap creation penalty ( 8 ) What is the gap extension penalty ( 2 )

This program can display the clustering relationships graphically Do you want to A) Plot to a FIGURE file called pileupfigure B) Plot graphics on HP7550 attached to devtty15 C) Suppress the plot Please choose one ( A ) c What should I call the output file name ( ipnsmsf )

Determining pairwise similarity scores

1 x 2 443 1 x 3 312 1 x 4 412 2 x 3 294 2 x 4 405 3 x 4 309

Aligning

Total sequences 4 Alignment length 338 CPU time 0021

Output filedatausersracheliothersracheliipnsmsf

Regular GCG syntaxDefault parametersoutput file etc

GCGAA_MULTIPLE_ALIGNMENT 10PileUp of ipnsfil

Symbol comparison table GenRunDatablosum62cmp CompCheck 1102 GapWeight 8 GapLengthWeight 2 ipnsmsf MSF 338 Type P March 14 2002 0929 Check 7631

Name IPNS_STRJU Len 338 Check 6344 Weight 100 Name IPNS_STRCL Len 338 Check 4249 Weight 100 Name IPNS_NOCLA Len 338 Check 7020 Weight 100 Name IPNS_CEPAC Len 338 Check 18 Weight 100

1 50IPNS_STRJU ~MPILMPSAE VPTIDISPLS GDDAKAKQRV AQEINKAARG SGFFYASNHGIPNS_STRCL ~MPVLMPSAH VPTIDISPLF GTDAAAKKRV AEEIHGACRG SGFFYATNHGIPNS_NOCLA ~~~MKMPSAE VPTIDVSPLF GDDAQEKVRV GQEINKACRG SGFFYAANHGIPNS_CEPAC MGSVPVPVAN VPRIDVSPLF GDDKEKKLEV ARAIDAASRD TGFFYAVNHG

51 100IPNS_STRJU VDVQLLQDVV NEFHRNMSDQ EKHDLAINAY NKDNPHVRN GYYKAIKGKKIPNS_STRCL VDVQQLQDVV NEFHGAMTDQ EKHDLAIHAY NPDNPHVRN GYYKAVPGRKIPNS_NOCLA VDVQRLQDVV NEFHRTMSPQ EKYDLAIHAY NKNNSHVRN GYYMAIEGKKIPNS_CEPAC VDLPWLSRET NKFHMSITDE EKWQLAIRAY NKEHESQIRA GYYLPIPGKK

Output filemsf format

GCG

Prettybox генерирует графический файл из файла MSA

prettybox [MSA file]

prettybox hemoglobinsmsf

1 The ldquordquo is a syntax sign meaning all the sequences in the MSA file

2 Can also calculate the consensus sequence

GCG

ClustalWbull Очень известная и широко распространённая

программа UNIX Internet Windows

bull Выполняет MSA может строить филогенетические деревья

bull Входной файл ndash формат multi-fasta

ClustalW

bull tofasta list

gtIPNS_STRJU P18286

MPILMPSAEVPTIDISPLSGDDAKAKQRVAQEINKAARGSGFFYASNHGVDVQLLQDVVN

EFHRNMSDQEKHDLAINAYNKDNPHVRNGYYKAIKGKKAVESFCYLNPSFSDDHPMIKSE

TPMHEVNLWPDEEKHPRFRPFCEDYYRQLLRLSTVIMRGYALALGRREDFFDEALAEADT

LSSVSLIRYPYLEEYPPVKTGADGTKLSFEDHLDVSMITVLYQTEVQNLQVETVDGWQDI

PRSDEDFLVNCGTYMGHITHDYFPAPNHRVKFINAERLSLPFFLNAGHNSVIEPFVPEGA

AGTVKNPTTSYGEYLQHGLRALIVKNGQT

gtIPNS_STRCL P10621

MPVLMPSAHVPTIDISPLFGTDAAAKKRVAEEIHGACRGSGFFYATNHGVDVQQLQDVVN

EFHGAMTDQEKHDLAIHAYNPDNPHVRNGYYKAVPGRKAVESFCYLNPDFGEDHPMIAAG

TPMHEVNLWPDEERHPRFRPFCEGYYRQMLKLSTVLMRGLALALGRPEHFFDAALAEQDS

LSSVSLIRYPYLEEYPPVKTGPDGQLLSFEDHLDVSMITVLFQTQVQNLQVETVDGWRDI

PTSENDFLVNCGTYMAHVTNDYFPAPNHRVKFVNAERLSLPFFLNGGHEAVIEPFVPEGA

SEEVRNEALSYGDYLQHGLRALIVKNGQT

input fileMulti-fasta

Making the file in unix

ClustalWCLUSTAL W (17) multiple sequence alignment

IPNS_STRJU -MPILMPSAEVPTIDISPLSGDDAKAKQRVAQEINKAARGSGFFYASNHGVDVQLLQDVVIPNS_STRGR -MPIPMLPAHVPTIDISPLSGGDADDKKRVAQEINKACRESGFFYASHHGIDVQLLKDVVIPNS_FLASS ----MNRHADVPVIDISGLSGNDMDVKKDIAARIDRACRGSGFFYAANHGVDLAALQKFTIPNS_PENCH --MASTPKANVPKIDVSPLFGDNMEEKMKVARAIDAASRDTGFFYAVNHGVDVKRLSNKTIPNS_CEPAC MGSVPVPVANVPRIDVSPLFGDDKEKKLEVARAIDAASRDTGFFYAVNHGVDLPWLSRET

IPNS_STRJU NEFHRNMSDQEKHDLAINAYNKDNP-HVRNGYYKAIKGKKAVESFCYLNPSFSDDHPMIKIPNS_STRGR NEFHRTMTDEEKYDLAINAYNKNNP-RTRNGYYMAVKGKKAVESWCYLNPSFSEDHPQIRIPNS_FLASS TDWHMAMSAEEKWELAIRAYNPANP-RNRNGYYMAVEGKKANESFCYLNPSFDADHATIKIPNS_PENCH REFHFSITDEEKWDLAIRAYNKEHQDQIRAGYYLSIPEKKAVESFCYLNPNFKPDHPLIQIPNS_CEPAC NKFHMSITDEEKWQLAIRAYNKEHESQIRAGYYLPIPGKKAVESFCYLNPSFSPDHPRIK

Выходной файл aln format

httpwwwebiacukhelpformatshtml

форматы

ClustalW на EMBL

ClustalW на EMBL - результат

ClustalW at EMBL - Jalview

Conservation

Consensus Sequence

Мы можем вывести consensus sequence из результатов MSA The consensus sequence содержит наиболее часто встречающийся символ в кажной колонке выравнивания

A T C T T G T

A A C T T G T

A A C T T C T

A A C T T G T

Ещё пара терминовhelliphellip

Профиль (Profile)

Также возможно вывести статистическую модель описывающую MSA Профиль содержит информацию о символах в каждом столбце выравнивания

A T C T T G T

A A C T T G T

A A C T T C T

1 2 3 4 5 6

A 1 067 0 0

T 0 033 1 1

C 0 0 0 0

G 0 0 0 0

Profile vs Consensus

Consensus каждая позиция отражает наиболее часто встречающийся символ

Profile каждая позиция отражает частоту символа в данной позиции

Profile vs Consensus

Данный MSA будет иметь одинаковый consensus

A A C T T G C

A A G T C G T

C A C T T C T

A A C T T G T

A A C T T G T

A A C T T C T

A A C T T G T

Profile vs Consensus

Но разный профиль

A A C T T G C

A A G T C G T

C A C T T C T

A A C T T G T

A A C T T G T

A A C T T C T

1 2 3 4 5 6

A 066 1 0 0

T 0 0 0 1

C 033 0 066 0

G 0 0 033 0

1 2 3 4 5 6

A 1 1 0 0

T 0 0 0 1

C 0 0 1 0

G 0 0 0 0

Psi Blast (NCBI)

Position Specific Iterated ndash автоматизированный поиск по профилю

Regular blast

Construct profile from blast results

Blast profile search

Final results

PSI-Blast

Psi-Blast вывод

Проблема формулировки выводов при использовании МSA

1 Сайт выглядит общим (фиксированным) из-за того что это ndash близкородственные последовательности

2 Сайт выглядит общим из-за того что это ndash исключительно жизненно важный сайт

ФилогенезЭволюция ndash случайный процесс с неслучайным результатом

Цели филогенетического исследования

bull Реконструкция корректных генеалогических связей

между биологическими объектами

bull Оценка времени расхождения организмов

bull Определение порядка эволюционных событий в процессе

эволюции

Формат Newick

((A(BC))(DE))

Типы данных

Molecular (DNA RNA proteins)

Morphological (soft tissue hard tissue extant extinct)

Преимущества молекулярных данных

bull Наследуемость

bull Недвусмысленность в описании молекулярных характеристик

bull Поддаются количественному анализу

bull Оценка гомологии легче чем морфологические исследования

bull Данных много

Древо видов и геновbull Древо видов ndash эволюционные взаимосвязи

между видами (видообразование)bull Древо генов

Page RDM and Cotton JC (2000) GeneTree a tool for exploring gene family evolution In D Sankoff and J Nadeau (eds) Comparative Genomics Empirical and Analytical Approaches to Gene Order Dynamics Map Alignment and the Evolution of Gene Families Kluwer Academic Publishers Dordrecht pp 525-536

Figure 2 (a) Incongruent gene and species trees This incongruence can be explained by hypothesizing a gene duplication (h) at the base of the gene tree (b)The presence of only a single gene (a-d) extant in each of the present-day species(1-4) requires postulating three gene losses (c) The corresponding reconciled tree

Ортологи и паралоги

bull Гены-паралоги ndash событие дупликация (and

bull Гены-ортологи ndash событие видообразования (in the two species and in the two species

Duplication

Speciation

Species a Species b

Шаги реконструирования филогенетического

древа

1 Выбор последовательностей и поиск гомологов

2 MSA3 Матрица белков4 Филогенетическое дерево

Филогенетическое дерево

Филогения - раздел биологии изучающий родственные взаимоотношения разных групп живых организмов Филогению отображается обычно в виде эволюционных древ или систематических названий

Зачем нужны филогенетические деревья

Биологические задачи

сравнение 3-х и более объектов (кто на кого более похож )

реконструкция эволюции (кто от кого как и когда произошелhellip)

ТерминологияУзел (node) mdash точка разделения предковой последовательности(вида популяции) на две независимо эволюционирующиеСоответствует внутренней вершине графа изображающего эволюциюЛист (leaf OTU ndash оперативная таксономическая единица) mdash реальный (современный) объект внешняя вершина графаВетвь (branch) mdash связь между узлами или между узлом и листом ребро графаКорень (root) mdash общий предокКлада (clade) - группа двух или более таксонов или последователь-ностей ДНК которая включает как своего общего предка так и всех его потомков

OTU

HTU (hypotetical taxonomic unit)

Какие бывают деревья

Бинарное (разрешённое)(в один момент времени может

произойти только одно событие )

Небинарное (неразрешённое) (может ли в один момент времени

произойти два события )

Время

Какие бывают деревья

Укорененное дерево (rooted tree)отражает направление эволюции

Неукорененное (бескорневое) дерево(unrooted tree) показывает только связи между узлами

Время

Если число листьев равно n существует (2n-3)разных бинарных укоренных деревьевПо определению (2n-3) = 1middot3 middot middot(2n-3)

Существует (2n-5) разных бескорневых деревьев с n листьями

Rooting

A C B B C AA B C

3 OTUs 3 OTUs 1 н 1 неукорененное деревоеукорененное дерево 33 укорененных деревьев укорененных деревьев

A

B

C

D

C

A

B

4 OTUs 4 OTUs 3 3 неукорененных филогенетических неукорененных филогенетических деревьевдеревьев

D

B

A

C C

B

A

D

4 OTUs

15 укорененных

деревьев

Количество Количество Количество

OTU укорененных неукорененных

2 1 13 3 14 15 35 105 156 954 1057 103959548 135135 103959 2027025 13513510 34459425 202702511 654729075 3445942512 13749310575 654729075

Количество возможных деревьев

Рутинная процедура или как строят деревья

Составление выборки последовательностей

Множественное выравнивание

Построение дерева фрагмент записи в виде скобочной формулы

Визуализация и редактура дерева

(((((con1013851018(f539692826973((f67220839851max42750591)492893con923019677)1362315)953075)2583145

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Множественное выравнивание

Matches

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Multiple Alignment

Matches

Mismatches

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Multiple Alignment

Matches

Mismatches

Gaps

Seq 1 A G C G A GSeq 1 A G C G A GSeq 2 G C G G A CSeq 2 G C G G A C

Шаг 3 Перевод количества расхождений в индексы замен

Distance Matrix

Units количество замен нуклеотидов на 1000

Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86

Rice 00 118 122 122

Mosquito 00 55 51

Monkey 00 3

Human 00

Шаг 4 построение филогенетического дерева

Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86

Rice 00 118 122 122

Mosquito 00 55 51

Monkey 00 3

Human 00

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Дистанция между человеком и обезьяной минимальна Эти группы объединяются в Monkey-Human а все остальные дистанции пересчитываются

Dist[Spinach MonHum] = (Dist[Spinach Monkey] +

Dist[Spinach Human])2 = (91 + 86)2 = 885

Spinach Rice Mosquito Mon-HumSpinach 00 9 106 885

Rice 00 118 122

Mosquito 00 53

Mon-Hum 00

Редуцированная матрица дистанций

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Spi-Ric

HumanMosquito

Mon-Hum

MonkeySpinachRice

Mos-Mon-Hum

Spi-Ric

Mos-Mon-Hum-Spi-Ric

Как выбирать последовательности для дерева

Кроме случаев очень близких последовательностей проще работать с белками (а не с ДНК)

Придерживайтесь небольшой выборки (lt 50 последовательностей)

Избегайтеndash фрагментовndash Ксенологов (горизонтальный перенос генов)ndash рекомбинантных последовательностейndash многодоменных белков и повторов

Используйте outgroup (последовательность ответвившаяся от общего предка заведомо (но минимально) раньше разделения интересующих групп-клад)

Самое главное ndash хорошее выравнивание

Максимальный вклад в финальное дерево нельзя построить хорошее дерево по плохому выравниванию

Блоки содержащие много гэпов плохо выровненные N- и C- концы можно просто вырезать

Основные алгоритмы построения филогенетических деревьев

Методы основанные на оценке

расстояний (матричные методы)

bull UPGMA (кластеризация)

bull Neighbor-joining

bull Минимальная эволюция

Наибольшего правдоподобия Maximal likelihood ML Используется модель эволюции и строится дерево которое наиболее правдоподобно при данной модели

Максимальной экономии (бережливости)

maximal parsimony MP Выбирается дерево с минимальным количеством

мутаций необходимых для объяснения данных

Пример матрицы расстояний

1 2 3 4 5 6 7 8 000 1053 977 1278 1203 1654 1353 2500 HUMAN 1

000 902 1203 977 1579 902 2727 HORSE 2 000 977 902 1654 1203 2424 RABIT 3

000 226 1729 1053 2576 MOUSE 4 000 1579 827 2576 RAT 5

000 1053 2955 BOVIN 6 000 2500 PIG 7

000 CHICK 8

Расстояние (уровень дивергенции) между соответствующими последовательностями из геномов мыши и свиньи

Как понимать расстояние между объектами

bull Как время в течение которого они эволюционировалиbull Как число laquoэволюционных событийraquo (мутаций)

В первом случае объекты образуют ультраметрическое пространство(если все объекты наблюдаются в одно время что как правило верно)

Но время непосредственно измерить невозможно

Гипотеза laquoмолекулярных часовraquo(EZuckerkandl LPauling 1962)

За равное время во всех ветвях эволюции данного генабелка накапливается равное число мутацийЕсли гипотеза молекулярных часов

принимается число различий между выровненными последовательностями можно считать примерно пропорциональным времени Отклонения от ультраметричности можно считать случайными Эволюция реконструируется в виде ультраметрического дерева

Укоренённое дерево называется ультраметрическим если расстояние от корня до любого из листьев одинаково

UPGMAUnweighted Pair Group Method with Arithmetic Mean

разновидность кластерного метода

Расстояние между кластерами вычисляется как среднее арифметическое всевозможных расстояний между последовательностями из кластеров

Недостатки UPGMA

Алгоритм строит ультраметрическое дерево ndash скорость эволюции предполагается одинаковой для всех ветвей дерева Использовать этот алгоритм имеет смысл только в случае ультраметрических данных (справедливости laquoмолекулярных часовraquo)

Реальное дерево UPGMA

Метод ближайших соседей (Neighbor-joining NJ)

Строит неукоренённое дерево

Может работать с большим количеством данных

Достаточно быстрый

Если есть недвусмысленное с точки зрения эксперта дерево то оно будет построено

Метод Neighbor-joining

Рисуем laquoзвездноеraquo дерево и будем laquoотщипыватьraquo от него по паре листьев

Пусть ui = Σk Mik(n-2) mdash среднее расстояние от листа i до других

листьев

1 Рассмотрим все возможные пары листьев Выберем 2 листа i и j с минимальным значением величины

Mij ndash ui ndashuj

те выбираем 2 узла которые близки друг к другу но далеки ото всех остальных

Метод ближайших соседей (Neighbor-joining NJ)

2 Кластер (i j) ndash новый узел дерева

Расстояние от i или от j до узла (ij) D(i (ij)) = 05middot(Mij + ui ndash uj) D(j (ij)) = 05middot (Mij + uj ndash ui) те длина ветви зависит от среднего расстояния до других вершин

3 Вычисляем расстояние от нового кластера до всех других

M(ij)k = Mik+Mjk ndash Mij 2

5 В матрице М убираем i и j и добавляем (i j) Повторяем пока не останутся 3 узла

Input MSA для n последовательностей одна последовательность для каждого вида

AAAAATC

AAAAAAG

CCCCCCG

AAAAATCAAAAAAG

CCCCCCG

Длинная ветвь ndash непохоже на правду

Длинная ветвь -Похоже на правду

Методы основанные на последовательностях Maximum Likelihood (ML) Maximum Parsimony (MP)

Как изобразить дерево Топология дерева

Топология дерева mdash только листья узлы (корень) и связывающие их ветви (топология не зависит от способа изображения дерева)

A

B

C

D

E A BC D E

Два изображения одной и той же топологии

Bacterium 1

Bacterium 3

Bacterium 2

Eukaryote 1

Eukaryote 4

Eukaryote 3

Eukaryote 2

Bacterium 1

Bacterium 3Bacterium 2

Eukaryote 1

Eukaryote 4Eukaryote 3

Eukaryote 2

Филограммы ndash длины ветвей

пропорциональны

эволюционному расстоянию

Кладограммы и филограммы

Кладограммы ndash только

топологя Длины ветвей не

учитываются

6

31

2

46

24

53

Как можно нарисовать построенное дерево

Какие on-line программы строят деревья

ClustalW ldquoTree typerdquo ndash nj phylip строит только методом NJ но результат ndash в разных форматах no bootstraps

Phylip (Felsenstein 1993) ndash пакет программ для построения филогенетических деревьев (stand-alone)On-line (partly) например

httpbiowebpasteurfrseqanalphylogenyphylip-ukhtml PAUP (Phylogenetic Analysis Using Parsimony)

MEGA филогенетический анализ последовательностей

httpwwwmegasoftwarenet

Эволюция ndash исторический процесс

Из 8200794532637891559375 деревьев для 20 OTUs 1

является верным и 8200794532637891559374

неверны

Truth is one falsehoods are many

Какое из 8200794532637891559375

деревьев истинно

Мы не знаем Можно применить иные критетии

Например ldquoпохожесть=родствоraquo

GCGbull Строковый поиск простой текстовый

поиск по локальной базе данных

bull Поиск в определениях или в аннотациях

bull Определения содержат минимальное количество информации для каждой статьи доступ имя организма имя гена длина последовательности дата

  • Bestfit Output
  • SP1 at swissprot
  • EGR1 at swissprot
  • Вывод
  • Bl2Seq at NCBI
  • Bl2seq results
  • Bl2seq оценка
  • Оптимизация времени вычислений при парном выравнивании
  • Slide 9
  • Алгоритм BLAST (шаг 1)
  • Slide 11
  • Blast
  • Поиск гомологов
  • ДНК или белок
  • ДНК
  • Slide 16
  • Slide 17
  • Двойная спираль
  • ДНК дальнейшая упаковка
  • Slide 20
  • Репликация ДНК
  • Slide 22
  • Slide 23
  • Slide 24
  • Slide 25
  • Множественное выравнивание последовательностей (MSA)
  • Slide 27
  • Основные предположения
  • Например
  • Почему множественное выравнивание
  • Slide 31
  • Подходы в MSA
  • MSA algorithm
  • Multiple Alignment - алгоритм
  • Комментарии
  • GCG
  • Slide 37
  • GCG
  • Slide 39
  • Slide 40
  • Slide 41
  • ClustalW
  • Slide 43
  • Slide 44
  • ClustalW на EMBL
  • ClustalW на EMBL - результат
  • ClustalW at EMBL - Jalview
  • Consensus Sequence
  • Профиль (Profile)
  • Profile vs Consensus
  • Slide 51
  • Slide 52
  • Psi Blast (NCBI)
  • PSI-Blast
  • Psi-Blast вывод
  • Slide 56
  • Филогенез
  • Slide 58
  • Slide 59
  • Slide 60
  • Slide 61
  • Древо видов и генов
  • Ортологи и паралоги
  • Шаги реконструирования филогенетического древа
  • Филогенетическое дерево
  • Зачем нужны филогенетические деревья
  • Терминология
  • Slide 68
  • Какие бывают деревья
  • Slide 70
  • Slide 71
  • Slide 72
  • 4 OTUs 3 неукорененных филогенетических деревьев
  • Slide 74
  • Slide 75
  • Slide 76
  • Slide 77
  • Рутинная процедура или как строят деревья
  • Slide 79
  • Slide 80
  • Slide 81
  • Slide 82
  • Slide 83
  • Slide 84
  • Slide 85
  • Slide 86
  • Slide 87
  • Slide 88
  • Slide 89
  • Как выбирать последовательности для дерева
  • Самое главное ndash хорошее выравнивание
  • Основные алгоритмы построения филогенетических деревьев
  • Пример матрицы расстояний
  • Slide 94
  • Гипотеза laquoмолекулярных часовraquo (EZuckerkandl LPauling 1962)
  • UPGMA Unweighted Pair Group Method with Arithmetic Mean
  • Недостатки UPGMA
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Метод Neighbor-joining
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Slide 101
  • Как изобразить дерево Топология дерева
  • Slide 103
  • Какие on-line программы строят деревья
  • MEGA филогенетический анализ последовательностей
  • Slide 106
  • Slide 107
  • Slide 108
Page 4: Bestfit Output

Вывод

bull Оба белка имеют laquoобщейraquo только небольшую зону похожих последовательностей Поэтому использование bestfit больше подходит для построения локального выравнивания

bull Мы нашли такое локальное выравнивание которое

соответствует возможному структурному выравниванию

bull Структурная laquoпохожестьraquo может свидетельствовать о domainfunction similarity

Bl2Seq at NCBI

Bl2seq results

Bl2seq оценка

bull Bits score ndash оценка выравнивания в соответствии с количеством совпадений laquoпохожестиraquo и тд

bull Expected-score (E) ndash Вероятность

случайности выравнивания Чем ближе к 0 тем больше вероятность что наше выравнивание верно

Оптимизация времени вычислений при парном выравнивании

Алгоритм FASTA

Нахождение оптимального выравнивания требует значительных затрат времени

k ndash длина диагоналей

b ndash фактор отступа от диагонали

bull Basic Local Alignment Search Tool

bull Чувствителен также как FastA но намного быстрее

bull Также как FASTA требует параметр k (длина слова)ndash Белки k= 3 letter wordsndash ДНК k= 11 letter words

Алгоритм BLAST

1 Поиск идентичныхпохожих участков

2 Попытка laquoудлинитьraquo эти участки насколько возможно (те пока score растёт)

В результате High-scoring Segment Pairs (HSPs)

THEFIRSTLINIHAVEADREAMESIRPATRICKREAD

INVIEIAMDEADMEATTNAMHEWASNINETEEN

Алгоритм BLAST (шаг 1)

Попытка соединить соседние HSPs путем выравнивания последовательностей между ними

THEFIRSTLINIHAVEADREA____M_ESIRPATRICKREAD

INVIEIAMDEADMEATTNAMHEW___ASNINETEEN

Алгоритм BLAST (шаг 2)

Blastbull Blast ndash это семейство программ BlastN BlastP

BlastX tBlastN

bull BlastN - ДНК vs ДНКbull BlastP ndash белок vs белокbull BlastX - translated ДНК vs белокbull tBlastN - белок vs translated ДНК

Query ДНК Белок

Database ДНК Белок

Поиск гомологов

По ДНК или по белку

Какой поиск предпочтительней

ДНК или белок

Какая последовательность более постоянна в эволюционном плане

UCAUAC

Or

Serine -Tyrosine

ДНК

OO=P-O O

Фосфатная группаФосфатная группа

NАзотистое основаниеАзотистое основание

(A G C or T)(A G C or T)

CH2

O

C1C4

C3 C2

5

СахарСахар(дезоксирибоза)(дезоксирибоза)

ДНК

ДНК

ДНК состоит из двух цепей нуклеотидов ДНК состоит из двух цепей нуклеотидов соединённых попарносоединённых попарно

ADENINEADENINE ndash ndash THYMINETHYMINE

CYTOSINECYTOSINE - - GUANINEGUANINE

Правило комплементарностиПравило комплементарности

Двойная спиральДвойная спираль

P

P

P

O

O

O

1

23

4

5

5

3

3

5

P

P

PO

O

O

1

2 3

4

5

5

3

5

3

G C

T A

ДНК дальнейшая упаковка

ДНК

Функции ДНК mdash наследственность и изменчивость

Репликация ДНК

Репликация ДНК

bull Генетический код избыточен ndash почти все аминокислоты кодируются более чем 1 кодоном (тройка нуклеотидов)

bull Последовательность ДНК может меняться в то время как последовательность белка остается постоянной

Ser-Tyrhellip

UCAUAC UCUUAC UCGUAC Uhelliphellip

Поиск гомологов

bull Нуклеотиды ndash 4-х буквенный алфавитbull Аминокислоты ndash 20-и буквенный алфавит

Две случайные последовательности ДНК будут идентичны ~ 25Две случайные белковые последовательности будут идентичны ~ 5

Поиск гомологов

Матрицы для сравнения белков более чувствительны чем матрицы для ДНК

Базы данных ДНК намного больше белковых rarr будут случайные совпадения

Поиск гомологов

Использование белковых последовательностей более предпочтительно при поиске гомологов

Поиск гомологов

Множественное выравнивание последовательностей (MSA)

VTISCTGSSSNIGAG-NHVKWYQQLPGVTISCTGTSSNIGS--ITVNWYQQLPGLRLSCSSSGFIFSS--YAMYWVRQAPGLSLTCTVSGTSFDD--YYSTWVRQPPGPEVTCVVVDVSHEDPQVKFNWYVDG--ATLVCLISDFYPGA--VTVAWKADS--AALGCLVKDYFPEP--VTVSWNSG---VSLTCLVKGFYPSD--IAVEWWSNG--

Основные предположения

bull Гены фиксированы сохранены у очень широкого круга биологических видов у совершенно различных представителей laquoдрева жизниraquo

bull Фиксированный генетический код для белков вероятно несёт похожие зачастую идентичные функции

Например

bull Гистоны небольшие белки присутствуют у всех эукариот

Демонстрируют выраженное постоянство последовательности в MSA

Постоянство структуры и функции (упаковка DNA)

Почему множественное выравнивание

Позволяет дать характеристику семействам белков найти общие участки гомологов

Например семейство Serine protease семейство отвечающее за катализ гидролиз пептидных связей

bull Одинаковые активные центры

bull Общие участка последовательности

bull MSA ndash это первый предварительный шаг к анализу в области молекулярной эволюции и построения эволюционных деревьев

bull База для филогенеза ndash данные молекулярной биологии или морфологические данные

Подходы в MSA

2 разных подходаndash 1D sequence based ndash сравнение

последовательностейndash 2D-3D based ndash выравнивание базирующееся на

структуре

MSA algorithm

bull Попарное выравнивание всех последовательностей (pairwise alignment)

bull Кластерный анализ данных парного выравнивания для получения иерархии выравниваний (guide tree)

bull Построение множественного выравнивания (MSA) пошагово в соответствии с guide tree сначала выравнивают наиболее похожие пары затем добавляют остальные и тд

Multiple Alignment - алгоритм

(1) Парное выравнивание (подготовка guide tree)

6 pairwise alignments

then cluster analysis

(2) Множественное выравнивание следуя древу из п 1

successive alignments

Комментарии

bull Парное выравнивание - оптимальный алгоритм

bull Множественное выравнивание не является оптимальным алгоритмом Вполне могут существовать и лучшие выравнивания

bull Редакторы выравниваний могут быть полезны для корректировки

GCG

Pileup глобальный MSA

pileup [list of sequence names]

pileup hemoglobin_list

1 The sign means that the file contains a list of names

2 The list can include names from the userrsquos directory or code names (accession numbers) from the GCG databases

GCGПример входного файла

swhbb_human

swhbb_rat

swhbb_mouse

Hemoglobin_Alpha

Hemoglobin_Gamma

Hemogolibin_Delta

Syntax the file starts with ldquordquo

Sequences from the databases

Sequences from the userrsquos directory

GCG PileUp creates a multiple sequence alignment from a group of relatedsequences using progressive pairwise alignments It can also plot atree showing the clustering relationships used to create the alignment

1 IPNS_STRJU 329 aa 2 IPNS_STRCL 329 aa 3 IPNS_CEPAC 338 aa 4 IPNS_NOCLA 328 aa

What is the gap creation penalty ( 8 ) What is the gap extension penalty ( 2 )

This program can display the clustering relationships graphically Do you want to A) Plot to a FIGURE file called pileupfigure B) Plot graphics on HP7550 attached to devtty15 C) Suppress the plot Please choose one ( A ) c What should I call the output file name ( ipnsmsf )

Determining pairwise similarity scores

1 x 2 443 1 x 3 312 1 x 4 412 2 x 3 294 2 x 4 405 3 x 4 309

Aligning

Total sequences 4 Alignment length 338 CPU time 0021

Output filedatausersracheliothersracheliipnsmsf

Regular GCG syntaxDefault parametersoutput file etc

GCGAA_MULTIPLE_ALIGNMENT 10PileUp of ipnsfil

Symbol comparison table GenRunDatablosum62cmp CompCheck 1102 GapWeight 8 GapLengthWeight 2 ipnsmsf MSF 338 Type P March 14 2002 0929 Check 7631

Name IPNS_STRJU Len 338 Check 6344 Weight 100 Name IPNS_STRCL Len 338 Check 4249 Weight 100 Name IPNS_NOCLA Len 338 Check 7020 Weight 100 Name IPNS_CEPAC Len 338 Check 18 Weight 100

1 50IPNS_STRJU ~MPILMPSAE VPTIDISPLS GDDAKAKQRV AQEINKAARG SGFFYASNHGIPNS_STRCL ~MPVLMPSAH VPTIDISPLF GTDAAAKKRV AEEIHGACRG SGFFYATNHGIPNS_NOCLA ~~~MKMPSAE VPTIDVSPLF GDDAQEKVRV GQEINKACRG SGFFYAANHGIPNS_CEPAC MGSVPVPVAN VPRIDVSPLF GDDKEKKLEV ARAIDAASRD TGFFYAVNHG

51 100IPNS_STRJU VDVQLLQDVV NEFHRNMSDQ EKHDLAINAY NKDNPHVRN GYYKAIKGKKIPNS_STRCL VDVQQLQDVV NEFHGAMTDQ EKHDLAIHAY NPDNPHVRN GYYKAVPGRKIPNS_NOCLA VDVQRLQDVV NEFHRTMSPQ EKYDLAIHAY NKNNSHVRN GYYMAIEGKKIPNS_CEPAC VDLPWLSRET NKFHMSITDE EKWQLAIRAY NKEHESQIRA GYYLPIPGKK

Output filemsf format

GCG

Prettybox генерирует графический файл из файла MSA

prettybox [MSA file]

prettybox hemoglobinsmsf

1 The ldquordquo is a syntax sign meaning all the sequences in the MSA file

2 Can also calculate the consensus sequence

GCG

ClustalWbull Очень известная и широко распространённая

программа UNIX Internet Windows

bull Выполняет MSA может строить филогенетические деревья

bull Входной файл ndash формат multi-fasta

ClustalW

bull tofasta list

gtIPNS_STRJU P18286

MPILMPSAEVPTIDISPLSGDDAKAKQRVAQEINKAARGSGFFYASNHGVDVQLLQDVVN

EFHRNMSDQEKHDLAINAYNKDNPHVRNGYYKAIKGKKAVESFCYLNPSFSDDHPMIKSE

TPMHEVNLWPDEEKHPRFRPFCEDYYRQLLRLSTVIMRGYALALGRREDFFDEALAEADT

LSSVSLIRYPYLEEYPPVKTGADGTKLSFEDHLDVSMITVLYQTEVQNLQVETVDGWQDI

PRSDEDFLVNCGTYMGHITHDYFPAPNHRVKFINAERLSLPFFLNAGHNSVIEPFVPEGA

AGTVKNPTTSYGEYLQHGLRALIVKNGQT

gtIPNS_STRCL P10621

MPVLMPSAHVPTIDISPLFGTDAAAKKRVAEEIHGACRGSGFFYATNHGVDVQQLQDVVN

EFHGAMTDQEKHDLAIHAYNPDNPHVRNGYYKAVPGRKAVESFCYLNPDFGEDHPMIAAG

TPMHEVNLWPDEERHPRFRPFCEGYYRQMLKLSTVLMRGLALALGRPEHFFDAALAEQDS

LSSVSLIRYPYLEEYPPVKTGPDGQLLSFEDHLDVSMITVLFQTQVQNLQVETVDGWRDI

PTSENDFLVNCGTYMAHVTNDYFPAPNHRVKFVNAERLSLPFFLNGGHEAVIEPFVPEGA

SEEVRNEALSYGDYLQHGLRALIVKNGQT

input fileMulti-fasta

Making the file in unix

ClustalWCLUSTAL W (17) multiple sequence alignment

IPNS_STRJU -MPILMPSAEVPTIDISPLSGDDAKAKQRVAQEINKAARGSGFFYASNHGVDVQLLQDVVIPNS_STRGR -MPIPMLPAHVPTIDISPLSGGDADDKKRVAQEINKACRESGFFYASHHGIDVQLLKDVVIPNS_FLASS ----MNRHADVPVIDISGLSGNDMDVKKDIAARIDRACRGSGFFYAANHGVDLAALQKFTIPNS_PENCH --MASTPKANVPKIDVSPLFGDNMEEKMKVARAIDAASRDTGFFYAVNHGVDVKRLSNKTIPNS_CEPAC MGSVPVPVANVPRIDVSPLFGDDKEKKLEVARAIDAASRDTGFFYAVNHGVDLPWLSRET

IPNS_STRJU NEFHRNMSDQEKHDLAINAYNKDNP-HVRNGYYKAIKGKKAVESFCYLNPSFSDDHPMIKIPNS_STRGR NEFHRTMTDEEKYDLAINAYNKNNP-RTRNGYYMAVKGKKAVESWCYLNPSFSEDHPQIRIPNS_FLASS TDWHMAMSAEEKWELAIRAYNPANP-RNRNGYYMAVEGKKANESFCYLNPSFDADHATIKIPNS_PENCH REFHFSITDEEKWDLAIRAYNKEHQDQIRAGYYLSIPEKKAVESFCYLNPNFKPDHPLIQIPNS_CEPAC NKFHMSITDEEKWQLAIRAYNKEHESQIRAGYYLPIPGKKAVESFCYLNPSFSPDHPRIK

Выходной файл aln format

httpwwwebiacukhelpformatshtml

форматы

ClustalW на EMBL

ClustalW на EMBL - результат

ClustalW at EMBL - Jalview

Conservation

Consensus Sequence

Мы можем вывести consensus sequence из результатов MSA The consensus sequence содержит наиболее часто встречающийся символ в кажной колонке выравнивания

A T C T T G T

A A C T T G T

A A C T T C T

A A C T T G T

Ещё пара терминовhelliphellip

Профиль (Profile)

Также возможно вывести статистическую модель описывающую MSA Профиль содержит информацию о символах в каждом столбце выравнивания

A T C T T G T

A A C T T G T

A A C T T C T

1 2 3 4 5 6

A 1 067 0 0

T 0 033 1 1

C 0 0 0 0

G 0 0 0 0

Profile vs Consensus

Consensus каждая позиция отражает наиболее часто встречающийся символ

Profile каждая позиция отражает частоту символа в данной позиции

Profile vs Consensus

Данный MSA будет иметь одинаковый consensus

A A C T T G C

A A G T C G T

C A C T T C T

A A C T T G T

A A C T T G T

A A C T T C T

A A C T T G T

Profile vs Consensus

Но разный профиль

A A C T T G C

A A G T C G T

C A C T T C T

A A C T T G T

A A C T T G T

A A C T T C T

1 2 3 4 5 6

A 066 1 0 0

T 0 0 0 1

C 033 0 066 0

G 0 0 033 0

1 2 3 4 5 6

A 1 1 0 0

T 0 0 0 1

C 0 0 1 0

G 0 0 0 0

Psi Blast (NCBI)

Position Specific Iterated ndash автоматизированный поиск по профилю

Regular blast

Construct profile from blast results

Blast profile search

Final results

PSI-Blast

Psi-Blast вывод

Проблема формулировки выводов при использовании МSA

1 Сайт выглядит общим (фиксированным) из-за того что это ndash близкородственные последовательности

2 Сайт выглядит общим из-за того что это ndash исключительно жизненно важный сайт

ФилогенезЭволюция ndash случайный процесс с неслучайным результатом

Цели филогенетического исследования

bull Реконструкция корректных генеалогических связей

между биологическими объектами

bull Оценка времени расхождения организмов

bull Определение порядка эволюционных событий в процессе

эволюции

Формат Newick

((A(BC))(DE))

Типы данных

Molecular (DNA RNA proteins)

Morphological (soft tissue hard tissue extant extinct)

Преимущества молекулярных данных

bull Наследуемость

bull Недвусмысленность в описании молекулярных характеристик

bull Поддаются количественному анализу

bull Оценка гомологии легче чем морфологические исследования

bull Данных много

Древо видов и геновbull Древо видов ndash эволюционные взаимосвязи

между видами (видообразование)bull Древо генов

Page RDM and Cotton JC (2000) GeneTree a tool for exploring gene family evolution In D Sankoff and J Nadeau (eds) Comparative Genomics Empirical and Analytical Approaches to Gene Order Dynamics Map Alignment and the Evolution of Gene Families Kluwer Academic Publishers Dordrecht pp 525-536

Figure 2 (a) Incongruent gene and species trees This incongruence can be explained by hypothesizing a gene duplication (h) at the base of the gene tree (b)The presence of only a single gene (a-d) extant in each of the present-day species(1-4) requires postulating three gene losses (c) The corresponding reconciled tree

Ортологи и паралоги

bull Гены-паралоги ndash событие дупликация (and

bull Гены-ортологи ndash событие видообразования (in the two species and in the two species

Duplication

Speciation

Species a Species b

Шаги реконструирования филогенетического

древа

1 Выбор последовательностей и поиск гомологов

2 MSA3 Матрица белков4 Филогенетическое дерево

Филогенетическое дерево

Филогения - раздел биологии изучающий родственные взаимоотношения разных групп живых организмов Филогению отображается обычно в виде эволюционных древ или систематических названий

Зачем нужны филогенетические деревья

Биологические задачи

сравнение 3-х и более объектов (кто на кого более похож )

реконструкция эволюции (кто от кого как и когда произошелhellip)

ТерминологияУзел (node) mdash точка разделения предковой последовательности(вида популяции) на две независимо эволюционирующиеСоответствует внутренней вершине графа изображающего эволюциюЛист (leaf OTU ndash оперативная таксономическая единица) mdash реальный (современный) объект внешняя вершина графаВетвь (branch) mdash связь между узлами или между узлом и листом ребро графаКорень (root) mdash общий предокКлада (clade) - группа двух или более таксонов или последователь-ностей ДНК которая включает как своего общего предка так и всех его потомков

OTU

HTU (hypotetical taxonomic unit)

Какие бывают деревья

Бинарное (разрешённое)(в один момент времени может

произойти только одно событие )

Небинарное (неразрешённое) (может ли в один момент времени

произойти два события )

Время

Какие бывают деревья

Укорененное дерево (rooted tree)отражает направление эволюции

Неукорененное (бескорневое) дерево(unrooted tree) показывает только связи между узлами

Время

Если число листьев равно n существует (2n-3)разных бинарных укоренных деревьевПо определению (2n-3) = 1middot3 middot middot(2n-3)

Существует (2n-5) разных бескорневых деревьев с n листьями

Rooting

A C B B C AA B C

3 OTUs 3 OTUs 1 н 1 неукорененное деревоеукорененное дерево 33 укорененных деревьев укорененных деревьев

A

B

C

D

C

A

B

4 OTUs 4 OTUs 3 3 неукорененных филогенетических неукорененных филогенетических деревьевдеревьев

D

B

A

C C

B

A

D

4 OTUs

15 укорененных

деревьев

Количество Количество Количество

OTU укорененных неукорененных

2 1 13 3 14 15 35 105 156 954 1057 103959548 135135 103959 2027025 13513510 34459425 202702511 654729075 3445942512 13749310575 654729075

Количество возможных деревьев

Рутинная процедура или как строят деревья

Составление выборки последовательностей

Множественное выравнивание

Построение дерева фрагмент записи в виде скобочной формулы

Визуализация и редактура дерева

(((((con1013851018(f539692826973((f67220839851max42750591)492893con923019677)1362315)953075)2583145

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Множественное выравнивание

Matches

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Multiple Alignment

Matches

Mismatches

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Multiple Alignment

Matches

Mismatches

Gaps

Seq 1 A G C G A GSeq 1 A G C G A GSeq 2 G C G G A CSeq 2 G C G G A C

Шаг 3 Перевод количества расхождений в индексы замен

Distance Matrix

Units количество замен нуклеотидов на 1000

Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86

Rice 00 118 122 122

Mosquito 00 55 51

Monkey 00 3

Human 00

Шаг 4 построение филогенетического дерева

Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86

Rice 00 118 122 122

Mosquito 00 55 51

Monkey 00 3

Human 00

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Дистанция между человеком и обезьяной минимальна Эти группы объединяются в Monkey-Human а все остальные дистанции пересчитываются

Dist[Spinach MonHum] = (Dist[Spinach Monkey] +

Dist[Spinach Human])2 = (91 + 86)2 = 885

Spinach Rice Mosquito Mon-HumSpinach 00 9 106 885

Rice 00 118 122

Mosquito 00 53

Mon-Hum 00

Редуцированная матрица дистанций

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Spi-Ric

HumanMosquito

Mon-Hum

MonkeySpinachRice

Mos-Mon-Hum

Spi-Ric

Mos-Mon-Hum-Spi-Ric

Как выбирать последовательности для дерева

Кроме случаев очень близких последовательностей проще работать с белками (а не с ДНК)

Придерживайтесь небольшой выборки (lt 50 последовательностей)

Избегайтеndash фрагментовndash Ксенологов (горизонтальный перенос генов)ndash рекомбинантных последовательностейndash многодоменных белков и повторов

Используйте outgroup (последовательность ответвившаяся от общего предка заведомо (но минимально) раньше разделения интересующих групп-клад)

Самое главное ndash хорошее выравнивание

Максимальный вклад в финальное дерево нельзя построить хорошее дерево по плохому выравниванию

Блоки содержащие много гэпов плохо выровненные N- и C- концы можно просто вырезать

Основные алгоритмы построения филогенетических деревьев

Методы основанные на оценке

расстояний (матричные методы)

bull UPGMA (кластеризация)

bull Neighbor-joining

bull Минимальная эволюция

Наибольшего правдоподобия Maximal likelihood ML Используется модель эволюции и строится дерево которое наиболее правдоподобно при данной модели

Максимальной экономии (бережливости)

maximal parsimony MP Выбирается дерево с минимальным количеством

мутаций необходимых для объяснения данных

Пример матрицы расстояний

1 2 3 4 5 6 7 8 000 1053 977 1278 1203 1654 1353 2500 HUMAN 1

000 902 1203 977 1579 902 2727 HORSE 2 000 977 902 1654 1203 2424 RABIT 3

000 226 1729 1053 2576 MOUSE 4 000 1579 827 2576 RAT 5

000 1053 2955 BOVIN 6 000 2500 PIG 7

000 CHICK 8

Расстояние (уровень дивергенции) между соответствующими последовательностями из геномов мыши и свиньи

Как понимать расстояние между объектами

bull Как время в течение которого они эволюционировалиbull Как число laquoэволюционных событийraquo (мутаций)

В первом случае объекты образуют ультраметрическое пространство(если все объекты наблюдаются в одно время что как правило верно)

Но время непосредственно измерить невозможно

Гипотеза laquoмолекулярных часовraquo(EZuckerkandl LPauling 1962)

За равное время во всех ветвях эволюции данного генабелка накапливается равное число мутацийЕсли гипотеза молекулярных часов

принимается число различий между выровненными последовательностями можно считать примерно пропорциональным времени Отклонения от ультраметричности можно считать случайными Эволюция реконструируется в виде ультраметрического дерева

Укоренённое дерево называется ультраметрическим если расстояние от корня до любого из листьев одинаково

UPGMAUnweighted Pair Group Method with Arithmetic Mean

разновидность кластерного метода

Расстояние между кластерами вычисляется как среднее арифметическое всевозможных расстояний между последовательностями из кластеров

Недостатки UPGMA

Алгоритм строит ультраметрическое дерево ndash скорость эволюции предполагается одинаковой для всех ветвей дерева Использовать этот алгоритм имеет смысл только в случае ультраметрических данных (справедливости laquoмолекулярных часовraquo)

Реальное дерево UPGMA

Метод ближайших соседей (Neighbor-joining NJ)

Строит неукоренённое дерево

Может работать с большим количеством данных

Достаточно быстрый

Если есть недвусмысленное с точки зрения эксперта дерево то оно будет построено

Метод Neighbor-joining

Рисуем laquoзвездноеraquo дерево и будем laquoотщипыватьraquo от него по паре листьев

Пусть ui = Σk Mik(n-2) mdash среднее расстояние от листа i до других

листьев

1 Рассмотрим все возможные пары листьев Выберем 2 листа i и j с минимальным значением величины

Mij ndash ui ndashuj

те выбираем 2 узла которые близки друг к другу но далеки ото всех остальных

Метод ближайших соседей (Neighbor-joining NJ)

2 Кластер (i j) ndash новый узел дерева

Расстояние от i или от j до узла (ij) D(i (ij)) = 05middot(Mij + ui ndash uj) D(j (ij)) = 05middot (Mij + uj ndash ui) те длина ветви зависит от среднего расстояния до других вершин

3 Вычисляем расстояние от нового кластера до всех других

M(ij)k = Mik+Mjk ndash Mij 2

5 В матрице М убираем i и j и добавляем (i j) Повторяем пока не останутся 3 узла

Input MSA для n последовательностей одна последовательность для каждого вида

AAAAATC

AAAAAAG

CCCCCCG

AAAAATCAAAAAAG

CCCCCCG

Длинная ветвь ndash непохоже на правду

Длинная ветвь -Похоже на правду

Методы основанные на последовательностях Maximum Likelihood (ML) Maximum Parsimony (MP)

Как изобразить дерево Топология дерева

Топология дерева mdash только листья узлы (корень) и связывающие их ветви (топология не зависит от способа изображения дерева)

A

B

C

D

E A BC D E

Два изображения одной и той же топологии

Bacterium 1

Bacterium 3

Bacterium 2

Eukaryote 1

Eukaryote 4

Eukaryote 3

Eukaryote 2

Bacterium 1

Bacterium 3Bacterium 2

Eukaryote 1

Eukaryote 4Eukaryote 3

Eukaryote 2

Филограммы ndash длины ветвей

пропорциональны

эволюционному расстоянию

Кладограммы и филограммы

Кладограммы ndash только

топологя Длины ветвей не

учитываются

6

31

2

46

24

53

Как можно нарисовать построенное дерево

Какие on-line программы строят деревья

ClustalW ldquoTree typerdquo ndash nj phylip строит только методом NJ но результат ndash в разных форматах no bootstraps

Phylip (Felsenstein 1993) ndash пакет программ для построения филогенетических деревьев (stand-alone)On-line (partly) например

httpbiowebpasteurfrseqanalphylogenyphylip-ukhtml PAUP (Phylogenetic Analysis Using Parsimony)

MEGA филогенетический анализ последовательностей

httpwwwmegasoftwarenet

Эволюция ndash исторический процесс

Из 8200794532637891559375 деревьев для 20 OTUs 1

является верным и 8200794532637891559374

неверны

Truth is one falsehoods are many

Какое из 8200794532637891559375

деревьев истинно

Мы не знаем Можно применить иные критетии

Например ldquoпохожесть=родствоraquo

GCGbull Строковый поиск простой текстовый

поиск по локальной базе данных

bull Поиск в определениях или в аннотациях

bull Определения содержат минимальное количество информации для каждой статьи доступ имя организма имя гена длина последовательности дата

  • Bestfit Output
  • SP1 at swissprot
  • EGR1 at swissprot
  • Вывод
  • Bl2Seq at NCBI
  • Bl2seq results
  • Bl2seq оценка
  • Оптимизация времени вычислений при парном выравнивании
  • Slide 9
  • Алгоритм BLAST (шаг 1)
  • Slide 11
  • Blast
  • Поиск гомологов
  • ДНК или белок
  • ДНК
  • Slide 16
  • Slide 17
  • Двойная спираль
  • ДНК дальнейшая упаковка
  • Slide 20
  • Репликация ДНК
  • Slide 22
  • Slide 23
  • Slide 24
  • Slide 25
  • Множественное выравнивание последовательностей (MSA)
  • Slide 27
  • Основные предположения
  • Например
  • Почему множественное выравнивание
  • Slide 31
  • Подходы в MSA
  • MSA algorithm
  • Multiple Alignment - алгоритм
  • Комментарии
  • GCG
  • Slide 37
  • GCG
  • Slide 39
  • Slide 40
  • Slide 41
  • ClustalW
  • Slide 43
  • Slide 44
  • ClustalW на EMBL
  • ClustalW на EMBL - результат
  • ClustalW at EMBL - Jalview
  • Consensus Sequence
  • Профиль (Profile)
  • Profile vs Consensus
  • Slide 51
  • Slide 52
  • Psi Blast (NCBI)
  • PSI-Blast
  • Psi-Blast вывод
  • Slide 56
  • Филогенез
  • Slide 58
  • Slide 59
  • Slide 60
  • Slide 61
  • Древо видов и генов
  • Ортологи и паралоги
  • Шаги реконструирования филогенетического древа
  • Филогенетическое дерево
  • Зачем нужны филогенетические деревья
  • Терминология
  • Slide 68
  • Какие бывают деревья
  • Slide 70
  • Slide 71
  • Slide 72
  • 4 OTUs 3 неукорененных филогенетических деревьев
  • Slide 74
  • Slide 75
  • Slide 76
  • Slide 77
  • Рутинная процедура или как строят деревья
  • Slide 79
  • Slide 80
  • Slide 81
  • Slide 82
  • Slide 83
  • Slide 84
  • Slide 85
  • Slide 86
  • Slide 87
  • Slide 88
  • Slide 89
  • Как выбирать последовательности для дерева
  • Самое главное ndash хорошее выравнивание
  • Основные алгоритмы построения филогенетических деревьев
  • Пример матрицы расстояний
  • Slide 94
  • Гипотеза laquoмолекулярных часовraquo (EZuckerkandl LPauling 1962)
  • UPGMA Unweighted Pair Group Method with Arithmetic Mean
  • Недостатки UPGMA
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Метод Neighbor-joining
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Slide 101
  • Как изобразить дерево Топология дерева
  • Slide 103
  • Какие on-line программы строят деревья
  • MEGA филогенетический анализ последовательностей
  • Slide 106
  • Slide 107
  • Slide 108
Page 5: Bestfit Output

Bl2Seq at NCBI

Bl2seq results

Bl2seq оценка

bull Bits score ndash оценка выравнивания в соответствии с количеством совпадений laquoпохожестиraquo и тд

bull Expected-score (E) ndash Вероятность

случайности выравнивания Чем ближе к 0 тем больше вероятность что наше выравнивание верно

Оптимизация времени вычислений при парном выравнивании

Алгоритм FASTA

Нахождение оптимального выравнивания требует значительных затрат времени

k ndash длина диагоналей

b ndash фактор отступа от диагонали

bull Basic Local Alignment Search Tool

bull Чувствителен также как FastA но намного быстрее

bull Также как FASTA требует параметр k (длина слова)ndash Белки k= 3 letter wordsndash ДНК k= 11 letter words

Алгоритм BLAST

1 Поиск идентичныхпохожих участков

2 Попытка laquoудлинитьraquo эти участки насколько возможно (те пока score растёт)

В результате High-scoring Segment Pairs (HSPs)

THEFIRSTLINIHAVEADREAMESIRPATRICKREAD

INVIEIAMDEADMEATTNAMHEWASNINETEEN

Алгоритм BLAST (шаг 1)

Попытка соединить соседние HSPs путем выравнивания последовательностей между ними

THEFIRSTLINIHAVEADREA____M_ESIRPATRICKREAD

INVIEIAMDEADMEATTNAMHEW___ASNINETEEN

Алгоритм BLAST (шаг 2)

Blastbull Blast ndash это семейство программ BlastN BlastP

BlastX tBlastN

bull BlastN - ДНК vs ДНКbull BlastP ndash белок vs белокbull BlastX - translated ДНК vs белокbull tBlastN - белок vs translated ДНК

Query ДНК Белок

Database ДНК Белок

Поиск гомологов

По ДНК или по белку

Какой поиск предпочтительней

ДНК или белок

Какая последовательность более постоянна в эволюционном плане

UCAUAC

Or

Serine -Tyrosine

ДНК

OO=P-O O

Фосфатная группаФосфатная группа

NАзотистое основаниеАзотистое основание

(A G C or T)(A G C or T)

CH2

O

C1C4

C3 C2

5

СахарСахар(дезоксирибоза)(дезоксирибоза)

ДНК

ДНК

ДНК состоит из двух цепей нуклеотидов ДНК состоит из двух цепей нуклеотидов соединённых попарносоединённых попарно

ADENINEADENINE ndash ndash THYMINETHYMINE

CYTOSINECYTOSINE - - GUANINEGUANINE

Правило комплементарностиПравило комплементарности

Двойная спиральДвойная спираль

P

P

P

O

O

O

1

23

4

5

5

3

3

5

P

P

PO

O

O

1

2 3

4

5

5

3

5

3

G C

T A

ДНК дальнейшая упаковка

ДНК

Функции ДНК mdash наследственность и изменчивость

Репликация ДНК

Репликация ДНК

bull Генетический код избыточен ndash почти все аминокислоты кодируются более чем 1 кодоном (тройка нуклеотидов)

bull Последовательность ДНК может меняться в то время как последовательность белка остается постоянной

Ser-Tyrhellip

UCAUAC UCUUAC UCGUAC Uhelliphellip

Поиск гомологов

bull Нуклеотиды ndash 4-х буквенный алфавитbull Аминокислоты ndash 20-и буквенный алфавит

Две случайные последовательности ДНК будут идентичны ~ 25Две случайные белковые последовательности будут идентичны ~ 5

Поиск гомологов

Матрицы для сравнения белков более чувствительны чем матрицы для ДНК

Базы данных ДНК намного больше белковых rarr будут случайные совпадения

Поиск гомологов

Использование белковых последовательностей более предпочтительно при поиске гомологов

Поиск гомологов

Множественное выравнивание последовательностей (MSA)

VTISCTGSSSNIGAG-NHVKWYQQLPGVTISCTGTSSNIGS--ITVNWYQQLPGLRLSCSSSGFIFSS--YAMYWVRQAPGLSLTCTVSGTSFDD--YYSTWVRQPPGPEVTCVVVDVSHEDPQVKFNWYVDG--ATLVCLISDFYPGA--VTVAWKADS--AALGCLVKDYFPEP--VTVSWNSG---VSLTCLVKGFYPSD--IAVEWWSNG--

Основные предположения

bull Гены фиксированы сохранены у очень широкого круга биологических видов у совершенно различных представителей laquoдрева жизниraquo

bull Фиксированный генетический код для белков вероятно несёт похожие зачастую идентичные функции

Например

bull Гистоны небольшие белки присутствуют у всех эукариот

Демонстрируют выраженное постоянство последовательности в MSA

Постоянство структуры и функции (упаковка DNA)

Почему множественное выравнивание

Позволяет дать характеристику семействам белков найти общие участки гомологов

Например семейство Serine protease семейство отвечающее за катализ гидролиз пептидных связей

bull Одинаковые активные центры

bull Общие участка последовательности

bull MSA ndash это первый предварительный шаг к анализу в области молекулярной эволюции и построения эволюционных деревьев

bull База для филогенеза ndash данные молекулярной биологии или морфологические данные

Подходы в MSA

2 разных подходаndash 1D sequence based ndash сравнение

последовательностейndash 2D-3D based ndash выравнивание базирующееся на

структуре

MSA algorithm

bull Попарное выравнивание всех последовательностей (pairwise alignment)

bull Кластерный анализ данных парного выравнивания для получения иерархии выравниваний (guide tree)

bull Построение множественного выравнивания (MSA) пошагово в соответствии с guide tree сначала выравнивают наиболее похожие пары затем добавляют остальные и тд

Multiple Alignment - алгоритм

(1) Парное выравнивание (подготовка guide tree)

6 pairwise alignments

then cluster analysis

(2) Множественное выравнивание следуя древу из п 1

successive alignments

Комментарии

bull Парное выравнивание - оптимальный алгоритм

bull Множественное выравнивание не является оптимальным алгоритмом Вполне могут существовать и лучшие выравнивания

bull Редакторы выравниваний могут быть полезны для корректировки

GCG

Pileup глобальный MSA

pileup [list of sequence names]

pileup hemoglobin_list

1 The sign means that the file contains a list of names

2 The list can include names from the userrsquos directory or code names (accession numbers) from the GCG databases

GCGПример входного файла

swhbb_human

swhbb_rat

swhbb_mouse

Hemoglobin_Alpha

Hemoglobin_Gamma

Hemogolibin_Delta

Syntax the file starts with ldquordquo

Sequences from the databases

Sequences from the userrsquos directory

GCG PileUp creates a multiple sequence alignment from a group of relatedsequences using progressive pairwise alignments It can also plot atree showing the clustering relationships used to create the alignment

1 IPNS_STRJU 329 aa 2 IPNS_STRCL 329 aa 3 IPNS_CEPAC 338 aa 4 IPNS_NOCLA 328 aa

What is the gap creation penalty ( 8 ) What is the gap extension penalty ( 2 )

This program can display the clustering relationships graphically Do you want to A) Plot to a FIGURE file called pileupfigure B) Plot graphics on HP7550 attached to devtty15 C) Suppress the plot Please choose one ( A ) c What should I call the output file name ( ipnsmsf )

Determining pairwise similarity scores

1 x 2 443 1 x 3 312 1 x 4 412 2 x 3 294 2 x 4 405 3 x 4 309

Aligning

Total sequences 4 Alignment length 338 CPU time 0021

Output filedatausersracheliothersracheliipnsmsf

Regular GCG syntaxDefault parametersoutput file etc

GCGAA_MULTIPLE_ALIGNMENT 10PileUp of ipnsfil

Symbol comparison table GenRunDatablosum62cmp CompCheck 1102 GapWeight 8 GapLengthWeight 2 ipnsmsf MSF 338 Type P March 14 2002 0929 Check 7631

Name IPNS_STRJU Len 338 Check 6344 Weight 100 Name IPNS_STRCL Len 338 Check 4249 Weight 100 Name IPNS_NOCLA Len 338 Check 7020 Weight 100 Name IPNS_CEPAC Len 338 Check 18 Weight 100

1 50IPNS_STRJU ~MPILMPSAE VPTIDISPLS GDDAKAKQRV AQEINKAARG SGFFYASNHGIPNS_STRCL ~MPVLMPSAH VPTIDISPLF GTDAAAKKRV AEEIHGACRG SGFFYATNHGIPNS_NOCLA ~~~MKMPSAE VPTIDVSPLF GDDAQEKVRV GQEINKACRG SGFFYAANHGIPNS_CEPAC MGSVPVPVAN VPRIDVSPLF GDDKEKKLEV ARAIDAASRD TGFFYAVNHG

51 100IPNS_STRJU VDVQLLQDVV NEFHRNMSDQ EKHDLAINAY NKDNPHVRN GYYKAIKGKKIPNS_STRCL VDVQQLQDVV NEFHGAMTDQ EKHDLAIHAY NPDNPHVRN GYYKAVPGRKIPNS_NOCLA VDVQRLQDVV NEFHRTMSPQ EKYDLAIHAY NKNNSHVRN GYYMAIEGKKIPNS_CEPAC VDLPWLSRET NKFHMSITDE EKWQLAIRAY NKEHESQIRA GYYLPIPGKK

Output filemsf format

GCG

Prettybox генерирует графический файл из файла MSA

prettybox [MSA file]

prettybox hemoglobinsmsf

1 The ldquordquo is a syntax sign meaning all the sequences in the MSA file

2 Can also calculate the consensus sequence

GCG

ClustalWbull Очень известная и широко распространённая

программа UNIX Internet Windows

bull Выполняет MSA может строить филогенетические деревья

bull Входной файл ndash формат multi-fasta

ClustalW

bull tofasta list

gtIPNS_STRJU P18286

MPILMPSAEVPTIDISPLSGDDAKAKQRVAQEINKAARGSGFFYASNHGVDVQLLQDVVN

EFHRNMSDQEKHDLAINAYNKDNPHVRNGYYKAIKGKKAVESFCYLNPSFSDDHPMIKSE

TPMHEVNLWPDEEKHPRFRPFCEDYYRQLLRLSTVIMRGYALALGRREDFFDEALAEADT

LSSVSLIRYPYLEEYPPVKTGADGTKLSFEDHLDVSMITVLYQTEVQNLQVETVDGWQDI

PRSDEDFLVNCGTYMGHITHDYFPAPNHRVKFINAERLSLPFFLNAGHNSVIEPFVPEGA

AGTVKNPTTSYGEYLQHGLRALIVKNGQT

gtIPNS_STRCL P10621

MPVLMPSAHVPTIDISPLFGTDAAAKKRVAEEIHGACRGSGFFYATNHGVDVQQLQDVVN

EFHGAMTDQEKHDLAIHAYNPDNPHVRNGYYKAVPGRKAVESFCYLNPDFGEDHPMIAAG

TPMHEVNLWPDEERHPRFRPFCEGYYRQMLKLSTVLMRGLALALGRPEHFFDAALAEQDS

LSSVSLIRYPYLEEYPPVKTGPDGQLLSFEDHLDVSMITVLFQTQVQNLQVETVDGWRDI

PTSENDFLVNCGTYMAHVTNDYFPAPNHRVKFVNAERLSLPFFLNGGHEAVIEPFVPEGA

SEEVRNEALSYGDYLQHGLRALIVKNGQT

input fileMulti-fasta

Making the file in unix

ClustalWCLUSTAL W (17) multiple sequence alignment

IPNS_STRJU -MPILMPSAEVPTIDISPLSGDDAKAKQRVAQEINKAARGSGFFYASNHGVDVQLLQDVVIPNS_STRGR -MPIPMLPAHVPTIDISPLSGGDADDKKRVAQEINKACRESGFFYASHHGIDVQLLKDVVIPNS_FLASS ----MNRHADVPVIDISGLSGNDMDVKKDIAARIDRACRGSGFFYAANHGVDLAALQKFTIPNS_PENCH --MASTPKANVPKIDVSPLFGDNMEEKMKVARAIDAASRDTGFFYAVNHGVDVKRLSNKTIPNS_CEPAC MGSVPVPVANVPRIDVSPLFGDDKEKKLEVARAIDAASRDTGFFYAVNHGVDLPWLSRET

IPNS_STRJU NEFHRNMSDQEKHDLAINAYNKDNP-HVRNGYYKAIKGKKAVESFCYLNPSFSDDHPMIKIPNS_STRGR NEFHRTMTDEEKYDLAINAYNKNNP-RTRNGYYMAVKGKKAVESWCYLNPSFSEDHPQIRIPNS_FLASS TDWHMAMSAEEKWELAIRAYNPANP-RNRNGYYMAVEGKKANESFCYLNPSFDADHATIKIPNS_PENCH REFHFSITDEEKWDLAIRAYNKEHQDQIRAGYYLSIPEKKAVESFCYLNPNFKPDHPLIQIPNS_CEPAC NKFHMSITDEEKWQLAIRAYNKEHESQIRAGYYLPIPGKKAVESFCYLNPSFSPDHPRIK

Выходной файл aln format

httpwwwebiacukhelpformatshtml

форматы

ClustalW на EMBL

ClustalW на EMBL - результат

ClustalW at EMBL - Jalview

Conservation

Consensus Sequence

Мы можем вывести consensus sequence из результатов MSA The consensus sequence содержит наиболее часто встречающийся символ в кажной колонке выравнивания

A T C T T G T

A A C T T G T

A A C T T C T

A A C T T G T

Ещё пара терминовhelliphellip

Профиль (Profile)

Также возможно вывести статистическую модель описывающую MSA Профиль содержит информацию о символах в каждом столбце выравнивания

A T C T T G T

A A C T T G T

A A C T T C T

1 2 3 4 5 6

A 1 067 0 0

T 0 033 1 1

C 0 0 0 0

G 0 0 0 0

Profile vs Consensus

Consensus каждая позиция отражает наиболее часто встречающийся символ

Profile каждая позиция отражает частоту символа в данной позиции

Profile vs Consensus

Данный MSA будет иметь одинаковый consensus

A A C T T G C

A A G T C G T

C A C T T C T

A A C T T G T

A A C T T G T

A A C T T C T

A A C T T G T

Profile vs Consensus

Но разный профиль

A A C T T G C

A A G T C G T

C A C T T C T

A A C T T G T

A A C T T G T

A A C T T C T

1 2 3 4 5 6

A 066 1 0 0

T 0 0 0 1

C 033 0 066 0

G 0 0 033 0

1 2 3 4 5 6

A 1 1 0 0

T 0 0 0 1

C 0 0 1 0

G 0 0 0 0

Psi Blast (NCBI)

Position Specific Iterated ndash автоматизированный поиск по профилю

Regular blast

Construct profile from blast results

Blast profile search

Final results

PSI-Blast

Psi-Blast вывод

Проблема формулировки выводов при использовании МSA

1 Сайт выглядит общим (фиксированным) из-за того что это ndash близкородственные последовательности

2 Сайт выглядит общим из-за того что это ndash исключительно жизненно важный сайт

ФилогенезЭволюция ndash случайный процесс с неслучайным результатом

Цели филогенетического исследования

bull Реконструкция корректных генеалогических связей

между биологическими объектами

bull Оценка времени расхождения организмов

bull Определение порядка эволюционных событий в процессе

эволюции

Формат Newick

((A(BC))(DE))

Типы данных

Molecular (DNA RNA proteins)

Morphological (soft tissue hard tissue extant extinct)

Преимущества молекулярных данных

bull Наследуемость

bull Недвусмысленность в описании молекулярных характеристик

bull Поддаются количественному анализу

bull Оценка гомологии легче чем морфологические исследования

bull Данных много

Древо видов и геновbull Древо видов ndash эволюционные взаимосвязи

между видами (видообразование)bull Древо генов

Page RDM and Cotton JC (2000) GeneTree a tool for exploring gene family evolution In D Sankoff and J Nadeau (eds) Comparative Genomics Empirical and Analytical Approaches to Gene Order Dynamics Map Alignment and the Evolution of Gene Families Kluwer Academic Publishers Dordrecht pp 525-536

Figure 2 (a) Incongruent gene and species trees This incongruence can be explained by hypothesizing a gene duplication (h) at the base of the gene tree (b)The presence of only a single gene (a-d) extant in each of the present-day species(1-4) requires postulating three gene losses (c) The corresponding reconciled tree

Ортологи и паралоги

bull Гены-паралоги ndash событие дупликация (and

bull Гены-ортологи ndash событие видообразования (in the two species and in the two species

Duplication

Speciation

Species a Species b

Шаги реконструирования филогенетического

древа

1 Выбор последовательностей и поиск гомологов

2 MSA3 Матрица белков4 Филогенетическое дерево

Филогенетическое дерево

Филогения - раздел биологии изучающий родственные взаимоотношения разных групп живых организмов Филогению отображается обычно в виде эволюционных древ или систематических названий

Зачем нужны филогенетические деревья

Биологические задачи

сравнение 3-х и более объектов (кто на кого более похож )

реконструкция эволюции (кто от кого как и когда произошелhellip)

ТерминологияУзел (node) mdash точка разделения предковой последовательности(вида популяции) на две независимо эволюционирующиеСоответствует внутренней вершине графа изображающего эволюциюЛист (leaf OTU ndash оперативная таксономическая единица) mdash реальный (современный) объект внешняя вершина графаВетвь (branch) mdash связь между узлами или между узлом и листом ребро графаКорень (root) mdash общий предокКлада (clade) - группа двух или более таксонов или последователь-ностей ДНК которая включает как своего общего предка так и всех его потомков

OTU

HTU (hypotetical taxonomic unit)

Какие бывают деревья

Бинарное (разрешённое)(в один момент времени может

произойти только одно событие )

Небинарное (неразрешённое) (может ли в один момент времени

произойти два события )

Время

Какие бывают деревья

Укорененное дерево (rooted tree)отражает направление эволюции

Неукорененное (бескорневое) дерево(unrooted tree) показывает только связи между узлами

Время

Если число листьев равно n существует (2n-3)разных бинарных укоренных деревьевПо определению (2n-3) = 1middot3 middot middot(2n-3)

Существует (2n-5) разных бескорневых деревьев с n листьями

Rooting

A C B B C AA B C

3 OTUs 3 OTUs 1 н 1 неукорененное деревоеукорененное дерево 33 укорененных деревьев укорененных деревьев

A

B

C

D

C

A

B

4 OTUs 4 OTUs 3 3 неукорененных филогенетических неукорененных филогенетических деревьевдеревьев

D

B

A

C C

B

A

D

4 OTUs

15 укорененных

деревьев

Количество Количество Количество

OTU укорененных неукорененных

2 1 13 3 14 15 35 105 156 954 1057 103959548 135135 103959 2027025 13513510 34459425 202702511 654729075 3445942512 13749310575 654729075

Количество возможных деревьев

Рутинная процедура или как строят деревья

Составление выборки последовательностей

Множественное выравнивание

Построение дерева фрагмент записи в виде скобочной формулы

Визуализация и редактура дерева

(((((con1013851018(f539692826973((f67220839851max42750591)492893con923019677)1362315)953075)2583145

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Множественное выравнивание

Matches

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Multiple Alignment

Matches

Mismatches

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Multiple Alignment

Matches

Mismatches

Gaps

Seq 1 A G C G A GSeq 1 A G C G A GSeq 2 G C G G A CSeq 2 G C G G A C

Шаг 3 Перевод количества расхождений в индексы замен

Distance Matrix

Units количество замен нуклеотидов на 1000

Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86

Rice 00 118 122 122

Mosquito 00 55 51

Monkey 00 3

Human 00

Шаг 4 построение филогенетического дерева

Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86

Rice 00 118 122 122

Mosquito 00 55 51

Monkey 00 3

Human 00

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Дистанция между человеком и обезьяной минимальна Эти группы объединяются в Monkey-Human а все остальные дистанции пересчитываются

Dist[Spinach MonHum] = (Dist[Spinach Monkey] +

Dist[Spinach Human])2 = (91 + 86)2 = 885

Spinach Rice Mosquito Mon-HumSpinach 00 9 106 885

Rice 00 118 122

Mosquito 00 53

Mon-Hum 00

Редуцированная матрица дистанций

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Spi-Ric

HumanMosquito

Mon-Hum

MonkeySpinachRice

Mos-Mon-Hum

Spi-Ric

Mos-Mon-Hum-Spi-Ric

Как выбирать последовательности для дерева

Кроме случаев очень близких последовательностей проще работать с белками (а не с ДНК)

Придерживайтесь небольшой выборки (lt 50 последовательностей)

Избегайтеndash фрагментовndash Ксенологов (горизонтальный перенос генов)ndash рекомбинантных последовательностейndash многодоменных белков и повторов

Используйте outgroup (последовательность ответвившаяся от общего предка заведомо (но минимально) раньше разделения интересующих групп-клад)

Самое главное ndash хорошее выравнивание

Максимальный вклад в финальное дерево нельзя построить хорошее дерево по плохому выравниванию

Блоки содержащие много гэпов плохо выровненные N- и C- концы можно просто вырезать

Основные алгоритмы построения филогенетических деревьев

Методы основанные на оценке

расстояний (матричные методы)

bull UPGMA (кластеризация)

bull Neighbor-joining

bull Минимальная эволюция

Наибольшего правдоподобия Maximal likelihood ML Используется модель эволюции и строится дерево которое наиболее правдоподобно при данной модели

Максимальной экономии (бережливости)

maximal parsimony MP Выбирается дерево с минимальным количеством

мутаций необходимых для объяснения данных

Пример матрицы расстояний

1 2 3 4 5 6 7 8 000 1053 977 1278 1203 1654 1353 2500 HUMAN 1

000 902 1203 977 1579 902 2727 HORSE 2 000 977 902 1654 1203 2424 RABIT 3

000 226 1729 1053 2576 MOUSE 4 000 1579 827 2576 RAT 5

000 1053 2955 BOVIN 6 000 2500 PIG 7

000 CHICK 8

Расстояние (уровень дивергенции) между соответствующими последовательностями из геномов мыши и свиньи

Как понимать расстояние между объектами

bull Как время в течение которого они эволюционировалиbull Как число laquoэволюционных событийraquo (мутаций)

В первом случае объекты образуют ультраметрическое пространство(если все объекты наблюдаются в одно время что как правило верно)

Но время непосредственно измерить невозможно

Гипотеза laquoмолекулярных часовraquo(EZuckerkandl LPauling 1962)

За равное время во всех ветвях эволюции данного генабелка накапливается равное число мутацийЕсли гипотеза молекулярных часов

принимается число различий между выровненными последовательностями можно считать примерно пропорциональным времени Отклонения от ультраметричности можно считать случайными Эволюция реконструируется в виде ультраметрического дерева

Укоренённое дерево называется ультраметрическим если расстояние от корня до любого из листьев одинаково

UPGMAUnweighted Pair Group Method with Arithmetic Mean

разновидность кластерного метода

Расстояние между кластерами вычисляется как среднее арифметическое всевозможных расстояний между последовательностями из кластеров

Недостатки UPGMA

Алгоритм строит ультраметрическое дерево ndash скорость эволюции предполагается одинаковой для всех ветвей дерева Использовать этот алгоритм имеет смысл только в случае ультраметрических данных (справедливости laquoмолекулярных часовraquo)

Реальное дерево UPGMA

Метод ближайших соседей (Neighbor-joining NJ)

Строит неукоренённое дерево

Может работать с большим количеством данных

Достаточно быстрый

Если есть недвусмысленное с точки зрения эксперта дерево то оно будет построено

Метод Neighbor-joining

Рисуем laquoзвездноеraquo дерево и будем laquoотщипыватьraquo от него по паре листьев

Пусть ui = Σk Mik(n-2) mdash среднее расстояние от листа i до других

листьев

1 Рассмотрим все возможные пары листьев Выберем 2 листа i и j с минимальным значением величины

Mij ndash ui ndashuj

те выбираем 2 узла которые близки друг к другу но далеки ото всех остальных

Метод ближайших соседей (Neighbor-joining NJ)

2 Кластер (i j) ndash новый узел дерева

Расстояние от i или от j до узла (ij) D(i (ij)) = 05middot(Mij + ui ndash uj) D(j (ij)) = 05middot (Mij + uj ndash ui) те длина ветви зависит от среднего расстояния до других вершин

3 Вычисляем расстояние от нового кластера до всех других

M(ij)k = Mik+Mjk ndash Mij 2

5 В матрице М убираем i и j и добавляем (i j) Повторяем пока не останутся 3 узла

Input MSA для n последовательностей одна последовательность для каждого вида

AAAAATC

AAAAAAG

CCCCCCG

AAAAATCAAAAAAG

CCCCCCG

Длинная ветвь ndash непохоже на правду

Длинная ветвь -Похоже на правду

Методы основанные на последовательностях Maximum Likelihood (ML) Maximum Parsimony (MP)

Как изобразить дерево Топология дерева

Топология дерева mdash только листья узлы (корень) и связывающие их ветви (топология не зависит от способа изображения дерева)

A

B

C

D

E A BC D E

Два изображения одной и той же топологии

Bacterium 1

Bacterium 3

Bacterium 2

Eukaryote 1

Eukaryote 4

Eukaryote 3

Eukaryote 2

Bacterium 1

Bacterium 3Bacterium 2

Eukaryote 1

Eukaryote 4Eukaryote 3

Eukaryote 2

Филограммы ndash длины ветвей

пропорциональны

эволюционному расстоянию

Кладограммы и филограммы

Кладограммы ndash только

топологя Длины ветвей не

учитываются

6

31

2

46

24

53

Как можно нарисовать построенное дерево

Какие on-line программы строят деревья

ClustalW ldquoTree typerdquo ndash nj phylip строит только методом NJ но результат ndash в разных форматах no bootstraps

Phylip (Felsenstein 1993) ndash пакет программ для построения филогенетических деревьев (stand-alone)On-line (partly) например

httpbiowebpasteurfrseqanalphylogenyphylip-ukhtml PAUP (Phylogenetic Analysis Using Parsimony)

MEGA филогенетический анализ последовательностей

httpwwwmegasoftwarenet

Эволюция ndash исторический процесс

Из 8200794532637891559375 деревьев для 20 OTUs 1

является верным и 8200794532637891559374

неверны

Truth is one falsehoods are many

Какое из 8200794532637891559375

деревьев истинно

Мы не знаем Можно применить иные критетии

Например ldquoпохожесть=родствоraquo

GCGbull Строковый поиск простой текстовый

поиск по локальной базе данных

bull Поиск в определениях или в аннотациях

bull Определения содержат минимальное количество информации для каждой статьи доступ имя организма имя гена длина последовательности дата

  • Bestfit Output
  • SP1 at swissprot
  • EGR1 at swissprot
  • Вывод
  • Bl2Seq at NCBI
  • Bl2seq results
  • Bl2seq оценка
  • Оптимизация времени вычислений при парном выравнивании
  • Slide 9
  • Алгоритм BLAST (шаг 1)
  • Slide 11
  • Blast
  • Поиск гомологов
  • ДНК или белок
  • ДНК
  • Slide 16
  • Slide 17
  • Двойная спираль
  • ДНК дальнейшая упаковка
  • Slide 20
  • Репликация ДНК
  • Slide 22
  • Slide 23
  • Slide 24
  • Slide 25
  • Множественное выравнивание последовательностей (MSA)
  • Slide 27
  • Основные предположения
  • Например
  • Почему множественное выравнивание
  • Slide 31
  • Подходы в MSA
  • MSA algorithm
  • Multiple Alignment - алгоритм
  • Комментарии
  • GCG
  • Slide 37
  • GCG
  • Slide 39
  • Slide 40
  • Slide 41
  • ClustalW
  • Slide 43
  • Slide 44
  • ClustalW на EMBL
  • ClustalW на EMBL - результат
  • ClustalW at EMBL - Jalview
  • Consensus Sequence
  • Профиль (Profile)
  • Profile vs Consensus
  • Slide 51
  • Slide 52
  • Psi Blast (NCBI)
  • PSI-Blast
  • Psi-Blast вывод
  • Slide 56
  • Филогенез
  • Slide 58
  • Slide 59
  • Slide 60
  • Slide 61
  • Древо видов и генов
  • Ортологи и паралоги
  • Шаги реконструирования филогенетического древа
  • Филогенетическое дерево
  • Зачем нужны филогенетические деревья
  • Терминология
  • Slide 68
  • Какие бывают деревья
  • Slide 70
  • Slide 71
  • Slide 72
  • 4 OTUs 3 неукорененных филогенетических деревьев
  • Slide 74
  • Slide 75
  • Slide 76
  • Slide 77
  • Рутинная процедура или как строят деревья
  • Slide 79
  • Slide 80
  • Slide 81
  • Slide 82
  • Slide 83
  • Slide 84
  • Slide 85
  • Slide 86
  • Slide 87
  • Slide 88
  • Slide 89
  • Как выбирать последовательности для дерева
  • Самое главное ndash хорошее выравнивание
  • Основные алгоритмы построения филогенетических деревьев
  • Пример матрицы расстояний
  • Slide 94
  • Гипотеза laquoмолекулярных часовraquo (EZuckerkandl LPauling 1962)
  • UPGMA Unweighted Pair Group Method with Arithmetic Mean
  • Недостатки UPGMA
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Метод Neighbor-joining
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Slide 101
  • Как изобразить дерево Топология дерева
  • Slide 103
  • Какие on-line программы строят деревья
  • MEGA филогенетический анализ последовательностей
  • Slide 106
  • Slide 107
  • Slide 108
Page 6: Bestfit Output

Bl2seq results

Bl2seq оценка

bull Bits score ndash оценка выравнивания в соответствии с количеством совпадений laquoпохожестиraquo и тд

bull Expected-score (E) ndash Вероятность

случайности выравнивания Чем ближе к 0 тем больше вероятность что наше выравнивание верно

Оптимизация времени вычислений при парном выравнивании

Алгоритм FASTA

Нахождение оптимального выравнивания требует значительных затрат времени

k ndash длина диагоналей

b ndash фактор отступа от диагонали

bull Basic Local Alignment Search Tool

bull Чувствителен также как FastA но намного быстрее

bull Также как FASTA требует параметр k (длина слова)ndash Белки k= 3 letter wordsndash ДНК k= 11 letter words

Алгоритм BLAST

1 Поиск идентичныхпохожих участков

2 Попытка laquoудлинитьraquo эти участки насколько возможно (те пока score растёт)

В результате High-scoring Segment Pairs (HSPs)

THEFIRSTLINIHAVEADREAMESIRPATRICKREAD

INVIEIAMDEADMEATTNAMHEWASNINETEEN

Алгоритм BLAST (шаг 1)

Попытка соединить соседние HSPs путем выравнивания последовательностей между ними

THEFIRSTLINIHAVEADREA____M_ESIRPATRICKREAD

INVIEIAMDEADMEATTNAMHEW___ASNINETEEN

Алгоритм BLAST (шаг 2)

Blastbull Blast ndash это семейство программ BlastN BlastP

BlastX tBlastN

bull BlastN - ДНК vs ДНКbull BlastP ndash белок vs белокbull BlastX - translated ДНК vs белокbull tBlastN - белок vs translated ДНК

Query ДНК Белок

Database ДНК Белок

Поиск гомологов

По ДНК или по белку

Какой поиск предпочтительней

ДНК или белок

Какая последовательность более постоянна в эволюционном плане

UCAUAC

Or

Serine -Tyrosine

ДНК

OO=P-O O

Фосфатная группаФосфатная группа

NАзотистое основаниеАзотистое основание

(A G C or T)(A G C or T)

CH2

O

C1C4

C3 C2

5

СахарСахар(дезоксирибоза)(дезоксирибоза)

ДНК

ДНК

ДНК состоит из двух цепей нуклеотидов ДНК состоит из двух цепей нуклеотидов соединённых попарносоединённых попарно

ADENINEADENINE ndash ndash THYMINETHYMINE

CYTOSINECYTOSINE - - GUANINEGUANINE

Правило комплементарностиПравило комплементарности

Двойная спиральДвойная спираль

P

P

P

O

O

O

1

23

4

5

5

3

3

5

P

P

PO

O

O

1

2 3

4

5

5

3

5

3

G C

T A

ДНК дальнейшая упаковка

ДНК

Функции ДНК mdash наследственность и изменчивость

Репликация ДНК

Репликация ДНК

bull Генетический код избыточен ndash почти все аминокислоты кодируются более чем 1 кодоном (тройка нуклеотидов)

bull Последовательность ДНК может меняться в то время как последовательность белка остается постоянной

Ser-Tyrhellip

UCAUAC UCUUAC UCGUAC Uhelliphellip

Поиск гомологов

bull Нуклеотиды ndash 4-х буквенный алфавитbull Аминокислоты ndash 20-и буквенный алфавит

Две случайные последовательности ДНК будут идентичны ~ 25Две случайные белковые последовательности будут идентичны ~ 5

Поиск гомологов

Матрицы для сравнения белков более чувствительны чем матрицы для ДНК

Базы данных ДНК намного больше белковых rarr будут случайные совпадения

Поиск гомологов

Использование белковых последовательностей более предпочтительно при поиске гомологов

Поиск гомологов

Множественное выравнивание последовательностей (MSA)

VTISCTGSSSNIGAG-NHVKWYQQLPGVTISCTGTSSNIGS--ITVNWYQQLPGLRLSCSSSGFIFSS--YAMYWVRQAPGLSLTCTVSGTSFDD--YYSTWVRQPPGPEVTCVVVDVSHEDPQVKFNWYVDG--ATLVCLISDFYPGA--VTVAWKADS--AALGCLVKDYFPEP--VTVSWNSG---VSLTCLVKGFYPSD--IAVEWWSNG--

Основные предположения

bull Гены фиксированы сохранены у очень широкого круга биологических видов у совершенно различных представителей laquoдрева жизниraquo

bull Фиксированный генетический код для белков вероятно несёт похожие зачастую идентичные функции

Например

bull Гистоны небольшие белки присутствуют у всех эукариот

Демонстрируют выраженное постоянство последовательности в MSA

Постоянство структуры и функции (упаковка DNA)

Почему множественное выравнивание

Позволяет дать характеристику семействам белков найти общие участки гомологов

Например семейство Serine protease семейство отвечающее за катализ гидролиз пептидных связей

bull Одинаковые активные центры

bull Общие участка последовательности

bull MSA ndash это первый предварительный шаг к анализу в области молекулярной эволюции и построения эволюционных деревьев

bull База для филогенеза ndash данные молекулярной биологии или морфологические данные

Подходы в MSA

2 разных подходаndash 1D sequence based ndash сравнение

последовательностейndash 2D-3D based ndash выравнивание базирующееся на

структуре

MSA algorithm

bull Попарное выравнивание всех последовательностей (pairwise alignment)

bull Кластерный анализ данных парного выравнивания для получения иерархии выравниваний (guide tree)

bull Построение множественного выравнивания (MSA) пошагово в соответствии с guide tree сначала выравнивают наиболее похожие пары затем добавляют остальные и тд

Multiple Alignment - алгоритм

(1) Парное выравнивание (подготовка guide tree)

6 pairwise alignments

then cluster analysis

(2) Множественное выравнивание следуя древу из п 1

successive alignments

Комментарии

bull Парное выравнивание - оптимальный алгоритм

bull Множественное выравнивание не является оптимальным алгоритмом Вполне могут существовать и лучшие выравнивания

bull Редакторы выравниваний могут быть полезны для корректировки

GCG

Pileup глобальный MSA

pileup [list of sequence names]

pileup hemoglobin_list

1 The sign means that the file contains a list of names

2 The list can include names from the userrsquos directory or code names (accession numbers) from the GCG databases

GCGПример входного файла

swhbb_human

swhbb_rat

swhbb_mouse

Hemoglobin_Alpha

Hemoglobin_Gamma

Hemogolibin_Delta

Syntax the file starts with ldquordquo

Sequences from the databases

Sequences from the userrsquos directory

GCG PileUp creates a multiple sequence alignment from a group of relatedsequences using progressive pairwise alignments It can also plot atree showing the clustering relationships used to create the alignment

1 IPNS_STRJU 329 aa 2 IPNS_STRCL 329 aa 3 IPNS_CEPAC 338 aa 4 IPNS_NOCLA 328 aa

What is the gap creation penalty ( 8 ) What is the gap extension penalty ( 2 )

This program can display the clustering relationships graphically Do you want to A) Plot to a FIGURE file called pileupfigure B) Plot graphics on HP7550 attached to devtty15 C) Suppress the plot Please choose one ( A ) c What should I call the output file name ( ipnsmsf )

Determining pairwise similarity scores

1 x 2 443 1 x 3 312 1 x 4 412 2 x 3 294 2 x 4 405 3 x 4 309

Aligning

Total sequences 4 Alignment length 338 CPU time 0021

Output filedatausersracheliothersracheliipnsmsf

Regular GCG syntaxDefault parametersoutput file etc

GCGAA_MULTIPLE_ALIGNMENT 10PileUp of ipnsfil

Symbol comparison table GenRunDatablosum62cmp CompCheck 1102 GapWeight 8 GapLengthWeight 2 ipnsmsf MSF 338 Type P March 14 2002 0929 Check 7631

Name IPNS_STRJU Len 338 Check 6344 Weight 100 Name IPNS_STRCL Len 338 Check 4249 Weight 100 Name IPNS_NOCLA Len 338 Check 7020 Weight 100 Name IPNS_CEPAC Len 338 Check 18 Weight 100

1 50IPNS_STRJU ~MPILMPSAE VPTIDISPLS GDDAKAKQRV AQEINKAARG SGFFYASNHGIPNS_STRCL ~MPVLMPSAH VPTIDISPLF GTDAAAKKRV AEEIHGACRG SGFFYATNHGIPNS_NOCLA ~~~MKMPSAE VPTIDVSPLF GDDAQEKVRV GQEINKACRG SGFFYAANHGIPNS_CEPAC MGSVPVPVAN VPRIDVSPLF GDDKEKKLEV ARAIDAASRD TGFFYAVNHG

51 100IPNS_STRJU VDVQLLQDVV NEFHRNMSDQ EKHDLAINAY NKDNPHVRN GYYKAIKGKKIPNS_STRCL VDVQQLQDVV NEFHGAMTDQ EKHDLAIHAY NPDNPHVRN GYYKAVPGRKIPNS_NOCLA VDVQRLQDVV NEFHRTMSPQ EKYDLAIHAY NKNNSHVRN GYYMAIEGKKIPNS_CEPAC VDLPWLSRET NKFHMSITDE EKWQLAIRAY NKEHESQIRA GYYLPIPGKK

Output filemsf format

GCG

Prettybox генерирует графический файл из файла MSA

prettybox [MSA file]

prettybox hemoglobinsmsf

1 The ldquordquo is a syntax sign meaning all the sequences in the MSA file

2 Can also calculate the consensus sequence

GCG

ClustalWbull Очень известная и широко распространённая

программа UNIX Internet Windows

bull Выполняет MSA может строить филогенетические деревья

bull Входной файл ndash формат multi-fasta

ClustalW

bull tofasta list

gtIPNS_STRJU P18286

MPILMPSAEVPTIDISPLSGDDAKAKQRVAQEINKAARGSGFFYASNHGVDVQLLQDVVN

EFHRNMSDQEKHDLAINAYNKDNPHVRNGYYKAIKGKKAVESFCYLNPSFSDDHPMIKSE

TPMHEVNLWPDEEKHPRFRPFCEDYYRQLLRLSTVIMRGYALALGRREDFFDEALAEADT

LSSVSLIRYPYLEEYPPVKTGADGTKLSFEDHLDVSMITVLYQTEVQNLQVETVDGWQDI

PRSDEDFLVNCGTYMGHITHDYFPAPNHRVKFINAERLSLPFFLNAGHNSVIEPFVPEGA

AGTVKNPTTSYGEYLQHGLRALIVKNGQT

gtIPNS_STRCL P10621

MPVLMPSAHVPTIDISPLFGTDAAAKKRVAEEIHGACRGSGFFYATNHGVDVQQLQDVVN

EFHGAMTDQEKHDLAIHAYNPDNPHVRNGYYKAVPGRKAVESFCYLNPDFGEDHPMIAAG

TPMHEVNLWPDEERHPRFRPFCEGYYRQMLKLSTVLMRGLALALGRPEHFFDAALAEQDS

LSSVSLIRYPYLEEYPPVKTGPDGQLLSFEDHLDVSMITVLFQTQVQNLQVETVDGWRDI

PTSENDFLVNCGTYMAHVTNDYFPAPNHRVKFVNAERLSLPFFLNGGHEAVIEPFVPEGA

SEEVRNEALSYGDYLQHGLRALIVKNGQT

input fileMulti-fasta

Making the file in unix

ClustalWCLUSTAL W (17) multiple sequence alignment

IPNS_STRJU -MPILMPSAEVPTIDISPLSGDDAKAKQRVAQEINKAARGSGFFYASNHGVDVQLLQDVVIPNS_STRGR -MPIPMLPAHVPTIDISPLSGGDADDKKRVAQEINKACRESGFFYASHHGIDVQLLKDVVIPNS_FLASS ----MNRHADVPVIDISGLSGNDMDVKKDIAARIDRACRGSGFFYAANHGVDLAALQKFTIPNS_PENCH --MASTPKANVPKIDVSPLFGDNMEEKMKVARAIDAASRDTGFFYAVNHGVDVKRLSNKTIPNS_CEPAC MGSVPVPVANVPRIDVSPLFGDDKEKKLEVARAIDAASRDTGFFYAVNHGVDLPWLSRET

IPNS_STRJU NEFHRNMSDQEKHDLAINAYNKDNP-HVRNGYYKAIKGKKAVESFCYLNPSFSDDHPMIKIPNS_STRGR NEFHRTMTDEEKYDLAINAYNKNNP-RTRNGYYMAVKGKKAVESWCYLNPSFSEDHPQIRIPNS_FLASS TDWHMAMSAEEKWELAIRAYNPANP-RNRNGYYMAVEGKKANESFCYLNPSFDADHATIKIPNS_PENCH REFHFSITDEEKWDLAIRAYNKEHQDQIRAGYYLSIPEKKAVESFCYLNPNFKPDHPLIQIPNS_CEPAC NKFHMSITDEEKWQLAIRAYNKEHESQIRAGYYLPIPGKKAVESFCYLNPSFSPDHPRIK

Выходной файл aln format

httpwwwebiacukhelpformatshtml

форматы

ClustalW на EMBL

ClustalW на EMBL - результат

ClustalW at EMBL - Jalview

Conservation

Consensus Sequence

Мы можем вывести consensus sequence из результатов MSA The consensus sequence содержит наиболее часто встречающийся символ в кажной колонке выравнивания

A T C T T G T

A A C T T G T

A A C T T C T

A A C T T G T

Ещё пара терминовhelliphellip

Профиль (Profile)

Также возможно вывести статистическую модель описывающую MSA Профиль содержит информацию о символах в каждом столбце выравнивания

A T C T T G T

A A C T T G T

A A C T T C T

1 2 3 4 5 6

A 1 067 0 0

T 0 033 1 1

C 0 0 0 0

G 0 0 0 0

Profile vs Consensus

Consensus каждая позиция отражает наиболее часто встречающийся символ

Profile каждая позиция отражает частоту символа в данной позиции

Profile vs Consensus

Данный MSA будет иметь одинаковый consensus

A A C T T G C

A A G T C G T

C A C T T C T

A A C T T G T

A A C T T G T

A A C T T C T

A A C T T G T

Profile vs Consensus

Но разный профиль

A A C T T G C

A A G T C G T

C A C T T C T

A A C T T G T

A A C T T G T

A A C T T C T

1 2 3 4 5 6

A 066 1 0 0

T 0 0 0 1

C 033 0 066 0

G 0 0 033 0

1 2 3 4 5 6

A 1 1 0 0

T 0 0 0 1

C 0 0 1 0

G 0 0 0 0

Psi Blast (NCBI)

Position Specific Iterated ndash автоматизированный поиск по профилю

Regular blast

Construct profile from blast results

Blast profile search

Final results

PSI-Blast

Psi-Blast вывод

Проблема формулировки выводов при использовании МSA

1 Сайт выглядит общим (фиксированным) из-за того что это ndash близкородственные последовательности

2 Сайт выглядит общим из-за того что это ndash исключительно жизненно важный сайт

ФилогенезЭволюция ndash случайный процесс с неслучайным результатом

Цели филогенетического исследования

bull Реконструкция корректных генеалогических связей

между биологическими объектами

bull Оценка времени расхождения организмов

bull Определение порядка эволюционных событий в процессе

эволюции

Формат Newick

((A(BC))(DE))

Типы данных

Molecular (DNA RNA proteins)

Morphological (soft tissue hard tissue extant extinct)

Преимущества молекулярных данных

bull Наследуемость

bull Недвусмысленность в описании молекулярных характеристик

bull Поддаются количественному анализу

bull Оценка гомологии легче чем морфологические исследования

bull Данных много

Древо видов и геновbull Древо видов ndash эволюционные взаимосвязи

между видами (видообразование)bull Древо генов

Page RDM and Cotton JC (2000) GeneTree a tool for exploring gene family evolution In D Sankoff and J Nadeau (eds) Comparative Genomics Empirical and Analytical Approaches to Gene Order Dynamics Map Alignment and the Evolution of Gene Families Kluwer Academic Publishers Dordrecht pp 525-536

Figure 2 (a) Incongruent gene and species trees This incongruence can be explained by hypothesizing a gene duplication (h) at the base of the gene tree (b)The presence of only a single gene (a-d) extant in each of the present-day species(1-4) requires postulating three gene losses (c) The corresponding reconciled tree

Ортологи и паралоги

bull Гены-паралоги ndash событие дупликация (and

bull Гены-ортологи ndash событие видообразования (in the two species and in the two species

Duplication

Speciation

Species a Species b

Шаги реконструирования филогенетического

древа

1 Выбор последовательностей и поиск гомологов

2 MSA3 Матрица белков4 Филогенетическое дерево

Филогенетическое дерево

Филогения - раздел биологии изучающий родственные взаимоотношения разных групп живых организмов Филогению отображается обычно в виде эволюционных древ или систематических названий

Зачем нужны филогенетические деревья

Биологические задачи

сравнение 3-х и более объектов (кто на кого более похож )

реконструкция эволюции (кто от кого как и когда произошелhellip)

ТерминологияУзел (node) mdash точка разделения предковой последовательности(вида популяции) на две независимо эволюционирующиеСоответствует внутренней вершине графа изображающего эволюциюЛист (leaf OTU ndash оперативная таксономическая единица) mdash реальный (современный) объект внешняя вершина графаВетвь (branch) mdash связь между узлами или между узлом и листом ребро графаКорень (root) mdash общий предокКлада (clade) - группа двух или более таксонов или последователь-ностей ДНК которая включает как своего общего предка так и всех его потомков

OTU

HTU (hypotetical taxonomic unit)

Какие бывают деревья

Бинарное (разрешённое)(в один момент времени может

произойти только одно событие )

Небинарное (неразрешённое) (может ли в один момент времени

произойти два события )

Время

Какие бывают деревья

Укорененное дерево (rooted tree)отражает направление эволюции

Неукорененное (бескорневое) дерево(unrooted tree) показывает только связи между узлами

Время

Если число листьев равно n существует (2n-3)разных бинарных укоренных деревьевПо определению (2n-3) = 1middot3 middot middot(2n-3)

Существует (2n-5) разных бескорневых деревьев с n листьями

Rooting

A C B B C AA B C

3 OTUs 3 OTUs 1 н 1 неукорененное деревоеукорененное дерево 33 укорененных деревьев укорененных деревьев

A

B

C

D

C

A

B

4 OTUs 4 OTUs 3 3 неукорененных филогенетических неукорененных филогенетических деревьевдеревьев

D

B

A

C C

B

A

D

4 OTUs

15 укорененных

деревьев

Количество Количество Количество

OTU укорененных неукорененных

2 1 13 3 14 15 35 105 156 954 1057 103959548 135135 103959 2027025 13513510 34459425 202702511 654729075 3445942512 13749310575 654729075

Количество возможных деревьев

Рутинная процедура или как строят деревья

Составление выборки последовательностей

Множественное выравнивание

Построение дерева фрагмент записи в виде скобочной формулы

Визуализация и редактура дерева

(((((con1013851018(f539692826973((f67220839851max42750591)492893con923019677)1362315)953075)2583145

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Множественное выравнивание

Matches

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Multiple Alignment

Matches

Mismatches

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Multiple Alignment

Matches

Mismatches

Gaps

Seq 1 A G C G A GSeq 1 A G C G A GSeq 2 G C G G A CSeq 2 G C G G A C

Шаг 3 Перевод количества расхождений в индексы замен

Distance Matrix

Units количество замен нуклеотидов на 1000

Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86

Rice 00 118 122 122

Mosquito 00 55 51

Monkey 00 3

Human 00

Шаг 4 построение филогенетического дерева

Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86

Rice 00 118 122 122

Mosquito 00 55 51

Monkey 00 3

Human 00

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Дистанция между человеком и обезьяной минимальна Эти группы объединяются в Monkey-Human а все остальные дистанции пересчитываются

Dist[Spinach MonHum] = (Dist[Spinach Monkey] +

Dist[Spinach Human])2 = (91 + 86)2 = 885

Spinach Rice Mosquito Mon-HumSpinach 00 9 106 885

Rice 00 118 122

Mosquito 00 53

Mon-Hum 00

Редуцированная матрица дистанций

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Spi-Ric

HumanMosquito

Mon-Hum

MonkeySpinachRice

Mos-Mon-Hum

Spi-Ric

Mos-Mon-Hum-Spi-Ric

Как выбирать последовательности для дерева

Кроме случаев очень близких последовательностей проще работать с белками (а не с ДНК)

Придерживайтесь небольшой выборки (lt 50 последовательностей)

Избегайтеndash фрагментовndash Ксенологов (горизонтальный перенос генов)ndash рекомбинантных последовательностейndash многодоменных белков и повторов

Используйте outgroup (последовательность ответвившаяся от общего предка заведомо (но минимально) раньше разделения интересующих групп-клад)

Самое главное ndash хорошее выравнивание

Максимальный вклад в финальное дерево нельзя построить хорошее дерево по плохому выравниванию

Блоки содержащие много гэпов плохо выровненные N- и C- концы можно просто вырезать

Основные алгоритмы построения филогенетических деревьев

Методы основанные на оценке

расстояний (матричные методы)

bull UPGMA (кластеризация)

bull Neighbor-joining

bull Минимальная эволюция

Наибольшего правдоподобия Maximal likelihood ML Используется модель эволюции и строится дерево которое наиболее правдоподобно при данной модели

Максимальной экономии (бережливости)

maximal parsimony MP Выбирается дерево с минимальным количеством

мутаций необходимых для объяснения данных

Пример матрицы расстояний

1 2 3 4 5 6 7 8 000 1053 977 1278 1203 1654 1353 2500 HUMAN 1

000 902 1203 977 1579 902 2727 HORSE 2 000 977 902 1654 1203 2424 RABIT 3

000 226 1729 1053 2576 MOUSE 4 000 1579 827 2576 RAT 5

000 1053 2955 BOVIN 6 000 2500 PIG 7

000 CHICK 8

Расстояние (уровень дивергенции) между соответствующими последовательностями из геномов мыши и свиньи

Как понимать расстояние между объектами

bull Как время в течение которого они эволюционировалиbull Как число laquoэволюционных событийraquo (мутаций)

В первом случае объекты образуют ультраметрическое пространство(если все объекты наблюдаются в одно время что как правило верно)

Но время непосредственно измерить невозможно

Гипотеза laquoмолекулярных часовraquo(EZuckerkandl LPauling 1962)

За равное время во всех ветвях эволюции данного генабелка накапливается равное число мутацийЕсли гипотеза молекулярных часов

принимается число различий между выровненными последовательностями можно считать примерно пропорциональным времени Отклонения от ультраметричности можно считать случайными Эволюция реконструируется в виде ультраметрического дерева

Укоренённое дерево называется ультраметрическим если расстояние от корня до любого из листьев одинаково

UPGMAUnweighted Pair Group Method with Arithmetic Mean

разновидность кластерного метода

Расстояние между кластерами вычисляется как среднее арифметическое всевозможных расстояний между последовательностями из кластеров

Недостатки UPGMA

Алгоритм строит ультраметрическое дерево ndash скорость эволюции предполагается одинаковой для всех ветвей дерева Использовать этот алгоритм имеет смысл только в случае ультраметрических данных (справедливости laquoмолекулярных часовraquo)

Реальное дерево UPGMA

Метод ближайших соседей (Neighbor-joining NJ)

Строит неукоренённое дерево

Может работать с большим количеством данных

Достаточно быстрый

Если есть недвусмысленное с точки зрения эксперта дерево то оно будет построено

Метод Neighbor-joining

Рисуем laquoзвездноеraquo дерево и будем laquoотщипыватьraquo от него по паре листьев

Пусть ui = Σk Mik(n-2) mdash среднее расстояние от листа i до других

листьев

1 Рассмотрим все возможные пары листьев Выберем 2 листа i и j с минимальным значением величины

Mij ndash ui ndashuj

те выбираем 2 узла которые близки друг к другу но далеки ото всех остальных

Метод ближайших соседей (Neighbor-joining NJ)

2 Кластер (i j) ndash новый узел дерева

Расстояние от i или от j до узла (ij) D(i (ij)) = 05middot(Mij + ui ndash uj) D(j (ij)) = 05middot (Mij + uj ndash ui) те длина ветви зависит от среднего расстояния до других вершин

3 Вычисляем расстояние от нового кластера до всех других

M(ij)k = Mik+Mjk ndash Mij 2

5 В матрице М убираем i и j и добавляем (i j) Повторяем пока не останутся 3 узла

Input MSA для n последовательностей одна последовательность для каждого вида

AAAAATC

AAAAAAG

CCCCCCG

AAAAATCAAAAAAG

CCCCCCG

Длинная ветвь ndash непохоже на правду

Длинная ветвь -Похоже на правду

Методы основанные на последовательностях Maximum Likelihood (ML) Maximum Parsimony (MP)

Как изобразить дерево Топология дерева

Топология дерева mdash только листья узлы (корень) и связывающие их ветви (топология не зависит от способа изображения дерева)

A

B

C

D

E A BC D E

Два изображения одной и той же топологии

Bacterium 1

Bacterium 3

Bacterium 2

Eukaryote 1

Eukaryote 4

Eukaryote 3

Eukaryote 2

Bacterium 1

Bacterium 3Bacterium 2

Eukaryote 1

Eukaryote 4Eukaryote 3

Eukaryote 2

Филограммы ndash длины ветвей

пропорциональны

эволюционному расстоянию

Кладограммы и филограммы

Кладограммы ndash только

топологя Длины ветвей не

учитываются

6

31

2

46

24

53

Как можно нарисовать построенное дерево

Какие on-line программы строят деревья

ClustalW ldquoTree typerdquo ndash nj phylip строит только методом NJ но результат ndash в разных форматах no bootstraps

Phylip (Felsenstein 1993) ndash пакет программ для построения филогенетических деревьев (stand-alone)On-line (partly) например

httpbiowebpasteurfrseqanalphylogenyphylip-ukhtml PAUP (Phylogenetic Analysis Using Parsimony)

MEGA филогенетический анализ последовательностей

httpwwwmegasoftwarenet

Эволюция ndash исторический процесс

Из 8200794532637891559375 деревьев для 20 OTUs 1

является верным и 8200794532637891559374

неверны

Truth is one falsehoods are many

Какое из 8200794532637891559375

деревьев истинно

Мы не знаем Можно применить иные критетии

Например ldquoпохожесть=родствоraquo

GCGbull Строковый поиск простой текстовый

поиск по локальной базе данных

bull Поиск в определениях или в аннотациях

bull Определения содержат минимальное количество информации для каждой статьи доступ имя организма имя гена длина последовательности дата

  • Bestfit Output
  • SP1 at swissprot
  • EGR1 at swissprot
  • Вывод
  • Bl2Seq at NCBI
  • Bl2seq results
  • Bl2seq оценка
  • Оптимизация времени вычислений при парном выравнивании
  • Slide 9
  • Алгоритм BLAST (шаг 1)
  • Slide 11
  • Blast
  • Поиск гомологов
  • ДНК или белок
  • ДНК
  • Slide 16
  • Slide 17
  • Двойная спираль
  • ДНК дальнейшая упаковка
  • Slide 20
  • Репликация ДНК
  • Slide 22
  • Slide 23
  • Slide 24
  • Slide 25
  • Множественное выравнивание последовательностей (MSA)
  • Slide 27
  • Основные предположения
  • Например
  • Почему множественное выравнивание
  • Slide 31
  • Подходы в MSA
  • MSA algorithm
  • Multiple Alignment - алгоритм
  • Комментарии
  • GCG
  • Slide 37
  • GCG
  • Slide 39
  • Slide 40
  • Slide 41
  • ClustalW
  • Slide 43
  • Slide 44
  • ClustalW на EMBL
  • ClustalW на EMBL - результат
  • ClustalW at EMBL - Jalview
  • Consensus Sequence
  • Профиль (Profile)
  • Profile vs Consensus
  • Slide 51
  • Slide 52
  • Psi Blast (NCBI)
  • PSI-Blast
  • Psi-Blast вывод
  • Slide 56
  • Филогенез
  • Slide 58
  • Slide 59
  • Slide 60
  • Slide 61
  • Древо видов и генов
  • Ортологи и паралоги
  • Шаги реконструирования филогенетического древа
  • Филогенетическое дерево
  • Зачем нужны филогенетические деревья
  • Терминология
  • Slide 68
  • Какие бывают деревья
  • Slide 70
  • Slide 71
  • Slide 72
  • 4 OTUs 3 неукорененных филогенетических деревьев
  • Slide 74
  • Slide 75
  • Slide 76
  • Slide 77
  • Рутинная процедура или как строят деревья
  • Slide 79
  • Slide 80
  • Slide 81
  • Slide 82
  • Slide 83
  • Slide 84
  • Slide 85
  • Slide 86
  • Slide 87
  • Slide 88
  • Slide 89
  • Как выбирать последовательности для дерева
  • Самое главное ndash хорошее выравнивание
  • Основные алгоритмы построения филогенетических деревьев
  • Пример матрицы расстояний
  • Slide 94
  • Гипотеза laquoмолекулярных часовraquo (EZuckerkandl LPauling 1962)
  • UPGMA Unweighted Pair Group Method with Arithmetic Mean
  • Недостатки UPGMA
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Метод Neighbor-joining
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Slide 101
  • Как изобразить дерево Топология дерева
  • Slide 103
  • Какие on-line программы строят деревья
  • MEGA филогенетический анализ последовательностей
  • Slide 106
  • Slide 107
  • Slide 108
Page 7: Bestfit Output

Bl2seq оценка

bull Bits score ndash оценка выравнивания в соответствии с количеством совпадений laquoпохожестиraquo и тд

bull Expected-score (E) ndash Вероятность

случайности выравнивания Чем ближе к 0 тем больше вероятность что наше выравнивание верно

Оптимизация времени вычислений при парном выравнивании

Алгоритм FASTA

Нахождение оптимального выравнивания требует значительных затрат времени

k ndash длина диагоналей

b ndash фактор отступа от диагонали

bull Basic Local Alignment Search Tool

bull Чувствителен также как FastA но намного быстрее

bull Также как FASTA требует параметр k (длина слова)ndash Белки k= 3 letter wordsndash ДНК k= 11 letter words

Алгоритм BLAST

1 Поиск идентичныхпохожих участков

2 Попытка laquoудлинитьraquo эти участки насколько возможно (те пока score растёт)

В результате High-scoring Segment Pairs (HSPs)

THEFIRSTLINIHAVEADREAMESIRPATRICKREAD

INVIEIAMDEADMEATTNAMHEWASNINETEEN

Алгоритм BLAST (шаг 1)

Попытка соединить соседние HSPs путем выравнивания последовательностей между ними

THEFIRSTLINIHAVEADREA____M_ESIRPATRICKREAD

INVIEIAMDEADMEATTNAMHEW___ASNINETEEN

Алгоритм BLAST (шаг 2)

Blastbull Blast ndash это семейство программ BlastN BlastP

BlastX tBlastN

bull BlastN - ДНК vs ДНКbull BlastP ndash белок vs белокbull BlastX - translated ДНК vs белокbull tBlastN - белок vs translated ДНК

Query ДНК Белок

Database ДНК Белок

Поиск гомологов

По ДНК или по белку

Какой поиск предпочтительней

ДНК или белок

Какая последовательность более постоянна в эволюционном плане

UCAUAC

Or

Serine -Tyrosine

ДНК

OO=P-O O

Фосфатная группаФосфатная группа

NАзотистое основаниеАзотистое основание

(A G C or T)(A G C or T)

CH2

O

C1C4

C3 C2

5

СахарСахар(дезоксирибоза)(дезоксирибоза)

ДНК

ДНК

ДНК состоит из двух цепей нуклеотидов ДНК состоит из двух цепей нуклеотидов соединённых попарносоединённых попарно

ADENINEADENINE ndash ndash THYMINETHYMINE

CYTOSINECYTOSINE - - GUANINEGUANINE

Правило комплементарностиПравило комплементарности

Двойная спиральДвойная спираль

P

P

P

O

O

O

1

23

4

5

5

3

3

5

P

P

PO

O

O

1

2 3

4

5

5

3

5

3

G C

T A

ДНК дальнейшая упаковка

ДНК

Функции ДНК mdash наследственность и изменчивость

Репликация ДНК

Репликация ДНК

bull Генетический код избыточен ndash почти все аминокислоты кодируются более чем 1 кодоном (тройка нуклеотидов)

bull Последовательность ДНК может меняться в то время как последовательность белка остается постоянной

Ser-Tyrhellip

UCAUAC UCUUAC UCGUAC Uhelliphellip

Поиск гомологов

bull Нуклеотиды ndash 4-х буквенный алфавитbull Аминокислоты ndash 20-и буквенный алфавит

Две случайные последовательности ДНК будут идентичны ~ 25Две случайные белковые последовательности будут идентичны ~ 5

Поиск гомологов

Матрицы для сравнения белков более чувствительны чем матрицы для ДНК

Базы данных ДНК намного больше белковых rarr будут случайные совпадения

Поиск гомологов

Использование белковых последовательностей более предпочтительно при поиске гомологов

Поиск гомологов

Множественное выравнивание последовательностей (MSA)

VTISCTGSSSNIGAG-NHVKWYQQLPGVTISCTGTSSNIGS--ITVNWYQQLPGLRLSCSSSGFIFSS--YAMYWVRQAPGLSLTCTVSGTSFDD--YYSTWVRQPPGPEVTCVVVDVSHEDPQVKFNWYVDG--ATLVCLISDFYPGA--VTVAWKADS--AALGCLVKDYFPEP--VTVSWNSG---VSLTCLVKGFYPSD--IAVEWWSNG--

Основные предположения

bull Гены фиксированы сохранены у очень широкого круга биологических видов у совершенно различных представителей laquoдрева жизниraquo

bull Фиксированный генетический код для белков вероятно несёт похожие зачастую идентичные функции

Например

bull Гистоны небольшие белки присутствуют у всех эукариот

Демонстрируют выраженное постоянство последовательности в MSA

Постоянство структуры и функции (упаковка DNA)

Почему множественное выравнивание

Позволяет дать характеристику семействам белков найти общие участки гомологов

Например семейство Serine protease семейство отвечающее за катализ гидролиз пептидных связей

bull Одинаковые активные центры

bull Общие участка последовательности

bull MSA ndash это первый предварительный шаг к анализу в области молекулярной эволюции и построения эволюционных деревьев

bull База для филогенеза ndash данные молекулярной биологии или морфологические данные

Подходы в MSA

2 разных подходаndash 1D sequence based ndash сравнение

последовательностейndash 2D-3D based ndash выравнивание базирующееся на

структуре

MSA algorithm

bull Попарное выравнивание всех последовательностей (pairwise alignment)

bull Кластерный анализ данных парного выравнивания для получения иерархии выравниваний (guide tree)

bull Построение множественного выравнивания (MSA) пошагово в соответствии с guide tree сначала выравнивают наиболее похожие пары затем добавляют остальные и тд

Multiple Alignment - алгоритм

(1) Парное выравнивание (подготовка guide tree)

6 pairwise alignments

then cluster analysis

(2) Множественное выравнивание следуя древу из п 1

successive alignments

Комментарии

bull Парное выравнивание - оптимальный алгоритм

bull Множественное выравнивание не является оптимальным алгоритмом Вполне могут существовать и лучшие выравнивания

bull Редакторы выравниваний могут быть полезны для корректировки

GCG

Pileup глобальный MSA

pileup [list of sequence names]

pileup hemoglobin_list

1 The sign means that the file contains a list of names

2 The list can include names from the userrsquos directory or code names (accession numbers) from the GCG databases

GCGПример входного файла

swhbb_human

swhbb_rat

swhbb_mouse

Hemoglobin_Alpha

Hemoglobin_Gamma

Hemogolibin_Delta

Syntax the file starts with ldquordquo

Sequences from the databases

Sequences from the userrsquos directory

GCG PileUp creates a multiple sequence alignment from a group of relatedsequences using progressive pairwise alignments It can also plot atree showing the clustering relationships used to create the alignment

1 IPNS_STRJU 329 aa 2 IPNS_STRCL 329 aa 3 IPNS_CEPAC 338 aa 4 IPNS_NOCLA 328 aa

What is the gap creation penalty ( 8 ) What is the gap extension penalty ( 2 )

This program can display the clustering relationships graphically Do you want to A) Plot to a FIGURE file called pileupfigure B) Plot graphics on HP7550 attached to devtty15 C) Suppress the plot Please choose one ( A ) c What should I call the output file name ( ipnsmsf )

Determining pairwise similarity scores

1 x 2 443 1 x 3 312 1 x 4 412 2 x 3 294 2 x 4 405 3 x 4 309

Aligning

Total sequences 4 Alignment length 338 CPU time 0021

Output filedatausersracheliothersracheliipnsmsf

Regular GCG syntaxDefault parametersoutput file etc

GCGAA_MULTIPLE_ALIGNMENT 10PileUp of ipnsfil

Symbol comparison table GenRunDatablosum62cmp CompCheck 1102 GapWeight 8 GapLengthWeight 2 ipnsmsf MSF 338 Type P March 14 2002 0929 Check 7631

Name IPNS_STRJU Len 338 Check 6344 Weight 100 Name IPNS_STRCL Len 338 Check 4249 Weight 100 Name IPNS_NOCLA Len 338 Check 7020 Weight 100 Name IPNS_CEPAC Len 338 Check 18 Weight 100

1 50IPNS_STRJU ~MPILMPSAE VPTIDISPLS GDDAKAKQRV AQEINKAARG SGFFYASNHGIPNS_STRCL ~MPVLMPSAH VPTIDISPLF GTDAAAKKRV AEEIHGACRG SGFFYATNHGIPNS_NOCLA ~~~MKMPSAE VPTIDVSPLF GDDAQEKVRV GQEINKACRG SGFFYAANHGIPNS_CEPAC MGSVPVPVAN VPRIDVSPLF GDDKEKKLEV ARAIDAASRD TGFFYAVNHG

51 100IPNS_STRJU VDVQLLQDVV NEFHRNMSDQ EKHDLAINAY NKDNPHVRN GYYKAIKGKKIPNS_STRCL VDVQQLQDVV NEFHGAMTDQ EKHDLAIHAY NPDNPHVRN GYYKAVPGRKIPNS_NOCLA VDVQRLQDVV NEFHRTMSPQ EKYDLAIHAY NKNNSHVRN GYYMAIEGKKIPNS_CEPAC VDLPWLSRET NKFHMSITDE EKWQLAIRAY NKEHESQIRA GYYLPIPGKK

Output filemsf format

GCG

Prettybox генерирует графический файл из файла MSA

prettybox [MSA file]

prettybox hemoglobinsmsf

1 The ldquordquo is a syntax sign meaning all the sequences in the MSA file

2 Can also calculate the consensus sequence

GCG

ClustalWbull Очень известная и широко распространённая

программа UNIX Internet Windows

bull Выполняет MSA может строить филогенетические деревья

bull Входной файл ndash формат multi-fasta

ClustalW

bull tofasta list

gtIPNS_STRJU P18286

MPILMPSAEVPTIDISPLSGDDAKAKQRVAQEINKAARGSGFFYASNHGVDVQLLQDVVN

EFHRNMSDQEKHDLAINAYNKDNPHVRNGYYKAIKGKKAVESFCYLNPSFSDDHPMIKSE

TPMHEVNLWPDEEKHPRFRPFCEDYYRQLLRLSTVIMRGYALALGRREDFFDEALAEADT

LSSVSLIRYPYLEEYPPVKTGADGTKLSFEDHLDVSMITVLYQTEVQNLQVETVDGWQDI

PRSDEDFLVNCGTYMGHITHDYFPAPNHRVKFINAERLSLPFFLNAGHNSVIEPFVPEGA

AGTVKNPTTSYGEYLQHGLRALIVKNGQT

gtIPNS_STRCL P10621

MPVLMPSAHVPTIDISPLFGTDAAAKKRVAEEIHGACRGSGFFYATNHGVDVQQLQDVVN

EFHGAMTDQEKHDLAIHAYNPDNPHVRNGYYKAVPGRKAVESFCYLNPDFGEDHPMIAAG

TPMHEVNLWPDEERHPRFRPFCEGYYRQMLKLSTVLMRGLALALGRPEHFFDAALAEQDS

LSSVSLIRYPYLEEYPPVKTGPDGQLLSFEDHLDVSMITVLFQTQVQNLQVETVDGWRDI

PTSENDFLVNCGTYMAHVTNDYFPAPNHRVKFVNAERLSLPFFLNGGHEAVIEPFVPEGA

SEEVRNEALSYGDYLQHGLRALIVKNGQT

input fileMulti-fasta

Making the file in unix

ClustalWCLUSTAL W (17) multiple sequence alignment

IPNS_STRJU -MPILMPSAEVPTIDISPLSGDDAKAKQRVAQEINKAARGSGFFYASNHGVDVQLLQDVVIPNS_STRGR -MPIPMLPAHVPTIDISPLSGGDADDKKRVAQEINKACRESGFFYASHHGIDVQLLKDVVIPNS_FLASS ----MNRHADVPVIDISGLSGNDMDVKKDIAARIDRACRGSGFFYAANHGVDLAALQKFTIPNS_PENCH --MASTPKANVPKIDVSPLFGDNMEEKMKVARAIDAASRDTGFFYAVNHGVDVKRLSNKTIPNS_CEPAC MGSVPVPVANVPRIDVSPLFGDDKEKKLEVARAIDAASRDTGFFYAVNHGVDLPWLSRET

IPNS_STRJU NEFHRNMSDQEKHDLAINAYNKDNP-HVRNGYYKAIKGKKAVESFCYLNPSFSDDHPMIKIPNS_STRGR NEFHRTMTDEEKYDLAINAYNKNNP-RTRNGYYMAVKGKKAVESWCYLNPSFSEDHPQIRIPNS_FLASS TDWHMAMSAEEKWELAIRAYNPANP-RNRNGYYMAVEGKKANESFCYLNPSFDADHATIKIPNS_PENCH REFHFSITDEEKWDLAIRAYNKEHQDQIRAGYYLSIPEKKAVESFCYLNPNFKPDHPLIQIPNS_CEPAC NKFHMSITDEEKWQLAIRAYNKEHESQIRAGYYLPIPGKKAVESFCYLNPSFSPDHPRIK

Выходной файл aln format

httpwwwebiacukhelpformatshtml

форматы

ClustalW на EMBL

ClustalW на EMBL - результат

ClustalW at EMBL - Jalview

Conservation

Consensus Sequence

Мы можем вывести consensus sequence из результатов MSA The consensus sequence содержит наиболее часто встречающийся символ в кажной колонке выравнивания

A T C T T G T

A A C T T G T

A A C T T C T

A A C T T G T

Ещё пара терминовhelliphellip

Профиль (Profile)

Также возможно вывести статистическую модель описывающую MSA Профиль содержит информацию о символах в каждом столбце выравнивания

A T C T T G T

A A C T T G T

A A C T T C T

1 2 3 4 5 6

A 1 067 0 0

T 0 033 1 1

C 0 0 0 0

G 0 0 0 0

Profile vs Consensus

Consensus каждая позиция отражает наиболее часто встречающийся символ

Profile каждая позиция отражает частоту символа в данной позиции

Profile vs Consensus

Данный MSA будет иметь одинаковый consensus

A A C T T G C

A A G T C G T

C A C T T C T

A A C T T G T

A A C T T G T

A A C T T C T

A A C T T G T

Profile vs Consensus

Но разный профиль

A A C T T G C

A A G T C G T

C A C T T C T

A A C T T G T

A A C T T G T

A A C T T C T

1 2 3 4 5 6

A 066 1 0 0

T 0 0 0 1

C 033 0 066 0

G 0 0 033 0

1 2 3 4 5 6

A 1 1 0 0

T 0 0 0 1

C 0 0 1 0

G 0 0 0 0

Psi Blast (NCBI)

Position Specific Iterated ndash автоматизированный поиск по профилю

Regular blast

Construct profile from blast results

Blast profile search

Final results

PSI-Blast

Psi-Blast вывод

Проблема формулировки выводов при использовании МSA

1 Сайт выглядит общим (фиксированным) из-за того что это ndash близкородственные последовательности

2 Сайт выглядит общим из-за того что это ndash исключительно жизненно важный сайт

ФилогенезЭволюция ndash случайный процесс с неслучайным результатом

Цели филогенетического исследования

bull Реконструкция корректных генеалогических связей

между биологическими объектами

bull Оценка времени расхождения организмов

bull Определение порядка эволюционных событий в процессе

эволюции

Формат Newick

((A(BC))(DE))

Типы данных

Molecular (DNA RNA proteins)

Morphological (soft tissue hard tissue extant extinct)

Преимущества молекулярных данных

bull Наследуемость

bull Недвусмысленность в описании молекулярных характеристик

bull Поддаются количественному анализу

bull Оценка гомологии легче чем морфологические исследования

bull Данных много

Древо видов и геновbull Древо видов ndash эволюционные взаимосвязи

между видами (видообразование)bull Древо генов

Page RDM and Cotton JC (2000) GeneTree a tool for exploring gene family evolution In D Sankoff and J Nadeau (eds) Comparative Genomics Empirical and Analytical Approaches to Gene Order Dynamics Map Alignment and the Evolution of Gene Families Kluwer Academic Publishers Dordrecht pp 525-536

Figure 2 (a) Incongruent gene and species trees This incongruence can be explained by hypothesizing a gene duplication (h) at the base of the gene tree (b)The presence of only a single gene (a-d) extant in each of the present-day species(1-4) requires postulating three gene losses (c) The corresponding reconciled tree

Ортологи и паралоги

bull Гены-паралоги ndash событие дупликация (and

bull Гены-ортологи ndash событие видообразования (in the two species and in the two species

Duplication

Speciation

Species a Species b

Шаги реконструирования филогенетического

древа

1 Выбор последовательностей и поиск гомологов

2 MSA3 Матрица белков4 Филогенетическое дерево

Филогенетическое дерево

Филогения - раздел биологии изучающий родственные взаимоотношения разных групп живых организмов Филогению отображается обычно в виде эволюционных древ или систематических названий

Зачем нужны филогенетические деревья

Биологические задачи

сравнение 3-х и более объектов (кто на кого более похож )

реконструкция эволюции (кто от кого как и когда произошелhellip)

ТерминологияУзел (node) mdash точка разделения предковой последовательности(вида популяции) на две независимо эволюционирующиеСоответствует внутренней вершине графа изображающего эволюциюЛист (leaf OTU ndash оперативная таксономическая единица) mdash реальный (современный) объект внешняя вершина графаВетвь (branch) mdash связь между узлами или между узлом и листом ребро графаКорень (root) mdash общий предокКлада (clade) - группа двух или более таксонов или последователь-ностей ДНК которая включает как своего общего предка так и всех его потомков

OTU

HTU (hypotetical taxonomic unit)

Какие бывают деревья

Бинарное (разрешённое)(в один момент времени может

произойти только одно событие )

Небинарное (неразрешённое) (может ли в один момент времени

произойти два события )

Время

Какие бывают деревья

Укорененное дерево (rooted tree)отражает направление эволюции

Неукорененное (бескорневое) дерево(unrooted tree) показывает только связи между узлами

Время

Если число листьев равно n существует (2n-3)разных бинарных укоренных деревьевПо определению (2n-3) = 1middot3 middot middot(2n-3)

Существует (2n-5) разных бескорневых деревьев с n листьями

Rooting

A C B B C AA B C

3 OTUs 3 OTUs 1 н 1 неукорененное деревоеукорененное дерево 33 укорененных деревьев укорененных деревьев

A

B

C

D

C

A

B

4 OTUs 4 OTUs 3 3 неукорененных филогенетических неукорененных филогенетических деревьевдеревьев

D

B

A

C C

B

A

D

4 OTUs

15 укорененных

деревьев

Количество Количество Количество

OTU укорененных неукорененных

2 1 13 3 14 15 35 105 156 954 1057 103959548 135135 103959 2027025 13513510 34459425 202702511 654729075 3445942512 13749310575 654729075

Количество возможных деревьев

Рутинная процедура или как строят деревья

Составление выборки последовательностей

Множественное выравнивание

Построение дерева фрагмент записи в виде скобочной формулы

Визуализация и редактура дерева

(((((con1013851018(f539692826973((f67220839851max42750591)492893con923019677)1362315)953075)2583145

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Множественное выравнивание

Matches

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Multiple Alignment

Matches

Mismatches

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Multiple Alignment

Matches

Mismatches

Gaps

Seq 1 A G C G A GSeq 1 A G C G A GSeq 2 G C G G A CSeq 2 G C G G A C

Шаг 3 Перевод количества расхождений в индексы замен

Distance Matrix

Units количество замен нуклеотидов на 1000

Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86

Rice 00 118 122 122

Mosquito 00 55 51

Monkey 00 3

Human 00

Шаг 4 построение филогенетического дерева

Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86

Rice 00 118 122 122

Mosquito 00 55 51

Monkey 00 3

Human 00

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Дистанция между человеком и обезьяной минимальна Эти группы объединяются в Monkey-Human а все остальные дистанции пересчитываются

Dist[Spinach MonHum] = (Dist[Spinach Monkey] +

Dist[Spinach Human])2 = (91 + 86)2 = 885

Spinach Rice Mosquito Mon-HumSpinach 00 9 106 885

Rice 00 118 122

Mosquito 00 53

Mon-Hum 00

Редуцированная матрица дистанций

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Spi-Ric

HumanMosquito

Mon-Hum

MonkeySpinachRice

Mos-Mon-Hum

Spi-Ric

Mos-Mon-Hum-Spi-Ric

Как выбирать последовательности для дерева

Кроме случаев очень близких последовательностей проще работать с белками (а не с ДНК)

Придерживайтесь небольшой выборки (lt 50 последовательностей)

Избегайтеndash фрагментовndash Ксенологов (горизонтальный перенос генов)ndash рекомбинантных последовательностейndash многодоменных белков и повторов

Используйте outgroup (последовательность ответвившаяся от общего предка заведомо (но минимально) раньше разделения интересующих групп-клад)

Самое главное ndash хорошее выравнивание

Максимальный вклад в финальное дерево нельзя построить хорошее дерево по плохому выравниванию

Блоки содержащие много гэпов плохо выровненные N- и C- концы можно просто вырезать

Основные алгоритмы построения филогенетических деревьев

Методы основанные на оценке

расстояний (матричные методы)

bull UPGMA (кластеризация)

bull Neighbor-joining

bull Минимальная эволюция

Наибольшего правдоподобия Maximal likelihood ML Используется модель эволюции и строится дерево которое наиболее правдоподобно при данной модели

Максимальной экономии (бережливости)

maximal parsimony MP Выбирается дерево с минимальным количеством

мутаций необходимых для объяснения данных

Пример матрицы расстояний

1 2 3 4 5 6 7 8 000 1053 977 1278 1203 1654 1353 2500 HUMAN 1

000 902 1203 977 1579 902 2727 HORSE 2 000 977 902 1654 1203 2424 RABIT 3

000 226 1729 1053 2576 MOUSE 4 000 1579 827 2576 RAT 5

000 1053 2955 BOVIN 6 000 2500 PIG 7

000 CHICK 8

Расстояние (уровень дивергенции) между соответствующими последовательностями из геномов мыши и свиньи

Как понимать расстояние между объектами

bull Как время в течение которого они эволюционировалиbull Как число laquoэволюционных событийraquo (мутаций)

В первом случае объекты образуют ультраметрическое пространство(если все объекты наблюдаются в одно время что как правило верно)

Но время непосредственно измерить невозможно

Гипотеза laquoмолекулярных часовraquo(EZuckerkandl LPauling 1962)

За равное время во всех ветвях эволюции данного генабелка накапливается равное число мутацийЕсли гипотеза молекулярных часов

принимается число различий между выровненными последовательностями можно считать примерно пропорциональным времени Отклонения от ультраметричности можно считать случайными Эволюция реконструируется в виде ультраметрического дерева

Укоренённое дерево называется ультраметрическим если расстояние от корня до любого из листьев одинаково

UPGMAUnweighted Pair Group Method with Arithmetic Mean

разновидность кластерного метода

Расстояние между кластерами вычисляется как среднее арифметическое всевозможных расстояний между последовательностями из кластеров

Недостатки UPGMA

Алгоритм строит ультраметрическое дерево ndash скорость эволюции предполагается одинаковой для всех ветвей дерева Использовать этот алгоритм имеет смысл только в случае ультраметрических данных (справедливости laquoмолекулярных часовraquo)

Реальное дерево UPGMA

Метод ближайших соседей (Neighbor-joining NJ)

Строит неукоренённое дерево

Может работать с большим количеством данных

Достаточно быстрый

Если есть недвусмысленное с точки зрения эксперта дерево то оно будет построено

Метод Neighbor-joining

Рисуем laquoзвездноеraquo дерево и будем laquoотщипыватьraquo от него по паре листьев

Пусть ui = Σk Mik(n-2) mdash среднее расстояние от листа i до других

листьев

1 Рассмотрим все возможные пары листьев Выберем 2 листа i и j с минимальным значением величины

Mij ndash ui ndashuj

те выбираем 2 узла которые близки друг к другу но далеки ото всех остальных

Метод ближайших соседей (Neighbor-joining NJ)

2 Кластер (i j) ndash новый узел дерева

Расстояние от i или от j до узла (ij) D(i (ij)) = 05middot(Mij + ui ndash uj) D(j (ij)) = 05middot (Mij + uj ndash ui) те длина ветви зависит от среднего расстояния до других вершин

3 Вычисляем расстояние от нового кластера до всех других

M(ij)k = Mik+Mjk ndash Mij 2

5 В матрице М убираем i и j и добавляем (i j) Повторяем пока не останутся 3 узла

Input MSA для n последовательностей одна последовательность для каждого вида

AAAAATC

AAAAAAG

CCCCCCG

AAAAATCAAAAAAG

CCCCCCG

Длинная ветвь ndash непохоже на правду

Длинная ветвь -Похоже на правду

Методы основанные на последовательностях Maximum Likelihood (ML) Maximum Parsimony (MP)

Как изобразить дерево Топология дерева

Топология дерева mdash только листья узлы (корень) и связывающие их ветви (топология не зависит от способа изображения дерева)

A

B

C

D

E A BC D E

Два изображения одной и той же топологии

Bacterium 1

Bacterium 3

Bacterium 2

Eukaryote 1

Eukaryote 4

Eukaryote 3

Eukaryote 2

Bacterium 1

Bacterium 3Bacterium 2

Eukaryote 1

Eukaryote 4Eukaryote 3

Eukaryote 2

Филограммы ndash длины ветвей

пропорциональны

эволюционному расстоянию

Кладограммы и филограммы

Кладограммы ndash только

топологя Длины ветвей не

учитываются

6

31

2

46

24

53

Как можно нарисовать построенное дерево

Какие on-line программы строят деревья

ClustalW ldquoTree typerdquo ndash nj phylip строит только методом NJ но результат ndash в разных форматах no bootstraps

Phylip (Felsenstein 1993) ndash пакет программ для построения филогенетических деревьев (stand-alone)On-line (partly) например

httpbiowebpasteurfrseqanalphylogenyphylip-ukhtml PAUP (Phylogenetic Analysis Using Parsimony)

MEGA филогенетический анализ последовательностей

httpwwwmegasoftwarenet

Эволюция ndash исторический процесс

Из 8200794532637891559375 деревьев для 20 OTUs 1

является верным и 8200794532637891559374

неверны

Truth is one falsehoods are many

Какое из 8200794532637891559375

деревьев истинно

Мы не знаем Можно применить иные критетии

Например ldquoпохожесть=родствоraquo

GCGbull Строковый поиск простой текстовый

поиск по локальной базе данных

bull Поиск в определениях или в аннотациях

bull Определения содержат минимальное количество информации для каждой статьи доступ имя организма имя гена длина последовательности дата

  • Bestfit Output
  • SP1 at swissprot
  • EGR1 at swissprot
  • Вывод
  • Bl2Seq at NCBI
  • Bl2seq results
  • Bl2seq оценка
  • Оптимизация времени вычислений при парном выравнивании
  • Slide 9
  • Алгоритм BLAST (шаг 1)
  • Slide 11
  • Blast
  • Поиск гомологов
  • ДНК или белок
  • ДНК
  • Slide 16
  • Slide 17
  • Двойная спираль
  • ДНК дальнейшая упаковка
  • Slide 20
  • Репликация ДНК
  • Slide 22
  • Slide 23
  • Slide 24
  • Slide 25
  • Множественное выравнивание последовательностей (MSA)
  • Slide 27
  • Основные предположения
  • Например
  • Почему множественное выравнивание
  • Slide 31
  • Подходы в MSA
  • MSA algorithm
  • Multiple Alignment - алгоритм
  • Комментарии
  • GCG
  • Slide 37
  • GCG
  • Slide 39
  • Slide 40
  • Slide 41
  • ClustalW
  • Slide 43
  • Slide 44
  • ClustalW на EMBL
  • ClustalW на EMBL - результат
  • ClustalW at EMBL - Jalview
  • Consensus Sequence
  • Профиль (Profile)
  • Profile vs Consensus
  • Slide 51
  • Slide 52
  • Psi Blast (NCBI)
  • PSI-Blast
  • Psi-Blast вывод
  • Slide 56
  • Филогенез
  • Slide 58
  • Slide 59
  • Slide 60
  • Slide 61
  • Древо видов и генов
  • Ортологи и паралоги
  • Шаги реконструирования филогенетического древа
  • Филогенетическое дерево
  • Зачем нужны филогенетические деревья
  • Терминология
  • Slide 68
  • Какие бывают деревья
  • Slide 70
  • Slide 71
  • Slide 72
  • 4 OTUs 3 неукорененных филогенетических деревьев
  • Slide 74
  • Slide 75
  • Slide 76
  • Slide 77
  • Рутинная процедура или как строят деревья
  • Slide 79
  • Slide 80
  • Slide 81
  • Slide 82
  • Slide 83
  • Slide 84
  • Slide 85
  • Slide 86
  • Slide 87
  • Slide 88
  • Slide 89
  • Как выбирать последовательности для дерева
  • Самое главное ndash хорошее выравнивание
  • Основные алгоритмы построения филогенетических деревьев
  • Пример матрицы расстояний
  • Slide 94
  • Гипотеза laquoмолекулярных часовraquo (EZuckerkandl LPauling 1962)
  • UPGMA Unweighted Pair Group Method with Arithmetic Mean
  • Недостатки UPGMA
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Метод Neighbor-joining
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Slide 101
  • Как изобразить дерево Топология дерева
  • Slide 103
  • Какие on-line программы строят деревья
  • MEGA филогенетический анализ последовательностей
  • Slide 106
  • Slide 107
  • Slide 108
Page 8: Bestfit Output

Оптимизация времени вычислений при парном выравнивании

Алгоритм FASTA

Нахождение оптимального выравнивания требует значительных затрат времени

k ndash длина диагоналей

b ndash фактор отступа от диагонали

bull Basic Local Alignment Search Tool

bull Чувствителен также как FastA но намного быстрее

bull Также как FASTA требует параметр k (длина слова)ndash Белки k= 3 letter wordsndash ДНК k= 11 letter words

Алгоритм BLAST

1 Поиск идентичныхпохожих участков

2 Попытка laquoудлинитьraquo эти участки насколько возможно (те пока score растёт)

В результате High-scoring Segment Pairs (HSPs)

THEFIRSTLINIHAVEADREAMESIRPATRICKREAD

INVIEIAMDEADMEATTNAMHEWASNINETEEN

Алгоритм BLAST (шаг 1)

Попытка соединить соседние HSPs путем выравнивания последовательностей между ними

THEFIRSTLINIHAVEADREA____M_ESIRPATRICKREAD

INVIEIAMDEADMEATTNAMHEW___ASNINETEEN

Алгоритм BLAST (шаг 2)

Blastbull Blast ndash это семейство программ BlastN BlastP

BlastX tBlastN

bull BlastN - ДНК vs ДНКbull BlastP ndash белок vs белокbull BlastX - translated ДНК vs белокbull tBlastN - белок vs translated ДНК

Query ДНК Белок

Database ДНК Белок

Поиск гомологов

По ДНК или по белку

Какой поиск предпочтительней

ДНК или белок

Какая последовательность более постоянна в эволюционном плане

UCAUAC

Or

Serine -Tyrosine

ДНК

OO=P-O O

Фосфатная группаФосфатная группа

NАзотистое основаниеАзотистое основание

(A G C or T)(A G C or T)

CH2

O

C1C4

C3 C2

5

СахарСахар(дезоксирибоза)(дезоксирибоза)

ДНК

ДНК

ДНК состоит из двух цепей нуклеотидов ДНК состоит из двух цепей нуклеотидов соединённых попарносоединённых попарно

ADENINEADENINE ndash ndash THYMINETHYMINE

CYTOSINECYTOSINE - - GUANINEGUANINE

Правило комплементарностиПравило комплементарности

Двойная спиральДвойная спираль

P

P

P

O

O

O

1

23

4

5

5

3

3

5

P

P

PO

O

O

1

2 3

4

5

5

3

5

3

G C

T A

ДНК дальнейшая упаковка

ДНК

Функции ДНК mdash наследственность и изменчивость

Репликация ДНК

Репликация ДНК

bull Генетический код избыточен ndash почти все аминокислоты кодируются более чем 1 кодоном (тройка нуклеотидов)

bull Последовательность ДНК может меняться в то время как последовательность белка остается постоянной

Ser-Tyrhellip

UCAUAC UCUUAC UCGUAC Uhelliphellip

Поиск гомологов

bull Нуклеотиды ndash 4-х буквенный алфавитbull Аминокислоты ndash 20-и буквенный алфавит

Две случайные последовательности ДНК будут идентичны ~ 25Две случайные белковые последовательности будут идентичны ~ 5

Поиск гомологов

Матрицы для сравнения белков более чувствительны чем матрицы для ДНК

Базы данных ДНК намного больше белковых rarr будут случайные совпадения

Поиск гомологов

Использование белковых последовательностей более предпочтительно при поиске гомологов

Поиск гомологов

Множественное выравнивание последовательностей (MSA)

VTISCTGSSSNIGAG-NHVKWYQQLPGVTISCTGTSSNIGS--ITVNWYQQLPGLRLSCSSSGFIFSS--YAMYWVRQAPGLSLTCTVSGTSFDD--YYSTWVRQPPGPEVTCVVVDVSHEDPQVKFNWYVDG--ATLVCLISDFYPGA--VTVAWKADS--AALGCLVKDYFPEP--VTVSWNSG---VSLTCLVKGFYPSD--IAVEWWSNG--

Основные предположения

bull Гены фиксированы сохранены у очень широкого круга биологических видов у совершенно различных представителей laquoдрева жизниraquo

bull Фиксированный генетический код для белков вероятно несёт похожие зачастую идентичные функции

Например

bull Гистоны небольшие белки присутствуют у всех эукариот

Демонстрируют выраженное постоянство последовательности в MSA

Постоянство структуры и функции (упаковка DNA)

Почему множественное выравнивание

Позволяет дать характеристику семействам белков найти общие участки гомологов

Например семейство Serine protease семейство отвечающее за катализ гидролиз пептидных связей

bull Одинаковые активные центры

bull Общие участка последовательности

bull MSA ndash это первый предварительный шаг к анализу в области молекулярной эволюции и построения эволюционных деревьев

bull База для филогенеза ndash данные молекулярной биологии или морфологические данные

Подходы в MSA

2 разных подходаndash 1D sequence based ndash сравнение

последовательностейndash 2D-3D based ndash выравнивание базирующееся на

структуре

MSA algorithm

bull Попарное выравнивание всех последовательностей (pairwise alignment)

bull Кластерный анализ данных парного выравнивания для получения иерархии выравниваний (guide tree)

bull Построение множественного выравнивания (MSA) пошагово в соответствии с guide tree сначала выравнивают наиболее похожие пары затем добавляют остальные и тд

Multiple Alignment - алгоритм

(1) Парное выравнивание (подготовка guide tree)

6 pairwise alignments

then cluster analysis

(2) Множественное выравнивание следуя древу из п 1

successive alignments

Комментарии

bull Парное выравнивание - оптимальный алгоритм

bull Множественное выравнивание не является оптимальным алгоритмом Вполне могут существовать и лучшие выравнивания

bull Редакторы выравниваний могут быть полезны для корректировки

GCG

Pileup глобальный MSA

pileup [list of sequence names]

pileup hemoglobin_list

1 The sign means that the file contains a list of names

2 The list can include names from the userrsquos directory or code names (accession numbers) from the GCG databases

GCGПример входного файла

swhbb_human

swhbb_rat

swhbb_mouse

Hemoglobin_Alpha

Hemoglobin_Gamma

Hemogolibin_Delta

Syntax the file starts with ldquordquo

Sequences from the databases

Sequences from the userrsquos directory

GCG PileUp creates a multiple sequence alignment from a group of relatedsequences using progressive pairwise alignments It can also plot atree showing the clustering relationships used to create the alignment

1 IPNS_STRJU 329 aa 2 IPNS_STRCL 329 aa 3 IPNS_CEPAC 338 aa 4 IPNS_NOCLA 328 aa

What is the gap creation penalty ( 8 ) What is the gap extension penalty ( 2 )

This program can display the clustering relationships graphically Do you want to A) Plot to a FIGURE file called pileupfigure B) Plot graphics on HP7550 attached to devtty15 C) Suppress the plot Please choose one ( A ) c What should I call the output file name ( ipnsmsf )

Determining pairwise similarity scores

1 x 2 443 1 x 3 312 1 x 4 412 2 x 3 294 2 x 4 405 3 x 4 309

Aligning

Total sequences 4 Alignment length 338 CPU time 0021

Output filedatausersracheliothersracheliipnsmsf

Regular GCG syntaxDefault parametersoutput file etc

GCGAA_MULTIPLE_ALIGNMENT 10PileUp of ipnsfil

Symbol comparison table GenRunDatablosum62cmp CompCheck 1102 GapWeight 8 GapLengthWeight 2 ipnsmsf MSF 338 Type P March 14 2002 0929 Check 7631

Name IPNS_STRJU Len 338 Check 6344 Weight 100 Name IPNS_STRCL Len 338 Check 4249 Weight 100 Name IPNS_NOCLA Len 338 Check 7020 Weight 100 Name IPNS_CEPAC Len 338 Check 18 Weight 100

1 50IPNS_STRJU ~MPILMPSAE VPTIDISPLS GDDAKAKQRV AQEINKAARG SGFFYASNHGIPNS_STRCL ~MPVLMPSAH VPTIDISPLF GTDAAAKKRV AEEIHGACRG SGFFYATNHGIPNS_NOCLA ~~~MKMPSAE VPTIDVSPLF GDDAQEKVRV GQEINKACRG SGFFYAANHGIPNS_CEPAC MGSVPVPVAN VPRIDVSPLF GDDKEKKLEV ARAIDAASRD TGFFYAVNHG

51 100IPNS_STRJU VDVQLLQDVV NEFHRNMSDQ EKHDLAINAY NKDNPHVRN GYYKAIKGKKIPNS_STRCL VDVQQLQDVV NEFHGAMTDQ EKHDLAIHAY NPDNPHVRN GYYKAVPGRKIPNS_NOCLA VDVQRLQDVV NEFHRTMSPQ EKYDLAIHAY NKNNSHVRN GYYMAIEGKKIPNS_CEPAC VDLPWLSRET NKFHMSITDE EKWQLAIRAY NKEHESQIRA GYYLPIPGKK

Output filemsf format

GCG

Prettybox генерирует графический файл из файла MSA

prettybox [MSA file]

prettybox hemoglobinsmsf

1 The ldquordquo is a syntax sign meaning all the sequences in the MSA file

2 Can also calculate the consensus sequence

GCG

ClustalWbull Очень известная и широко распространённая

программа UNIX Internet Windows

bull Выполняет MSA может строить филогенетические деревья

bull Входной файл ndash формат multi-fasta

ClustalW

bull tofasta list

gtIPNS_STRJU P18286

MPILMPSAEVPTIDISPLSGDDAKAKQRVAQEINKAARGSGFFYASNHGVDVQLLQDVVN

EFHRNMSDQEKHDLAINAYNKDNPHVRNGYYKAIKGKKAVESFCYLNPSFSDDHPMIKSE

TPMHEVNLWPDEEKHPRFRPFCEDYYRQLLRLSTVIMRGYALALGRREDFFDEALAEADT

LSSVSLIRYPYLEEYPPVKTGADGTKLSFEDHLDVSMITVLYQTEVQNLQVETVDGWQDI

PRSDEDFLVNCGTYMGHITHDYFPAPNHRVKFINAERLSLPFFLNAGHNSVIEPFVPEGA

AGTVKNPTTSYGEYLQHGLRALIVKNGQT

gtIPNS_STRCL P10621

MPVLMPSAHVPTIDISPLFGTDAAAKKRVAEEIHGACRGSGFFYATNHGVDVQQLQDVVN

EFHGAMTDQEKHDLAIHAYNPDNPHVRNGYYKAVPGRKAVESFCYLNPDFGEDHPMIAAG

TPMHEVNLWPDEERHPRFRPFCEGYYRQMLKLSTVLMRGLALALGRPEHFFDAALAEQDS

LSSVSLIRYPYLEEYPPVKTGPDGQLLSFEDHLDVSMITVLFQTQVQNLQVETVDGWRDI

PTSENDFLVNCGTYMAHVTNDYFPAPNHRVKFVNAERLSLPFFLNGGHEAVIEPFVPEGA

SEEVRNEALSYGDYLQHGLRALIVKNGQT

input fileMulti-fasta

Making the file in unix

ClustalWCLUSTAL W (17) multiple sequence alignment

IPNS_STRJU -MPILMPSAEVPTIDISPLSGDDAKAKQRVAQEINKAARGSGFFYASNHGVDVQLLQDVVIPNS_STRGR -MPIPMLPAHVPTIDISPLSGGDADDKKRVAQEINKACRESGFFYASHHGIDVQLLKDVVIPNS_FLASS ----MNRHADVPVIDISGLSGNDMDVKKDIAARIDRACRGSGFFYAANHGVDLAALQKFTIPNS_PENCH --MASTPKANVPKIDVSPLFGDNMEEKMKVARAIDAASRDTGFFYAVNHGVDVKRLSNKTIPNS_CEPAC MGSVPVPVANVPRIDVSPLFGDDKEKKLEVARAIDAASRDTGFFYAVNHGVDLPWLSRET

IPNS_STRJU NEFHRNMSDQEKHDLAINAYNKDNP-HVRNGYYKAIKGKKAVESFCYLNPSFSDDHPMIKIPNS_STRGR NEFHRTMTDEEKYDLAINAYNKNNP-RTRNGYYMAVKGKKAVESWCYLNPSFSEDHPQIRIPNS_FLASS TDWHMAMSAEEKWELAIRAYNPANP-RNRNGYYMAVEGKKANESFCYLNPSFDADHATIKIPNS_PENCH REFHFSITDEEKWDLAIRAYNKEHQDQIRAGYYLSIPEKKAVESFCYLNPNFKPDHPLIQIPNS_CEPAC NKFHMSITDEEKWQLAIRAYNKEHESQIRAGYYLPIPGKKAVESFCYLNPSFSPDHPRIK

Выходной файл aln format

httpwwwebiacukhelpformatshtml

форматы

ClustalW на EMBL

ClustalW на EMBL - результат

ClustalW at EMBL - Jalview

Conservation

Consensus Sequence

Мы можем вывести consensus sequence из результатов MSA The consensus sequence содержит наиболее часто встречающийся символ в кажной колонке выравнивания

A T C T T G T

A A C T T G T

A A C T T C T

A A C T T G T

Ещё пара терминовhelliphellip

Профиль (Profile)

Также возможно вывести статистическую модель описывающую MSA Профиль содержит информацию о символах в каждом столбце выравнивания

A T C T T G T

A A C T T G T

A A C T T C T

1 2 3 4 5 6

A 1 067 0 0

T 0 033 1 1

C 0 0 0 0

G 0 0 0 0

Profile vs Consensus

Consensus каждая позиция отражает наиболее часто встречающийся символ

Profile каждая позиция отражает частоту символа в данной позиции

Profile vs Consensus

Данный MSA будет иметь одинаковый consensus

A A C T T G C

A A G T C G T

C A C T T C T

A A C T T G T

A A C T T G T

A A C T T C T

A A C T T G T

Profile vs Consensus

Но разный профиль

A A C T T G C

A A G T C G T

C A C T T C T

A A C T T G T

A A C T T G T

A A C T T C T

1 2 3 4 5 6

A 066 1 0 0

T 0 0 0 1

C 033 0 066 0

G 0 0 033 0

1 2 3 4 5 6

A 1 1 0 0

T 0 0 0 1

C 0 0 1 0

G 0 0 0 0

Psi Blast (NCBI)

Position Specific Iterated ndash автоматизированный поиск по профилю

Regular blast

Construct profile from blast results

Blast profile search

Final results

PSI-Blast

Psi-Blast вывод

Проблема формулировки выводов при использовании МSA

1 Сайт выглядит общим (фиксированным) из-за того что это ndash близкородственные последовательности

2 Сайт выглядит общим из-за того что это ndash исключительно жизненно важный сайт

ФилогенезЭволюция ndash случайный процесс с неслучайным результатом

Цели филогенетического исследования

bull Реконструкция корректных генеалогических связей

между биологическими объектами

bull Оценка времени расхождения организмов

bull Определение порядка эволюционных событий в процессе

эволюции

Формат Newick

((A(BC))(DE))

Типы данных

Molecular (DNA RNA proteins)

Morphological (soft tissue hard tissue extant extinct)

Преимущества молекулярных данных

bull Наследуемость

bull Недвусмысленность в описании молекулярных характеристик

bull Поддаются количественному анализу

bull Оценка гомологии легче чем морфологические исследования

bull Данных много

Древо видов и геновbull Древо видов ndash эволюционные взаимосвязи

между видами (видообразование)bull Древо генов

Page RDM and Cotton JC (2000) GeneTree a tool for exploring gene family evolution In D Sankoff and J Nadeau (eds) Comparative Genomics Empirical and Analytical Approaches to Gene Order Dynamics Map Alignment and the Evolution of Gene Families Kluwer Academic Publishers Dordrecht pp 525-536

Figure 2 (a) Incongruent gene and species trees This incongruence can be explained by hypothesizing a gene duplication (h) at the base of the gene tree (b)The presence of only a single gene (a-d) extant in each of the present-day species(1-4) requires postulating three gene losses (c) The corresponding reconciled tree

Ортологи и паралоги

bull Гены-паралоги ndash событие дупликация (and

bull Гены-ортологи ndash событие видообразования (in the two species and in the two species

Duplication

Speciation

Species a Species b

Шаги реконструирования филогенетического

древа

1 Выбор последовательностей и поиск гомологов

2 MSA3 Матрица белков4 Филогенетическое дерево

Филогенетическое дерево

Филогения - раздел биологии изучающий родственные взаимоотношения разных групп живых организмов Филогению отображается обычно в виде эволюционных древ или систематических названий

Зачем нужны филогенетические деревья

Биологические задачи

сравнение 3-х и более объектов (кто на кого более похож )

реконструкция эволюции (кто от кого как и когда произошелhellip)

ТерминологияУзел (node) mdash точка разделения предковой последовательности(вида популяции) на две независимо эволюционирующиеСоответствует внутренней вершине графа изображающего эволюциюЛист (leaf OTU ndash оперативная таксономическая единица) mdash реальный (современный) объект внешняя вершина графаВетвь (branch) mdash связь между узлами или между узлом и листом ребро графаКорень (root) mdash общий предокКлада (clade) - группа двух или более таксонов или последователь-ностей ДНК которая включает как своего общего предка так и всех его потомков

OTU

HTU (hypotetical taxonomic unit)

Какие бывают деревья

Бинарное (разрешённое)(в один момент времени может

произойти только одно событие )

Небинарное (неразрешённое) (может ли в один момент времени

произойти два события )

Время

Какие бывают деревья

Укорененное дерево (rooted tree)отражает направление эволюции

Неукорененное (бескорневое) дерево(unrooted tree) показывает только связи между узлами

Время

Если число листьев равно n существует (2n-3)разных бинарных укоренных деревьевПо определению (2n-3) = 1middot3 middot middot(2n-3)

Существует (2n-5) разных бескорневых деревьев с n листьями

Rooting

A C B B C AA B C

3 OTUs 3 OTUs 1 н 1 неукорененное деревоеукорененное дерево 33 укорененных деревьев укорененных деревьев

A

B

C

D

C

A

B

4 OTUs 4 OTUs 3 3 неукорененных филогенетических неукорененных филогенетических деревьевдеревьев

D

B

A

C C

B

A

D

4 OTUs

15 укорененных

деревьев

Количество Количество Количество

OTU укорененных неукорененных

2 1 13 3 14 15 35 105 156 954 1057 103959548 135135 103959 2027025 13513510 34459425 202702511 654729075 3445942512 13749310575 654729075

Количество возможных деревьев

Рутинная процедура или как строят деревья

Составление выборки последовательностей

Множественное выравнивание

Построение дерева фрагмент записи в виде скобочной формулы

Визуализация и редактура дерева

(((((con1013851018(f539692826973((f67220839851max42750591)492893con923019677)1362315)953075)2583145

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Множественное выравнивание

Matches

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Multiple Alignment

Matches

Mismatches

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Multiple Alignment

Matches

Mismatches

Gaps

Seq 1 A G C G A GSeq 1 A G C G A GSeq 2 G C G G A CSeq 2 G C G G A C

Шаг 3 Перевод количества расхождений в индексы замен

Distance Matrix

Units количество замен нуклеотидов на 1000

Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86

Rice 00 118 122 122

Mosquito 00 55 51

Monkey 00 3

Human 00

Шаг 4 построение филогенетического дерева

Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86

Rice 00 118 122 122

Mosquito 00 55 51

Monkey 00 3

Human 00

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Дистанция между человеком и обезьяной минимальна Эти группы объединяются в Monkey-Human а все остальные дистанции пересчитываются

Dist[Spinach MonHum] = (Dist[Spinach Monkey] +

Dist[Spinach Human])2 = (91 + 86)2 = 885

Spinach Rice Mosquito Mon-HumSpinach 00 9 106 885

Rice 00 118 122

Mosquito 00 53

Mon-Hum 00

Редуцированная матрица дистанций

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Spi-Ric

HumanMosquito

Mon-Hum

MonkeySpinachRice

Mos-Mon-Hum

Spi-Ric

Mos-Mon-Hum-Spi-Ric

Как выбирать последовательности для дерева

Кроме случаев очень близких последовательностей проще работать с белками (а не с ДНК)

Придерживайтесь небольшой выборки (lt 50 последовательностей)

Избегайтеndash фрагментовndash Ксенологов (горизонтальный перенос генов)ndash рекомбинантных последовательностейndash многодоменных белков и повторов

Используйте outgroup (последовательность ответвившаяся от общего предка заведомо (но минимально) раньше разделения интересующих групп-клад)

Самое главное ndash хорошее выравнивание

Максимальный вклад в финальное дерево нельзя построить хорошее дерево по плохому выравниванию

Блоки содержащие много гэпов плохо выровненные N- и C- концы можно просто вырезать

Основные алгоритмы построения филогенетических деревьев

Методы основанные на оценке

расстояний (матричные методы)

bull UPGMA (кластеризация)

bull Neighbor-joining

bull Минимальная эволюция

Наибольшего правдоподобия Maximal likelihood ML Используется модель эволюции и строится дерево которое наиболее правдоподобно при данной модели

Максимальной экономии (бережливости)

maximal parsimony MP Выбирается дерево с минимальным количеством

мутаций необходимых для объяснения данных

Пример матрицы расстояний

1 2 3 4 5 6 7 8 000 1053 977 1278 1203 1654 1353 2500 HUMAN 1

000 902 1203 977 1579 902 2727 HORSE 2 000 977 902 1654 1203 2424 RABIT 3

000 226 1729 1053 2576 MOUSE 4 000 1579 827 2576 RAT 5

000 1053 2955 BOVIN 6 000 2500 PIG 7

000 CHICK 8

Расстояние (уровень дивергенции) между соответствующими последовательностями из геномов мыши и свиньи

Как понимать расстояние между объектами

bull Как время в течение которого они эволюционировалиbull Как число laquoэволюционных событийraquo (мутаций)

В первом случае объекты образуют ультраметрическое пространство(если все объекты наблюдаются в одно время что как правило верно)

Но время непосредственно измерить невозможно

Гипотеза laquoмолекулярных часовraquo(EZuckerkandl LPauling 1962)

За равное время во всех ветвях эволюции данного генабелка накапливается равное число мутацийЕсли гипотеза молекулярных часов

принимается число различий между выровненными последовательностями можно считать примерно пропорциональным времени Отклонения от ультраметричности можно считать случайными Эволюция реконструируется в виде ультраметрического дерева

Укоренённое дерево называется ультраметрическим если расстояние от корня до любого из листьев одинаково

UPGMAUnweighted Pair Group Method with Arithmetic Mean

разновидность кластерного метода

Расстояние между кластерами вычисляется как среднее арифметическое всевозможных расстояний между последовательностями из кластеров

Недостатки UPGMA

Алгоритм строит ультраметрическое дерево ndash скорость эволюции предполагается одинаковой для всех ветвей дерева Использовать этот алгоритм имеет смысл только в случае ультраметрических данных (справедливости laquoмолекулярных часовraquo)

Реальное дерево UPGMA

Метод ближайших соседей (Neighbor-joining NJ)

Строит неукоренённое дерево

Может работать с большим количеством данных

Достаточно быстрый

Если есть недвусмысленное с точки зрения эксперта дерево то оно будет построено

Метод Neighbor-joining

Рисуем laquoзвездноеraquo дерево и будем laquoотщипыватьraquo от него по паре листьев

Пусть ui = Σk Mik(n-2) mdash среднее расстояние от листа i до других

листьев

1 Рассмотрим все возможные пары листьев Выберем 2 листа i и j с минимальным значением величины

Mij ndash ui ndashuj

те выбираем 2 узла которые близки друг к другу но далеки ото всех остальных

Метод ближайших соседей (Neighbor-joining NJ)

2 Кластер (i j) ndash новый узел дерева

Расстояние от i или от j до узла (ij) D(i (ij)) = 05middot(Mij + ui ndash uj) D(j (ij)) = 05middot (Mij + uj ndash ui) те длина ветви зависит от среднего расстояния до других вершин

3 Вычисляем расстояние от нового кластера до всех других

M(ij)k = Mik+Mjk ndash Mij 2

5 В матрице М убираем i и j и добавляем (i j) Повторяем пока не останутся 3 узла

Input MSA для n последовательностей одна последовательность для каждого вида

AAAAATC

AAAAAAG

CCCCCCG

AAAAATCAAAAAAG

CCCCCCG

Длинная ветвь ndash непохоже на правду

Длинная ветвь -Похоже на правду

Методы основанные на последовательностях Maximum Likelihood (ML) Maximum Parsimony (MP)

Как изобразить дерево Топология дерева

Топология дерева mdash только листья узлы (корень) и связывающие их ветви (топология не зависит от способа изображения дерева)

A

B

C

D

E A BC D E

Два изображения одной и той же топологии

Bacterium 1

Bacterium 3

Bacterium 2

Eukaryote 1

Eukaryote 4

Eukaryote 3

Eukaryote 2

Bacterium 1

Bacterium 3Bacterium 2

Eukaryote 1

Eukaryote 4Eukaryote 3

Eukaryote 2

Филограммы ndash длины ветвей

пропорциональны

эволюционному расстоянию

Кладограммы и филограммы

Кладограммы ndash только

топологя Длины ветвей не

учитываются

6

31

2

46

24

53

Как можно нарисовать построенное дерево

Какие on-line программы строят деревья

ClustalW ldquoTree typerdquo ndash nj phylip строит только методом NJ но результат ndash в разных форматах no bootstraps

Phylip (Felsenstein 1993) ndash пакет программ для построения филогенетических деревьев (stand-alone)On-line (partly) например

httpbiowebpasteurfrseqanalphylogenyphylip-ukhtml PAUP (Phylogenetic Analysis Using Parsimony)

MEGA филогенетический анализ последовательностей

httpwwwmegasoftwarenet

Эволюция ndash исторический процесс

Из 8200794532637891559375 деревьев для 20 OTUs 1

является верным и 8200794532637891559374

неверны

Truth is one falsehoods are many

Какое из 8200794532637891559375

деревьев истинно

Мы не знаем Можно применить иные критетии

Например ldquoпохожесть=родствоraquo

GCGbull Строковый поиск простой текстовый

поиск по локальной базе данных

bull Поиск в определениях или в аннотациях

bull Определения содержат минимальное количество информации для каждой статьи доступ имя организма имя гена длина последовательности дата

  • Bestfit Output
  • SP1 at swissprot
  • EGR1 at swissprot
  • Вывод
  • Bl2Seq at NCBI
  • Bl2seq results
  • Bl2seq оценка
  • Оптимизация времени вычислений при парном выравнивании
  • Slide 9
  • Алгоритм BLAST (шаг 1)
  • Slide 11
  • Blast
  • Поиск гомологов
  • ДНК или белок
  • ДНК
  • Slide 16
  • Slide 17
  • Двойная спираль
  • ДНК дальнейшая упаковка
  • Slide 20
  • Репликация ДНК
  • Slide 22
  • Slide 23
  • Slide 24
  • Slide 25
  • Множественное выравнивание последовательностей (MSA)
  • Slide 27
  • Основные предположения
  • Например
  • Почему множественное выравнивание
  • Slide 31
  • Подходы в MSA
  • MSA algorithm
  • Multiple Alignment - алгоритм
  • Комментарии
  • GCG
  • Slide 37
  • GCG
  • Slide 39
  • Slide 40
  • Slide 41
  • ClustalW
  • Slide 43
  • Slide 44
  • ClustalW на EMBL
  • ClustalW на EMBL - результат
  • ClustalW at EMBL - Jalview
  • Consensus Sequence
  • Профиль (Profile)
  • Profile vs Consensus
  • Slide 51
  • Slide 52
  • Psi Blast (NCBI)
  • PSI-Blast
  • Psi-Blast вывод
  • Slide 56
  • Филогенез
  • Slide 58
  • Slide 59
  • Slide 60
  • Slide 61
  • Древо видов и генов
  • Ортологи и паралоги
  • Шаги реконструирования филогенетического древа
  • Филогенетическое дерево
  • Зачем нужны филогенетические деревья
  • Терминология
  • Slide 68
  • Какие бывают деревья
  • Slide 70
  • Slide 71
  • Slide 72
  • 4 OTUs 3 неукорененных филогенетических деревьев
  • Slide 74
  • Slide 75
  • Slide 76
  • Slide 77
  • Рутинная процедура или как строят деревья
  • Slide 79
  • Slide 80
  • Slide 81
  • Slide 82
  • Slide 83
  • Slide 84
  • Slide 85
  • Slide 86
  • Slide 87
  • Slide 88
  • Slide 89
  • Как выбирать последовательности для дерева
  • Самое главное ndash хорошее выравнивание
  • Основные алгоритмы построения филогенетических деревьев
  • Пример матрицы расстояний
  • Slide 94
  • Гипотеза laquoмолекулярных часовraquo (EZuckerkandl LPauling 1962)
  • UPGMA Unweighted Pair Group Method with Arithmetic Mean
  • Недостатки UPGMA
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Метод Neighbor-joining
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Slide 101
  • Как изобразить дерево Топология дерева
  • Slide 103
  • Какие on-line программы строят деревья
  • MEGA филогенетический анализ последовательностей
  • Slide 106
  • Slide 107
  • Slide 108
Page 9: Bestfit Output

bull Basic Local Alignment Search Tool

bull Чувствителен также как FastA но намного быстрее

bull Также как FASTA требует параметр k (длина слова)ndash Белки k= 3 letter wordsndash ДНК k= 11 letter words

Алгоритм BLAST

1 Поиск идентичныхпохожих участков

2 Попытка laquoудлинитьraquo эти участки насколько возможно (те пока score растёт)

В результате High-scoring Segment Pairs (HSPs)

THEFIRSTLINIHAVEADREAMESIRPATRICKREAD

INVIEIAMDEADMEATTNAMHEWASNINETEEN

Алгоритм BLAST (шаг 1)

Попытка соединить соседние HSPs путем выравнивания последовательностей между ними

THEFIRSTLINIHAVEADREA____M_ESIRPATRICKREAD

INVIEIAMDEADMEATTNAMHEW___ASNINETEEN

Алгоритм BLAST (шаг 2)

Blastbull Blast ndash это семейство программ BlastN BlastP

BlastX tBlastN

bull BlastN - ДНК vs ДНКbull BlastP ndash белок vs белокbull BlastX - translated ДНК vs белокbull tBlastN - белок vs translated ДНК

Query ДНК Белок

Database ДНК Белок

Поиск гомологов

По ДНК или по белку

Какой поиск предпочтительней

ДНК или белок

Какая последовательность более постоянна в эволюционном плане

UCAUAC

Or

Serine -Tyrosine

ДНК

OO=P-O O

Фосфатная группаФосфатная группа

NАзотистое основаниеАзотистое основание

(A G C or T)(A G C or T)

CH2

O

C1C4

C3 C2

5

СахарСахар(дезоксирибоза)(дезоксирибоза)

ДНК

ДНК

ДНК состоит из двух цепей нуклеотидов ДНК состоит из двух цепей нуклеотидов соединённых попарносоединённых попарно

ADENINEADENINE ndash ndash THYMINETHYMINE

CYTOSINECYTOSINE - - GUANINEGUANINE

Правило комплементарностиПравило комплементарности

Двойная спиральДвойная спираль

P

P

P

O

O

O

1

23

4

5

5

3

3

5

P

P

PO

O

O

1

2 3

4

5

5

3

5

3

G C

T A

ДНК дальнейшая упаковка

ДНК

Функции ДНК mdash наследственность и изменчивость

Репликация ДНК

Репликация ДНК

bull Генетический код избыточен ndash почти все аминокислоты кодируются более чем 1 кодоном (тройка нуклеотидов)

bull Последовательность ДНК может меняться в то время как последовательность белка остается постоянной

Ser-Tyrhellip

UCAUAC UCUUAC UCGUAC Uhelliphellip

Поиск гомологов

bull Нуклеотиды ndash 4-х буквенный алфавитbull Аминокислоты ndash 20-и буквенный алфавит

Две случайные последовательности ДНК будут идентичны ~ 25Две случайные белковые последовательности будут идентичны ~ 5

Поиск гомологов

Матрицы для сравнения белков более чувствительны чем матрицы для ДНК

Базы данных ДНК намного больше белковых rarr будут случайные совпадения

Поиск гомологов

Использование белковых последовательностей более предпочтительно при поиске гомологов

Поиск гомологов

Множественное выравнивание последовательностей (MSA)

VTISCTGSSSNIGAG-NHVKWYQQLPGVTISCTGTSSNIGS--ITVNWYQQLPGLRLSCSSSGFIFSS--YAMYWVRQAPGLSLTCTVSGTSFDD--YYSTWVRQPPGPEVTCVVVDVSHEDPQVKFNWYVDG--ATLVCLISDFYPGA--VTVAWKADS--AALGCLVKDYFPEP--VTVSWNSG---VSLTCLVKGFYPSD--IAVEWWSNG--

Основные предположения

bull Гены фиксированы сохранены у очень широкого круга биологических видов у совершенно различных представителей laquoдрева жизниraquo

bull Фиксированный генетический код для белков вероятно несёт похожие зачастую идентичные функции

Например

bull Гистоны небольшие белки присутствуют у всех эукариот

Демонстрируют выраженное постоянство последовательности в MSA

Постоянство структуры и функции (упаковка DNA)

Почему множественное выравнивание

Позволяет дать характеристику семействам белков найти общие участки гомологов

Например семейство Serine protease семейство отвечающее за катализ гидролиз пептидных связей

bull Одинаковые активные центры

bull Общие участка последовательности

bull MSA ndash это первый предварительный шаг к анализу в области молекулярной эволюции и построения эволюционных деревьев

bull База для филогенеза ndash данные молекулярной биологии или морфологические данные

Подходы в MSA

2 разных подходаndash 1D sequence based ndash сравнение

последовательностейndash 2D-3D based ndash выравнивание базирующееся на

структуре

MSA algorithm

bull Попарное выравнивание всех последовательностей (pairwise alignment)

bull Кластерный анализ данных парного выравнивания для получения иерархии выравниваний (guide tree)

bull Построение множественного выравнивания (MSA) пошагово в соответствии с guide tree сначала выравнивают наиболее похожие пары затем добавляют остальные и тд

Multiple Alignment - алгоритм

(1) Парное выравнивание (подготовка guide tree)

6 pairwise alignments

then cluster analysis

(2) Множественное выравнивание следуя древу из п 1

successive alignments

Комментарии

bull Парное выравнивание - оптимальный алгоритм

bull Множественное выравнивание не является оптимальным алгоритмом Вполне могут существовать и лучшие выравнивания

bull Редакторы выравниваний могут быть полезны для корректировки

GCG

Pileup глобальный MSA

pileup [list of sequence names]

pileup hemoglobin_list

1 The sign means that the file contains a list of names

2 The list can include names from the userrsquos directory or code names (accession numbers) from the GCG databases

GCGПример входного файла

swhbb_human

swhbb_rat

swhbb_mouse

Hemoglobin_Alpha

Hemoglobin_Gamma

Hemogolibin_Delta

Syntax the file starts with ldquordquo

Sequences from the databases

Sequences from the userrsquos directory

GCG PileUp creates a multiple sequence alignment from a group of relatedsequences using progressive pairwise alignments It can also plot atree showing the clustering relationships used to create the alignment

1 IPNS_STRJU 329 aa 2 IPNS_STRCL 329 aa 3 IPNS_CEPAC 338 aa 4 IPNS_NOCLA 328 aa

What is the gap creation penalty ( 8 ) What is the gap extension penalty ( 2 )

This program can display the clustering relationships graphically Do you want to A) Plot to a FIGURE file called pileupfigure B) Plot graphics on HP7550 attached to devtty15 C) Suppress the plot Please choose one ( A ) c What should I call the output file name ( ipnsmsf )

Determining pairwise similarity scores

1 x 2 443 1 x 3 312 1 x 4 412 2 x 3 294 2 x 4 405 3 x 4 309

Aligning

Total sequences 4 Alignment length 338 CPU time 0021

Output filedatausersracheliothersracheliipnsmsf

Regular GCG syntaxDefault parametersoutput file etc

GCGAA_MULTIPLE_ALIGNMENT 10PileUp of ipnsfil

Symbol comparison table GenRunDatablosum62cmp CompCheck 1102 GapWeight 8 GapLengthWeight 2 ipnsmsf MSF 338 Type P March 14 2002 0929 Check 7631

Name IPNS_STRJU Len 338 Check 6344 Weight 100 Name IPNS_STRCL Len 338 Check 4249 Weight 100 Name IPNS_NOCLA Len 338 Check 7020 Weight 100 Name IPNS_CEPAC Len 338 Check 18 Weight 100

1 50IPNS_STRJU ~MPILMPSAE VPTIDISPLS GDDAKAKQRV AQEINKAARG SGFFYASNHGIPNS_STRCL ~MPVLMPSAH VPTIDISPLF GTDAAAKKRV AEEIHGACRG SGFFYATNHGIPNS_NOCLA ~~~MKMPSAE VPTIDVSPLF GDDAQEKVRV GQEINKACRG SGFFYAANHGIPNS_CEPAC MGSVPVPVAN VPRIDVSPLF GDDKEKKLEV ARAIDAASRD TGFFYAVNHG

51 100IPNS_STRJU VDVQLLQDVV NEFHRNMSDQ EKHDLAINAY NKDNPHVRN GYYKAIKGKKIPNS_STRCL VDVQQLQDVV NEFHGAMTDQ EKHDLAIHAY NPDNPHVRN GYYKAVPGRKIPNS_NOCLA VDVQRLQDVV NEFHRTMSPQ EKYDLAIHAY NKNNSHVRN GYYMAIEGKKIPNS_CEPAC VDLPWLSRET NKFHMSITDE EKWQLAIRAY NKEHESQIRA GYYLPIPGKK

Output filemsf format

GCG

Prettybox генерирует графический файл из файла MSA

prettybox [MSA file]

prettybox hemoglobinsmsf

1 The ldquordquo is a syntax sign meaning all the sequences in the MSA file

2 Can also calculate the consensus sequence

GCG

ClustalWbull Очень известная и широко распространённая

программа UNIX Internet Windows

bull Выполняет MSA может строить филогенетические деревья

bull Входной файл ndash формат multi-fasta

ClustalW

bull tofasta list

gtIPNS_STRJU P18286

MPILMPSAEVPTIDISPLSGDDAKAKQRVAQEINKAARGSGFFYASNHGVDVQLLQDVVN

EFHRNMSDQEKHDLAINAYNKDNPHVRNGYYKAIKGKKAVESFCYLNPSFSDDHPMIKSE

TPMHEVNLWPDEEKHPRFRPFCEDYYRQLLRLSTVIMRGYALALGRREDFFDEALAEADT

LSSVSLIRYPYLEEYPPVKTGADGTKLSFEDHLDVSMITVLYQTEVQNLQVETVDGWQDI

PRSDEDFLVNCGTYMGHITHDYFPAPNHRVKFINAERLSLPFFLNAGHNSVIEPFVPEGA

AGTVKNPTTSYGEYLQHGLRALIVKNGQT

gtIPNS_STRCL P10621

MPVLMPSAHVPTIDISPLFGTDAAAKKRVAEEIHGACRGSGFFYATNHGVDVQQLQDVVN

EFHGAMTDQEKHDLAIHAYNPDNPHVRNGYYKAVPGRKAVESFCYLNPDFGEDHPMIAAG

TPMHEVNLWPDEERHPRFRPFCEGYYRQMLKLSTVLMRGLALALGRPEHFFDAALAEQDS

LSSVSLIRYPYLEEYPPVKTGPDGQLLSFEDHLDVSMITVLFQTQVQNLQVETVDGWRDI

PTSENDFLVNCGTYMAHVTNDYFPAPNHRVKFVNAERLSLPFFLNGGHEAVIEPFVPEGA

SEEVRNEALSYGDYLQHGLRALIVKNGQT

input fileMulti-fasta

Making the file in unix

ClustalWCLUSTAL W (17) multiple sequence alignment

IPNS_STRJU -MPILMPSAEVPTIDISPLSGDDAKAKQRVAQEINKAARGSGFFYASNHGVDVQLLQDVVIPNS_STRGR -MPIPMLPAHVPTIDISPLSGGDADDKKRVAQEINKACRESGFFYASHHGIDVQLLKDVVIPNS_FLASS ----MNRHADVPVIDISGLSGNDMDVKKDIAARIDRACRGSGFFYAANHGVDLAALQKFTIPNS_PENCH --MASTPKANVPKIDVSPLFGDNMEEKMKVARAIDAASRDTGFFYAVNHGVDVKRLSNKTIPNS_CEPAC MGSVPVPVANVPRIDVSPLFGDDKEKKLEVARAIDAASRDTGFFYAVNHGVDLPWLSRET

IPNS_STRJU NEFHRNMSDQEKHDLAINAYNKDNP-HVRNGYYKAIKGKKAVESFCYLNPSFSDDHPMIKIPNS_STRGR NEFHRTMTDEEKYDLAINAYNKNNP-RTRNGYYMAVKGKKAVESWCYLNPSFSEDHPQIRIPNS_FLASS TDWHMAMSAEEKWELAIRAYNPANP-RNRNGYYMAVEGKKANESFCYLNPSFDADHATIKIPNS_PENCH REFHFSITDEEKWDLAIRAYNKEHQDQIRAGYYLSIPEKKAVESFCYLNPNFKPDHPLIQIPNS_CEPAC NKFHMSITDEEKWQLAIRAYNKEHESQIRAGYYLPIPGKKAVESFCYLNPSFSPDHPRIK

Выходной файл aln format

httpwwwebiacukhelpformatshtml

форматы

ClustalW на EMBL

ClustalW на EMBL - результат

ClustalW at EMBL - Jalview

Conservation

Consensus Sequence

Мы можем вывести consensus sequence из результатов MSA The consensus sequence содержит наиболее часто встречающийся символ в кажной колонке выравнивания

A T C T T G T

A A C T T G T

A A C T T C T

A A C T T G T

Ещё пара терминовhelliphellip

Профиль (Profile)

Также возможно вывести статистическую модель описывающую MSA Профиль содержит информацию о символах в каждом столбце выравнивания

A T C T T G T

A A C T T G T

A A C T T C T

1 2 3 4 5 6

A 1 067 0 0

T 0 033 1 1

C 0 0 0 0

G 0 0 0 0

Profile vs Consensus

Consensus каждая позиция отражает наиболее часто встречающийся символ

Profile каждая позиция отражает частоту символа в данной позиции

Profile vs Consensus

Данный MSA будет иметь одинаковый consensus

A A C T T G C

A A G T C G T

C A C T T C T

A A C T T G T

A A C T T G T

A A C T T C T

A A C T T G T

Profile vs Consensus

Но разный профиль

A A C T T G C

A A G T C G T

C A C T T C T

A A C T T G T

A A C T T G T

A A C T T C T

1 2 3 4 5 6

A 066 1 0 0

T 0 0 0 1

C 033 0 066 0

G 0 0 033 0

1 2 3 4 5 6

A 1 1 0 0

T 0 0 0 1

C 0 0 1 0

G 0 0 0 0

Psi Blast (NCBI)

Position Specific Iterated ndash автоматизированный поиск по профилю

Regular blast

Construct profile from blast results

Blast profile search

Final results

PSI-Blast

Psi-Blast вывод

Проблема формулировки выводов при использовании МSA

1 Сайт выглядит общим (фиксированным) из-за того что это ndash близкородственные последовательности

2 Сайт выглядит общим из-за того что это ndash исключительно жизненно важный сайт

ФилогенезЭволюция ndash случайный процесс с неслучайным результатом

Цели филогенетического исследования

bull Реконструкция корректных генеалогических связей

между биологическими объектами

bull Оценка времени расхождения организмов

bull Определение порядка эволюционных событий в процессе

эволюции

Формат Newick

((A(BC))(DE))

Типы данных

Molecular (DNA RNA proteins)

Morphological (soft tissue hard tissue extant extinct)

Преимущества молекулярных данных

bull Наследуемость

bull Недвусмысленность в описании молекулярных характеристик

bull Поддаются количественному анализу

bull Оценка гомологии легче чем морфологические исследования

bull Данных много

Древо видов и геновbull Древо видов ndash эволюционные взаимосвязи

между видами (видообразование)bull Древо генов

Page RDM and Cotton JC (2000) GeneTree a tool for exploring gene family evolution In D Sankoff and J Nadeau (eds) Comparative Genomics Empirical and Analytical Approaches to Gene Order Dynamics Map Alignment and the Evolution of Gene Families Kluwer Academic Publishers Dordrecht pp 525-536

Figure 2 (a) Incongruent gene and species trees This incongruence can be explained by hypothesizing a gene duplication (h) at the base of the gene tree (b)The presence of only a single gene (a-d) extant in each of the present-day species(1-4) requires postulating three gene losses (c) The corresponding reconciled tree

Ортологи и паралоги

bull Гены-паралоги ndash событие дупликация (and

bull Гены-ортологи ndash событие видообразования (in the two species and in the two species

Duplication

Speciation

Species a Species b

Шаги реконструирования филогенетического

древа

1 Выбор последовательностей и поиск гомологов

2 MSA3 Матрица белков4 Филогенетическое дерево

Филогенетическое дерево

Филогения - раздел биологии изучающий родственные взаимоотношения разных групп живых организмов Филогению отображается обычно в виде эволюционных древ или систематических названий

Зачем нужны филогенетические деревья

Биологические задачи

сравнение 3-х и более объектов (кто на кого более похож )

реконструкция эволюции (кто от кого как и когда произошелhellip)

ТерминологияУзел (node) mdash точка разделения предковой последовательности(вида популяции) на две независимо эволюционирующиеСоответствует внутренней вершине графа изображающего эволюциюЛист (leaf OTU ndash оперативная таксономическая единица) mdash реальный (современный) объект внешняя вершина графаВетвь (branch) mdash связь между узлами или между узлом и листом ребро графаКорень (root) mdash общий предокКлада (clade) - группа двух или более таксонов или последователь-ностей ДНК которая включает как своего общего предка так и всех его потомков

OTU

HTU (hypotetical taxonomic unit)

Какие бывают деревья

Бинарное (разрешённое)(в один момент времени может

произойти только одно событие )

Небинарное (неразрешённое) (может ли в один момент времени

произойти два события )

Время

Какие бывают деревья

Укорененное дерево (rooted tree)отражает направление эволюции

Неукорененное (бескорневое) дерево(unrooted tree) показывает только связи между узлами

Время

Если число листьев равно n существует (2n-3)разных бинарных укоренных деревьевПо определению (2n-3) = 1middot3 middot middot(2n-3)

Существует (2n-5) разных бескорневых деревьев с n листьями

Rooting

A C B B C AA B C

3 OTUs 3 OTUs 1 н 1 неукорененное деревоеукорененное дерево 33 укорененных деревьев укорененных деревьев

A

B

C

D

C

A

B

4 OTUs 4 OTUs 3 3 неукорененных филогенетических неукорененных филогенетических деревьевдеревьев

D

B

A

C C

B

A

D

4 OTUs

15 укорененных

деревьев

Количество Количество Количество

OTU укорененных неукорененных

2 1 13 3 14 15 35 105 156 954 1057 103959548 135135 103959 2027025 13513510 34459425 202702511 654729075 3445942512 13749310575 654729075

Количество возможных деревьев

Рутинная процедура или как строят деревья

Составление выборки последовательностей

Множественное выравнивание

Построение дерева фрагмент записи в виде скобочной формулы

Визуализация и редактура дерева

(((((con1013851018(f539692826973((f67220839851max42750591)492893con923019677)1362315)953075)2583145

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Множественное выравнивание

Matches

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Multiple Alignment

Matches

Mismatches

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Multiple Alignment

Matches

Mismatches

Gaps

Seq 1 A G C G A GSeq 1 A G C G A GSeq 2 G C G G A CSeq 2 G C G G A C

Шаг 3 Перевод количества расхождений в индексы замен

Distance Matrix

Units количество замен нуклеотидов на 1000

Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86

Rice 00 118 122 122

Mosquito 00 55 51

Monkey 00 3

Human 00

Шаг 4 построение филогенетического дерева

Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86

Rice 00 118 122 122

Mosquito 00 55 51

Monkey 00 3

Human 00

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Дистанция между человеком и обезьяной минимальна Эти группы объединяются в Monkey-Human а все остальные дистанции пересчитываются

Dist[Spinach MonHum] = (Dist[Spinach Monkey] +

Dist[Spinach Human])2 = (91 + 86)2 = 885

Spinach Rice Mosquito Mon-HumSpinach 00 9 106 885

Rice 00 118 122

Mosquito 00 53

Mon-Hum 00

Редуцированная матрица дистанций

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Spi-Ric

HumanMosquito

Mon-Hum

MonkeySpinachRice

Mos-Mon-Hum

Spi-Ric

Mos-Mon-Hum-Spi-Ric

Как выбирать последовательности для дерева

Кроме случаев очень близких последовательностей проще работать с белками (а не с ДНК)

Придерживайтесь небольшой выборки (lt 50 последовательностей)

Избегайтеndash фрагментовndash Ксенологов (горизонтальный перенос генов)ndash рекомбинантных последовательностейndash многодоменных белков и повторов

Используйте outgroup (последовательность ответвившаяся от общего предка заведомо (но минимально) раньше разделения интересующих групп-клад)

Самое главное ndash хорошее выравнивание

Максимальный вклад в финальное дерево нельзя построить хорошее дерево по плохому выравниванию

Блоки содержащие много гэпов плохо выровненные N- и C- концы можно просто вырезать

Основные алгоритмы построения филогенетических деревьев

Методы основанные на оценке

расстояний (матричные методы)

bull UPGMA (кластеризация)

bull Neighbor-joining

bull Минимальная эволюция

Наибольшего правдоподобия Maximal likelihood ML Используется модель эволюции и строится дерево которое наиболее правдоподобно при данной модели

Максимальной экономии (бережливости)

maximal parsimony MP Выбирается дерево с минимальным количеством

мутаций необходимых для объяснения данных

Пример матрицы расстояний

1 2 3 4 5 6 7 8 000 1053 977 1278 1203 1654 1353 2500 HUMAN 1

000 902 1203 977 1579 902 2727 HORSE 2 000 977 902 1654 1203 2424 RABIT 3

000 226 1729 1053 2576 MOUSE 4 000 1579 827 2576 RAT 5

000 1053 2955 BOVIN 6 000 2500 PIG 7

000 CHICK 8

Расстояние (уровень дивергенции) между соответствующими последовательностями из геномов мыши и свиньи

Как понимать расстояние между объектами

bull Как время в течение которого они эволюционировалиbull Как число laquoэволюционных событийraquo (мутаций)

В первом случае объекты образуют ультраметрическое пространство(если все объекты наблюдаются в одно время что как правило верно)

Но время непосредственно измерить невозможно

Гипотеза laquoмолекулярных часовraquo(EZuckerkandl LPauling 1962)

За равное время во всех ветвях эволюции данного генабелка накапливается равное число мутацийЕсли гипотеза молекулярных часов

принимается число различий между выровненными последовательностями можно считать примерно пропорциональным времени Отклонения от ультраметричности можно считать случайными Эволюция реконструируется в виде ультраметрического дерева

Укоренённое дерево называется ультраметрическим если расстояние от корня до любого из листьев одинаково

UPGMAUnweighted Pair Group Method with Arithmetic Mean

разновидность кластерного метода

Расстояние между кластерами вычисляется как среднее арифметическое всевозможных расстояний между последовательностями из кластеров

Недостатки UPGMA

Алгоритм строит ультраметрическое дерево ndash скорость эволюции предполагается одинаковой для всех ветвей дерева Использовать этот алгоритм имеет смысл только в случае ультраметрических данных (справедливости laquoмолекулярных часовraquo)

Реальное дерево UPGMA

Метод ближайших соседей (Neighbor-joining NJ)

Строит неукоренённое дерево

Может работать с большим количеством данных

Достаточно быстрый

Если есть недвусмысленное с точки зрения эксперта дерево то оно будет построено

Метод Neighbor-joining

Рисуем laquoзвездноеraquo дерево и будем laquoотщипыватьraquo от него по паре листьев

Пусть ui = Σk Mik(n-2) mdash среднее расстояние от листа i до других

листьев

1 Рассмотрим все возможные пары листьев Выберем 2 листа i и j с минимальным значением величины

Mij ndash ui ndashuj

те выбираем 2 узла которые близки друг к другу но далеки ото всех остальных

Метод ближайших соседей (Neighbor-joining NJ)

2 Кластер (i j) ndash новый узел дерева

Расстояние от i или от j до узла (ij) D(i (ij)) = 05middot(Mij + ui ndash uj) D(j (ij)) = 05middot (Mij + uj ndash ui) те длина ветви зависит от среднего расстояния до других вершин

3 Вычисляем расстояние от нового кластера до всех других

M(ij)k = Mik+Mjk ndash Mij 2

5 В матрице М убираем i и j и добавляем (i j) Повторяем пока не останутся 3 узла

Input MSA для n последовательностей одна последовательность для каждого вида

AAAAATC

AAAAAAG

CCCCCCG

AAAAATCAAAAAAG

CCCCCCG

Длинная ветвь ndash непохоже на правду

Длинная ветвь -Похоже на правду

Методы основанные на последовательностях Maximum Likelihood (ML) Maximum Parsimony (MP)

Как изобразить дерево Топология дерева

Топология дерева mdash только листья узлы (корень) и связывающие их ветви (топология не зависит от способа изображения дерева)

A

B

C

D

E A BC D E

Два изображения одной и той же топологии

Bacterium 1

Bacterium 3

Bacterium 2

Eukaryote 1

Eukaryote 4

Eukaryote 3

Eukaryote 2

Bacterium 1

Bacterium 3Bacterium 2

Eukaryote 1

Eukaryote 4Eukaryote 3

Eukaryote 2

Филограммы ndash длины ветвей

пропорциональны

эволюционному расстоянию

Кладограммы и филограммы

Кладограммы ndash только

топологя Длины ветвей не

учитываются

6

31

2

46

24

53

Как можно нарисовать построенное дерево

Какие on-line программы строят деревья

ClustalW ldquoTree typerdquo ndash nj phylip строит только методом NJ но результат ndash в разных форматах no bootstraps

Phylip (Felsenstein 1993) ndash пакет программ для построения филогенетических деревьев (stand-alone)On-line (partly) например

httpbiowebpasteurfrseqanalphylogenyphylip-ukhtml PAUP (Phylogenetic Analysis Using Parsimony)

MEGA филогенетический анализ последовательностей

httpwwwmegasoftwarenet

Эволюция ndash исторический процесс

Из 8200794532637891559375 деревьев для 20 OTUs 1

является верным и 8200794532637891559374

неверны

Truth is one falsehoods are many

Какое из 8200794532637891559375

деревьев истинно

Мы не знаем Можно применить иные критетии

Например ldquoпохожесть=родствоraquo

GCGbull Строковый поиск простой текстовый

поиск по локальной базе данных

bull Поиск в определениях или в аннотациях

bull Определения содержат минимальное количество информации для каждой статьи доступ имя организма имя гена длина последовательности дата

  • Bestfit Output
  • SP1 at swissprot
  • EGR1 at swissprot
  • Вывод
  • Bl2Seq at NCBI
  • Bl2seq results
  • Bl2seq оценка
  • Оптимизация времени вычислений при парном выравнивании
  • Slide 9
  • Алгоритм BLAST (шаг 1)
  • Slide 11
  • Blast
  • Поиск гомологов
  • ДНК или белок
  • ДНК
  • Slide 16
  • Slide 17
  • Двойная спираль
  • ДНК дальнейшая упаковка
  • Slide 20
  • Репликация ДНК
  • Slide 22
  • Slide 23
  • Slide 24
  • Slide 25
  • Множественное выравнивание последовательностей (MSA)
  • Slide 27
  • Основные предположения
  • Например
  • Почему множественное выравнивание
  • Slide 31
  • Подходы в MSA
  • MSA algorithm
  • Multiple Alignment - алгоритм
  • Комментарии
  • GCG
  • Slide 37
  • GCG
  • Slide 39
  • Slide 40
  • Slide 41
  • ClustalW
  • Slide 43
  • Slide 44
  • ClustalW на EMBL
  • ClustalW на EMBL - результат
  • ClustalW at EMBL - Jalview
  • Consensus Sequence
  • Профиль (Profile)
  • Profile vs Consensus
  • Slide 51
  • Slide 52
  • Psi Blast (NCBI)
  • PSI-Blast
  • Psi-Blast вывод
  • Slide 56
  • Филогенез
  • Slide 58
  • Slide 59
  • Slide 60
  • Slide 61
  • Древо видов и генов
  • Ортологи и паралоги
  • Шаги реконструирования филогенетического древа
  • Филогенетическое дерево
  • Зачем нужны филогенетические деревья
  • Терминология
  • Slide 68
  • Какие бывают деревья
  • Slide 70
  • Slide 71
  • Slide 72
  • 4 OTUs 3 неукорененных филогенетических деревьев
  • Slide 74
  • Slide 75
  • Slide 76
  • Slide 77
  • Рутинная процедура или как строят деревья
  • Slide 79
  • Slide 80
  • Slide 81
  • Slide 82
  • Slide 83
  • Slide 84
  • Slide 85
  • Slide 86
  • Slide 87
  • Slide 88
  • Slide 89
  • Как выбирать последовательности для дерева
  • Самое главное ndash хорошее выравнивание
  • Основные алгоритмы построения филогенетических деревьев
  • Пример матрицы расстояний
  • Slide 94
  • Гипотеза laquoмолекулярных часовraquo (EZuckerkandl LPauling 1962)
  • UPGMA Unweighted Pair Group Method with Arithmetic Mean
  • Недостатки UPGMA
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Метод Neighbor-joining
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Slide 101
  • Как изобразить дерево Топология дерева
  • Slide 103
  • Какие on-line программы строят деревья
  • MEGA филогенетический анализ последовательностей
  • Slide 106
  • Slide 107
  • Slide 108
Page 10: Bestfit Output

1 Поиск идентичныхпохожих участков

2 Попытка laquoудлинитьraquo эти участки насколько возможно (те пока score растёт)

В результате High-scoring Segment Pairs (HSPs)

THEFIRSTLINIHAVEADREAMESIRPATRICKREAD

INVIEIAMDEADMEATTNAMHEWASNINETEEN

Алгоритм BLAST (шаг 1)

Попытка соединить соседние HSPs путем выравнивания последовательностей между ними

THEFIRSTLINIHAVEADREA____M_ESIRPATRICKREAD

INVIEIAMDEADMEATTNAMHEW___ASNINETEEN

Алгоритм BLAST (шаг 2)

Blastbull Blast ndash это семейство программ BlastN BlastP

BlastX tBlastN

bull BlastN - ДНК vs ДНКbull BlastP ndash белок vs белокbull BlastX - translated ДНК vs белокbull tBlastN - белок vs translated ДНК

Query ДНК Белок

Database ДНК Белок

Поиск гомологов

По ДНК или по белку

Какой поиск предпочтительней

ДНК или белок

Какая последовательность более постоянна в эволюционном плане

UCAUAC

Or

Serine -Tyrosine

ДНК

OO=P-O O

Фосфатная группаФосфатная группа

NАзотистое основаниеАзотистое основание

(A G C or T)(A G C or T)

CH2

O

C1C4

C3 C2

5

СахарСахар(дезоксирибоза)(дезоксирибоза)

ДНК

ДНК

ДНК состоит из двух цепей нуклеотидов ДНК состоит из двух цепей нуклеотидов соединённых попарносоединённых попарно

ADENINEADENINE ndash ndash THYMINETHYMINE

CYTOSINECYTOSINE - - GUANINEGUANINE

Правило комплементарностиПравило комплементарности

Двойная спиральДвойная спираль

P

P

P

O

O

O

1

23

4

5

5

3

3

5

P

P

PO

O

O

1

2 3

4

5

5

3

5

3

G C

T A

ДНК дальнейшая упаковка

ДНК

Функции ДНК mdash наследственность и изменчивость

Репликация ДНК

Репликация ДНК

bull Генетический код избыточен ndash почти все аминокислоты кодируются более чем 1 кодоном (тройка нуклеотидов)

bull Последовательность ДНК может меняться в то время как последовательность белка остается постоянной

Ser-Tyrhellip

UCAUAC UCUUAC UCGUAC Uhelliphellip

Поиск гомологов

bull Нуклеотиды ndash 4-х буквенный алфавитbull Аминокислоты ndash 20-и буквенный алфавит

Две случайные последовательности ДНК будут идентичны ~ 25Две случайные белковые последовательности будут идентичны ~ 5

Поиск гомологов

Матрицы для сравнения белков более чувствительны чем матрицы для ДНК

Базы данных ДНК намного больше белковых rarr будут случайные совпадения

Поиск гомологов

Использование белковых последовательностей более предпочтительно при поиске гомологов

Поиск гомологов

Множественное выравнивание последовательностей (MSA)

VTISCTGSSSNIGAG-NHVKWYQQLPGVTISCTGTSSNIGS--ITVNWYQQLPGLRLSCSSSGFIFSS--YAMYWVRQAPGLSLTCTVSGTSFDD--YYSTWVRQPPGPEVTCVVVDVSHEDPQVKFNWYVDG--ATLVCLISDFYPGA--VTVAWKADS--AALGCLVKDYFPEP--VTVSWNSG---VSLTCLVKGFYPSD--IAVEWWSNG--

Основные предположения

bull Гены фиксированы сохранены у очень широкого круга биологических видов у совершенно различных представителей laquoдрева жизниraquo

bull Фиксированный генетический код для белков вероятно несёт похожие зачастую идентичные функции

Например

bull Гистоны небольшие белки присутствуют у всех эукариот

Демонстрируют выраженное постоянство последовательности в MSA

Постоянство структуры и функции (упаковка DNA)

Почему множественное выравнивание

Позволяет дать характеристику семействам белков найти общие участки гомологов

Например семейство Serine protease семейство отвечающее за катализ гидролиз пептидных связей

bull Одинаковые активные центры

bull Общие участка последовательности

bull MSA ndash это первый предварительный шаг к анализу в области молекулярной эволюции и построения эволюционных деревьев

bull База для филогенеза ndash данные молекулярной биологии или морфологические данные

Подходы в MSA

2 разных подходаndash 1D sequence based ndash сравнение

последовательностейndash 2D-3D based ndash выравнивание базирующееся на

структуре

MSA algorithm

bull Попарное выравнивание всех последовательностей (pairwise alignment)

bull Кластерный анализ данных парного выравнивания для получения иерархии выравниваний (guide tree)

bull Построение множественного выравнивания (MSA) пошагово в соответствии с guide tree сначала выравнивают наиболее похожие пары затем добавляют остальные и тд

Multiple Alignment - алгоритм

(1) Парное выравнивание (подготовка guide tree)

6 pairwise alignments

then cluster analysis

(2) Множественное выравнивание следуя древу из п 1

successive alignments

Комментарии

bull Парное выравнивание - оптимальный алгоритм

bull Множественное выравнивание не является оптимальным алгоритмом Вполне могут существовать и лучшие выравнивания

bull Редакторы выравниваний могут быть полезны для корректировки

GCG

Pileup глобальный MSA

pileup [list of sequence names]

pileup hemoglobin_list

1 The sign means that the file contains a list of names

2 The list can include names from the userrsquos directory or code names (accession numbers) from the GCG databases

GCGПример входного файла

swhbb_human

swhbb_rat

swhbb_mouse

Hemoglobin_Alpha

Hemoglobin_Gamma

Hemogolibin_Delta

Syntax the file starts with ldquordquo

Sequences from the databases

Sequences from the userrsquos directory

GCG PileUp creates a multiple sequence alignment from a group of relatedsequences using progressive pairwise alignments It can also plot atree showing the clustering relationships used to create the alignment

1 IPNS_STRJU 329 aa 2 IPNS_STRCL 329 aa 3 IPNS_CEPAC 338 aa 4 IPNS_NOCLA 328 aa

What is the gap creation penalty ( 8 ) What is the gap extension penalty ( 2 )

This program can display the clustering relationships graphically Do you want to A) Plot to a FIGURE file called pileupfigure B) Plot graphics on HP7550 attached to devtty15 C) Suppress the plot Please choose one ( A ) c What should I call the output file name ( ipnsmsf )

Determining pairwise similarity scores

1 x 2 443 1 x 3 312 1 x 4 412 2 x 3 294 2 x 4 405 3 x 4 309

Aligning

Total sequences 4 Alignment length 338 CPU time 0021

Output filedatausersracheliothersracheliipnsmsf

Regular GCG syntaxDefault parametersoutput file etc

GCGAA_MULTIPLE_ALIGNMENT 10PileUp of ipnsfil

Symbol comparison table GenRunDatablosum62cmp CompCheck 1102 GapWeight 8 GapLengthWeight 2 ipnsmsf MSF 338 Type P March 14 2002 0929 Check 7631

Name IPNS_STRJU Len 338 Check 6344 Weight 100 Name IPNS_STRCL Len 338 Check 4249 Weight 100 Name IPNS_NOCLA Len 338 Check 7020 Weight 100 Name IPNS_CEPAC Len 338 Check 18 Weight 100

1 50IPNS_STRJU ~MPILMPSAE VPTIDISPLS GDDAKAKQRV AQEINKAARG SGFFYASNHGIPNS_STRCL ~MPVLMPSAH VPTIDISPLF GTDAAAKKRV AEEIHGACRG SGFFYATNHGIPNS_NOCLA ~~~MKMPSAE VPTIDVSPLF GDDAQEKVRV GQEINKACRG SGFFYAANHGIPNS_CEPAC MGSVPVPVAN VPRIDVSPLF GDDKEKKLEV ARAIDAASRD TGFFYAVNHG

51 100IPNS_STRJU VDVQLLQDVV NEFHRNMSDQ EKHDLAINAY NKDNPHVRN GYYKAIKGKKIPNS_STRCL VDVQQLQDVV NEFHGAMTDQ EKHDLAIHAY NPDNPHVRN GYYKAVPGRKIPNS_NOCLA VDVQRLQDVV NEFHRTMSPQ EKYDLAIHAY NKNNSHVRN GYYMAIEGKKIPNS_CEPAC VDLPWLSRET NKFHMSITDE EKWQLAIRAY NKEHESQIRA GYYLPIPGKK

Output filemsf format

GCG

Prettybox генерирует графический файл из файла MSA

prettybox [MSA file]

prettybox hemoglobinsmsf

1 The ldquordquo is a syntax sign meaning all the sequences in the MSA file

2 Can also calculate the consensus sequence

GCG

ClustalWbull Очень известная и широко распространённая

программа UNIX Internet Windows

bull Выполняет MSA может строить филогенетические деревья

bull Входной файл ndash формат multi-fasta

ClustalW

bull tofasta list

gtIPNS_STRJU P18286

MPILMPSAEVPTIDISPLSGDDAKAKQRVAQEINKAARGSGFFYASNHGVDVQLLQDVVN

EFHRNMSDQEKHDLAINAYNKDNPHVRNGYYKAIKGKKAVESFCYLNPSFSDDHPMIKSE

TPMHEVNLWPDEEKHPRFRPFCEDYYRQLLRLSTVIMRGYALALGRREDFFDEALAEADT

LSSVSLIRYPYLEEYPPVKTGADGTKLSFEDHLDVSMITVLYQTEVQNLQVETVDGWQDI

PRSDEDFLVNCGTYMGHITHDYFPAPNHRVKFINAERLSLPFFLNAGHNSVIEPFVPEGA

AGTVKNPTTSYGEYLQHGLRALIVKNGQT

gtIPNS_STRCL P10621

MPVLMPSAHVPTIDISPLFGTDAAAKKRVAEEIHGACRGSGFFYATNHGVDVQQLQDVVN

EFHGAMTDQEKHDLAIHAYNPDNPHVRNGYYKAVPGRKAVESFCYLNPDFGEDHPMIAAG

TPMHEVNLWPDEERHPRFRPFCEGYYRQMLKLSTVLMRGLALALGRPEHFFDAALAEQDS

LSSVSLIRYPYLEEYPPVKTGPDGQLLSFEDHLDVSMITVLFQTQVQNLQVETVDGWRDI

PTSENDFLVNCGTYMAHVTNDYFPAPNHRVKFVNAERLSLPFFLNGGHEAVIEPFVPEGA

SEEVRNEALSYGDYLQHGLRALIVKNGQT

input fileMulti-fasta

Making the file in unix

ClustalWCLUSTAL W (17) multiple sequence alignment

IPNS_STRJU -MPILMPSAEVPTIDISPLSGDDAKAKQRVAQEINKAARGSGFFYASNHGVDVQLLQDVVIPNS_STRGR -MPIPMLPAHVPTIDISPLSGGDADDKKRVAQEINKACRESGFFYASHHGIDVQLLKDVVIPNS_FLASS ----MNRHADVPVIDISGLSGNDMDVKKDIAARIDRACRGSGFFYAANHGVDLAALQKFTIPNS_PENCH --MASTPKANVPKIDVSPLFGDNMEEKMKVARAIDAASRDTGFFYAVNHGVDVKRLSNKTIPNS_CEPAC MGSVPVPVANVPRIDVSPLFGDDKEKKLEVARAIDAASRDTGFFYAVNHGVDLPWLSRET

IPNS_STRJU NEFHRNMSDQEKHDLAINAYNKDNP-HVRNGYYKAIKGKKAVESFCYLNPSFSDDHPMIKIPNS_STRGR NEFHRTMTDEEKYDLAINAYNKNNP-RTRNGYYMAVKGKKAVESWCYLNPSFSEDHPQIRIPNS_FLASS TDWHMAMSAEEKWELAIRAYNPANP-RNRNGYYMAVEGKKANESFCYLNPSFDADHATIKIPNS_PENCH REFHFSITDEEKWDLAIRAYNKEHQDQIRAGYYLSIPEKKAVESFCYLNPNFKPDHPLIQIPNS_CEPAC NKFHMSITDEEKWQLAIRAYNKEHESQIRAGYYLPIPGKKAVESFCYLNPSFSPDHPRIK

Выходной файл aln format

httpwwwebiacukhelpformatshtml

форматы

ClustalW на EMBL

ClustalW на EMBL - результат

ClustalW at EMBL - Jalview

Conservation

Consensus Sequence

Мы можем вывести consensus sequence из результатов MSA The consensus sequence содержит наиболее часто встречающийся символ в кажной колонке выравнивания

A T C T T G T

A A C T T G T

A A C T T C T

A A C T T G T

Ещё пара терминовhelliphellip

Профиль (Profile)

Также возможно вывести статистическую модель описывающую MSA Профиль содержит информацию о символах в каждом столбце выравнивания

A T C T T G T

A A C T T G T

A A C T T C T

1 2 3 4 5 6

A 1 067 0 0

T 0 033 1 1

C 0 0 0 0

G 0 0 0 0

Profile vs Consensus

Consensus каждая позиция отражает наиболее часто встречающийся символ

Profile каждая позиция отражает частоту символа в данной позиции

Profile vs Consensus

Данный MSA будет иметь одинаковый consensus

A A C T T G C

A A G T C G T

C A C T T C T

A A C T T G T

A A C T T G T

A A C T T C T

A A C T T G T

Profile vs Consensus

Но разный профиль

A A C T T G C

A A G T C G T

C A C T T C T

A A C T T G T

A A C T T G T

A A C T T C T

1 2 3 4 5 6

A 066 1 0 0

T 0 0 0 1

C 033 0 066 0

G 0 0 033 0

1 2 3 4 5 6

A 1 1 0 0

T 0 0 0 1

C 0 0 1 0

G 0 0 0 0

Psi Blast (NCBI)

Position Specific Iterated ndash автоматизированный поиск по профилю

Regular blast

Construct profile from blast results

Blast profile search

Final results

PSI-Blast

Psi-Blast вывод

Проблема формулировки выводов при использовании МSA

1 Сайт выглядит общим (фиксированным) из-за того что это ndash близкородственные последовательности

2 Сайт выглядит общим из-за того что это ndash исключительно жизненно важный сайт

ФилогенезЭволюция ndash случайный процесс с неслучайным результатом

Цели филогенетического исследования

bull Реконструкция корректных генеалогических связей

между биологическими объектами

bull Оценка времени расхождения организмов

bull Определение порядка эволюционных событий в процессе

эволюции

Формат Newick

((A(BC))(DE))

Типы данных

Molecular (DNA RNA proteins)

Morphological (soft tissue hard tissue extant extinct)

Преимущества молекулярных данных

bull Наследуемость

bull Недвусмысленность в описании молекулярных характеристик

bull Поддаются количественному анализу

bull Оценка гомологии легче чем морфологические исследования

bull Данных много

Древо видов и геновbull Древо видов ndash эволюционные взаимосвязи

между видами (видообразование)bull Древо генов

Page RDM and Cotton JC (2000) GeneTree a tool for exploring gene family evolution In D Sankoff and J Nadeau (eds) Comparative Genomics Empirical and Analytical Approaches to Gene Order Dynamics Map Alignment and the Evolution of Gene Families Kluwer Academic Publishers Dordrecht pp 525-536

Figure 2 (a) Incongruent gene and species trees This incongruence can be explained by hypothesizing a gene duplication (h) at the base of the gene tree (b)The presence of only a single gene (a-d) extant in each of the present-day species(1-4) requires postulating three gene losses (c) The corresponding reconciled tree

Ортологи и паралоги

bull Гены-паралоги ndash событие дупликация (and

bull Гены-ортологи ndash событие видообразования (in the two species and in the two species

Duplication

Speciation

Species a Species b

Шаги реконструирования филогенетического

древа

1 Выбор последовательностей и поиск гомологов

2 MSA3 Матрица белков4 Филогенетическое дерево

Филогенетическое дерево

Филогения - раздел биологии изучающий родственные взаимоотношения разных групп живых организмов Филогению отображается обычно в виде эволюционных древ или систематических названий

Зачем нужны филогенетические деревья

Биологические задачи

сравнение 3-х и более объектов (кто на кого более похож )

реконструкция эволюции (кто от кого как и когда произошелhellip)

ТерминологияУзел (node) mdash точка разделения предковой последовательности(вида популяции) на две независимо эволюционирующиеСоответствует внутренней вершине графа изображающего эволюциюЛист (leaf OTU ndash оперативная таксономическая единица) mdash реальный (современный) объект внешняя вершина графаВетвь (branch) mdash связь между узлами или между узлом и листом ребро графаКорень (root) mdash общий предокКлада (clade) - группа двух или более таксонов или последователь-ностей ДНК которая включает как своего общего предка так и всех его потомков

OTU

HTU (hypotetical taxonomic unit)

Какие бывают деревья

Бинарное (разрешённое)(в один момент времени может

произойти только одно событие )

Небинарное (неразрешённое) (может ли в один момент времени

произойти два события )

Время

Какие бывают деревья

Укорененное дерево (rooted tree)отражает направление эволюции

Неукорененное (бескорневое) дерево(unrooted tree) показывает только связи между узлами

Время

Если число листьев равно n существует (2n-3)разных бинарных укоренных деревьевПо определению (2n-3) = 1middot3 middot middot(2n-3)

Существует (2n-5) разных бескорневых деревьев с n листьями

Rooting

A C B B C AA B C

3 OTUs 3 OTUs 1 н 1 неукорененное деревоеукорененное дерево 33 укорененных деревьев укорененных деревьев

A

B

C

D

C

A

B

4 OTUs 4 OTUs 3 3 неукорененных филогенетических неукорененных филогенетических деревьевдеревьев

D

B

A

C C

B

A

D

4 OTUs

15 укорененных

деревьев

Количество Количество Количество

OTU укорененных неукорененных

2 1 13 3 14 15 35 105 156 954 1057 103959548 135135 103959 2027025 13513510 34459425 202702511 654729075 3445942512 13749310575 654729075

Количество возможных деревьев

Рутинная процедура или как строят деревья

Составление выборки последовательностей

Множественное выравнивание

Построение дерева фрагмент записи в виде скобочной формулы

Визуализация и редактура дерева

(((((con1013851018(f539692826973((f67220839851max42750591)492893con923019677)1362315)953075)2583145

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Множественное выравнивание

Matches

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Multiple Alignment

Matches

Mismatches

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Multiple Alignment

Matches

Mismatches

Gaps

Seq 1 A G C G A GSeq 1 A G C G A GSeq 2 G C G G A CSeq 2 G C G G A C

Шаг 3 Перевод количества расхождений в индексы замен

Distance Matrix

Units количество замен нуклеотидов на 1000

Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86

Rice 00 118 122 122

Mosquito 00 55 51

Monkey 00 3

Human 00

Шаг 4 построение филогенетического дерева

Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86

Rice 00 118 122 122

Mosquito 00 55 51

Monkey 00 3

Human 00

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Дистанция между человеком и обезьяной минимальна Эти группы объединяются в Monkey-Human а все остальные дистанции пересчитываются

Dist[Spinach MonHum] = (Dist[Spinach Monkey] +

Dist[Spinach Human])2 = (91 + 86)2 = 885

Spinach Rice Mosquito Mon-HumSpinach 00 9 106 885

Rice 00 118 122

Mosquito 00 53

Mon-Hum 00

Редуцированная матрица дистанций

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Spi-Ric

HumanMosquito

Mon-Hum

MonkeySpinachRice

Mos-Mon-Hum

Spi-Ric

Mos-Mon-Hum-Spi-Ric

Как выбирать последовательности для дерева

Кроме случаев очень близких последовательностей проще работать с белками (а не с ДНК)

Придерживайтесь небольшой выборки (lt 50 последовательностей)

Избегайтеndash фрагментовndash Ксенологов (горизонтальный перенос генов)ndash рекомбинантных последовательностейndash многодоменных белков и повторов

Используйте outgroup (последовательность ответвившаяся от общего предка заведомо (но минимально) раньше разделения интересующих групп-клад)

Самое главное ndash хорошее выравнивание

Максимальный вклад в финальное дерево нельзя построить хорошее дерево по плохому выравниванию

Блоки содержащие много гэпов плохо выровненные N- и C- концы можно просто вырезать

Основные алгоритмы построения филогенетических деревьев

Методы основанные на оценке

расстояний (матричные методы)

bull UPGMA (кластеризация)

bull Neighbor-joining

bull Минимальная эволюция

Наибольшего правдоподобия Maximal likelihood ML Используется модель эволюции и строится дерево которое наиболее правдоподобно при данной модели

Максимальной экономии (бережливости)

maximal parsimony MP Выбирается дерево с минимальным количеством

мутаций необходимых для объяснения данных

Пример матрицы расстояний

1 2 3 4 5 6 7 8 000 1053 977 1278 1203 1654 1353 2500 HUMAN 1

000 902 1203 977 1579 902 2727 HORSE 2 000 977 902 1654 1203 2424 RABIT 3

000 226 1729 1053 2576 MOUSE 4 000 1579 827 2576 RAT 5

000 1053 2955 BOVIN 6 000 2500 PIG 7

000 CHICK 8

Расстояние (уровень дивергенции) между соответствующими последовательностями из геномов мыши и свиньи

Как понимать расстояние между объектами

bull Как время в течение которого они эволюционировалиbull Как число laquoэволюционных событийraquo (мутаций)

В первом случае объекты образуют ультраметрическое пространство(если все объекты наблюдаются в одно время что как правило верно)

Но время непосредственно измерить невозможно

Гипотеза laquoмолекулярных часовraquo(EZuckerkandl LPauling 1962)

За равное время во всех ветвях эволюции данного генабелка накапливается равное число мутацийЕсли гипотеза молекулярных часов

принимается число различий между выровненными последовательностями можно считать примерно пропорциональным времени Отклонения от ультраметричности можно считать случайными Эволюция реконструируется в виде ультраметрического дерева

Укоренённое дерево называется ультраметрическим если расстояние от корня до любого из листьев одинаково

UPGMAUnweighted Pair Group Method with Arithmetic Mean

разновидность кластерного метода

Расстояние между кластерами вычисляется как среднее арифметическое всевозможных расстояний между последовательностями из кластеров

Недостатки UPGMA

Алгоритм строит ультраметрическое дерево ndash скорость эволюции предполагается одинаковой для всех ветвей дерева Использовать этот алгоритм имеет смысл только в случае ультраметрических данных (справедливости laquoмолекулярных часовraquo)

Реальное дерево UPGMA

Метод ближайших соседей (Neighbor-joining NJ)

Строит неукоренённое дерево

Может работать с большим количеством данных

Достаточно быстрый

Если есть недвусмысленное с точки зрения эксперта дерево то оно будет построено

Метод Neighbor-joining

Рисуем laquoзвездноеraquo дерево и будем laquoотщипыватьraquo от него по паре листьев

Пусть ui = Σk Mik(n-2) mdash среднее расстояние от листа i до других

листьев

1 Рассмотрим все возможные пары листьев Выберем 2 листа i и j с минимальным значением величины

Mij ndash ui ndashuj

те выбираем 2 узла которые близки друг к другу но далеки ото всех остальных

Метод ближайших соседей (Neighbor-joining NJ)

2 Кластер (i j) ndash новый узел дерева

Расстояние от i или от j до узла (ij) D(i (ij)) = 05middot(Mij + ui ndash uj) D(j (ij)) = 05middot (Mij + uj ndash ui) те длина ветви зависит от среднего расстояния до других вершин

3 Вычисляем расстояние от нового кластера до всех других

M(ij)k = Mik+Mjk ndash Mij 2

5 В матрице М убираем i и j и добавляем (i j) Повторяем пока не останутся 3 узла

Input MSA для n последовательностей одна последовательность для каждого вида

AAAAATC

AAAAAAG

CCCCCCG

AAAAATCAAAAAAG

CCCCCCG

Длинная ветвь ndash непохоже на правду

Длинная ветвь -Похоже на правду

Методы основанные на последовательностях Maximum Likelihood (ML) Maximum Parsimony (MP)

Как изобразить дерево Топология дерева

Топология дерева mdash только листья узлы (корень) и связывающие их ветви (топология не зависит от способа изображения дерева)

A

B

C

D

E A BC D E

Два изображения одной и той же топологии

Bacterium 1

Bacterium 3

Bacterium 2

Eukaryote 1

Eukaryote 4

Eukaryote 3

Eukaryote 2

Bacterium 1

Bacterium 3Bacterium 2

Eukaryote 1

Eukaryote 4Eukaryote 3

Eukaryote 2

Филограммы ndash длины ветвей

пропорциональны

эволюционному расстоянию

Кладограммы и филограммы

Кладограммы ndash только

топологя Длины ветвей не

учитываются

6

31

2

46

24

53

Как можно нарисовать построенное дерево

Какие on-line программы строят деревья

ClustalW ldquoTree typerdquo ndash nj phylip строит только методом NJ но результат ndash в разных форматах no bootstraps

Phylip (Felsenstein 1993) ndash пакет программ для построения филогенетических деревьев (stand-alone)On-line (partly) например

httpbiowebpasteurfrseqanalphylogenyphylip-ukhtml PAUP (Phylogenetic Analysis Using Parsimony)

MEGA филогенетический анализ последовательностей

httpwwwmegasoftwarenet

Эволюция ndash исторический процесс

Из 8200794532637891559375 деревьев для 20 OTUs 1

является верным и 8200794532637891559374

неверны

Truth is one falsehoods are many

Какое из 8200794532637891559375

деревьев истинно

Мы не знаем Можно применить иные критетии

Например ldquoпохожесть=родствоraquo

GCGbull Строковый поиск простой текстовый

поиск по локальной базе данных

bull Поиск в определениях или в аннотациях

bull Определения содержат минимальное количество информации для каждой статьи доступ имя организма имя гена длина последовательности дата

  • Bestfit Output
  • SP1 at swissprot
  • EGR1 at swissprot
  • Вывод
  • Bl2Seq at NCBI
  • Bl2seq results
  • Bl2seq оценка
  • Оптимизация времени вычислений при парном выравнивании
  • Slide 9
  • Алгоритм BLAST (шаг 1)
  • Slide 11
  • Blast
  • Поиск гомологов
  • ДНК или белок
  • ДНК
  • Slide 16
  • Slide 17
  • Двойная спираль
  • ДНК дальнейшая упаковка
  • Slide 20
  • Репликация ДНК
  • Slide 22
  • Slide 23
  • Slide 24
  • Slide 25
  • Множественное выравнивание последовательностей (MSA)
  • Slide 27
  • Основные предположения
  • Например
  • Почему множественное выравнивание
  • Slide 31
  • Подходы в MSA
  • MSA algorithm
  • Multiple Alignment - алгоритм
  • Комментарии
  • GCG
  • Slide 37
  • GCG
  • Slide 39
  • Slide 40
  • Slide 41
  • ClustalW
  • Slide 43
  • Slide 44
  • ClustalW на EMBL
  • ClustalW на EMBL - результат
  • ClustalW at EMBL - Jalview
  • Consensus Sequence
  • Профиль (Profile)
  • Profile vs Consensus
  • Slide 51
  • Slide 52
  • Psi Blast (NCBI)
  • PSI-Blast
  • Psi-Blast вывод
  • Slide 56
  • Филогенез
  • Slide 58
  • Slide 59
  • Slide 60
  • Slide 61
  • Древо видов и генов
  • Ортологи и паралоги
  • Шаги реконструирования филогенетического древа
  • Филогенетическое дерево
  • Зачем нужны филогенетические деревья
  • Терминология
  • Slide 68
  • Какие бывают деревья
  • Slide 70
  • Slide 71
  • Slide 72
  • 4 OTUs 3 неукорененных филогенетических деревьев
  • Slide 74
  • Slide 75
  • Slide 76
  • Slide 77
  • Рутинная процедура или как строят деревья
  • Slide 79
  • Slide 80
  • Slide 81
  • Slide 82
  • Slide 83
  • Slide 84
  • Slide 85
  • Slide 86
  • Slide 87
  • Slide 88
  • Slide 89
  • Как выбирать последовательности для дерева
  • Самое главное ndash хорошее выравнивание
  • Основные алгоритмы построения филогенетических деревьев
  • Пример матрицы расстояний
  • Slide 94
  • Гипотеза laquoмолекулярных часовraquo (EZuckerkandl LPauling 1962)
  • UPGMA Unweighted Pair Group Method with Arithmetic Mean
  • Недостатки UPGMA
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Метод Neighbor-joining
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Slide 101
  • Как изобразить дерево Топология дерева
  • Slide 103
  • Какие on-line программы строят деревья
  • MEGA филогенетический анализ последовательностей
  • Slide 106
  • Slide 107
  • Slide 108
Page 11: Bestfit Output

Попытка соединить соседние HSPs путем выравнивания последовательностей между ними

THEFIRSTLINIHAVEADREA____M_ESIRPATRICKREAD

INVIEIAMDEADMEATTNAMHEW___ASNINETEEN

Алгоритм BLAST (шаг 2)

Blastbull Blast ndash это семейство программ BlastN BlastP

BlastX tBlastN

bull BlastN - ДНК vs ДНКbull BlastP ndash белок vs белокbull BlastX - translated ДНК vs белокbull tBlastN - белок vs translated ДНК

Query ДНК Белок

Database ДНК Белок

Поиск гомологов

По ДНК или по белку

Какой поиск предпочтительней

ДНК или белок

Какая последовательность более постоянна в эволюционном плане

UCAUAC

Or

Serine -Tyrosine

ДНК

OO=P-O O

Фосфатная группаФосфатная группа

NАзотистое основаниеАзотистое основание

(A G C or T)(A G C or T)

CH2

O

C1C4

C3 C2

5

СахарСахар(дезоксирибоза)(дезоксирибоза)

ДНК

ДНК

ДНК состоит из двух цепей нуклеотидов ДНК состоит из двух цепей нуклеотидов соединённых попарносоединённых попарно

ADENINEADENINE ndash ndash THYMINETHYMINE

CYTOSINECYTOSINE - - GUANINEGUANINE

Правило комплементарностиПравило комплементарности

Двойная спиральДвойная спираль

P

P

P

O

O

O

1

23

4

5

5

3

3

5

P

P

PO

O

O

1

2 3

4

5

5

3

5

3

G C

T A

ДНК дальнейшая упаковка

ДНК

Функции ДНК mdash наследственность и изменчивость

Репликация ДНК

Репликация ДНК

bull Генетический код избыточен ndash почти все аминокислоты кодируются более чем 1 кодоном (тройка нуклеотидов)

bull Последовательность ДНК может меняться в то время как последовательность белка остается постоянной

Ser-Tyrhellip

UCAUAC UCUUAC UCGUAC Uhelliphellip

Поиск гомологов

bull Нуклеотиды ndash 4-х буквенный алфавитbull Аминокислоты ndash 20-и буквенный алфавит

Две случайные последовательности ДНК будут идентичны ~ 25Две случайные белковые последовательности будут идентичны ~ 5

Поиск гомологов

Матрицы для сравнения белков более чувствительны чем матрицы для ДНК

Базы данных ДНК намного больше белковых rarr будут случайные совпадения

Поиск гомологов

Использование белковых последовательностей более предпочтительно при поиске гомологов

Поиск гомологов

Множественное выравнивание последовательностей (MSA)

VTISCTGSSSNIGAG-NHVKWYQQLPGVTISCTGTSSNIGS--ITVNWYQQLPGLRLSCSSSGFIFSS--YAMYWVRQAPGLSLTCTVSGTSFDD--YYSTWVRQPPGPEVTCVVVDVSHEDPQVKFNWYVDG--ATLVCLISDFYPGA--VTVAWKADS--AALGCLVKDYFPEP--VTVSWNSG---VSLTCLVKGFYPSD--IAVEWWSNG--

Основные предположения

bull Гены фиксированы сохранены у очень широкого круга биологических видов у совершенно различных представителей laquoдрева жизниraquo

bull Фиксированный генетический код для белков вероятно несёт похожие зачастую идентичные функции

Например

bull Гистоны небольшие белки присутствуют у всех эукариот

Демонстрируют выраженное постоянство последовательности в MSA

Постоянство структуры и функции (упаковка DNA)

Почему множественное выравнивание

Позволяет дать характеристику семействам белков найти общие участки гомологов

Например семейство Serine protease семейство отвечающее за катализ гидролиз пептидных связей

bull Одинаковые активные центры

bull Общие участка последовательности

bull MSA ndash это первый предварительный шаг к анализу в области молекулярной эволюции и построения эволюционных деревьев

bull База для филогенеза ndash данные молекулярной биологии или морфологические данные

Подходы в MSA

2 разных подходаndash 1D sequence based ndash сравнение

последовательностейndash 2D-3D based ndash выравнивание базирующееся на

структуре

MSA algorithm

bull Попарное выравнивание всех последовательностей (pairwise alignment)

bull Кластерный анализ данных парного выравнивания для получения иерархии выравниваний (guide tree)

bull Построение множественного выравнивания (MSA) пошагово в соответствии с guide tree сначала выравнивают наиболее похожие пары затем добавляют остальные и тд

Multiple Alignment - алгоритм

(1) Парное выравнивание (подготовка guide tree)

6 pairwise alignments

then cluster analysis

(2) Множественное выравнивание следуя древу из п 1

successive alignments

Комментарии

bull Парное выравнивание - оптимальный алгоритм

bull Множественное выравнивание не является оптимальным алгоритмом Вполне могут существовать и лучшие выравнивания

bull Редакторы выравниваний могут быть полезны для корректировки

GCG

Pileup глобальный MSA

pileup [list of sequence names]

pileup hemoglobin_list

1 The sign means that the file contains a list of names

2 The list can include names from the userrsquos directory or code names (accession numbers) from the GCG databases

GCGПример входного файла

swhbb_human

swhbb_rat

swhbb_mouse

Hemoglobin_Alpha

Hemoglobin_Gamma

Hemogolibin_Delta

Syntax the file starts with ldquordquo

Sequences from the databases

Sequences from the userrsquos directory

GCG PileUp creates a multiple sequence alignment from a group of relatedsequences using progressive pairwise alignments It can also plot atree showing the clustering relationships used to create the alignment

1 IPNS_STRJU 329 aa 2 IPNS_STRCL 329 aa 3 IPNS_CEPAC 338 aa 4 IPNS_NOCLA 328 aa

What is the gap creation penalty ( 8 ) What is the gap extension penalty ( 2 )

This program can display the clustering relationships graphically Do you want to A) Plot to a FIGURE file called pileupfigure B) Plot graphics on HP7550 attached to devtty15 C) Suppress the plot Please choose one ( A ) c What should I call the output file name ( ipnsmsf )

Determining pairwise similarity scores

1 x 2 443 1 x 3 312 1 x 4 412 2 x 3 294 2 x 4 405 3 x 4 309

Aligning

Total sequences 4 Alignment length 338 CPU time 0021

Output filedatausersracheliothersracheliipnsmsf

Regular GCG syntaxDefault parametersoutput file etc

GCGAA_MULTIPLE_ALIGNMENT 10PileUp of ipnsfil

Symbol comparison table GenRunDatablosum62cmp CompCheck 1102 GapWeight 8 GapLengthWeight 2 ipnsmsf MSF 338 Type P March 14 2002 0929 Check 7631

Name IPNS_STRJU Len 338 Check 6344 Weight 100 Name IPNS_STRCL Len 338 Check 4249 Weight 100 Name IPNS_NOCLA Len 338 Check 7020 Weight 100 Name IPNS_CEPAC Len 338 Check 18 Weight 100

1 50IPNS_STRJU ~MPILMPSAE VPTIDISPLS GDDAKAKQRV AQEINKAARG SGFFYASNHGIPNS_STRCL ~MPVLMPSAH VPTIDISPLF GTDAAAKKRV AEEIHGACRG SGFFYATNHGIPNS_NOCLA ~~~MKMPSAE VPTIDVSPLF GDDAQEKVRV GQEINKACRG SGFFYAANHGIPNS_CEPAC MGSVPVPVAN VPRIDVSPLF GDDKEKKLEV ARAIDAASRD TGFFYAVNHG

51 100IPNS_STRJU VDVQLLQDVV NEFHRNMSDQ EKHDLAINAY NKDNPHVRN GYYKAIKGKKIPNS_STRCL VDVQQLQDVV NEFHGAMTDQ EKHDLAIHAY NPDNPHVRN GYYKAVPGRKIPNS_NOCLA VDVQRLQDVV NEFHRTMSPQ EKYDLAIHAY NKNNSHVRN GYYMAIEGKKIPNS_CEPAC VDLPWLSRET NKFHMSITDE EKWQLAIRAY NKEHESQIRA GYYLPIPGKK

Output filemsf format

GCG

Prettybox генерирует графический файл из файла MSA

prettybox [MSA file]

prettybox hemoglobinsmsf

1 The ldquordquo is a syntax sign meaning all the sequences in the MSA file

2 Can also calculate the consensus sequence

GCG

ClustalWbull Очень известная и широко распространённая

программа UNIX Internet Windows

bull Выполняет MSA может строить филогенетические деревья

bull Входной файл ndash формат multi-fasta

ClustalW

bull tofasta list

gtIPNS_STRJU P18286

MPILMPSAEVPTIDISPLSGDDAKAKQRVAQEINKAARGSGFFYASNHGVDVQLLQDVVN

EFHRNMSDQEKHDLAINAYNKDNPHVRNGYYKAIKGKKAVESFCYLNPSFSDDHPMIKSE

TPMHEVNLWPDEEKHPRFRPFCEDYYRQLLRLSTVIMRGYALALGRREDFFDEALAEADT

LSSVSLIRYPYLEEYPPVKTGADGTKLSFEDHLDVSMITVLYQTEVQNLQVETVDGWQDI

PRSDEDFLVNCGTYMGHITHDYFPAPNHRVKFINAERLSLPFFLNAGHNSVIEPFVPEGA

AGTVKNPTTSYGEYLQHGLRALIVKNGQT

gtIPNS_STRCL P10621

MPVLMPSAHVPTIDISPLFGTDAAAKKRVAEEIHGACRGSGFFYATNHGVDVQQLQDVVN

EFHGAMTDQEKHDLAIHAYNPDNPHVRNGYYKAVPGRKAVESFCYLNPDFGEDHPMIAAG

TPMHEVNLWPDEERHPRFRPFCEGYYRQMLKLSTVLMRGLALALGRPEHFFDAALAEQDS

LSSVSLIRYPYLEEYPPVKTGPDGQLLSFEDHLDVSMITVLFQTQVQNLQVETVDGWRDI

PTSENDFLVNCGTYMAHVTNDYFPAPNHRVKFVNAERLSLPFFLNGGHEAVIEPFVPEGA

SEEVRNEALSYGDYLQHGLRALIVKNGQT

input fileMulti-fasta

Making the file in unix

ClustalWCLUSTAL W (17) multiple sequence alignment

IPNS_STRJU -MPILMPSAEVPTIDISPLSGDDAKAKQRVAQEINKAARGSGFFYASNHGVDVQLLQDVVIPNS_STRGR -MPIPMLPAHVPTIDISPLSGGDADDKKRVAQEINKACRESGFFYASHHGIDVQLLKDVVIPNS_FLASS ----MNRHADVPVIDISGLSGNDMDVKKDIAARIDRACRGSGFFYAANHGVDLAALQKFTIPNS_PENCH --MASTPKANVPKIDVSPLFGDNMEEKMKVARAIDAASRDTGFFYAVNHGVDVKRLSNKTIPNS_CEPAC MGSVPVPVANVPRIDVSPLFGDDKEKKLEVARAIDAASRDTGFFYAVNHGVDLPWLSRET

IPNS_STRJU NEFHRNMSDQEKHDLAINAYNKDNP-HVRNGYYKAIKGKKAVESFCYLNPSFSDDHPMIKIPNS_STRGR NEFHRTMTDEEKYDLAINAYNKNNP-RTRNGYYMAVKGKKAVESWCYLNPSFSEDHPQIRIPNS_FLASS TDWHMAMSAEEKWELAIRAYNPANP-RNRNGYYMAVEGKKANESFCYLNPSFDADHATIKIPNS_PENCH REFHFSITDEEKWDLAIRAYNKEHQDQIRAGYYLSIPEKKAVESFCYLNPNFKPDHPLIQIPNS_CEPAC NKFHMSITDEEKWQLAIRAYNKEHESQIRAGYYLPIPGKKAVESFCYLNPSFSPDHPRIK

Выходной файл aln format

httpwwwebiacukhelpformatshtml

форматы

ClustalW на EMBL

ClustalW на EMBL - результат

ClustalW at EMBL - Jalview

Conservation

Consensus Sequence

Мы можем вывести consensus sequence из результатов MSA The consensus sequence содержит наиболее часто встречающийся символ в кажной колонке выравнивания

A T C T T G T

A A C T T G T

A A C T T C T

A A C T T G T

Ещё пара терминовhelliphellip

Профиль (Profile)

Также возможно вывести статистическую модель описывающую MSA Профиль содержит информацию о символах в каждом столбце выравнивания

A T C T T G T

A A C T T G T

A A C T T C T

1 2 3 4 5 6

A 1 067 0 0

T 0 033 1 1

C 0 0 0 0

G 0 0 0 0

Profile vs Consensus

Consensus каждая позиция отражает наиболее часто встречающийся символ

Profile каждая позиция отражает частоту символа в данной позиции

Profile vs Consensus

Данный MSA будет иметь одинаковый consensus

A A C T T G C

A A G T C G T

C A C T T C T

A A C T T G T

A A C T T G T

A A C T T C T

A A C T T G T

Profile vs Consensus

Но разный профиль

A A C T T G C

A A G T C G T

C A C T T C T

A A C T T G T

A A C T T G T

A A C T T C T

1 2 3 4 5 6

A 066 1 0 0

T 0 0 0 1

C 033 0 066 0

G 0 0 033 0

1 2 3 4 5 6

A 1 1 0 0

T 0 0 0 1

C 0 0 1 0

G 0 0 0 0

Psi Blast (NCBI)

Position Specific Iterated ndash автоматизированный поиск по профилю

Regular blast

Construct profile from blast results

Blast profile search

Final results

PSI-Blast

Psi-Blast вывод

Проблема формулировки выводов при использовании МSA

1 Сайт выглядит общим (фиксированным) из-за того что это ndash близкородственные последовательности

2 Сайт выглядит общим из-за того что это ndash исключительно жизненно важный сайт

ФилогенезЭволюция ndash случайный процесс с неслучайным результатом

Цели филогенетического исследования

bull Реконструкция корректных генеалогических связей

между биологическими объектами

bull Оценка времени расхождения организмов

bull Определение порядка эволюционных событий в процессе

эволюции

Формат Newick

((A(BC))(DE))

Типы данных

Molecular (DNA RNA proteins)

Morphological (soft tissue hard tissue extant extinct)

Преимущества молекулярных данных

bull Наследуемость

bull Недвусмысленность в описании молекулярных характеристик

bull Поддаются количественному анализу

bull Оценка гомологии легче чем морфологические исследования

bull Данных много

Древо видов и геновbull Древо видов ndash эволюционные взаимосвязи

между видами (видообразование)bull Древо генов

Page RDM and Cotton JC (2000) GeneTree a tool for exploring gene family evolution In D Sankoff and J Nadeau (eds) Comparative Genomics Empirical and Analytical Approaches to Gene Order Dynamics Map Alignment and the Evolution of Gene Families Kluwer Academic Publishers Dordrecht pp 525-536

Figure 2 (a) Incongruent gene and species trees This incongruence can be explained by hypothesizing a gene duplication (h) at the base of the gene tree (b)The presence of only a single gene (a-d) extant in each of the present-day species(1-4) requires postulating three gene losses (c) The corresponding reconciled tree

Ортологи и паралоги

bull Гены-паралоги ndash событие дупликация (and

bull Гены-ортологи ndash событие видообразования (in the two species and in the two species

Duplication

Speciation

Species a Species b

Шаги реконструирования филогенетического

древа

1 Выбор последовательностей и поиск гомологов

2 MSA3 Матрица белков4 Филогенетическое дерево

Филогенетическое дерево

Филогения - раздел биологии изучающий родственные взаимоотношения разных групп живых организмов Филогению отображается обычно в виде эволюционных древ или систематических названий

Зачем нужны филогенетические деревья

Биологические задачи

сравнение 3-х и более объектов (кто на кого более похож )

реконструкция эволюции (кто от кого как и когда произошелhellip)

ТерминологияУзел (node) mdash точка разделения предковой последовательности(вида популяции) на две независимо эволюционирующиеСоответствует внутренней вершине графа изображающего эволюциюЛист (leaf OTU ndash оперативная таксономическая единица) mdash реальный (современный) объект внешняя вершина графаВетвь (branch) mdash связь между узлами или между узлом и листом ребро графаКорень (root) mdash общий предокКлада (clade) - группа двух или более таксонов или последователь-ностей ДНК которая включает как своего общего предка так и всех его потомков

OTU

HTU (hypotetical taxonomic unit)

Какие бывают деревья

Бинарное (разрешённое)(в один момент времени может

произойти только одно событие )

Небинарное (неразрешённое) (может ли в один момент времени

произойти два события )

Время

Какие бывают деревья

Укорененное дерево (rooted tree)отражает направление эволюции

Неукорененное (бескорневое) дерево(unrooted tree) показывает только связи между узлами

Время

Если число листьев равно n существует (2n-3)разных бинарных укоренных деревьевПо определению (2n-3) = 1middot3 middot middot(2n-3)

Существует (2n-5) разных бескорневых деревьев с n листьями

Rooting

A C B B C AA B C

3 OTUs 3 OTUs 1 н 1 неукорененное деревоеукорененное дерево 33 укорененных деревьев укорененных деревьев

A

B

C

D

C

A

B

4 OTUs 4 OTUs 3 3 неукорененных филогенетических неукорененных филогенетических деревьевдеревьев

D

B

A

C C

B

A

D

4 OTUs

15 укорененных

деревьев

Количество Количество Количество

OTU укорененных неукорененных

2 1 13 3 14 15 35 105 156 954 1057 103959548 135135 103959 2027025 13513510 34459425 202702511 654729075 3445942512 13749310575 654729075

Количество возможных деревьев

Рутинная процедура или как строят деревья

Составление выборки последовательностей

Множественное выравнивание

Построение дерева фрагмент записи в виде скобочной формулы

Визуализация и редактура дерева

(((((con1013851018(f539692826973((f67220839851max42750591)492893con923019677)1362315)953075)2583145

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Множественное выравнивание

Matches

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Multiple Alignment

Matches

Mismatches

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Multiple Alignment

Matches

Mismatches

Gaps

Seq 1 A G C G A GSeq 1 A G C G A GSeq 2 G C G G A CSeq 2 G C G G A C

Шаг 3 Перевод количества расхождений в индексы замен

Distance Matrix

Units количество замен нуклеотидов на 1000

Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86

Rice 00 118 122 122

Mosquito 00 55 51

Monkey 00 3

Human 00

Шаг 4 построение филогенетического дерева

Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86

Rice 00 118 122 122

Mosquito 00 55 51

Monkey 00 3

Human 00

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Дистанция между человеком и обезьяной минимальна Эти группы объединяются в Monkey-Human а все остальные дистанции пересчитываются

Dist[Spinach MonHum] = (Dist[Spinach Monkey] +

Dist[Spinach Human])2 = (91 + 86)2 = 885

Spinach Rice Mosquito Mon-HumSpinach 00 9 106 885

Rice 00 118 122

Mosquito 00 53

Mon-Hum 00

Редуцированная матрица дистанций

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Spi-Ric

HumanMosquito

Mon-Hum

MonkeySpinachRice

Mos-Mon-Hum

Spi-Ric

Mos-Mon-Hum-Spi-Ric

Как выбирать последовательности для дерева

Кроме случаев очень близких последовательностей проще работать с белками (а не с ДНК)

Придерживайтесь небольшой выборки (lt 50 последовательностей)

Избегайтеndash фрагментовndash Ксенологов (горизонтальный перенос генов)ndash рекомбинантных последовательностейndash многодоменных белков и повторов

Используйте outgroup (последовательность ответвившаяся от общего предка заведомо (но минимально) раньше разделения интересующих групп-клад)

Самое главное ndash хорошее выравнивание

Максимальный вклад в финальное дерево нельзя построить хорошее дерево по плохому выравниванию

Блоки содержащие много гэпов плохо выровненные N- и C- концы можно просто вырезать

Основные алгоритмы построения филогенетических деревьев

Методы основанные на оценке

расстояний (матричные методы)

bull UPGMA (кластеризация)

bull Neighbor-joining

bull Минимальная эволюция

Наибольшего правдоподобия Maximal likelihood ML Используется модель эволюции и строится дерево которое наиболее правдоподобно при данной модели

Максимальной экономии (бережливости)

maximal parsimony MP Выбирается дерево с минимальным количеством

мутаций необходимых для объяснения данных

Пример матрицы расстояний

1 2 3 4 5 6 7 8 000 1053 977 1278 1203 1654 1353 2500 HUMAN 1

000 902 1203 977 1579 902 2727 HORSE 2 000 977 902 1654 1203 2424 RABIT 3

000 226 1729 1053 2576 MOUSE 4 000 1579 827 2576 RAT 5

000 1053 2955 BOVIN 6 000 2500 PIG 7

000 CHICK 8

Расстояние (уровень дивергенции) между соответствующими последовательностями из геномов мыши и свиньи

Как понимать расстояние между объектами

bull Как время в течение которого они эволюционировалиbull Как число laquoэволюционных событийraquo (мутаций)

В первом случае объекты образуют ультраметрическое пространство(если все объекты наблюдаются в одно время что как правило верно)

Но время непосредственно измерить невозможно

Гипотеза laquoмолекулярных часовraquo(EZuckerkandl LPauling 1962)

За равное время во всех ветвях эволюции данного генабелка накапливается равное число мутацийЕсли гипотеза молекулярных часов

принимается число различий между выровненными последовательностями можно считать примерно пропорциональным времени Отклонения от ультраметричности можно считать случайными Эволюция реконструируется в виде ультраметрического дерева

Укоренённое дерево называется ультраметрическим если расстояние от корня до любого из листьев одинаково

UPGMAUnweighted Pair Group Method with Arithmetic Mean

разновидность кластерного метода

Расстояние между кластерами вычисляется как среднее арифметическое всевозможных расстояний между последовательностями из кластеров

Недостатки UPGMA

Алгоритм строит ультраметрическое дерево ndash скорость эволюции предполагается одинаковой для всех ветвей дерева Использовать этот алгоритм имеет смысл только в случае ультраметрических данных (справедливости laquoмолекулярных часовraquo)

Реальное дерево UPGMA

Метод ближайших соседей (Neighbor-joining NJ)

Строит неукоренённое дерево

Может работать с большим количеством данных

Достаточно быстрый

Если есть недвусмысленное с точки зрения эксперта дерево то оно будет построено

Метод Neighbor-joining

Рисуем laquoзвездноеraquo дерево и будем laquoотщипыватьraquo от него по паре листьев

Пусть ui = Σk Mik(n-2) mdash среднее расстояние от листа i до других

листьев

1 Рассмотрим все возможные пары листьев Выберем 2 листа i и j с минимальным значением величины

Mij ndash ui ndashuj

те выбираем 2 узла которые близки друг к другу но далеки ото всех остальных

Метод ближайших соседей (Neighbor-joining NJ)

2 Кластер (i j) ndash новый узел дерева

Расстояние от i или от j до узла (ij) D(i (ij)) = 05middot(Mij + ui ndash uj) D(j (ij)) = 05middot (Mij + uj ndash ui) те длина ветви зависит от среднего расстояния до других вершин

3 Вычисляем расстояние от нового кластера до всех других

M(ij)k = Mik+Mjk ndash Mij 2

5 В матрице М убираем i и j и добавляем (i j) Повторяем пока не останутся 3 узла

Input MSA для n последовательностей одна последовательность для каждого вида

AAAAATC

AAAAAAG

CCCCCCG

AAAAATCAAAAAAG

CCCCCCG

Длинная ветвь ndash непохоже на правду

Длинная ветвь -Похоже на правду

Методы основанные на последовательностях Maximum Likelihood (ML) Maximum Parsimony (MP)

Как изобразить дерево Топология дерева

Топология дерева mdash только листья узлы (корень) и связывающие их ветви (топология не зависит от способа изображения дерева)

A

B

C

D

E A BC D E

Два изображения одной и той же топологии

Bacterium 1

Bacterium 3

Bacterium 2

Eukaryote 1

Eukaryote 4

Eukaryote 3

Eukaryote 2

Bacterium 1

Bacterium 3Bacterium 2

Eukaryote 1

Eukaryote 4Eukaryote 3

Eukaryote 2

Филограммы ndash длины ветвей

пропорциональны

эволюционному расстоянию

Кладограммы и филограммы

Кладограммы ndash только

топологя Длины ветвей не

учитываются

6

31

2

46

24

53

Как можно нарисовать построенное дерево

Какие on-line программы строят деревья

ClustalW ldquoTree typerdquo ndash nj phylip строит только методом NJ но результат ndash в разных форматах no bootstraps

Phylip (Felsenstein 1993) ndash пакет программ для построения филогенетических деревьев (stand-alone)On-line (partly) например

httpbiowebpasteurfrseqanalphylogenyphylip-ukhtml PAUP (Phylogenetic Analysis Using Parsimony)

MEGA филогенетический анализ последовательностей

httpwwwmegasoftwarenet

Эволюция ndash исторический процесс

Из 8200794532637891559375 деревьев для 20 OTUs 1

является верным и 8200794532637891559374

неверны

Truth is one falsehoods are many

Какое из 8200794532637891559375

деревьев истинно

Мы не знаем Можно применить иные критетии

Например ldquoпохожесть=родствоraquo

GCGbull Строковый поиск простой текстовый

поиск по локальной базе данных

bull Поиск в определениях или в аннотациях

bull Определения содержат минимальное количество информации для каждой статьи доступ имя организма имя гена длина последовательности дата

  • Bestfit Output
  • SP1 at swissprot
  • EGR1 at swissprot
  • Вывод
  • Bl2Seq at NCBI
  • Bl2seq results
  • Bl2seq оценка
  • Оптимизация времени вычислений при парном выравнивании
  • Slide 9
  • Алгоритм BLAST (шаг 1)
  • Slide 11
  • Blast
  • Поиск гомологов
  • ДНК или белок
  • ДНК
  • Slide 16
  • Slide 17
  • Двойная спираль
  • ДНК дальнейшая упаковка
  • Slide 20
  • Репликация ДНК
  • Slide 22
  • Slide 23
  • Slide 24
  • Slide 25
  • Множественное выравнивание последовательностей (MSA)
  • Slide 27
  • Основные предположения
  • Например
  • Почему множественное выравнивание
  • Slide 31
  • Подходы в MSA
  • MSA algorithm
  • Multiple Alignment - алгоритм
  • Комментарии
  • GCG
  • Slide 37
  • GCG
  • Slide 39
  • Slide 40
  • Slide 41
  • ClustalW
  • Slide 43
  • Slide 44
  • ClustalW на EMBL
  • ClustalW на EMBL - результат
  • ClustalW at EMBL - Jalview
  • Consensus Sequence
  • Профиль (Profile)
  • Profile vs Consensus
  • Slide 51
  • Slide 52
  • Psi Blast (NCBI)
  • PSI-Blast
  • Psi-Blast вывод
  • Slide 56
  • Филогенез
  • Slide 58
  • Slide 59
  • Slide 60
  • Slide 61
  • Древо видов и генов
  • Ортологи и паралоги
  • Шаги реконструирования филогенетического древа
  • Филогенетическое дерево
  • Зачем нужны филогенетические деревья
  • Терминология
  • Slide 68
  • Какие бывают деревья
  • Slide 70
  • Slide 71
  • Slide 72
  • 4 OTUs 3 неукорененных филогенетических деревьев
  • Slide 74
  • Slide 75
  • Slide 76
  • Slide 77
  • Рутинная процедура или как строят деревья
  • Slide 79
  • Slide 80
  • Slide 81
  • Slide 82
  • Slide 83
  • Slide 84
  • Slide 85
  • Slide 86
  • Slide 87
  • Slide 88
  • Slide 89
  • Как выбирать последовательности для дерева
  • Самое главное ndash хорошее выравнивание
  • Основные алгоритмы построения филогенетических деревьев
  • Пример матрицы расстояний
  • Slide 94
  • Гипотеза laquoмолекулярных часовraquo (EZuckerkandl LPauling 1962)
  • UPGMA Unweighted Pair Group Method with Arithmetic Mean
  • Недостатки UPGMA
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Метод Neighbor-joining
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Slide 101
  • Как изобразить дерево Топология дерева
  • Slide 103
  • Какие on-line программы строят деревья
  • MEGA филогенетический анализ последовательностей
  • Slide 106
  • Slide 107
  • Slide 108
Page 12: Bestfit Output

Blastbull Blast ndash это семейство программ BlastN BlastP

BlastX tBlastN

bull BlastN - ДНК vs ДНКbull BlastP ndash белок vs белокbull BlastX - translated ДНК vs белокbull tBlastN - белок vs translated ДНК

Query ДНК Белок

Database ДНК Белок

Поиск гомологов

По ДНК или по белку

Какой поиск предпочтительней

ДНК или белок

Какая последовательность более постоянна в эволюционном плане

UCAUAC

Or

Serine -Tyrosine

ДНК

OO=P-O O

Фосфатная группаФосфатная группа

NАзотистое основаниеАзотистое основание

(A G C or T)(A G C or T)

CH2

O

C1C4

C3 C2

5

СахарСахар(дезоксирибоза)(дезоксирибоза)

ДНК

ДНК

ДНК состоит из двух цепей нуклеотидов ДНК состоит из двух цепей нуклеотидов соединённых попарносоединённых попарно

ADENINEADENINE ndash ndash THYMINETHYMINE

CYTOSINECYTOSINE - - GUANINEGUANINE

Правило комплементарностиПравило комплементарности

Двойная спиральДвойная спираль

P

P

P

O

O

O

1

23

4

5

5

3

3

5

P

P

PO

O

O

1

2 3

4

5

5

3

5

3

G C

T A

ДНК дальнейшая упаковка

ДНК

Функции ДНК mdash наследственность и изменчивость

Репликация ДНК

Репликация ДНК

bull Генетический код избыточен ndash почти все аминокислоты кодируются более чем 1 кодоном (тройка нуклеотидов)

bull Последовательность ДНК может меняться в то время как последовательность белка остается постоянной

Ser-Tyrhellip

UCAUAC UCUUAC UCGUAC Uhelliphellip

Поиск гомологов

bull Нуклеотиды ndash 4-х буквенный алфавитbull Аминокислоты ndash 20-и буквенный алфавит

Две случайные последовательности ДНК будут идентичны ~ 25Две случайные белковые последовательности будут идентичны ~ 5

Поиск гомологов

Матрицы для сравнения белков более чувствительны чем матрицы для ДНК

Базы данных ДНК намного больше белковых rarr будут случайные совпадения

Поиск гомологов

Использование белковых последовательностей более предпочтительно при поиске гомологов

Поиск гомологов

Множественное выравнивание последовательностей (MSA)

VTISCTGSSSNIGAG-NHVKWYQQLPGVTISCTGTSSNIGS--ITVNWYQQLPGLRLSCSSSGFIFSS--YAMYWVRQAPGLSLTCTVSGTSFDD--YYSTWVRQPPGPEVTCVVVDVSHEDPQVKFNWYVDG--ATLVCLISDFYPGA--VTVAWKADS--AALGCLVKDYFPEP--VTVSWNSG---VSLTCLVKGFYPSD--IAVEWWSNG--

Основные предположения

bull Гены фиксированы сохранены у очень широкого круга биологических видов у совершенно различных представителей laquoдрева жизниraquo

bull Фиксированный генетический код для белков вероятно несёт похожие зачастую идентичные функции

Например

bull Гистоны небольшие белки присутствуют у всех эукариот

Демонстрируют выраженное постоянство последовательности в MSA

Постоянство структуры и функции (упаковка DNA)

Почему множественное выравнивание

Позволяет дать характеристику семействам белков найти общие участки гомологов

Например семейство Serine protease семейство отвечающее за катализ гидролиз пептидных связей

bull Одинаковые активные центры

bull Общие участка последовательности

bull MSA ndash это первый предварительный шаг к анализу в области молекулярной эволюции и построения эволюционных деревьев

bull База для филогенеза ndash данные молекулярной биологии или морфологические данные

Подходы в MSA

2 разных подходаndash 1D sequence based ndash сравнение

последовательностейndash 2D-3D based ndash выравнивание базирующееся на

структуре

MSA algorithm

bull Попарное выравнивание всех последовательностей (pairwise alignment)

bull Кластерный анализ данных парного выравнивания для получения иерархии выравниваний (guide tree)

bull Построение множественного выравнивания (MSA) пошагово в соответствии с guide tree сначала выравнивают наиболее похожие пары затем добавляют остальные и тд

Multiple Alignment - алгоритм

(1) Парное выравнивание (подготовка guide tree)

6 pairwise alignments

then cluster analysis

(2) Множественное выравнивание следуя древу из п 1

successive alignments

Комментарии

bull Парное выравнивание - оптимальный алгоритм

bull Множественное выравнивание не является оптимальным алгоритмом Вполне могут существовать и лучшие выравнивания

bull Редакторы выравниваний могут быть полезны для корректировки

GCG

Pileup глобальный MSA

pileup [list of sequence names]

pileup hemoglobin_list

1 The sign means that the file contains a list of names

2 The list can include names from the userrsquos directory or code names (accession numbers) from the GCG databases

GCGПример входного файла

swhbb_human

swhbb_rat

swhbb_mouse

Hemoglobin_Alpha

Hemoglobin_Gamma

Hemogolibin_Delta

Syntax the file starts with ldquordquo

Sequences from the databases

Sequences from the userrsquos directory

GCG PileUp creates a multiple sequence alignment from a group of relatedsequences using progressive pairwise alignments It can also plot atree showing the clustering relationships used to create the alignment

1 IPNS_STRJU 329 aa 2 IPNS_STRCL 329 aa 3 IPNS_CEPAC 338 aa 4 IPNS_NOCLA 328 aa

What is the gap creation penalty ( 8 ) What is the gap extension penalty ( 2 )

This program can display the clustering relationships graphically Do you want to A) Plot to a FIGURE file called pileupfigure B) Plot graphics on HP7550 attached to devtty15 C) Suppress the plot Please choose one ( A ) c What should I call the output file name ( ipnsmsf )

Determining pairwise similarity scores

1 x 2 443 1 x 3 312 1 x 4 412 2 x 3 294 2 x 4 405 3 x 4 309

Aligning

Total sequences 4 Alignment length 338 CPU time 0021

Output filedatausersracheliothersracheliipnsmsf

Regular GCG syntaxDefault parametersoutput file etc

GCGAA_MULTIPLE_ALIGNMENT 10PileUp of ipnsfil

Symbol comparison table GenRunDatablosum62cmp CompCheck 1102 GapWeight 8 GapLengthWeight 2 ipnsmsf MSF 338 Type P March 14 2002 0929 Check 7631

Name IPNS_STRJU Len 338 Check 6344 Weight 100 Name IPNS_STRCL Len 338 Check 4249 Weight 100 Name IPNS_NOCLA Len 338 Check 7020 Weight 100 Name IPNS_CEPAC Len 338 Check 18 Weight 100

1 50IPNS_STRJU ~MPILMPSAE VPTIDISPLS GDDAKAKQRV AQEINKAARG SGFFYASNHGIPNS_STRCL ~MPVLMPSAH VPTIDISPLF GTDAAAKKRV AEEIHGACRG SGFFYATNHGIPNS_NOCLA ~~~MKMPSAE VPTIDVSPLF GDDAQEKVRV GQEINKACRG SGFFYAANHGIPNS_CEPAC MGSVPVPVAN VPRIDVSPLF GDDKEKKLEV ARAIDAASRD TGFFYAVNHG

51 100IPNS_STRJU VDVQLLQDVV NEFHRNMSDQ EKHDLAINAY NKDNPHVRN GYYKAIKGKKIPNS_STRCL VDVQQLQDVV NEFHGAMTDQ EKHDLAIHAY NPDNPHVRN GYYKAVPGRKIPNS_NOCLA VDVQRLQDVV NEFHRTMSPQ EKYDLAIHAY NKNNSHVRN GYYMAIEGKKIPNS_CEPAC VDLPWLSRET NKFHMSITDE EKWQLAIRAY NKEHESQIRA GYYLPIPGKK

Output filemsf format

GCG

Prettybox генерирует графический файл из файла MSA

prettybox [MSA file]

prettybox hemoglobinsmsf

1 The ldquordquo is a syntax sign meaning all the sequences in the MSA file

2 Can also calculate the consensus sequence

GCG

ClustalWbull Очень известная и широко распространённая

программа UNIX Internet Windows

bull Выполняет MSA может строить филогенетические деревья

bull Входной файл ndash формат multi-fasta

ClustalW

bull tofasta list

gtIPNS_STRJU P18286

MPILMPSAEVPTIDISPLSGDDAKAKQRVAQEINKAARGSGFFYASNHGVDVQLLQDVVN

EFHRNMSDQEKHDLAINAYNKDNPHVRNGYYKAIKGKKAVESFCYLNPSFSDDHPMIKSE

TPMHEVNLWPDEEKHPRFRPFCEDYYRQLLRLSTVIMRGYALALGRREDFFDEALAEADT

LSSVSLIRYPYLEEYPPVKTGADGTKLSFEDHLDVSMITVLYQTEVQNLQVETVDGWQDI

PRSDEDFLVNCGTYMGHITHDYFPAPNHRVKFINAERLSLPFFLNAGHNSVIEPFVPEGA

AGTVKNPTTSYGEYLQHGLRALIVKNGQT

gtIPNS_STRCL P10621

MPVLMPSAHVPTIDISPLFGTDAAAKKRVAEEIHGACRGSGFFYATNHGVDVQQLQDVVN

EFHGAMTDQEKHDLAIHAYNPDNPHVRNGYYKAVPGRKAVESFCYLNPDFGEDHPMIAAG

TPMHEVNLWPDEERHPRFRPFCEGYYRQMLKLSTVLMRGLALALGRPEHFFDAALAEQDS

LSSVSLIRYPYLEEYPPVKTGPDGQLLSFEDHLDVSMITVLFQTQVQNLQVETVDGWRDI

PTSENDFLVNCGTYMAHVTNDYFPAPNHRVKFVNAERLSLPFFLNGGHEAVIEPFVPEGA

SEEVRNEALSYGDYLQHGLRALIVKNGQT

input fileMulti-fasta

Making the file in unix

ClustalWCLUSTAL W (17) multiple sequence alignment

IPNS_STRJU -MPILMPSAEVPTIDISPLSGDDAKAKQRVAQEINKAARGSGFFYASNHGVDVQLLQDVVIPNS_STRGR -MPIPMLPAHVPTIDISPLSGGDADDKKRVAQEINKACRESGFFYASHHGIDVQLLKDVVIPNS_FLASS ----MNRHADVPVIDISGLSGNDMDVKKDIAARIDRACRGSGFFYAANHGVDLAALQKFTIPNS_PENCH --MASTPKANVPKIDVSPLFGDNMEEKMKVARAIDAASRDTGFFYAVNHGVDVKRLSNKTIPNS_CEPAC MGSVPVPVANVPRIDVSPLFGDDKEKKLEVARAIDAASRDTGFFYAVNHGVDLPWLSRET

IPNS_STRJU NEFHRNMSDQEKHDLAINAYNKDNP-HVRNGYYKAIKGKKAVESFCYLNPSFSDDHPMIKIPNS_STRGR NEFHRTMTDEEKYDLAINAYNKNNP-RTRNGYYMAVKGKKAVESWCYLNPSFSEDHPQIRIPNS_FLASS TDWHMAMSAEEKWELAIRAYNPANP-RNRNGYYMAVEGKKANESFCYLNPSFDADHATIKIPNS_PENCH REFHFSITDEEKWDLAIRAYNKEHQDQIRAGYYLSIPEKKAVESFCYLNPNFKPDHPLIQIPNS_CEPAC NKFHMSITDEEKWQLAIRAYNKEHESQIRAGYYLPIPGKKAVESFCYLNPSFSPDHPRIK

Выходной файл aln format

httpwwwebiacukhelpformatshtml

форматы

ClustalW на EMBL

ClustalW на EMBL - результат

ClustalW at EMBL - Jalview

Conservation

Consensus Sequence

Мы можем вывести consensus sequence из результатов MSA The consensus sequence содержит наиболее часто встречающийся символ в кажной колонке выравнивания

A T C T T G T

A A C T T G T

A A C T T C T

A A C T T G T

Ещё пара терминовhelliphellip

Профиль (Profile)

Также возможно вывести статистическую модель описывающую MSA Профиль содержит информацию о символах в каждом столбце выравнивания

A T C T T G T

A A C T T G T

A A C T T C T

1 2 3 4 5 6

A 1 067 0 0

T 0 033 1 1

C 0 0 0 0

G 0 0 0 0

Profile vs Consensus

Consensus каждая позиция отражает наиболее часто встречающийся символ

Profile каждая позиция отражает частоту символа в данной позиции

Profile vs Consensus

Данный MSA будет иметь одинаковый consensus

A A C T T G C

A A G T C G T

C A C T T C T

A A C T T G T

A A C T T G T

A A C T T C T

A A C T T G T

Profile vs Consensus

Но разный профиль

A A C T T G C

A A G T C G T

C A C T T C T

A A C T T G T

A A C T T G T

A A C T T C T

1 2 3 4 5 6

A 066 1 0 0

T 0 0 0 1

C 033 0 066 0

G 0 0 033 0

1 2 3 4 5 6

A 1 1 0 0

T 0 0 0 1

C 0 0 1 0

G 0 0 0 0

Psi Blast (NCBI)

Position Specific Iterated ndash автоматизированный поиск по профилю

Regular blast

Construct profile from blast results

Blast profile search

Final results

PSI-Blast

Psi-Blast вывод

Проблема формулировки выводов при использовании МSA

1 Сайт выглядит общим (фиксированным) из-за того что это ndash близкородственные последовательности

2 Сайт выглядит общим из-за того что это ndash исключительно жизненно важный сайт

ФилогенезЭволюция ndash случайный процесс с неслучайным результатом

Цели филогенетического исследования

bull Реконструкция корректных генеалогических связей

между биологическими объектами

bull Оценка времени расхождения организмов

bull Определение порядка эволюционных событий в процессе

эволюции

Формат Newick

((A(BC))(DE))

Типы данных

Molecular (DNA RNA proteins)

Morphological (soft tissue hard tissue extant extinct)

Преимущества молекулярных данных

bull Наследуемость

bull Недвусмысленность в описании молекулярных характеристик

bull Поддаются количественному анализу

bull Оценка гомологии легче чем морфологические исследования

bull Данных много

Древо видов и геновbull Древо видов ndash эволюционные взаимосвязи

между видами (видообразование)bull Древо генов

Page RDM and Cotton JC (2000) GeneTree a tool for exploring gene family evolution In D Sankoff and J Nadeau (eds) Comparative Genomics Empirical and Analytical Approaches to Gene Order Dynamics Map Alignment and the Evolution of Gene Families Kluwer Academic Publishers Dordrecht pp 525-536

Figure 2 (a) Incongruent gene and species trees This incongruence can be explained by hypothesizing a gene duplication (h) at the base of the gene tree (b)The presence of only a single gene (a-d) extant in each of the present-day species(1-4) requires postulating three gene losses (c) The corresponding reconciled tree

Ортологи и паралоги

bull Гены-паралоги ndash событие дупликация (and

bull Гены-ортологи ndash событие видообразования (in the two species and in the two species

Duplication

Speciation

Species a Species b

Шаги реконструирования филогенетического

древа

1 Выбор последовательностей и поиск гомологов

2 MSA3 Матрица белков4 Филогенетическое дерево

Филогенетическое дерево

Филогения - раздел биологии изучающий родственные взаимоотношения разных групп живых организмов Филогению отображается обычно в виде эволюционных древ или систематических названий

Зачем нужны филогенетические деревья

Биологические задачи

сравнение 3-х и более объектов (кто на кого более похож )

реконструкция эволюции (кто от кого как и когда произошелhellip)

ТерминологияУзел (node) mdash точка разделения предковой последовательности(вида популяции) на две независимо эволюционирующиеСоответствует внутренней вершине графа изображающего эволюциюЛист (leaf OTU ndash оперативная таксономическая единица) mdash реальный (современный) объект внешняя вершина графаВетвь (branch) mdash связь между узлами или между узлом и листом ребро графаКорень (root) mdash общий предокКлада (clade) - группа двух или более таксонов или последователь-ностей ДНК которая включает как своего общего предка так и всех его потомков

OTU

HTU (hypotetical taxonomic unit)

Какие бывают деревья

Бинарное (разрешённое)(в один момент времени может

произойти только одно событие )

Небинарное (неразрешённое) (может ли в один момент времени

произойти два события )

Время

Какие бывают деревья

Укорененное дерево (rooted tree)отражает направление эволюции

Неукорененное (бескорневое) дерево(unrooted tree) показывает только связи между узлами

Время

Если число листьев равно n существует (2n-3)разных бинарных укоренных деревьевПо определению (2n-3) = 1middot3 middot middot(2n-3)

Существует (2n-5) разных бескорневых деревьев с n листьями

Rooting

A C B B C AA B C

3 OTUs 3 OTUs 1 н 1 неукорененное деревоеукорененное дерево 33 укорененных деревьев укорененных деревьев

A

B

C

D

C

A

B

4 OTUs 4 OTUs 3 3 неукорененных филогенетических неукорененных филогенетических деревьевдеревьев

D

B

A

C C

B

A

D

4 OTUs

15 укорененных

деревьев

Количество Количество Количество

OTU укорененных неукорененных

2 1 13 3 14 15 35 105 156 954 1057 103959548 135135 103959 2027025 13513510 34459425 202702511 654729075 3445942512 13749310575 654729075

Количество возможных деревьев

Рутинная процедура или как строят деревья

Составление выборки последовательностей

Множественное выравнивание

Построение дерева фрагмент записи в виде скобочной формулы

Визуализация и редактура дерева

(((((con1013851018(f539692826973((f67220839851max42750591)492893con923019677)1362315)953075)2583145

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Множественное выравнивание

Matches

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Multiple Alignment

Matches

Mismatches

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Multiple Alignment

Matches

Mismatches

Gaps

Seq 1 A G C G A GSeq 1 A G C G A GSeq 2 G C G G A CSeq 2 G C G G A C

Шаг 3 Перевод количества расхождений в индексы замен

Distance Matrix

Units количество замен нуклеотидов на 1000

Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86

Rice 00 118 122 122

Mosquito 00 55 51

Monkey 00 3

Human 00

Шаг 4 построение филогенетического дерева

Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86

Rice 00 118 122 122

Mosquito 00 55 51

Monkey 00 3

Human 00

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Дистанция между человеком и обезьяной минимальна Эти группы объединяются в Monkey-Human а все остальные дистанции пересчитываются

Dist[Spinach MonHum] = (Dist[Spinach Monkey] +

Dist[Spinach Human])2 = (91 + 86)2 = 885

Spinach Rice Mosquito Mon-HumSpinach 00 9 106 885

Rice 00 118 122

Mosquito 00 53

Mon-Hum 00

Редуцированная матрица дистанций

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Spi-Ric

HumanMosquito

Mon-Hum

MonkeySpinachRice

Mos-Mon-Hum

Spi-Ric

Mos-Mon-Hum-Spi-Ric

Как выбирать последовательности для дерева

Кроме случаев очень близких последовательностей проще работать с белками (а не с ДНК)

Придерживайтесь небольшой выборки (lt 50 последовательностей)

Избегайтеndash фрагментовndash Ксенологов (горизонтальный перенос генов)ndash рекомбинантных последовательностейndash многодоменных белков и повторов

Используйте outgroup (последовательность ответвившаяся от общего предка заведомо (но минимально) раньше разделения интересующих групп-клад)

Самое главное ndash хорошее выравнивание

Максимальный вклад в финальное дерево нельзя построить хорошее дерево по плохому выравниванию

Блоки содержащие много гэпов плохо выровненные N- и C- концы можно просто вырезать

Основные алгоритмы построения филогенетических деревьев

Методы основанные на оценке

расстояний (матричные методы)

bull UPGMA (кластеризация)

bull Neighbor-joining

bull Минимальная эволюция

Наибольшего правдоподобия Maximal likelihood ML Используется модель эволюции и строится дерево которое наиболее правдоподобно при данной модели

Максимальной экономии (бережливости)

maximal parsimony MP Выбирается дерево с минимальным количеством

мутаций необходимых для объяснения данных

Пример матрицы расстояний

1 2 3 4 5 6 7 8 000 1053 977 1278 1203 1654 1353 2500 HUMAN 1

000 902 1203 977 1579 902 2727 HORSE 2 000 977 902 1654 1203 2424 RABIT 3

000 226 1729 1053 2576 MOUSE 4 000 1579 827 2576 RAT 5

000 1053 2955 BOVIN 6 000 2500 PIG 7

000 CHICK 8

Расстояние (уровень дивергенции) между соответствующими последовательностями из геномов мыши и свиньи

Как понимать расстояние между объектами

bull Как время в течение которого они эволюционировалиbull Как число laquoэволюционных событийraquo (мутаций)

В первом случае объекты образуют ультраметрическое пространство(если все объекты наблюдаются в одно время что как правило верно)

Но время непосредственно измерить невозможно

Гипотеза laquoмолекулярных часовraquo(EZuckerkandl LPauling 1962)

За равное время во всех ветвях эволюции данного генабелка накапливается равное число мутацийЕсли гипотеза молекулярных часов

принимается число различий между выровненными последовательностями можно считать примерно пропорциональным времени Отклонения от ультраметричности можно считать случайными Эволюция реконструируется в виде ультраметрического дерева

Укоренённое дерево называется ультраметрическим если расстояние от корня до любого из листьев одинаково

UPGMAUnweighted Pair Group Method with Arithmetic Mean

разновидность кластерного метода

Расстояние между кластерами вычисляется как среднее арифметическое всевозможных расстояний между последовательностями из кластеров

Недостатки UPGMA

Алгоритм строит ультраметрическое дерево ndash скорость эволюции предполагается одинаковой для всех ветвей дерева Использовать этот алгоритм имеет смысл только в случае ультраметрических данных (справедливости laquoмолекулярных часовraquo)

Реальное дерево UPGMA

Метод ближайших соседей (Neighbor-joining NJ)

Строит неукоренённое дерево

Может работать с большим количеством данных

Достаточно быстрый

Если есть недвусмысленное с точки зрения эксперта дерево то оно будет построено

Метод Neighbor-joining

Рисуем laquoзвездноеraquo дерево и будем laquoотщипыватьraquo от него по паре листьев

Пусть ui = Σk Mik(n-2) mdash среднее расстояние от листа i до других

листьев

1 Рассмотрим все возможные пары листьев Выберем 2 листа i и j с минимальным значением величины

Mij ndash ui ndashuj

те выбираем 2 узла которые близки друг к другу но далеки ото всех остальных

Метод ближайших соседей (Neighbor-joining NJ)

2 Кластер (i j) ndash новый узел дерева

Расстояние от i или от j до узла (ij) D(i (ij)) = 05middot(Mij + ui ndash uj) D(j (ij)) = 05middot (Mij + uj ndash ui) те длина ветви зависит от среднего расстояния до других вершин

3 Вычисляем расстояние от нового кластера до всех других

M(ij)k = Mik+Mjk ndash Mij 2

5 В матрице М убираем i и j и добавляем (i j) Повторяем пока не останутся 3 узла

Input MSA для n последовательностей одна последовательность для каждого вида

AAAAATC

AAAAAAG

CCCCCCG

AAAAATCAAAAAAG

CCCCCCG

Длинная ветвь ndash непохоже на правду

Длинная ветвь -Похоже на правду

Методы основанные на последовательностях Maximum Likelihood (ML) Maximum Parsimony (MP)

Как изобразить дерево Топология дерева

Топология дерева mdash только листья узлы (корень) и связывающие их ветви (топология не зависит от способа изображения дерева)

A

B

C

D

E A BC D E

Два изображения одной и той же топологии

Bacterium 1

Bacterium 3

Bacterium 2

Eukaryote 1

Eukaryote 4

Eukaryote 3

Eukaryote 2

Bacterium 1

Bacterium 3Bacterium 2

Eukaryote 1

Eukaryote 4Eukaryote 3

Eukaryote 2

Филограммы ndash длины ветвей

пропорциональны

эволюционному расстоянию

Кладограммы и филограммы

Кладограммы ndash только

топологя Длины ветвей не

учитываются

6

31

2

46

24

53

Как можно нарисовать построенное дерево

Какие on-line программы строят деревья

ClustalW ldquoTree typerdquo ndash nj phylip строит только методом NJ но результат ndash в разных форматах no bootstraps

Phylip (Felsenstein 1993) ndash пакет программ для построения филогенетических деревьев (stand-alone)On-line (partly) например

httpbiowebpasteurfrseqanalphylogenyphylip-ukhtml PAUP (Phylogenetic Analysis Using Parsimony)

MEGA филогенетический анализ последовательностей

httpwwwmegasoftwarenet

Эволюция ndash исторический процесс

Из 8200794532637891559375 деревьев для 20 OTUs 1

является верным и 8200794532637891559374

неверны

Truth is one falsehoods are many

Какое из 8200794532637891559375

деревьев истинно

Мы не знаем Можно применить иные критетии

Например ldquoпохожесть=родствоraquo

GCGbull Строковый поиск простой текстовый

поиск по локальной базе данных

bull Поиск в определениях или в аннотациях

bull Определения содержат минимальное количество информации для каждой статьи доступ имя организма имя гена длина последовательности дата

  • Bestfit Output
  • SP1 at swissprot
  • EGR1 at swissprot
  • Вывод
  • Bl2Seq at NCBI
  • Bl2seq results
  • Bl2seq оценка
  • Оптимизация времени вычислений при парном выравнивании
  • Slide 9
  • Алгоритм BLAST (шаг 1)
  • Slide 11
  • Blast
  • Поиск гомологов
  • ДНК или белок
  • ДНК
  • Slide 16
  • Slide 17
  • Двойная спираль
  • ДНК дальнейшая упаковка
  • Slide 20
  • Репликация ДНК
  • Slide 22
  • Slide 23
  • Slide 24
  • Slide 25
  • Множественное выравнивание последовательностей (MSA)
  • Slide 27
  • Основные предположения
  • Например
  • Почему множественное выравнивание
  • Slide 31
  • Подходы в MSA
  • MSA algorithm
  • Multiple Alignment - алгоритм
  • Комментарии
  • GCG
  • Slide 37
  • GCG
  • Slide 39
  • Slide 40
  • Slide 41
  • ClustalW
  • Slide 43
  • Slide 44
  • ClustalW на EMBL
  • ClustalW на EMBL - результат
  • ClustalW at EMBL - Jalview
  • Consensus Sequence
  • Профиль (Profile)
  • Profile vs Consensus
  • Slide 51
  • Slide 52
  • Psi Blast (NCBI)
  • PSI-Blast
  • Psi-Blast вывод
  • Slide 56
  • Филогенез
  • Slide 58
  • Slide 59
  • Slide 60
  • Slide 61
  • Древо видов и генов
  • Ортологи и паралоги
  • Шаги реконструирования филогенетического древа
  • Филогенетическое дерево
  • Зачем нужны филогенетические деревья
  • Терминология
  • Slide 68
  • Какие бывают деревья
  • Slide 70
  • Slide 71
  • Slide 72
  • 4 OTUs 3 неукорененных филогенетических деревьев
  • Slide 74
  • Slide 75
  • Slide 76
  • Slide 77
  • Рутинная процедура или как строят деревья
  • Slide 79
  • Slide 80
  • Slide 81
  • Slide 82
  • Slide 83
  • Slide 84
  • Slide 85
  • Slide 86
  • Slide 87
  • Slide 88
  • Slide 89
  • Как выбирать последовательности для дерева
  • Самое главное ndash хорошее выравнивание
  • Основные алгоритмы построения филогенетических деревьев
  • Пример матрицы расстояний
  • Slide 94
  • Гипотеза laquoмолекулярных часовraquo (EZuckerkandl LPauling 1962)
  • UPGMA Unweighted Pair Group Method with Arithmetic Mean
  • Недостатки UPGMA
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Метод Neighbor-joining
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Slide 101
  • Как изобразить дерево Топология дерева
  • Slide 103
  • Какие on-line программы строят деревья
  • MEGA филогенетический анализ последовательностей
  • Slide 106
  • Slide 107
  • Slide 108
Page 13: Bestfit Output

Поиск гомологов

По ДНК или по белку

Какой поиск предпочтительней

ДНК или белок

Какая последовательность более постоянна в эволюционном плане

UCAUAC

Or

Serine -Tyrosine

ДНК

OO=P-O O

Фосфатная группаФосфатная группа

NАзотистое основаниеАзотистое основание

(A G C or T)(A G C or T)

CH2

O

C1C4

C3 C2

5

СахарСахар(дезоксирибоза)(дезоксирибоза)

ДНК

ДНК

ДНК состоит из двух цепей нуклеотидов ДНК состоит из двух цепей нуклеотидов соединённых попарносоединённых попарно

ADENINEADENINE ndash ndash THYMINETHYMINE

CYTOSINECYTOSINE - - GUANINEGUANINE

Правило комплементарностиПравило комплементарности

Двойная спиральДвойная спираль

P

P

P

O

O

O

1

23

4

5

5

3

3

5

P

P

PO

O

O

1

2 3

4

5

5

3

5

3

G C

T A

ДНК дальнейшая упаковка

ДНК

Функции ДНК mdash наследственность и изменчивость

Репликация ДНК

Репликация ДНК

bull Генетический код избыточен ndash почти все аминокислоты кодируются более чем 1 кодоном (тройка нуклеотидов)

bull Последовательность ДНК может меняться в то время как последовательность белка остается постоянной

Ser-Tyrhellip

UCAUAC UCUUAC UCGUAC Uhelliphellip

Поиск гомологов

bull Нуклеотиды ndash 4-х буквенный алфавитbull Аминокислоты ndash 20-и буквенный алфавит

Две случайные последовательности ДНК будут идентичны ~ 25Две случайные белковые последовательности будут идентичны ~ 5

Поиск гомологов

Матрицы для сравнения белков более чувствительны чем матрицы для ДНК

Базы данных ДНК намного больше белковых rarr будут случайные совпадения

Поиск гомологов

Использование белковых последовательностей более предпочтительно при поиске гомологов

Поиск гомологов

Множественное выравнивание последовательностей (MSA)

VTISCTGSSSNIGAG-NHVKWYQQLPGVTISCTGTSSNIGS--ITVNWYQQLPGLRLSCSSSGFIFSS--YAMYWVRQAPGLSLTCTVSGTSFDD--YYSTWVRQPPGPEVTCVVVDVSHEDPQVKFNWYVDG--ATLVCLISDFYPGA--VTVAWKADS--AALGCLVKDYFPEP--VTVSWNSG---VSLTCLVKGFYPSD--IAVEWWSNG--

Основные предположения

bull Гены фиксированы сохранены у очень широкого круга биологических видов у совершенно различных представителей laquoдрева жизниraquo

bull Фиксированный генетический код для белков вероятно несёт похожие зачастую идентичные функции

Например

bull Гистоны небольшие белки присутствуют у всех эукариот

Демонстрируют выраженное постоянство последовательности в MSA

Постоянство структуры и функции (упаковка DNA)

Почему множественное выравнивание

Позволяет дать характеристику семействам белков найти общие участки гомологов

Например семейство Serine protease семейство отвечающее за катализ гидролиз пептидных связей

bull Одинаковые активные центры

bull Общие участка последовательности

bull MSA ndash это первый предварительный шаг к анализу в области молекулярной эволюции и построения эволюционных деревьев

bull База для филогенеза ndash данные молекулярной биологии или морфологические данные

Подходы в MSA

2 разных подходаndash 1D sequence based ndash сравнение

последовательностейndash 2D-3D based ndash выравнивание базирующееся на

структуре

MSA algorithm

bull Попарное выравнивание всех последовательностей (pairwise alignment)

bull Кластерный анализ данных парного выравнивания для получения иерархии выравниваний (guide tree)

bull Построение множественного выравнивания (MSA) пошагово в соответствии с guide tree сначала выравнивают наиболее похожие пары затем добавляют остальные и тд

Multiple Alignment - алгоритм

(1) Парное выравнивание (подготовка guide tree)

6 pairwise alignments

then cluster analysis

(2) Множественное выравнивание следуя древу из п 1

successive alignments

Комментарии

bull Парное выравнивание - оптимальный алгоритм

bull Множественное выравнивание не является оптимальным алгоритмом Вполне могут существовать и лучшие выравнивания

bull Редакторы выравниваний могут быть полезны для корректировки

GCG

Pileup глобальный MSA

pileup [list of sequence names]

pileup hemoglobin_list

1 The sign means that the file contains a list of names

2 The list can include names from the userrsquos directory or code names (accession numbers) from the GCG databases

GCGПример входного файла

swhbb_human

swhbb_rat

swhbb_mouse

Hemoglobin_Alpha

Hemoglobin_Gamma

Hemogolibin_Delta

Syntax the file starts with ldquordquo

Sequences from the databases

Sequences from the userrsquos directory

GCG PileUp creates a multiple sequence alignment from a group of relatedsequences using progressive pairwise alignments It can also plot atree showing the clustering relationships used to create the alignment

1 IPNS_STRJU 329 aa 2 IPNS_STRCL 329 aa 3 IPNS_CEPAC 338 aa 4 IPNS_NOCLA 328 aa

What is the gap creation penalty ( 8 ) What is the gap extension penalty ( 2 )

This program can display the clustering relationships graphically Do you want to A) Plot to a FIGURE file called pileupfigure B) Plot graphics on HP7550 attached to devtty15 C) Suppress the plot Please choose one ( A ) c What should I call the output file name ( ipnsmsf )

Determining pairwise similarity scores

1 x 2 443 1 x 3 312 1 x 4 412 2 x 3 294 2 x 4 405 3 x 4 309

Aligning

Total sequences 4 Alignment length 338 CPU time 0021

Output filedatausersracheliothersracheliipnsmsf

Regular GCG syntaxDefault parametersoutput file etc

GCGAA_MULTIPLE_ALIGNMENT 10PileUp of ipnsfil

Symbol comparison table GenRunDatablosum62cmp CompCheck 1102 GapWeight 8 GapLengthWeight 2 ipnsmsf MSF 338 Type P March 14 2002 0929 Check 7631

Name IPNS_STRJU Len 338 Check 6344 Weight 100 Name IPNS_STRCL Len 338 Check 4249 Weight 100 Name IPNS_NOCLA Len 338 Check 7020 Weight 100 Name IPNS_CEPAC Len 338 Check 18 Weight 100

1 50IPNS_STRJU ~MPILMPSAE VPTIDISPLS GDDAKAKQRV AQEINKAARG SGFFYASNHGIPNS_STRCL ~MPVLMPSAH VPTIDISPLF GTDAAAKKRV AEEIHGACRG SGFFYATNHGIPNS_NOCLA ~~~MKMPSAE VPTIDVSPLF GDDAQEKVRV GQEINKACRG SGFFYAANHGIPNS_CEPAC MGSVPVPVAN VPRIDVSPLF GDDKEKKLEV ARAIDAASRD TGFFYAVNHG

51 100IPNS_STRJU VDVQLLQDVV NEFHRNMSDQ EKHDLAINAY NKDNPHVRN GYYKAIKGKKIPNS_STRCL VDVQQLQDVV NEFHGAMTDQ EKHDLAIHAY NPDNPHVRN GYYKAVPGRKIPNS_NOCLA VDVQRLQDVV NEFHRTMSPQ EKYDLAIHAY NKNNSHVRN GYYMAIEGKKIPNS_CEPAC VDLPWLSRET NKFHMSITDE EKWQLAIRAY NKEHESQIRA GYYLPIPGKK

Output filemsf format

GCG

Prettybox генерирует графический файл из файла MSA

prettybox [MSA file]

prettybox hemoglobinsmsf

1 The ldquordquo is a syntax sign meaning all the sequences in the MSA file

2 Can also calculate the consensus sequence

GCG

ClustalWbull Очень известная и широко распространённая

программа UNIX Internet Windows

bull Выполняет MSA может строить филогенетические деревья

bull Входной файл ndash формат multi-fasta

ClustalW

bull tofasta list

gtIPNS_STRJU P18286

MPILMPSAEVPTIDISPLSGDDAKAKQRVAQEINKAARGSGFFYASNHGVDVQLLQDVVN

EFHRNMSDQEKHDLAINAYNKDNPHVRNGYYKAIKGKKAVESFCYLNPSFSDDHPMIKSE

TPMHEVNLWPDEEKHPRFRPFCEDYYRQLLRLSTVIMRGYALALGRREDFFDEALAEADT

LSSVSLIRYPYLEEYPPVKTGADGTKLSFEDHLDVSMITVLYQTEVQNLQVETVDGWQDI

PRSDEDFLVNCGTYMGHITHDYFPAPNHRVKFINAERLSLPFFLNAGHNSVIEPFVPEGA

AGTVKNPTTSYGEYLQHGLRALIVKNGQT

gtIPNS_STRCL P10621

MPVLMPSAHVPTIDISPLFGTDAAAKKRVAEEIHGACRGSGFFYATNHGVDVQQLQDVVN

EFHGAMTDQEKHDLAIHAYNPDNPHVRNGYYKAVPGRKAVESFCYLNPDFGEDHPMIAAG

TPMHEVNLWPDEERHPRFRPFCEGYYRQMLKLSTVLMRGLALALGRPEHFFDAALAEQDS

LSSVSLIRYPYLEEYPPVKTGPDGQLLSFEDHLDVSMITVLFQTQVQNLQVETVDGWRDI

PTSENDFLVNCGTYMAHVTNDYFPAPNHRVKFVNAERLSLPFFLNGGHEAVIEPFVPEGA

SEEVRNEALSYGDYLQHGLRALIVKNGQT

input fileMulti-fasta

Making the file in unix

ClustalWCLUSTAL W (17) multiple sequence alignment

IPNS_STRJU -MPILMPSAEVPTIDISPLSGDDAKAKQRVAQEINKAARGSGFFYASNHGVDVQLLQDVVIPNS_STRGR -MPIPMLPAHVPTIDISPLSGGDADDKKRVAQEINKACRESGFFYASHHGIDVQLLKDVVIPNS_FLASS ----MNRHADVPVIDISGLSGNDMDVKKDIAARIDRACRGSGFFYAANHGVDLAALQKFTIPNS_PENCH --MASTPKANVPKIDVSPLFGDNMEEKMKVARAIDAASRDTGFFYAVNHGVDVKRLSNKTIPNS_CEPAC MGSVPVPVANVPRIDVSPLFGDDKEKKLEVARAIDAASRDTGFFYAVNHGVDLPWLSRET

IPNS_STRJU NEFHRNMSDQEKHDLAINAYNKDNP-HVRNGYYKAIKGKKAVESFCYLNPSFSDDHPMIKIPNS_STRGR NEFHRTMTDEEKYDLAINAYNKNNP-RTRNGYYMAVKGKKAVESWCYLNPSFSEDHPQIRIPNS_FLASS TDWHMAMSAEEKWELAIRAYNPANP-RNRNGYYMAVEGKKANESFCYLNPSFDADHATIKIPNS_PENCH REFHFSITDEEKWDLAIRAYNKEHQDQIRAGYYLSIPEKKAVESFCYLNPNFKPDHPLIQIPNS_CEPAC NKFHMSITDEEKWQLAIRAYNKEHESQIRAGYYLPIPGKKAVESFCYLNPSFSPDHPRIK

Выходной файл aln format

httpwwwebiacukhelpformatshtml

форматы

ClustalW на EMBL

ClustalW на EMBL - результат

ClustalW at EMBL - Jalview

Conservation

Consensus Sequence

Мы можем вывести consensus sequence из результатов MSA The consensus sequence содержит наиболее часто встречающийся символ в кажной колонке выравнивания

A T C T T G T

A A C T T G T

A A C T T C T

A A C T T G T

Ещё пара терминовhelliphellip

Профиль (Profile)

Также возможно вывести статистическую модель описывающую MSA Профиль содержит информацию о символах в каждом столбце выравнивания

A T C T T G T

A A C T T G T

A A C T T C T

1 2 3 4 5 6

A 1 067 0 0

T 0 033 1 1

C 0 0 0 0

G 0 0 0 0

Profile vs Consensus

Consensus каждая позиция отражает наиболее часто встречающийся символ

Profile каждая позиция отражает частоту символа в данной позиции

Profile vs Consensus

Данный MSA будет иметь одинаковый consensus

A A C T T G C

A A G T C G T

C A C T T C T

A A C T T G T

A A C T T G T

A A C T T C T

A A C T T G T

Profile vs Consensus

Но разный профиль

A A C T T G C

A A G T C G T

C A C T T C T

A A C T T G T

A A C T T G T

A A C T T C T

1 2 3 4 5 6

A 066 1 0 0

T 0 0 0 1

C 033 0 066 0

G 0 0 033 0

1 2 3 4 5 6

A 1 1 0 0

T 0 0 0 1

C 0 0 1 0

G 0 0 0 0

Psi Blast (NCBI)

Position Specific Iterated ndash автоматизированный поиск по профилю

Regular blast

Construct profile from blast results

Blast profile search

Final results

PSI-Blast

Psi-Blast вывод

Проблема формулировки выводов при использовании МSA

1 Сайт выглядит общим (фиксированным) из-за того что это ndash близкородственные последовательности

2 Сайт выглядит общим из-за того что это ndash исключительно жизненно важный сайт

ФилогенезЭволюция ndash случайный процесс с неслучайным результатом

Цели филогенетического исследования

bull Реконструкция корректных генеалогических связей

между биологическими объектами

bull Оценка времени расхождения организмов

bull Определение порядка эволюционных событий в процессе

эволюции

Формат Newick

((A(BC))(DE))

Типы данных

Molecular (DNA RNA proteins)

Morphological (soft tissue hard tissue extant extinct)

Преимущества молекулярных данных

bull Наследуемость

bull Недвусмысленность в описании молекулярных характеристик

bull Поддаются количественному анализу

bull Оценка гомологии легче чем морфологические исследования

bull Данных много

Древо видов и геновbull Древо видов ndash эволюционные взаимосвязи

между видами (видообразование)bull Древо генов

Page RDM and Cotton JC (2000) GeneTree a tool for exploring gene family evolution In D Sankoff and J Nadeau (eds) Comparative Genomics Empirical and Analytical Approaches to Gene Order Dynamics Map Alignment and the Evolution of Gene Families Kluwer Academic Publishers Dordrecht pp 525-536

Figure 2 (a) Incongruent gene and species trees This incongruence can be explained by hypothesizing a gene duplication (h) at the base of the gene tree (b)The presence of only a single gene (a-d) extant in each of the present-day species(1-4) requires postulating three gene losses (c) The corresponding reconciled tree

Ортологи и паралоги

bull Гены-паралоги ndash событие дупликация (and

bull Гены-ортологи ndash событие видообразования (in the two species and in the two species

Duplication

Speciation

Species a Species b

Шаги реконструирования филогенетического

древа

1 Выбор последовательностей и поиск гомологов

2 MSA3 Матрица белков4 Филогенетическое дерево

Филогенетическое дерево

Филогения - раздел биологии изучающий родственные взаимоотношения разных групп живых организмов Филогению отображается обычно в виде эволюционных древ или систематических названий

Зачем нужны филогенетические деревья

Биологические задачи

сравнение 3-х и более объектов (кто на кого более похож )

реконструкция эволюции (кто от кого как и когда произошелhellip)

ТерминологияУзел (node) mdash точка разделения предковой последовательности(вида популяции) на две независимо эволюционирующиеСоответствует внутренней вершине графа изображающего эволюциюЛист (leaf OTU ndash оперативная таксономическая единица) mdash реальный (современный) объект внешняя вершина графаВетвь (branch) mdash связь между узлами или между узлом и листом ребро графаКорень (root) mdash общий предокКлада (clade) - группа двух или более таксонов или последователь-ностей ДНК которая включает как своего общего предка так и всех его потомков

OTU

HTU (hypotetical taxonomic unit)

Какие бывают деревья

Бинарное (разрешённое)(в один момент времени может

произойти только одно событие )

Небинарное (неразрешённое) (может ли в один момент времени

произойти два события )

Время

Какие бывают деревья

Укорененное дерево (rooted tree)отражает направление эволюции

Неукорененное (бескорневое) дерево(unrooted tree) показывает только связи между узлами

Время

Если число листьев равно n существует (2n-3)разных бинарных укоренных деревьевПо определению (2n-3) = 1middot3 middot middot(2n-3)

Существует (2n-5) разных бескорневых деревьев с n листьями

Rooting

A C B B C AA B C

3 OTUs 3 OTUs 1 н 1 неукорененное деревоеукорененное дерево 33 укорененных деревьев укорененных деревьев

A

B

C

D

C

A

B

4 OTUs 4 OTUs 3 3 неукорененных филогенетических неукорененных филогенетических деревьевдеревьев

D

B

A

C C

B

A

D

4 OTUs

15 укорененных

деревьев

Количество Количество Количество

OTU укорененных неукорененных

2 1 13 3 14 15 35 105 156 954 1057 103959548 135135 103959 2027025 13513510 34459425 202702511 654729075 3445942512 13749310575 654729075

Количество возможных деревьев

Рутинная процедура или как строят деревья

Составление выборки последовательностей

Множественное выравнивание

Построение дерева фрагмент записи в виде скобочной формулы

Визуализация и редактура дерева

(((((con1013851018(f539692826973((f67220839851max42750591)492893con923019677)1362315)953075)2583145

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Множественное выравнивание

Matches

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Multiple Alignment

Matches

Mismatches

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Multiple Alignment

Matches

Mismatches

Gaps

Seq 1 A G C G A GSeq 1 A G C G A GSeq 2 G C G G A CSeq 2 G C G G A C

Шаг 3 Перевод количества расхождений в индексы замен

Distance Matrix

Units количество замен нуклеотидов на 1000

Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86

Rice 00 118 122 122

Mosquito 00 55 51

Monkey 00 3

Human 00

Шаг 4 построение филогенетического дерева

Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86

Rice 00 118 122 122

Mosquito 00 55 51

Monkey 00 3

Human 00

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Дистанция между человеком и обезьяной минимальна Эти группы объединяются в Monkey-Human а все остальные дистанции пересчитываются

Dist[Spinach MonHum] = (Dist[Spinach Monkey] +

Dist[Spinach Human])2 = (91 + 86)2 = 885

Spinach Rice Mosquito Mon-HumSpinach 00 9 106 885

Rice 00 118 122

Mosquito 00 53

Mon-Hum 00

Редуцированная матрица дистанций

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Spi-Ric

HumanMosquito

Mon-Hum

MonkeySpinachRice

Mos-Mon-Hum

Spi-Ric

Mos-Mon-Hum-Spi-Ric

Как выбирать последовательности для дерева

Кроме случаев очень близких последовательностей проще работать с белками (а не с ДНК)

Придерживайтесь небольшой выборки (lt 50 последовательностей)

Избегайтеndash фрагментовndash Ксенологов (горизонтальный перенос генов)ndash рекомбинантных последовательностейndash многодоменных белков и повторов

Используйте outgroup (последовательность ответвившаяся от общего предка заведомо (но минимально) раньше разделения интересующих групп-клад)

Самое главное ndash хорошее выравнивание

Максимальный вклад в финальное дерево нельзя построить хорошее дерево по плохому выравниванию

Блоки содержащие много гэпов плохо выровненные N- и C- концы можно просто вырезать

Основные алгоритмы построения филогенетических деревьев

Методы основанные на оценке

расстояний (матричные методы)

bull UPGMA (кластеризация)

bull Neighbor-joining

bull Минимальная эволюция

Наибольшего правдоподобия Maximal likelihood ML Используется модель эволюции и строится дерево которое наиболее правдоподобно при данной модели

Максимальной экономии (бережливости)

maximal parsimony MP Выбирается дерево с минимальным количеством

мутаций необходимых для объяснения данных

Пример матрицы расстояний

1 2 3 4 5 6 7 8 000 1053 977 1278 1203 1654 1353 2500 HUMAN 1

000 902 1203 977 1579 902 2727 HORSE 2 000 977 902 1654 1203 2424 RABIT 3

000 226 1729 1053 2576 MOUSE 4 000 1579 827 2576 RAT 5

000 1053 2955 BOVIN 6 000 2500 PIG 7

000 CHICK 8

Расстояние (уровень дивергенции) между соответствующими последовательностями из геномов мыши и свиньи

Как понимать расстояние между объектами

bull Как время в течение которого они эволюционировалиbull Как число laquoэволюционных событийraquo (мутаций)

В первом случае объекты образуют ультраметрическое пространство(если все объекты наблюдаются в одно время что как правило верно)

Но время непосредственно измерить невозможно

Гипотеза laquoмолекулярных часовraquo(EZuckerkandl LPauling 1962)

За равное время во всех ветвях эволюции данного генабелка накапливается равное число мутацийЕсли гипотеза молекулярных часов

принимается число различий между выровненными последовательностями можно считать примерно пропорциональным времени Отклонения от ультраметричности можно считать случайными Эволюция реконструируется в виде ультраметрического дерева

Укоренённое дерево называется ультраметрическим если расстояние от корня до любого из листьев одинаково

UPGMAUnweighted Pair Group Method with Arithmetic Mean

разновидность кластерного метода

Расстояние между кластерами вычисляется как среднее арифметическое всевозможных расстояний между последовательностями из кластеров

Недостатки UPGMA

Алгоритм строит ультраметрическое дерево ndash скорость эволюции предполагается одинаковой для всех ветвей дерева Использовать этот алгоритм имеет смысл только в случае ультраметрических данных (справедливости laquoмолекулярных часовraquo)

Реальное дерево UPGMA

Метод ближайших соседей (Neighbor-joining NJ)

Строит неукоренённое дерево

Может работать с большим количеством данных

Достаточно быстрый

Если есть недвусмысленное с точки зрения эксперта дерево то оно будет построено

Метод Neighbor-joining

Рисуем laquoзвездноеraquo дерево и будем laquoотщипыватьraquo от него по паре листьев

Пусть ui = Σk Mik(n-2) mdash среднее расстояние от листа i до других

листьев

1 Рассмотрим все возможные пары листьев Выберем 2 листа i и j с минимальным значением величины

Mij ndash ui ndashuj

те выбираем 2 узла которые близки друг к другу но далеки ото всех остальных

Метод ближайших соседей (Neighbor-joining NJ)

2 Кластер (i j) ndash новый узел дерева

Расстояние от i или от j до узла (ij) D(i (ij)) = 05middot(Mij + ui ndash uj) D(j (ij)) = 05middot (Mij + uj ndash ui) те длина ветви зависит от среднего расстояния до других вершин

3 Вычисляем расстояние от нового кластера до всех других

M(ij)k = Mik+Mjk ndash Mij 2

5 В матрице М убираем i и j и добавляем (i j) Повторяем пока не останутся 3 узла

Input MSA для n последовательностей одна последовательность для каждого вида

AAAAATC

AAAAAAG

CCCCCCG

AAAAATCAAAAAAG

CCCCCCG

Длинная ветвь ndash непохоже на правду

Длинная ветвь -Похоже на правду

Методы основанные на последовательностях Maximum Likelihood (ML) Maximum Parsimony (MP)

Как изобразить дерево Топология дерева

Топология дерева mdash только листья узлы (корень) и связывающие их ветви (топология не зависит от способа изображения дерева)

A

B

C

D

E A BC D E

Два изображения одной и той же топологии

Bacterium 1

Bacterium 3

Bacterium 2

Eukaryote 1

Eukaryote 4

Eukaryote 3

Eukaryote 2

Bacterium 1

Bacterium 3Bacterium 2

Eukaryote 1

Eukaryote 4Eukaryote 3

Eukaryote 2

Филограммы ndash длины ветвей

пропорциональны

эволюционному расстоянию

Кладограммы и филограммы

Кладограммы ndash только

топологя Длины ветвей не

учитываются

6

31

2

46

24

53

Как можно нарисовать построенное дерево

Какие on-line программы строят деревья

ClustalW ldquoTree typerdquo ndash nj phylip строит только методом NJ но результат ndash в разных форматах no bootstraps

Phylip (Felsenstein 1993) ndash пакет программ для построения филогенетических деревьев (stand-alone)On-line (partly) например

httpbiowebpasteurfrseqanalphylogenyphylip-ukhtml PAUP (Phylogenetic Analysis Using Parsimony)

MEGA филогенетический анализ последовательностей

httpwwwmegasoftwarenet

Эволюция ndash исторический процесс

Из 8200794532637891559375 деревьев для 20 OTUs 1

является верным и 8200794532637891559374

неверны

Truth is one falsehoods are many

Какое из 8200794532637891559375

деревьев истинно

Мы не знаем Можно применить иные критетии

Например ldquoпохожесть=родствоraquo

GCGbull Строковый поиск простой текстовый

поиск по локальной базе данных

bull Поиск в определениях или в аннотациях

bull Определения содержат минимальное количество информации для каждой статьи доступ имя организма имя гена длина последовательности дата

  • Bestfit Output
  • SP1 at swissprot
  • EGR1 at swissprot
  • Вывод
  • Bl2Seq at NCBI
  • Bl2seq results
  • Bl2seq оценка
  • Оптимизация времени вычислений при парном выравнивании
  • Slide 9
  • Алгоритм BLAST (шаг 1)
  • Slide 11
  • Blast
  • Поиск гомологов
  • ДНК или белок
  • ДНК
  • Slide 16
  • Slide 17
  • Двойная спираль
  • ДНК дальнейшая упаковка
  • Slide 20
  • Репликация ДНК
  • Slide 22
  • Slide 23
  • Slide 24
  • Slide 25
  • Множественное выравнивание последовательностей (MSA)
  • Slide 27
  • Основные предположения
  • Например
  • Почему множественное выравнивание
  • Slide 31
  • Подходы в MSA
  • MSA algorithm
  • Multiple Alignment - алгоритм
  • Комментарии
  • GCG
  • Slide 37
  • GCG
  • Slide 39
  • Slide 40
  • Slide 41
  • ClustalW
  • Slide 43
  • Slide 44
  • ClustalW на EMBL
  • ClustalW на EMBL - результат
  • ClustalW at EMBL - Jalview
  • Consensus Sequence
  • Профиль (Profile)
  • Profile vs Consensus
  • Slide 51
  • Slide 52
  • Psi Blast (NCBI)
  • PSI-Blast
  • Psi-Blast вывод
  • Slide 56
  • Филогенез
  • Slide 58
  • Slide 59
  • Slide 60
  • Slide 61
  • Древо видов и генов
  • Ортологи и паралоги
  • Шаги реконструирования филогенетического древа
  • Филогенетическое дерево
  • Зачем нужны филогенетические деревья
  • Терминология
  • Slide 68
  • Какие бывают деревья
  • Slide 70
  • Slide 71
  • Slide 72
  • 4 OTUs 3 неукорененных филогенетических деревьев
  • Slide 74
  • Slide 75
  • Slide 76
  • Slide 77
  • Рутинная процедура или как строят деревья
  • Slide 79
  • Slide 80
  • Slide 81
  • Slide 82
  • Slide 83
  • Slide 84
  • Slide 85
  • Slide 86
  • Slide 87
  • Slide 88
  • Slide 89
  • Как выбирать последовательности для дерева
  • Самое главное ndash хорошее выравнивание
  • Основные алгоритмы построения филогенетических деревьев
  • Пример матрицы расстояний
  • Slide 94
  • Гипотеза laquoмолекулярных часовraquo (EZuckerkandl LPauling 1962)
  • UPGMA Unweighted Pair Group Method with Arithmetic Mean
  • Недостатки UPGMA
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Метод Neighbor-joining
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Slide 101
  • Как изобразить дерево Топология дерева
  • Slide 103
  • Какие on-line программы строят деревья
  • MEGA филогенетический анализ последовательностей
  • Slide 106
  • Slide 107
  • Slide 108
Page 14: Bestfit Output

ДНК или белок

Какая последовательность более постоянна в эволюционном плане

UCAUAC

Or

Serine -Tyrosine

ДНК

OO=P-O O

Фосфатная группаФосфатная группа

NАзотистое основаниеАзотистое основание

(A G C or T)(A G C or T)

CH2

O

C1C4

C3 C2

5

СахарСахар(дезоксирибоза)(дезоксирибоза)

ДНК

ДНК

ДНК состоит из двух цепей нуклеотидов ДНК состоит из двух цепей нуклеотидов соединённых попарносоединённых попарно

ADENINEADENINE ndash ndash THYMINETHYMINE

CYTOSINECYTOSINE - - GUANINEGUANINE

Правило комплементарностиПравило комплементарности

Двойная спиральДвойная спираль

P

P

P

O

O

O

1

23

4

5

5

3

3

5

P

P

PO

O

O

1

2 3

4

5

5

3

5

3

G C

T A

ДНК дальнейшая упаковка

ДНК

Функции ДНК mdash наследственность и изменчивость

Репликация ДНК

Репликация ДНК

bull Генетический код избыточен ndash почти все аминокислоты кодируются более чем 1 кодоном (тройка нуклеотидов)

bull Последовательность ДНК может меняться в то время как последовательность белка остается постоянной

Ser-Tyrhellip

UCAUAC UCUUAC UCGUAC Uhelliphellip

Поиск гомологов

bull Нуклеотиды ndash 4-х буквенный алфавитbull Аминокислоты ndash 20-и буквенный алфавит

Две случайные последовательности ДНК будут идентичны ~ 25Две случайные белковые последовательности будут идентичны ~ 5

Поиск гомологов

Матрицы для сравнения белков более чувствительны чем матрицы для ДНК

Базы данных ДНК намного больше белковых rarr будут случайные совпадения

Поиск гомологов

Использование белковых последовательностей более предпочтительно при поиске гомологов

Поиск гомологов

Множественное выравнивание последовательностей (MSA)

VTISCTGSSSNIGAG-NHVKWYQQLPGVTISCTGTSSNIGS--ITVNWYQQLPGLRLSCSSSGFIFSS--YAMYWVRQAPGLSLTCTVSGTSFDD--YYSTWVRQPPGPEVTCVVVDVSHEDPQVKFNWYVDG--ATLVCLISDFYPGA--VTVAWKADS--AALGCLVKDYFPEP--VTVSWNSG---VSLTCLVKGFYPSD--IAVEWWSNG--

Основные предположения

bull Гены фиксированы сохранены у очень широкого круга биологических видов у совершенно различных представителей laquoдрева жизниraquo

bull Фиксированный генетический код для белков вероятно несёт похожие зачастую идентичные функции

Например

bull Гистоны небольшие белки присутствуют у всех эукариот

Демонстрируют выраженное постоянство последовательности в MSA

Постоянство структуры и функции (упаковка DNA)

Почему множественное выравнивание

Позволяет дать характеристику семействам белков найти общие участки гомологов

Например семейство Serine protease семейство отвечающее за катализ гидролиз пептидных связей

bull Одинаковые активные центры

bull Общие участка последовательности

bull MSA ndash это первый предварительный шаг к анализу в области молекулярной эволюции и построения эволюционных деревьев

bull База для филогенеза ndash данные молекулярной биологии или морфологические данные

Подходы в MSA

2 разных подходаndash 1D sequence based ndash сравнение

последовательностейndash 2D-3D based ndash выравнивание базирующееся на

структуре

MSA algorithm

bull Попарное выравнивание всех последовательностей (pairwise alignment)

bull Кластерный анализ данных парного выравнивания для получения иерархии выравниваний (guide tree)

bull Построение множественного выравнивания (MSA) пошагово в соответствии с guide tree сначала выравнивают наиболее похожие пары затем добавляют остальные и тд

Multiple Alignment - алгоритм

(1) Парное выравнивание (подготовка guide tree)

6 pairwise alignments

then cluster analysis

(2) Множественное выравнивание следуя древу из п 1

successive alignments

Комментарии

bull Парное выравнивание - оптимальный алгоритм

bull Множественное выравнивание не является оптимальным алгоритмом Вполне могут существовать и лучшие выравнивания

bull Редакторы выравниваний могут быть полезны для корректировки

GCG

Pileup глобальный MSA

pileup [list of sequence names]

pileup hemoglobin_list

1 The sign means that the file contains a list of names

2 The list can include names from the userrsquos directory or code names (accession numbers) from the GCG databases

GCGПример входного файла

swhbb_human

swhbb_rat

swhbb_mouse

Hemoglobin_Alpha

Hemoglobin_Gamma

Hemogolibin_Delta

Syntax the file starts with ldquordquo

Sequences from the databases

Sequences from the userrsquos directory

GCG PileUp creates a multiple sequence alignment from a group of relatedsequences using progressive pairwise alignments It can also plot atree showing the clustering relationships used to create the alignment

1 IPNS_STRJU 329 aa 2 IPNS_STRCL 329 aa 3 IPNS_CEPAC 338 aa 4 IPNS_NOCLA 328 aa

What is the gap creation penalty ( 8 ) What is the gap extension penalty ( 2 )

This program can display the clustering relationships graphically Do you want to A) Plot to a FIGURE file called pileupfigure B) Plot graphics on HP7550 attached to devtty15 C) Suppress the plot Please choose one ( A ) c What should I call the output file name ( ipnsmsf )

Determining pairwise similarity scores

1 x 2 443 1 x 3 312 1 x 4 412 2 x 3 294 2 x 4 405 3 x 4 309

Aligning

Total sequences 4 Alignment length 338 CPU time 0021

Output filedatausersracheliothersracheliipnsmsf

Regular GCG syntaxDefault parametersoutput file etc

GCGAA_MULTIPLE_ALIGNMENT 10PileUp of ipnsfil

Symbol comparison table GenRunDatablosum62cmp CompCheck 1102 GapWeight 8 GapLengthWeight 2 ipnsmsf MSF 338 Type P March 14 2002 0929 Check 7631

Name IPNS_STRJU Len 338 Check 6344 Weight 100 Name IPNS_STRCL Len 338 Check 4249 Weight 100 Name IPNS_NOCLA Len 338 Check 7020 Weight 100 Name IPNS_CEPAC Len 338 Check 18 Weight 100

1 50IPNS_STRJU ~MPILMPSAE VPTIDISPLS GDDAKAKQRV AQEINKAARG SGFFYASNHGIPNS_STRCL ~MPVLMPSAH VPTIDISPLF GTDAAAKKRV AEEIHGACRG SGFFYATNHGIPNS_NOCLA ~~~MKMPSAE VPTIDVSPLF GDDAQEKVRV GQEINKACRG SGFFYAANHGIPNS_CEPAC MGSVPVPVAN VPRIDVSPLF GDDKEKKLEV ARAIDAASRD TGFFYAVNHG

51 100IPNS_STRJU VDVQLLQDVV NEFHRNMSDQ EKHDLAINAY NKDNPHVRN GYYKAIKGKKIPNS_STRCL VDVQQLQDVV NEFHGAMTDQ EKHDLAIHAY NPDNPHVRN GYYKAVPGRKIPNS_NOCLA VDVQRLQDVV NEFHRTMSPQ EKYDLAIHAY NKNNSHVRN GYYMAIEGKKIPNS_CEPAC VDLPWLSRET NKFHMSITDE EKWQLAIRAY NKEHESQIRA GYYLPIPGKK

Output filemsf format

GCG

Prettybox генерирует графический файл из файла MSA

prettybox [MSA file]

prettybox hemoglobinsmsf

1 The ldquordquo is a syntax sign meaning all the sequences in the MSA file

2 Can also calculate the consensus sequence

GCG

ClustalWbull Очень известная и широко распространённая

программа UNIX Internet Windows

bull Выполняет MSA может строить филогенетические деревья

bull Входной файл ndash формат multi-fasta

ClustalW

bull tofasta list

gtIPNS_STRJU P18286

MPILMPSAEVPTIDISPLSGDDAKAKQRVAQEINKAARGSGFFYASNHGVDVQLLQDVVN

EFHRNMSDQEKHDLAINAYNKDNPHVRNGYYKAIKGKKAVESFCYLNPSFSDDHPMIKSE

TPMHEVNLWPDEEKHPRFRPFCEDYYRQLLRLSTVIMRGYALALGRREDFFDEALAEADT

LSSVSLIRYPYLEEYPPVKTGADGTKLSFEDHLDVSMITVLYQTEVQNLQVETVDGWQDI

PRSDEDFLVNCGTYMGHITHDYFPAPNHRVKFINAERLSLPFFLNAGHNSVIEPFVPEGA

AGTVKNPTTSYGEYLQHGLRALIVKNGQT

gtIPNS_STRCL P10621

MPVLMPSAHVPTIDISPLFGTDAAAKKRVAEEIHGACRGSGFFYATNHGVDVQQLQDVVN

EFHGAMTDQEKHDLAIHAYNPDNPHVRNGYYKAVPGRKAVESFCYLNPDFGEDHPMIAAG

TPMHEVNLWPDEERHPRFRPFCEGYYRQMLKLSTVLMRGLALALGRPEHFFDAALAEQDS

LSSVSLIRYPYLEEYPPVKTGPDGQLLSFEDHLDVSMITVLFQTQVQNLQVETVDGWRDI

PTSENDFLVNCGTYMAHVTNDYFPAPNHRVKFVNAERLSLPFFLNGGHEAVIEPFVPEGA

SEEVRNEALSYGDYLQHGLRALIVKNGQT

input fileMulti-fasta

Making the file in unix

ClustalWCLUSTAL W (17) multiple sequence alignment

IPNS_STRJU -MPILMPSAEVPTIDISPLSGDDAKAKQRVAQEINKAARGSGFFYASNHGVDVQLLQDVVIPNS_STRGR -MPIPMLPAHVPTIDISPLSGGDADDKKRVAQEINKACRESGFFYASHHGIDVQLLKDVVIPNS_FLASS ----MNRHADVPVIDISGLSGNDMDVKKDIAARIDRACRGSGFFYAANHGVDLAALQKFTIPNS_PENCH --MASTPKANVPKIDVSPLFGDNMEEKMKVARAIDAASRDTGFFYAVNHGVDVKRLSNKTIPNS_CEPAC MGSVPVPVANVPRIDVSPLFGDDKEKKLEVARAIDAASRDTGFFYAVNHGVDLPWLSRET

IPNS_STRJU NEFHRNMSDQEKHDLAINAYNKDNP-HVRNGYYKAIKGKKAVESFCYLNPSFSDDHPMIKIPNS_STRGR NEFHRTMTDEEKYDLAINAYNKNNP-RTRNGYYMAVKGKKAVESWCYLNPSFSEDHPQIRIPNS_FLASS TDWHMAMSAEEKWELAIRAYNPANP-RNRNGYYMAVEGKKANESFCYLNPSFDADHATIKIPNS_PENCH REFHFSITDEEKWDLAIRAYNKEHQDQIRAGYYLSIPEKKAVESFCYLNPNFKPDHPLIQIPNS_CEPAC NKFHMSITDEEKWQLAIRAYNKEHESQIRAGYYLPIPGKKAVESFCYLNPSFSPDHPRIK

Выходной файл aln format

httpwwwebiacukhelpformatshtml

форматы

ClustalW на EMBL

ClustalW на EMBL - результат

ClustalW at EMBL - Jalview

Conservation

Consensus Sequence

Мы можем вывести consensus sequence из результатов MSA The consensus sequence содержит наиболее часто встречающийся символ в кажной колонке выравнивания

A T C T T G T

A A C T T G T

A A C T T C T

A A C T T G T

Ещё пара терминовhelliphellip

Профиль (Profile)

Также возможно вывести статистическую модель описывающую MSA Профиль содержит информацию о символах в каждом столбце выравнивания

A T C T T G T

A A C T T G T

A A C T T C T

1 2 3 4 5 6

A 1 067 0 0

T 0 033 1 1

C 0 0 0 0

G 0 0 0 0

Profile vs Consensus

Consensus каждая позиция отражает наиболее часто встречающийся символ

Profile каждая позиция отражает частоту символа в данной позиции

Profile vs Consensus

Данный MSA будет иметь одинаковый consensus

A A C T T G C

A A G T C G T

C A C T T C T

A A C T T G T

A A C T T G T

A A C T T C T

A A C T T G T

Profile vs Consensus

Но разный профиль

A A C T T G C

A A G T C G T

C A C T T C T

A A C T T G T

A A C T T G T

A A C T T C T

1 2 3 4 5 6

A 066 1 0 0

T 0 0 0 1

C 033 0 066 0

G 0 0 033 0

1 2 3 4 5 6

A 1 1 0 0

T 0 0 0 1

C 0 0 1 0

G 0 0 0 0

Psi Blast (NCBI)

Position Specific Iterated ndash автоматизированный поиск по профилю

Regular blast

Construct profile from blast results

Blast profile search

Final results

PSI-Blast

Psi-Blast вывод

Проблема формулировки выводов при использовании МSA

1 Сайт выглядит общим (фиксированным) из-за того что это ndash близкородственные последовательности

2 Сайт выглядит общим из-за того что это ndash исключительно жизненно важный сайт

ФилогенезЭволюция ndash случайный процесс с неслучайным результатом

Цели филогенетического исследования

bull Реконструкция корректных генеалогических связей

между биологическими объектами

bull Оценка времени расхождения организмов

bull Определение порядка эволюционных событий в процессе

эволюции

Формат Newick

((A(BC))(DE))

Типы данных

Molecular (DNA RNA proteins)

Morphological (soft tissue hard tissue extant extinct)

Преимущества молекулярных данных

bull Наследуемость

bull Недвусмысленность в описании молекулярных характеристик

bull Поддаются количественному анализу

bull Оценка гомологии легче чем морфологические исследования

bull Данных много

Древо видов и геновbull Древо видов ndash эволюционные взаимосвязи

между видами (видообразование)bull Древо генов

Page RDM and Cotton JC (2000) GeneTree a tool for exploring gene family evolution In D Sankoff and J Nadeau (eds) Comparative Genomics Empirical and Analytical Approaches to Gene Order Dynamics Map Alignment and the Evolution of Gene Families Kluwer Academic Publishers Dordrecht pp 525-536

Figure 2 (a) Incongruent gene and species trees This incongruence can be explained by hypothesizing a gene duplication (h) at the base of the gene tree (b)The presence of only a single gene (a-d) extant in each of the present-day species(1-4) requires postulating three gene losses (c) The corresponding reconciled tree

Ортологи и паралоги

bull Гены-паралоги ndash событие дупликация (and

bull Гены-ортологи ndash событие видообразования (in the two species and in the two species

Duplication

Speciation

Species a Species b

Шаги реконструирования филогенетического

древа

1 Выбор последовательностей и поиск гомологов

2 MSA3 Матрица белков4 Филогенетическое дерево

Филогенетическое дерево

Филогения - раздел биологии изучающий родственные взаимоотношения разных групп живых организмов Филогению отображается обычно в виде эволюционных древ или систематических названий

Зачем нужны филогенетические деревья

Биологические задачи

сравнение 3-х и более объектов (кто на кого более похож )

реконструкция эволюции (кто от кого как и когда произошелhellip)

ТерминологияУзел (node) mdash точка разделения предковой последовательности(вида популяции) на две независимо эволюционирующиеСоответствует внутренней вершине графа изображающего эволюциюЛист (leaf OTU ndash оперативная таксономическая единица) mdash реальный (современный) объект внешняя вершина графаВетвь (branch) mdash связь между узлами или между узлом и листом ребро графаКорень (root) mdash общий предокКлада (clade) - группа двух или более таксонов или последователь-ностей ДНК которая включает как своего общего предка так и всех его потомков

OTU

HTU (hypotetical taxonomic unit)

Какие бывают деревья

Бинарное (разрешённое)(в один момент времени может

произойти только одно событие )

Небинарное (неразрешённое) (может ли в один момент времени

произойти два события )

Время

Какие бывают деревья

Укорененное дерево (rooted tree)отражает направление эволюции

Неукорененное (бескорневое) дерево(unrooted tree) показывает только связи между узлами

Время

Если число листьев равно n существует (2n-3)разных бинарных укоренных деревьевПо определению (2n-3) = 1middot3 middot middot(2n-3)

Существует (2n-5) разных бескорневых деревьев с n листьями

Rooting

A C B B C AA B C

3 OTUs 3 OTUs 1 н 1 неукорененное деревоеукорененное дерево 33 укорененных деревьев укорененных деревьев

A

B

C

D

C

A

B

4 OTUs 4 OTUs 3 3 неукорененных филогенетических неукорененных филогенетических деревьевдеревьев

D

B

A

C C

B

A

D

4 OTUs

15 укорененных

деревьев

Количество Количество Количество

OTU укорененных неукорененных

2 1 13 3 14 15 35 105 156 954 1057 103959548 135135 103959 2027025 13513510 34459425 202702511 654729075 3445942512 13749310575 654729075

Количество возможных деревьев

Рутинная процедура или как строят деревья

Составление выборки последовательностей

Множественное выравнивание

Построение дерева фрагмент записи в виде скобочной формулы

Визуализация и редактура дерева

(((((con1013851018(f539692826973((f67220839851max42750591)492893con923019677)1362315)953075)2583145

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Множественное выравнивание

Matches

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Multiple Alignment

Matches

Mismatches

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Multiple Alignment

Matches

Mismatches

Gaps

Seq 1 A G C G A GSeq 1 A G C G A GSeq 2 G C G G A CSeq 2 G C G G A C

Шаг 3 Перевод количества расхождений в индексы замен

Distance Matrix

Units количество замен нуклеотидов на 1000

Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86

Rice 00 118 122 122

Mosquito 00 55 51

Monkey 00 3

Human 00

Шаг 4 построение филогенетического дерева

Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86

Rice 00 118 122 122

Mosquito 00 55 51

Monkey 00 3

Human 00

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Дистанция между человеком и обезьяной минимальна Эти группы объединяются в Monkey-Human а все остальные дистанции пересчитываются

Dist[Spinach MonHum] = (Dist[Spinach Monkey] +

Dist[Spinach Human])2 = (91 + 86)2 = 885

Spinach Rice Mosquito Mon-HumSpinach 00 9 106 885

Rice 00 118 122

Mosquito 00 53

Mon-Hum 00

Редуцированная матрица дистанций

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Spi-Ric

HumanMosquito

Mon-Hum

MonkeySpinachRice

Mos-Mon-Hum

Spi-Ric

Mos-Mon-Hum-Spi-Ric

Как выбирать последовательности для дерева

Кроме случаев очень близких последовательностей проще работать с белками (а не с ДНК)

Придерживайтесь небольшой выборки (lt 50 последовательностей)

Избегайтеndash фрагментовndash Ксенологов (горизонтальный перенос генов)ndash рекомбинантных последовательностейndash многодоменных белков и повторов

Используйте outgroup (последовательность ответвившаяся от общего предка заведомо (но минимально) раньше разделения интересующих групп-клад)

Самое главное ndash хорошее выравнивание

Максимальный вклад в финальное дерево нельзя построить хорошее дерево по плохому выравниванию

Блоки содержащие много гэпов плохо выровненные N- и C- концы можно просто вырезать

Основные алгоритмы построения филогенетических деревьев

Методы основанные на оценке

расстояний (матричные методы)

bull UPGMA (кластеризация)

bull Neighbor-joining

bull Минимальная эволюция

Наибольшего правдоподобия Maximal likelihood ML Используется модель эволюции и строится дерево которое наиболее правдоподобно при данной модели

Максимальной экономии (бережливости)

maximal parsimony MP Выбирается дерево с минимальным количеством

мутаций необходимых для объяснения данных

Пример матрицы расстояний

1 2 3 4 5 6 7 8 000 1053 977 1278 1203 1654 1353 2500 HUMAN 1

000 902 1203 977 1579 902 2727 HORSE 2 000 977 902 1654 1203 2424 RABIT 3

000 226 1729 1053 2576 MOUSE 4 000 1579 827 2576 RAT 5

000 1053 2955 BOVIN 6 000 2500 PIG 7

000 CHICK 8

Расстояние (уровень дивергенции) между соответствующими последовательностями из геномов мыши и свиньи

Как понимать расстояние между объектами

bull Как время в течение которого они эволюционировалиbull Как число laquoэволюционных событийraquo (мутаций)

В первом случае объекты образуют ультраметрическое пространство(если все объекты наблюдаются в одно время что как правило верно)

Но время непосредственно измерить невозможно

Гипотеза laquoмолекулярных часовraquo(EZuckerkandl LPauling 1962)

За равное время во всех ветвях эволюции данного генабелка накапливается равное число мутацийЕсли гипотеза молекулярных часов

принимается число различий между выровненными последовательностями можно считать примерно пропорциональным времени Отклонения от ультраметричности можно считать случайными Эволюция реконструируется в виде ультраметрического дерева

Укоренённое дерево называется ультраметрическим если расстояние от корня до любого из листьев одинаково

UPGMAUnweighted Pair Group Method with Arithmetic Mean

разновидность кластерного метода

Расстояние между кластерами вычисляется как среднее арифметическое всевозможных расстояний между последовательностями из кластеров

Недостатки UPGMA

Алгоритм строит ультраметрическое дерево ndash скорость эволюции предполагается одинаковой для всех ветвей дерева Использовать этот алгоритм имеет смысл только в случае ультраметрических данных (справедливости laquoмолекулярных часовraquo)

Реальное дерево UPGMA

Метод ближайших соседей (Neighbor-joining NJ)

Строит неукоренённое дерево

Может работать с большим количеством данных

Достаточно быстрый

Если есть недвусмысленное с точки зрения эксперта дерево то оно будет построено

Метод Neighbor-joining

Рисуем laquoзвездноеraquo дерево и будем laquoотщипыватьraquo от него по паре листьев

Пусть ui = Σk Mik(n-2) mdash среднее расстояние от листа i до других

листьев

1 Рассмотрим все возможные пары листьев Выберем 2 листа i и j с минимальным значением величины

Mij ndash ui ndashuj

те выбираем 2 узла которые близки друг к другу но далеки ото всех остальных

Метод ближайших соседей (Neighbor-joining NJ)

2 Кластер (i j) ndash новый узел дерева

Расстояние от i или от j до узла (ij) D(i (ij)) = 05middot(Mij + ui ndash uj) D(j (ij)) = 05middot (Mij + uj ndash ui) те длина ветви зависит от среднего расстояния до других вершин

3 Вычисляем расстояние от нового кластера до всех других

M(ij)k = Mik+Mjk ndash Mij 2

5 В матрице М убираем i и j и добавляем (i j) Повторяем пока не останутся 3 узла

Input MSA для n последовательностей одна последовательность для каждого вида

AAAAATC

AAAAAAG

CCCCCCG

AAAAATCAAAAAAG

CCCCCCG

Длинная ветвь ndash непохоже на правду

Длинная ветвь -Похоже на правду

Методы основанные на последовательностях Maximum Likelihood (ML) Maximum Parsimony (MP)

Как изобразить дерево Топология дерева

Топология дерева mdash только листья узлы (корень) и связывающие их ветви (топология не зависит от способа изображения дерева)

A

B

C

D

E A BC D E

Два изображения одной и той же топологии

Bacterium 1

Bacterium 3

Bacterium 2

Eukaryote 1

Eukaryote 4

Eukaryote 3

Eukaryote 2

Bacterium 1

Bacterium 3Bacterium 2

Eukaryote 1

Eukaryote 4Eukaryote 3

Eukaryote 2

Филограммы ndash длины ветвей

пропорциональны

эволюционному расстоянию

Кладограммы и филограммы

Кладограммы ndash только

топологя Длины ветвей не

учитываются

6

31

2

46

24

53

Как можно нарисовать построенное дерево

Какие on-line программы строят деревья

ClustalW ldquoTree typerdquo ndash nj phylip строит только методом NJ но результат ndash в разных форматах no bootstraps

Phylip (Felsenstein 1993) ndash пакет программ для построения филогенетических деревьев (stand-alone)On-line (partly) например

httpbiowebpasteurfrseqanalphylogenyphylip-ukhtml PAUP (Phylogenetic Analysis Using Parsimony)

MEGA филогенетический анализ последовательностей

httpwwwmegasoftwarenet

Эволюция ndash исторический процесс

Из 8200794532637891559375 деревьев для 20 OTUs 1

является верным и 8200794532637891559374

неверны

Truth is one falsehoods are many

Какое из 8200794532637891559375

деревьев истинно

Мы не знаем Можно применить иные критетии

Например ldquoпохожесть=родствоraquo

GCGbull Строковый поиск простой текстовый

поиск по локальной базе данных

bull Поиск в определениях или в аннотациях

bull Определения содержат минимальное количество информации для каждой статьи доступ имя организма имя гена длина последовательности дата

  • Bestfit Output
  • SP1 at swissprot
  • EGR1 at swissprot
  • Вывод
  • Bl2Seq at NCBI
  • Bl2seq results
  • Bl2seq оценка
  • Оптимизация времени вычислений при парном выравнивании
  • Slide 9
  • Алгоритм BLAST (шаг 1)
  • Slide 11
  • Blast
  • Поиск гомологов
  • ДНК или белок
  • ДНК
  • Slide 16
  • Slide 17
  • Двойная спираль
  • ДНК дальнейшая упаковка
  • Slide 20
  • Репликация ДНК
  • Slide 22
  • Slide 23
  • Slide 24
  • Slide 25
  • Множественное выравнивание последовательностей (MSA)
  • Slide 27
  • Основные предположения
  • Например
  • Почему множественное выравнивание
  • Slide 31
  • Подходы в MSA
  • MSA algorithm
  • Multiple Alignment - алгоритм
  • Комментарии
  • GCG
  • Slide 37
  • GCG
  • Slide 39
  • Slide 40
  • Slide 41
  • ClustalW
  • Slide 43
  • Slide 44
  • ClustalW на EMBL
  • ClustalW на EMBL - результат
  • ClustalW at EMBL - Jalview
  • Consensus Sequence
  • Профиль (Profile)
  • Profile vs Consensus
  • Slide 51
  • Slide 52
  • Psi Blast (NCBI)
  • PSI-Blast
  • Psi-Blast вывод
  • Slide 56
  • Филогенез
  • Slide 58
  • Slide 59
  • Slide 60
  • Slide 61
  • Древо видов и генов
  • Ортологи и паралоги
  • Шаги реконструирования филогенетического древа
  • Филогенетическое дерево
  • Зачем нужны филогенетические деревья
  • Терминология
  • Slide 68
  • Какие бывают деревья
  • Slide 70
  • Slide 71
  • Slide 72
  • 4 OTUs 3 неукорененных филогенетических деревьев
  • Slide 74
  • Slide 75
  • Slide 76
  • Slide 77
  • Рутинная процедура или как строят деревья
  • Slide 79
  • Slide 80
  • Slide 81
  • Slide 82
  • Slide 83
  • Slide 84
  • Slide 85
  • Slide 86
  • Slide 87
  • Slide 88
  • Slide 89
  • Как выбирать последовательности для дерева
  • Самое главное ndash хорошее выравнивание
  • Основные алгоритмы построения филогенетических деревьев
  • Пример матрицы расстояний
  • Slide 94
  • Гипотеза laquoмолекулярных часовraquo (EZuckerkandl LPauling 1962)
  • UPGMA Unweighted Pair Group Method with Arithmetic Mean
  • Недостатки UPGMA
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Метод Neighbor-joining
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Slide 101
  • Как изобразить дерево Топология дерева
  • Slide 103
  • Какие on-line программы строят деревья
  • MEGA филогенетический анализ последовательностей
  • Slide 106
  • Slide 107
  • Slide 108
Page 15: Bestfit Output

ДНК

OO=P-O O

Фосфатная группаФосфатная группа

NАзотистое основаниеАзотистое основание

(A G C or T)(A G C or T)

CH2

O

C1C4

C3 C2

5

СахарСахар(дезоксирибоза)(дезоксирибоза)

ДНК

ДНК

ДНК состоит из двух цепей нуклеотидов ДНК состоит из двух цепей нуклеотидов соединённых попарносоединённых попарно

ADENINEADENINE ndash ndash THYMINETHYMINE

CYTOSINECYTOSINE - - GUANINEGUANINE

Правило комплементарностиПравило комплементарности

Двойная спиральДвойная спираль

P

P

P

O

O

O

1

23

4

5

5

3

3

5

P

P

PO

O

O

1

2 3

4

5

5

3

5

3

G C

T A

ДНК дальнейшая упаковка

ДНК

Функции ДНК mdash наследственность и изменчивость

Репликация ДНК

Репликация ДНК

bull Генетический код избыточен ndash почти все аминокислоты кодируются более чем 1 кодоном (тройка нуклеотидов)

bull Последовательность ДНК может меняться в то время как последовательность белка остается постоянной

Ser-Tyrhellip

UCAUAC UCUUAC UCGUAC Uhelliphellip

Поиск гомологов

bull Нуклеотиды ndash 4-х буквенный алфавитbull Аминокислоты ndash 20-и буквенный алфавит

Две случайные последовательности ДНК будут идентичны ~ 25Две случайные белковые последовательности будут идентичны ~ 5

Поиск гомологов

Матрицы для сравнения белков более чувствительны чем матрицы для ДНК

Базы данных ДНК намного больше белковых rarr будут случайные совпадения

Поиск гомологов

Использование белковых последовательностей более предпочтительно при поиске гомологов

Поиск гомологов

Множественное выравнивание последовательностей (MSA)

VTISCTGSSSNIGAG-NHVKWYQQLPGVTISCTGTSSNIGS--ITVNWYQQLPGLRLSCSSSGFIFSS--YAMYWVRQAPGLSLTCTVSGTSFDD--YYSTWVRQPPGPEVTCVVVDVSHEDPQVKFNWYVDG--ATLVCLISDFYPGA--VTVAWKADS--AALGCLVKDYFPEP--VTVSWNSG---VSLTCLVKGFYPSD--IAVEWWSNG--

Основные предположения

bull Гены фиксированы сохранены у очень широкого круга биологических видов у совершенно различных представителей laquoдрева жизниraquo

bull Фиксированный генетический код для белков вероятно несёт похожие зачастую идентичные функции

Например

bull Гистоны небольшие белки присутствуют у всех эукариот

Демонстрируют выраженное постоянство последовательности в MSA

Постоянство структуры и функции (упаковка DNA)

Почему множественное выравнивание

Позволяет дать характеристику семействам белков найти общие участки гомологов

Например семейство Serine protease семейство отвечающее за катализ гидролиз пептидных связей

bull Одинаковые активные центры

bull Общие участка последовательности

bull MSA ndash это первый предварительный шаг к анализу в области молекулярной эволюции и построения эволюционных деревьев

bull База для филогенеза ndash данные молекулярной биологии или морфологические данные

Подходы в MSA

2 разных подходаndash 1D sequence based ndash сравнение

последовательностейndash 2D-3D based ndash выравнивание базирующееся на

структуре

MSA algorithm

bull Попарное выравнивание всех последовательностей (pairwise alignment)

bull Кластерный анализ данных парного выравнивания для получения иерархии выравниваний (guide tree)

bull Построение множественного выравнивания (MSA) пошагово в соответствии с guide tree сначала выравнивают наиболее похожие пары затем добавляют остальные и тд

Multiple Alignment - алгоритм

(1) Парное выравнивание (подготовка guide tree)

6 pairwise alignments

then cluster analysis

(2) Множественное выравнивание следуя древу из п 1

successive alignments

Комментарии

bull Парное выравнивание - оптимальный алгоритм

bull Множественное выравнивание не является оптимальным алгоритмом Вполне могут существовать и лучшие выравнивания

bull Редакторы выравниваний могут быть полезны для корректировки

GCG

Pileup глобальный MSA

pileup [list of sequence names]

pileup hemoglobin_list

1 The sign means that the file contains a list of names

2 The list can include names from the userrsquos directory or code names (accession numbers) from the GCG databases

GCGПример входного файла

swhbb_human

swhbb_rat

swhbb_mouse

Hemoglobin_Alpha

Hemoglobin_Gamma

Hemogolibin_Delta

Syntax the file starts with ldquordquo

Sequences from the databases

Sequences from the userrsquos directory

GCG PileUp creates a multiple sequence alignment from a group of relatedsequences using progressive pairwise alignments It can also plot atree showing the clustering relationships used to create the alignment

1 IPNS_STRJU 329 aa 2 IPNS_STRCL 329 aa 3 IPNS_CEPAC 338 aa 4 IPNS_NOCLA 328 aa

What is the gap creation penalty ( 8 ) What is the gap extension penalty ( 2 )

This program can display the clustering relationships graphically Do you want to A) Plot to a FIGURE file called pileupfigure B) Plot graphics on HP7550 attached to devtty15 C) Suppress the plot Please choose one ( A ) c What should I call the output file name ( ipnsmsf )

Determining pairwise similarity scores

1 x 2 443 1 x 3 312 1 x 4 412 2 x 3 294 2 x 4 405 3 x 4 309

Aligning

Total sequences 4 Alignment length 338 CPU time 0021

Output filedatausersracheliothersracheliipnsmsf

Regular GCG syntaxDefault parametersoutput file etc

GCGAA_MULTIPLE_ALIGNMENT 10PileUp of ipnsfil

Symbol comparison table GenRunDatablosum62cmp CompCheck 1102 GapWeight 8 GapLengthWeight 2 ipnsmsf MSF 338 Type P March 14 2002 0929 Check 7631

Name IPNS_STRJU Len 338 Check 6344 Weight 100 Name IPNS_STRCL Len 338 Check 4249 Weight 100 Name IPNS_NOCLA Len 338 Check 7020 Weight 100 Name IPNS_CEPAC Len 338 Check 18 Weight 100

1 50IPNS_STRJU ~MPILMPSAE VPTIDISPLS GDDAKAKQRV AQEINKAARG SGFFYASNHGIPNS_STRCL ~MPVLMPSAH VPTIDISPLF GTDAAAKKRV AEEIHGACRG SGFFYATNHGIPNS_NOCLA ~~~MKMPSAE VPTIDVSPLF GDDAQEKVRV GQEINKACRG SGFFYAANHGIPNS_CEPAC MGSVPVPVAN VPRIDVSPLF GDDKEKKLEV ARAIDAASRD TGFFYAVNHG

51 100IPNS_STRJU VDVQLLQDVV NEFHRNMSDQ EKHDLAINAY NKDNPHVRN GYYKAIKGKKIPNS_STRCL VDVQQLQDVV NEFHGAMTDQ EKHDLAIHAY NPDNPHVRN GYYKAVPGRKIPNS_NOCLA VDVQRLQDVV NEFHRTMSPQ EKYDLAIHAY NKNNSHVRN GYYMAIEGKKIPNS_CEPAC VDLPWLSRET NKFHMSITDE EKWQLAIRAY NKEHESQIRA GYYLPIPGKK

Output filemsf format

GCG

Prettybox генерирует графический файл из файла MSA

prettybox [MSA file]

prettybox hemoglobinsmsf

1 The ldquordquo is a syntax sign meaning all the sequences in the MSA file

2 Can also calculate the consensus sequence

GCG

ClustalWbull Очень известная и широко распространённая

программа UNIX Internet Windows

bull Выполняет MSA может строить филогенетические деревья

bull Входной файл ndash формат multi-fasta

ClustalW

bull tofasta list

gtIPNS_STRJU P18286

MPILMPSAEVPTIDISPLSGDDAKAKQRVAQEINKAARGSGFFYASNHGVDVQLLQDVVN

EFHRNMSDQEKHDLAINAYNKDNPHVRNGYYKAIKGKKAVESFCYLNPSFSDDHPMIKSE

TPMHEVNLWPDEEKHPRFRPFCEDYYRQLLRLSTVIMRGYALALGRREDFFDEALAEADT

LSSVSLIRYPYLEEYPPVKTGADGTKLSFEDHLDVSMITVLYQTEVQNLQVETVDGWQDI

PRSDEDFLVNCGTYMGHITHDYFPAPNHRVKFINAERLSLPFFLNAGHNSVIEPFVPEGA

AGTVKNPTTSYGEYLQHGLRALIVKNGQT

gtIPNS_STRCL P10621

MPVLMPSAHVPTIDISPLFGTDAAAKKRVAEEIHGACRGSGFFYATNHGVDVQQLQDVVN

EFHGAMTDQEKHDLAIHAYNPDNPHVRNGYYKAVPGRKAVESFCYLNPDFGEDHPMIAAG

TPMHEVNLWPDEERHPRFRPFCEGYYRQMLKLSTVLMRGLALALGRPEHFFDAALAEQDS

LSSVSLIRYPYLEEYPPVKTGPDGQLLSFEDHLDVSMITVLFQTQVQNLQVETVDGWRDI

PTSENDFLVNCGTYMAHVTNDYFPAPNHRVKFVNAERLSLPFFLNGGHEAVIEPFVPEGA

SEEVRNEALSYGDYLQHGLRALIVKNGQT

input fileMulti-fasta

Making the file in unix

ClustalWCLUSTAL W (17) multiple sequence alignment

IPNS_STRJU -MPILMPSAEVPTIDISPLSGDDAKAKQRVAQEINKAARGSGFFYASNHGVDVQLLQDVVIPNS_STRGR -MPIPMLPAHVPTIDISPLSGGDADDKKRVAQEINKACRESGFFYASHHGIDVQLLKDVVIPNS_FLASS ----MNRHADVPVIDISGLSGNDMDVKKDIAARIDRACRGSGFFYAANHGVDLAALQKFTIPNS_PENCH --MASTPKANVPKIDVSPLFGDNMEEKMKVARAIDAASRDTGFFYAVNHGVDVKRLSNKTIPNS_CEPAC MGSVPVPVANVPRIDVSPLFGDDKEKKLEVARAIDAASRDTGFFYAVNHGVDLPWLSRET

IPNS_STRJU NEFHRNMSDQEKHDLAINAYNKDNP-HVRNGYYKAIKGKKAVESFCYLNPSFSDDHPMIKIPNS_STRGR NEFHRTMTDEEKYDLAINAYNKNNP-RTRNGYYMAVKGKKAVESWCYLNPSFSEDHPQIRIPNS_FLASS TDWHMAMSAEEKWELAIRAYNPANP-RNRNGYYMAVEGKKANESFCYLNPSFDADHATIKIPNS_PENCH REFHFSITDEEKWDLAIRAYNKEHQDQIRAGYYLSIPEKKAVESFCYLNPNFKPDHPLIQIPNS_CEPAC NKFHMSITDEEKWQLAIRAYNKEHESQIRAGYYLPIPGKKAVESFCYLNPSFSPDHPRIK

Выходной файл aln format

httpwwwebiacukhelpformatshtml

форматы

ClustalW на EMBL

ClustalW на EMBL - результат

ClustalW at EMBL - Jalview

Conservation

Consensus Sequence

Мы можем вывести consensus sequence из результатов MSA The consensus sequence содержит наиболее часто встречающийся символ в кажной колонке выравнивания

A T C T T G T

A A C T T G T

A A C T T C T

A A C T T G T

Ещё пара терминовhelliphellip

Профиль (Profile)

Также возможно вывести статистическую модель описывающую MSA Профиль содержит информацию о символах в каждом столбце выравнивания

A T C T T G T

A A C T T G T

A A C T T C T

1 2 3 4 5 6

A 1 067 0 0

T 0 033 1 1

C 0 0 0 0

G 0 0 0 0

Profile vs Consensus

Consensus каждая позиция отражает наиболее часто встречающийся символ

Profile каждая позиция отражает частоту символа в данной позиции

Profile vs Consensus

Данный MSA будет иметь одинаковый consensus

A A C T T G C

A A G T C G T

C A C T T C T

A A C T T G T

A A C T T G T

A A C T T C T

A A C T T G T

Profile vs Consensus

Но разный профиль

A A C T T G C

A A G T C G T

C A C T T C T

A A C T T G T

A A C T T G T

A A C T T C T

1 2 3 4 5 6

A 066 1 0 0

T 0 0 0 1

C 033 0 066 0

G 0 0 033 0

1 2 3 4 5 6

A 1 1 0 0

T 0 0 0 1

C 0 0 1 0

G 0 0 0 0

Psi Blast (NCBI)

Position Specific Iterated ndash автоматизированный поиск по профилю

Regular blast

Construct profile from blast results

Blast profile search

Final results

PSI-Blast

Psi-Blast вывод

Проблема формулировки выводов при использовании МSA

1 Сайт выглядит общим (фиксированным) из-за того что это ndash близкородственные последовательности

2 Сайт выглядит общим из-за того что это ndash исключительно жизненно важный сайт

ФилогенезЭволюция ndash случайный процесс с неслучайным результатом

Цели филогенетического исследования

bull Реконструкция корректных генеалогических связей

между биологическими объектами

bull Оценка времени расхождения организмов

bull Определение порядка эволюционных событий в процессе

эволюции

Формат Newick

((A(BC))(DE))

Типы данных

Molecular (DNA RNA proteins)

Morphological (soft tissue hard tissue extant extinct)

Преимущества молекулярных данных

bull Наследуемость

bull Недвусмысленность в описании молекулярных характеристик

bull Поддаются количественному анализу

bull Оценка гомологии легче чем морфологические исследования

bull Данных много

Древо видов и геновbull Древо видов ndash эволюционные взаимосвязи

между видами (видообразование)bull Древо генов

Page RDM and Cotton JC (2000) GeneTree a tool for exploring gene family evolution In D Sankoff and J Nadeau (eds) Comparative Genomics Empirical and Analytical Approaches to Gene Order Dynamics Map Alignment and the Evolution of Gene Families Kluwer Academic Publishers Dordrecht pp 525-536

Figure 2 (a) Incongruent gene and species trees This incongruence can be explained by hypothesizing a gene duplication (h) at the base of the gene tree (b)The presence of only a single gene (a-d) extant in each of the present-day species(1-4) requires postulating three gene losses (c) The corresponding reconciled tree

Ортологи и паралоги

bull Гены-паралоги ndash событие дупликация (and

bull Гены-ортологи ndash событие видообразования (in the two species and in the two species

Duplication

Speciation

Species a Species b

Шаги реконструирования филогенетического

древа

1 Выбор последовательностей и поиск гомологов

2 MSA3 Матрица белков4 Филогенетическое дерево

Филогенетическое дерево

Филогения - раздел биологии изучающий родственные взаимоотношения разных групп живых организмов Филогению отображается обычно в виде эволюционных древ или систематических названий

Зачем нужны филогенетические деревья

Биологические задачи

сравнение 3-х и более объектов (кто на кого более похож )

реконструкция эволюции (кто от кого как и когда произошелhellip)

ТерминологияУзел (node) mdash точка разделения предковой последовательности(вида популяции) на две независимо эволюционирующиеСоответствует внутренней вершине графа изображающего эволюциюЛист (leaf OTU ndash оперативная таксономическая единица) mdash реальный (современный) объект внешняя вершина графаВетвь (branch) mdash связь между узлами или между узлом и листом ребро графаКорень (root) mdash общий предокКлада (clade) - группа двух или более таксонов или последователь-ностей ДНК которая включает как своего общего предка так и всех его потомков

OTU

HTU (hypotetical taxonomic unit)

Какие бывают деревья

Бинарное (разрешённое)(в один момент времени может

произойти только одно событие )

Небинарное (неразрешённое) (может ли в один момент времени

произойти два события )

Время

Какие бывают деревья

Укорененное дерево (rooted tree)отражает направление эволюции

Неукорененное (бескорневое) дерево(unrooted tree) показывает только связи между узлами

Время

Если число листьев равно n существует (2n-3)разных бинарных укоренных деревьевПо определению (2n-3) = 1middot3 middot middot(2n-3)

Существует (2n-5) разных бескорневых деревьев с n листьями

Rooting

A C B B C AA B C

3 OTUs 3 OTUs 1 н 1 неукорененное деревоеукорененное дерево 33 укорененных деревьев укорененных деревьев

A

B

C

D

C

A

B

4 OTUs 4 OTUs 3 3 неукорененных филогенетических неукорененных филогенетических деревьевдеревьев

D

B

A

C C

B

A

D

4 OTUs

15 укорененных

деревьев

Количество Количество Количество

OTU укорененных неукорененных

2 1 13 3 14 15 35 105 156 954 1057 103959548 135135 103959 2027025 13513510 34459425 202702511 654729075 3445942512 13749310575 654729075

Количество возможных деревьев

Рутинная процедура или как строят деревья

Составление выборки последовательностей

Множественное выравнивание

Построение дерева фрагмент записи в виде скобочной формулы

Визуализация и редактура дерева

(((((con1013851018(f539692826973((f67220839851max42750591)492893con923019677)1362315)953075)2583145

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Множественное выравнивание

Matches

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Multiple Alignment

Matches

Mismatches

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Multiple Alignment

Matches

Mismatches

Gaps

Seq 1 A G C G A GSeq 1 A G C G A GSeq 2 G C G G A CSeq 2 G C G G A C

Шаг 3 Перевод количества расхождений в индексы замен

Distance Matrix

Units количество замен нуклеотидов на 1000

Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86

Rice 00 118 122 122

Mosquito 00 55 51

Monkey 00 3

Human 00

Шаг 4 построение филогенетического дерева

Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86

Rice 00 118 122 122

Mosquito 00 55 51

Monkey 00 3

Human 00

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Дистанция между человеком и обезьяной минимальна Эти группы объединяются в Monkey-Human а все остальные дистанции пересчитываются

Dist[Spinach MonHum] = (Dist[Spinach Monkey] +

Dist[Spinach Human])2 = (91 + 86)2 = 885

Spinach Rice Mosquito Mon-HumSpinach 00 9 106 885

Rice 00 118 122

Mosquito 00 53

Mon-Hum 00

Редуцированная матрица дистанций

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Spi-Ric

HumanMosquito

Mon-Hum

MonkeySpinachRice

Mos-Mon-Hum

Spi-Ric

Mos-Mon-Hum-Spi-Ric

Как выбирать последовательности для дерева

Кроме случаев очень близких последовательностей проще работать с белками (а не с ДНК)

Придерживайтесь небольшой выборки (lt 50 последовательностей)

Избегайтеndash фрагментовndash Ксенологов (горизонтальный перенос генов)ndash рекомбинантных последовательностейndash многодоменных белков и повторов

Используйте outgroup (последовательность ответвившаяся от общего предка заведомо (но минимально) раньше разделения интересующих групп-клад)

Самое главное ndash хорошее выравнивание

Максимальный вклад в финальное дерево нельзя построить хорошее дерево по плохому выравниванию

Блоки содержащие много гэпов плохо выровненные N- и C- концы можно просто вырезать

Основные алгоритмы построения филогенетических деревьев

Методы основанные на оценке

расстояний (матричные методы)

bull UPGMA (кластеризация)

bull Neighbor-joining

bull Минимальная эволюция

Наибольшего правдоподобия Maximal likelihood ML Используется модель эволюции и строится дерево которое наиболее правдоподобно при данной модели

Максимальной экономии (бережливости)

maximal parsimony MP Выбирается дерево с минимальным количеством

мутаций необходимых для объяснения данных

Пример матрицы расстояний

1 2 3 4 5 6 7 8 000 1053 977 1278 1203 1654 1353 2500 HUMAN 1

000 902 1203 977 1579 902 2727 HORSE 2 000 977 902 1654 1203 2424 RABIT 3

000 226 1729 1053 2576 MOUSE 4 000 1579 827 2576 RAT 5

000 1053 2955 BOVIN 6 000 2500 PIG 7

000 CHICK 8

Расстояние (уровень дивергенции) между соответствующими последовательностями из геномов мыши и свиньи

Как понимать расстояние между объектами

bull Как время в течение которого они эволюционировалиbull Как число laquoэволюционных событийraquo (мутаций)

В первом случае объекты образуют ультраметрическое пространство(если все объекты наблюдаются в одно время что как правило верно)

Но время непосредственно измерить невозможно

Гипотеза laquoмолекулярных часовraquo(EZuckerkandl LPauling 1962)

За равное время во всех ветвях эволюции данного генабелка накапливается равное число мутацийЕсли гипотеза молекулярных часов

принимается число различий между выровненными последовательностями можно считать примерно пропорциональным времени Отклонения от ультраметричности можно считать случайными Эволюция реконструируется в виде ультраметрического дерева

Укоренённое дерево называется ультраметрическим если расстояние от корня до любого из листьев одинаково

UPGMAUnweighted Pair Group Method with Arithmetic Mean

разновидность кластерного метода

Расстояние между кластерами вычисляется как среднее арифметическое всевозможных расстояний между последовательностями из кластеров

Недостатки UPGMA

Алгоритм строит ультраметрическое дерево ndash скорость эволюции предполагается одинаковой для всех ветвей дерева Использовать этот алгоритм имеет смысл только в случае ультраметрических данных (справедливости laquoмолекулярных часовraquo)

Реальное дерево UPGMA

Метод ближайших соседей (Neighbor-joining NJ)

Строит неукоренённое дерево

Может работать с большим количеством данных

Достаточно быстрый

Если есть недвусмысленное с точки зрения эксперта дерево то оно будет построено

Метод Neighbor-joining

Рисуем laquoзвездноеraquo дерево и будем laquoотщипыватьraquo от него по паре листьев

Пусть ui = Σk Mik(n-2) mdash среднее расстояние от листа i до других

листьев

1 Рассмотрим все возможные пары листьев Выберем 2 листа i и j с минимальным значением величины

Mij ndash ui ndashuj

те выбираем 2 узла которые близки друг к другу но далеки ото всех остальных

Метод ближайших соседей (Neighbor-joining NJ)

2 Кластер (i j) ndash новый узел дерева

Расстояние от i или от j до узла (ij) D(i (ij)) = 05middot(Mij + ui ndash uj) D(j (ij)) = 05middot (Mij + uj ndash ui) те длина ветви зависит от среднего расстояния до других вершин

3 Вычисляем расстояние от нового кластера до всех других

M(ij)k = Mik+Mjk ndash Mij 2

5 В матрице М убираем i и j и добавляем (i j) Повторяем пока не останутся 3 узла

Input MSA для n последовательностей одна последовательность для каждого вида

AAAAATC

AAAAAAG

CCCCCCG

AAAAATCAAAAAAG

CCCCCCG

Длинная ветвь ndash непохоже на правду

Длинная ветвь -Похоже на правду

Методы основанные на последовательностях Maximum Likelihood (ML) Maximum Parsimony (MP)

Как изобразить дерево Топология дерева

Топология дерева mdash только листья узлы (корень) и связывающие их ветви (топология не зависит от способа изображения дерева)

A

B

C

D

E A BC D E

Два изображения одной и той же топологии

Bacterium 1

Bacterium 3

Bacterium 2

Eukaryote 1

Eukaryote 4

Eukaryote 3

Eukaryote 2

Bacterium 1

Bacterium 3Bacterium 2

Eukaryote 1

Eukaryote 4Eukaryote 3

Eukaryote 2

Филограммы ndash длины ветвей

пропорциональны

эволюционному расстоянию

Кладограммы и филограммы

Кладограммы ndash только

топологя Длины ветвей не

учитываются

6

31

2

46

24

53

Как можно нарисовать построенное дерево

Какие on-line программы строят деревья

ClustalW ldquoTree typerdquo ndash nj phylip строит только методом NJ но результат ndash в разных форматах no bootstraps

Phylip (Felsenstein 1993) ndash пакет программ для построения филогенетических деревьев (stand-alone)On-line (partly) например

httpbiowebpasteurfrseqanalphylogenyphylip-ukhtml PAUP (Phylogenetic Analysis Using Parsimony)

MEGA филогенетический анализ последовательностей

httpwwwmegasoftwarenet

Эволюция ndash исторический процесс

Из 8200794532637891559375 деревьев для 20 OTUs 1

является верным и 8200794532637891559374

неверны

Truth is one falsehoods are many

Какое из 8200794532637891559375

деревьев истинно

Мы не знаем Можно применить иные критетии

Например ldquoпохожесть=родствоraquo

GCGbull Строковый поиск простой текстовый

поиск по локальной базе данных

bull Поиск в определениях или в аннотациях

bull Определения содержат минимальное количество информации для каждой статьи доступ имя организма имя гена длина последовательности дата

  • Bestfit Output
  • SP1 at swissprot
  • EGR1 at swissprot
  • Вывод
  • Bl2Seq at NCBI
  • Bl2seq results
  • Bl2seq оценка
  • Оптимизация времени вычислений при парном выравнивании
  • Slide 9
  • Алгоритм BLAST (шаг 1)
  • Slide 11
  • Blast
  • Поиск гомологов
  • ДНК или белок
  • ДНК
  • Slide 16
  • Slide 17
  • Двойная спираль
  • ДНК дальнейшая упаковка
  • Slide 20
  • Репликация ДНК
  • Slide 22
  • Slide 23
  • Slide 24
  • Slide 25
  • Множественное выравнивание последовательностей (MSA)
  • Slide 27
  • Основные предположения
  • Например
  • Почему множественное выравнивание
  • Slide 31
  • Подходы в MSA
  • MSA algorithm
  • Multiple Alignment - алгоритм
  • Комментарии
  • GCG
  • Slide 37
  • GCG
  • Slide 39
  • Slide 40
  • Slide 41
  • ClustalW
  • Slide 43
  • Slide 44
  • ClustalW на EMBL
  • ClustalW на EMBL - результат
  • ClustalW at EMBL - Jalview
  • Consensus Sequence
  • Профиль (Profile)
  • Profile vs Consensus
  • Slide 51
  • Slide 52
  • Psi Blast (NCBI)
  • PSI-Blast
  • Psi-Blast вывод
  • Slide 56
  • Филогенез
  • Slide 58
  • Slide 59
  • Slide 60
  • Slide 61
  • Древо видов и генов
  • Ортологи и паралоги
  • Шаги реконструирования филогенетического древа
  • Филогенетическое дерево
  • Зачем нужны филогенетические деревья
  • Терминология
  • Slide 68
  • Какие бывают деревья
  • Slide 70
  • Slide 71
  • Slide 72
  • 4 OTUs 3 неукорененных филогенетических деревьев
  • Slide 74
  • Slide 75
  • Slide 76
  • Slide 77
  • Рутинная процедура или как строят деревья
  • Slide 79
  • Slide 80
  • Slide 81
  • Slide 82
  • Slide 83
  • Slide 84
  • Slide 85
  • Slide 86
  • Slide 87
  • Slide 88
  • Slide 89
  • Как выбирать последовательности для дерева
  • Самое главное ndash хорошее выравнивание
  • Основные алгоритмы построения филогенетических деревьев
  • Пример матрицы расстояний
  • Slide 94
  • Гипотеза laquoмолекулярных часовraquo (EZuckerkandl LPauling 1962)
  • UPGMA Unweighted Pair Group Method with Arithmetic Mean
  • Недостатки UPGMA
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Метод Neighbor-joining
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Slide 101
  • Как изобразить дерево Топология дерева
  • Slide 103
  • Какие on-line программы строят деревья
  • MEGA филогенетический анализ последовательностей
  • Slide 106
  • Slide 107
  • Slide 108
Page 16: Bestfit Output

OO=P-O O

Фосфатная группаФосфатная группа

NАзотистое основаниеАзотистое основание

(A G C or T)(A G C or T)

CH2

O

C1C4

C3 C2

5

СахарСахар(дезоксирибоза)(дезоксирибоза)

ДНК

ДНК

ДНК состоит из двух цепей нуклеотидов ДНК состоит из двух цепей нуклеотидов соединённых попарносоединённых попарно

ADENINEADENINE ndash ndash THYMINETHYMINE

CYTOSINECYTOSINE - - GUANINEGUANINE

Правило комплементарностиПравило комплементарности

Двойная спиральДвойная спираль

P

P

P

O

O

O

1

23

4

5

5

3

3

5

P

P

PO

O

O

1

2 3

4

5

5

3

5

3

G C

T A

ДНК дальнейшая упаковка

ДНК

Функции ДНК mdash наследственность и изменчивость

Репликация ДНК

Репликация ДНК

bull Генетический код избыточен ndash почти все аминокислоты кодируются более чем 1 кодоном (тройка нуклеотидов)

bull Последовательность ДНК может меняться в то время как последовательность белка остается постоянной

Ser-Tyrhellip

UCAUAC UCUUAC UCGUAC Uhelliphellip

Поиск гомологов

bull Нуклеотиды ndash 4-х буквенный алфавитbull Аминокислоты ndash 20-и буквенный алфавит

Две случайные последовательности ДНК будут идентичны ~ 25Две случайные белковые последовательности будут идентичны ~ 5

Поиск гомологов

Матрицы для сравнения белков более чувствительны чем матрицы для ДНК

Базы данных ДНК намного больше белковых rarr будут случайные совпадения

Поиск гомологов

Использование белковых последовательностей более предпочтительно при поиске гомологов

Поиск гомологов

Множественное выравнивание последовательностей (MSA)

VTISCTGSSSNIGAG-NHVKWYQQLPGVTISCTGTSSNIGS--ITVNWYQQLPGLRLSCSSSGFIFSS--YAMYWVRQAPGLSLTCTVSGTSFDD--YYSTWVRQPPGPEVTCVVVDVSHEDPQVKFNWYVDG--ATLVCLISDFYPGA--VTVAWKADS--AALGCLVKDYFPEP--VTVSWNSG---VSLTCLVKGFYPSD--IAVEWWSNG--

Основные предположения

bull Гены фиксированы сохранены у очень широкого круга биологических видов у совершенно различных представителей laquoдрева жизниraquo

bull Фиксированный генетический код для белков вероятно несёт похожие зачастую идентичные функции

Например

bull Гистоны небольшие белки присутствуют у всех эукариот

Демонстрируют выраженное постоянство последовательности в MSA

Постоянство структуры и функции (упаковка DNA)

Почему множественное выравнивание

Позволяет дать характеристику семействам белков найти общие участки гомологов

Например семейство Serine protease семейство отвечающее за катализ гидролиз пептидных связей

bull Одинаковые активные центры

bull Общие участка последовательности

bull MSA ndash это первый предварительный шаг к анализу в области молекулярной эволюции и построения эволюционных деревьев

bull База для филогенеза ndash данные молекулярной биологии или морфологические данные

Подходы в MSA

2 разных подходаndash 1D sequence based ndash сравнение

последовательностейndash 2D-3D based ndash выравнивание базирующееся на

структуре

MSA algorithm

bull Попарное выравнивание всех последовательностей (pairwise alignment)

bull Кластерный анализ данных парного выравнивания для получения иерархии выравниваний (guide tree)

bull Построение множественного выравнивания (MSA) пошагово в соответствии с guide tree сначала выравнивают наиболее похожие пары затем добавляют остальные и тд

Multiple Alignment - алгоритм

(1) Парное выравнивание (подготовка guide tree)

6 pairwise alignments

then cluster analysis

(2) Множественное выравнивание следуя древу из п 1

successive alignments

Комментарии

bull Парное выравнивание - оптимальный алгоритм

bull Множественное выравнивание не является оптимальным алгоритмом Вполне могут существовать и лучшие выравнивания

bull Редакторы выравниваний могут быть полезны для корректировки

GCG

Pileup глобальный MSA

pileup [list of sequence names]

pileup hemoglobin_list

1 The sign means that the file contains a list of names

2 The list can include names from the userrsquos directory or code names (accession numbers) from the GCG databases

GCGПример входного файла

swhbb_human

swhbb_rat

swhbb_mouse

Hemoglobin_Alpha

Hemoglobin_Gamma

Hemogolibin_Delta

Syntax the file starts with ldquordquo

Sequences from the databases

Sequences from the userrsquos directory

GCG PileUp creates a multiple sequence alignment from a group of relatedsequences using progressive pairwise alignments It can also plot atree showing the clustering relationships used to create the alignment

1 IPNS_STRJU 329 aa 2 IPNS_STRCL 329 aa 3 IPNS_CEPAC 338 aa 4 IPNS_NOCLA 328 aa

What is the gap creation penalty ( 8 ) What is the gap extension penalty ( 2 )

This program can display the clustering relationships graphically Do you want to A) Plot to a FIGURE file called pileupfigure B) Plot graphics on HP7550 attached to devtty15 C) Suppress the plot Please choose one ( A ) c What should I call the output file name ( ipnsmsf )

Determining pairwise similarity scores

1 x 2 443 1 x 3 312 1 x 4 412 2 x 3 294 2 x 4 405 3 x 4 309

Aligning

Total sequences 4 Alignment length 338 CPU time 0021

Output filedatausersracheliothersracheliipnsmsf

Regular GCG syntaxDefault parametersoutput file etc

GCGAA_MULTIPLE_ALIGNMENT 10PileUp of ipnsfil

Symbol comparison table GenRunDatablosum62cmp CompCheck 1102 GapWeight 8 GapLengthWeight 2 ipnsmsf MSF 338 Type P March 14 2002 0929 Check 7631

Name IPNS_STRJU Len 338 Check 6344 Weight 100 Name IPNS_STRCL Len 338 Check 4249 Weight 100 Name IPNS_NOCLA Len 338 Check 7020 Weight 100 Name IPNS_CEPAC Len 338 Check 18 Weight 100

1 50IPNS_STRJU ~MPILMPSAE VPTIDISPLS GDDAKAKQRV AQEINKAARG SGFFYASNHGIPNS_STRCL ~MPVLMPSAH VPTIDISPLF GTDAAAKKRV AEEIHGACRG SGFFYATNHGIPNS_NOCLA ~~~MKMPSAE VPTIDVSPLF GDDAQEKVRV GQEINKACRG SGFFYAANHGIPNS_CEPAC MGSVPVPVAN VPRIDVSPLF GDDKEKKLEV ARAIDAASRD TGFFYAVNHG

51 100IPNS_STRJU VDVQLLQDVV NEFHRNMSDQ EKHDLAINAY NKDNPHVRN GYYKAIKGKKIPNS_STRCL VDVQQLQDVV NEFHGAMTDQ EKHDLAIHAY NPDNPHVRN GYYKAVPGRKIPNS_NOCLA VDVQRLQDVV NEFHRTMSPQ EKYDLAIHAY NKNNSHVRN GYYMAIEGKKIPNS_CEPAC VDLPWLSRET NKFHMSITDE EKWQLAIRAY NKEHESQIRA GYYLPIPGKK

Output filemsf format

GCG

Prettybox генерирует графический файл из файла MSA

prettybox [MSA file]

prettybox hemoglobinsmsf

1 The ldquordquo is a syntax sign meaning all the sequences in the MSA file

2 Can also calculate the consensus sequence

GCG

ClustalWbull Очень известная и широко распространённая

программа UNIX Internet Windows

bull Выполняет MSA может строить филогенетические деревья

bull Входной файл ndash формат multi-fasta

ClustalW

bull tofasta list

gtIPNS_STRJU P18286

MPILMPSAEVPTIDISPLSGDDAKAKQRVAQEINKAARGSGFFYASNHGVDVQLLQDVVN

EFHRNMSDQEKHDLAINAYNKDNPHVRNGYYKAIKGKKAVESFCYLNPSFSDDHPMIKSE

TPMHEVNLWPDEEKHPRFRPFCEDYYRQLLRLSTVIMRGYALALGRREDFFDEALAEADT

LSSVSLIRYPYLEEYPPVKTGADGTKLSFEDHLDVSMITVLYQTEVQNLQVETVDGWQDI

PRSDEDFLVNCGTYMGHITHDYFPAPNHRVKFINAERLSLPFFLNAGHNSVIEPFVPEGA

AGTVKNPTTSYGEYLQHGLRALIVKNGQT

gtIPNS_STRCL P10621

MPVLMPSAHVPTIDISPLFGTDAAAKKRVAEEIHGACRGSGFFYATNHGVDVQQLQDVVN

EFHGAMTDQEKHDLAIHAYNPDNPHVRNGYYKAVPGRKAVESFCYLNPDFGEDHPMIAAG

TPMHEVNLWPDEERHPRFRPFCEGYYRQMLKLSTVLMRGLALALGRPEHFFDAALAEQDS

LSSVSLIRYPYLEEYPPVKTGPDGQLLSFEDHLDVSMITVLFQTQVQNLQVETVDGWRDI

PTSENDFLVNCGTYMAHVTNDYFPAPNHRVKFVNAERLSLPFFLNGGHEAVIEPFVPEGA

SEEVRNEALSYGDYLQHGLRALIVKNGQT

input fileMulti-fasta

Making the file in unix

ClustalWCLUSTAL W (17) multiple sequence alignment

IPNS_STRJU -MPILMPSAEVPTIDISPLSGDDAKAKQRVAQEINKAARGSGFFYASNHGVDVQLLQDVVIPNS_STRGR -MPIPMLPAHVPTIDISPLSGGDADDKKRVAQEINKACRESGFFYASHHGIDVQLLKDVVIPNS_FLASS ----MNRHADVPVIDISGLSGNDMDVKKDIAARIDRACRGSGFFYAANHGVDLAALQKFTIPNS_PENCH --MASTPKANVPKIDVSPLFGDNMEEKMKVARAIDAASRDTGFFYAVNHGVDVKRLSNKTIPNS_CEPAC MGSVPVPVANVPRIDVSPLFGDDKEKKLEVARAIDAASRDTGFFYAVNHGVDLPWLSRET

IPNS_STRJU NEFHRNMSDQEKHDLAINAYNKDNP-HVRNGYYKAIKGKKAVESFCYLNPSFSDDHPMIKIPNS_STRGR NEFHRTMTDEEKYDLAINAYNKNNP-RTRNGYYMAVKGKKAVESWCYLNPSFSEDHPQIRIPNS_FLASS TDWHMAMSAEEKWELAIRAYNPANP-RNRNGYYMAVEGKKANESFCYLNPSFDADHATIKIPNS_PENCH REFHFSITDEEKWDLAIRAYNKEHQDQIRAGYYLSIPEKKAVESFCYLNPNFKPDHPLIQIPNS_CEPAC NKFHMSITDEEKWQLAIRAYNKEHESQIRAGYYLPIPGKKAVESFCYLNPSFSPDHPRIK

Выходной файл aln format

httpwwwebiacukhelpformatshtml

форматы

ClustalW на EMBL

ClustalW на EMBL - результат

ClustalW at EMBL - Jalview

Conservation

Consensus Sequence

Мы можем вывести consensus sequence из результатов MSA The consensus sequence содержит наиболее часто встречающийся символ в кажной колонке выравнивания

A T C T T G T

A A C T T G T

A A C T T C T

A A C T T G T

Ещё пара терминовhelliphellip

Профиль (Profile)

Также возможно вывести статистическую модель описывающую MSA Профиль содержит информацию о символах в каждом столбце выравнивания

A T C T T G T

A A C T T G T

A A C T T C T

1 2 3 4 5 6

A 1 067 0 0

T 0 033 1 1

C 0 0 0 0

G 0 0 0 0

Profile vs Consensus

Consensus каждая позиция отражает наиболее часто встречающийся символ

Profile каждая позиция отражает частоту символа в данной позиции

Profile vs Consensus

Данный MSA будет иметь одинаковый consensus

A A C T T G C

A A G T C G T

C A C T T C T

A A C T T G T

A A C T T G T

A A C T T C T

A A C T T G T

Profile vs Consensus

Но разный профиль

A A C T T G C

A A G T C G T

C A C T T C T

A A C T T G T

A A C T T G T

A A C T T C T

1 2 3 4 5 6

A 066 1 0 0

T 0 0 0 1

C 033 0 066 0

G 0 0 033 0

1 2 3 4 5 6

A 1 1 0 0

T 0 0 0 1

C 0 0 1 0

G 0 0 0 0

Psi Blast (NCBI)

Position Specific Iterated ndash автоматизированный поиск по профилю

Regular blast

Construct profile from blast results

Blast profile search

Final results

PSI-Blast

Psi-Blast вывод

Проблема формулировки выводов при использовании МSA

1 Сайт выглядит общим (фиксированным) из-за того что это ndash близкородственные последовательности

2 Сайт выглядит общим из-за того что это ndash исключительно жизненно важный сайт

ФилогенезЭволюция ndash случайный процесс с неслучайным результатом

Цели филогенетического исследования

bull Реконструкция корректных генеалогических связей

между биологическими объектами

bull Оценка времени расхождения организмов

bull Определение порядка эволюционных событий в процессе

эволюции

Формат Newick

((A(BC))(DE))

Типы данных

Molecular (DNA RNA proteins)

Morphological (soft tissue hard tissue extant extinct)

Преимущества молекулярных данных

bull Наследуемость

bull Недвусмысленность в описании молекулярных характеристик

bull Поддаются количественному анализу

bull Оценка гомологии легче чем морфологические исследования

bull Данных много

Древо видов и геновbull Древо видов ndash эволюционные взаимосвязи

между видами (видообразование)bull Древо генов

Page RDM and Cotton JC (2000) GeneTree a tool for exploring gene family evolution In D Sankoff and J Nadeau (eds) Comparative Genomics Empirical and Analytical Approaches to Gene Order Dynamics Map Alignment and the Evolution of Gene Families Kluwer Academic Publishers Dordrecht pp 525-536

Figure 2 (a) Incongruent gene and species trees This incongruence can be explained by hypothesizing a gene duplication (h) at the base of the gene tree (b)The presence of only a single gene (a-d) extant in each of the present-day species(1-4) requires postulating three gene losses (c) The corresponding reconciled tree

Ортологи и паралоги

bull Гены-паралоги ndash событие дупликация (and

bull Гены-ортологи ndash событие видообразования (in the two species and in the two species

Duplication

Speciation

Species a Species b

Шаги реконструирования филогенетического

древа

1 Выбор последовательностей и поиск гомологов

2 MSA3 Матрица белков4 Филогенетическое дерево

Филогенетическое дерево

Филогения - раздел биологии изучающий родственные взаимоотношения разных групп живых организмов Филогению отображается обычно в виде эволюционных древ или систематических названий

Зачем нужны филогенетические деревья

Биологические задачи

сравнение 3-х и более объектов (кто на кого более похож )

реконструкция эволюции (кто от кого как и когда произошелhellip)

ТерминологияУзел (node) mdash точка разделения предковой последовательности(вида популяции) на две независимо эволюционирующиеСоответствует внутренней вершине графа изображающего эволюциюЛист (leaf OTU ndash оперативная таксономическая единица) mdash реальный (современный) объект внешняя вершина графаВетвь (branch) mdash связь между узлами или между узлом и листом ребро графаКорень (root) mdash общий предокКлада (clade) - группа двух или более таксонов или последователь-ностей ДНК которая включает как своего общего предка так и всех его потомков

OTU

HTU (hypotetical taxonomic unit)

Какие бывают деревья

Бинарное (разрешённое)(в один момент времени может

произойти только одно событие )

Небинарное (неразрешённое) (может ли в один момент времени

произойти два события )

Время

Какие бывают деревья

Укорененное дерево (rooted tree)отражает направление эволюции

Неукорененное (бескорневое) дерево(unrooted tree) показывает только связи между узлами

Время

Если число листьев равно n существует (2n-3)разных бинарных укоренных деревьевПо определению (2n-3) = 1middot3 middot middot(2n-3)

Существует (2n-5) разных бескорневых деревьев с n листьями

Rooting

A C B B C AA B C

3 OTUs 3 OTUs 1 н 1 неукорененное деревоеукорененное дерево 33 укорененных деревьев укорененных деревьев

A

B

C

D

C

A

B

4 OTUs 4 OTUs 3 3 неукорененных филогенетических неукорененных филогенетических деревьевдеревьев

D

B

A

C C

B

A

D

4 OTUs

15 укорененных

деревьев

Количество Количество Количество

OTU укорененных неукорененных

2 1 13 3 14 15 35 105 156 954 1057 103959548 135135 103959 2027025 13513510 34459425 202702511 654729075 3445942512 13749310575 654729075

Количество возможных деревьев

Рутинная процедура или как строят деревья

Составление выборки последовательностей

Множественное выравнивание

Построение дерева фрагмент записи в виде скобочной формулы

Визуализация и редактура дерева

(((((con1013851018(f539692826973((f67220839851max42750591)492893con923019677)1362315)953075)2583145

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Множественное выравнивание

Matches

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Multiple Alignment

Matches

Mismatches

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Multiple Alignment

Matches

Mismatches

Gaps

Seq 1 A G C G A GSeq 1 A G C G A GSeq 2 G C G G A CSeq 2 G C G G A C

Шаг 3 Перевод количества расхождений в индексы замен

Distance Matrix

Units количество замен нуклеотидов на 1000

Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86

Rice 00 118 122 122

Mosquito 00 55 51

Monkey 00 3

Human 00

Шаг 4 построение филогенетического дерева

Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86

Rice 00 118 122 122

Mosquito 00 55 51

Monkey 00 3

Human 00

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Дистанция между человеком и обезьяной минимальна Эти группы объединяются в Monkey-Human а все остальные дистанции пересчитываются

Dist[Spinach MonHum] = (Dist[Spinach Monkey] +

Dist[Spinach Human])2 = (91 + 86)2 = 885

Spinach Rice Mosquito Mon-HumSpinach 00 9 106 885

Rice 00 118 122

Mosquito 00 53

Mon-Hum 00

Редуцированная матрица дистанций

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Spi-Ric

HumanMosquito

Mon-Hum

MonkeySpinachRice

Mos-Mon-Hum

Spi-Ric

Mos-Mon-Hum-Spi-Ric

Как выбирать последовательности для дерева

Кроме случаев очень близких последовательностей проще работать с белками (а не с ДНК)

Придерживайтесь небольшой выборки (lt 50 последовательностей)

Избегайтеndash фрагментовndash Ксенологов (горизонтальный перенос генов)ndash рекомбинантных последовательностейndash многодоменных белков и повторов

Используйте outgroup (последовательность ответвившаяся от общего предка заведомо (но минимально) раньше разделения интересующих групп-клад)

Самое главное ndash хорошее выравнивание

Максимальный вклад в финальное дерево нельзя построить хорошее дерево по плохому выравниванию

Блоки содержащие много гэпов плохо выровненные N- и C- концы можно просто вырезать

Основные алгоритмы построения филогенетических деревьев

Методы основанные на оценке

расстояний (матричные методы)

bull UPGMA (кластеризация)

bull Neighbor-joining

bull Минимальная эволюция

Наибольшего правдоподобия Maximal likelihood ML Используется модель эволюции и строится дерево которое наиболее правдоподобно при данной модели

Максимальной экономии (бережливости)

maximal parsimony MP Выбирается дерево с минимальным количеством

мутаций необходимых для объяснения данных

Пример матрицы расстояний

1 2 3 4 5 6 7 8 000 1053 977 1278 1203 1654 1353 2500 HUMAN 1

000 902 1203 977 1579 902 2727 HORSE 2 000 977 902 1654 1203 2424 RABIT 3

000 226 1729 1053 2576 MOUSE 4 000 1579 827 2576 RAT 5

000 1053 2955 BOVIN 6 000 2500 PIG 7

000 CHICK 8

Расстояние (уровень дивергенции) между соответствующими последовательностями из геномов мыши и свиньи

Как понимать расстояние между объектами

bull Как время в течение которого они эволюционировалиbull Как число laquoэволюционных событийraquo (мутаций)

В первом случае объекты образуют ультраметрическое пространство(если все объекты наблюдаются в одно время что как правило верно)

Но время непосредственно измерить невозможно

Гипотеза laquoмолекулярных часовraquo(EZuckerkandl LPauling 1962)

За равное время во всех ветвях эволюции данного генабелка накапливается равное число мутацийЕсли гипотеза молекулярных часов

принимается число различий между выровненными последовательностями можно считать примерно пропорциональным времени Отклонения от ультраметричности можно считать случайными Эволюция реконструируется в виде ультраметрического дерева

Укоренённое дерево называется ультраметрическим если расстояние от корня до любого из листьев одинаково

UPGMAUnweighted Pair Group Method with Arithmetic Mean

разновидность кластерного метода

Расстояние между кластерами вычисляется как среднее арифметическое всевозможных расстояний между последовательностями из кластеров

Недостатки UPGMA

Алгоритм строит ультраметрическое дерево ndash скорость эволюции предполагается одинаковой для всех ветвей дерева Использовать этот алгоритм имеет смысл только в случае ультраметрических данных (справедливости laquoмолекулярных часовraquo)

Реальное дерево UPGMA

Метод ближайших соседей (Neighbor-joining NJ)

Строит неукоренённое дерево

Может работать с большим количеством данных

Достаточно быстрый

Если есть недвусмысленное с точки зрения эксперта дерево то оно будет построено

Метод Neighbor-joining

Рисуем laquoзвездноеraquo дерево и будем laquoотщипыватьraquo от него по паре листьев

Пусть ui = Σk Mik(n-2) mdash среднее расстояние от листа i до других

листьев

1 Рассмотрим все возможные пары листьев Выберем 2 листа i и j с минимальным значением величины

Mij ndash ui ndashuj

те выбираем 2 узла которые близки друг к другу но далеки ото всех остальных

Метод ближайших соседей (Neighbor-joining NJ)

2 Кластер (i j) ndash новый узел дерева

Расстояние от i или от j до узла (ij) D(i (ij)) = 05middot(Mij + ui ndash uj) D(j (ij)) = 05middot (Mij + uj ndash ui) те длина ветви зависит от среднего расстояния до других вершин

3 Вычисляем расстояние от нового кластера до всех других

M(ij)k = Mik+Mjk ndash Mij 2

5 В матрице М убираем i и j и добавляем (i j) Повторяем пока не останутся 3 узла

Input MSA для n последовательностей одна последовательность для каждого вида

AAAAATC

AAAAAAG

CCCCCCG

AAAAATCAAAAAAG

CCCCCCG

Длинная ветвь ndash непохоже на правду

Длинная ветвь -Похоже на правду

Методы основанные на последовательностях Maximum Likelihood (ML) Maximum Parsimony (MP)

Как изобразить дерево Топология дерева

Топология дерева mdash только листья узлы (корень) и связывающие их ветви (топология не зависит от способа изображения дерева)

A

B

C

D

E A BC D E

Два изображения одной и той же топологии

Bacterium 1

Bacterium 3

Bacterium 2

Eukaryote 1

Eukaryote 4

Eukaryote 3

Eukaryote 2

Bacterium 1

Bacterium 3Bacterium 2

Eukaryote 1

Eukaryote 4Eukaryote 3

Eukaryote 2

Филограммы ndash длины ветвей

пропорциональны

эволюционному расстоянию

Кладограммы и филограммы

Кладограммы ndash только

топологя Длины ветвей не

учитываются

6

31

2

46

24

53

Как можно нарисовать построенное дерево

Какие on-line программы строят деревья

ClustalW ldquoTree typerdquo ndash nj phylip строит только методом NJ но результат ndash в разных форматах no bootstraps

Phylip (Felsenstein 1993) ndash пакет программ для построения филогенетических деревьев (stand-alone)On-line (partly) например

httpbiowebpasteurfrseqanalphylogenyphylip-ukhtml PAUP (Phylogenetic Analysis Using Parsimony)

MEGA филогенетический анализ последовательностей

httpwwwmegasoftwarenet

Эволюция ndash исторический процесс

Из 8200794532637891559375 деревьев для 20 OTUs 1

является верным и 8200794532637891559374

неверны

Truth is one falsehoods are many

Какое из 8200794532637891559375

деревьев истинно

Мы не знаем Можно применить иные критетии

Например ldquoпохожесть=родствоraquo

GCGbull Строковый поиск простой текстовый

поиск по локальной базе данных

bull Поиск в определениях или в аннотациях

bull Определения содержат минимальное количество информации для каждой статьи доступ имя организма имя гена длина последовательности дата

  • Bestfit Output
  • SP1 at swissprot
  • EGR1 at swissprot
  • Вывод
  • Bl2Seq at NCBI
  • Bl2seq results
  • Bl2seq оценка
  • Оптимизация времени вычислений при парном выравнивании
  • Slide 9
  • Алгоритм BLAST (шаг 1)
  • Slide 11
  • Blast
  • Поиск гомологов
  • ДНК или белок
  • ДНК
  • Slide 16
  • Slide 17
  • Двойная спираль
  • ДНК дальнейшая упаковка
  • Slide 20
  • Репликация ДНК
  • Slide 22
  • Slide 23
  • Slide 24
  • Slide 25
  • Множественное выравнивание последовательностей (MSA)
  • Slide 27
  • Основные предположения
  • Например
  • Почему множественное выравнивание
  • Slide 31
  • Подходы в MSA
  • MSA algorithm
  • Multiple Alignment - алгоритм
  • Комментарии
  • GCG
  • Slide 37
  • GCG
  • Slide 39
  • Slide 40
  • Slide 41
  • ClustalW
  • Slide 43
  • Slide 44
  • ClustalW на EMBL
  • ClustalW на EMBL - результат
  • ClustalW at EMBL - Jalview
  • Consensus Sequence
  • Профиль (Profile)
  • Profile vs Consensus
  • Slide 51
  • Slide 52
  • Psi Blast (NCBI)
  • PSI-Blast
  • Psi-Blast вывод
  • Slide 56
  • Филогенез
  • Slide 58
  • Slide 59
  • Slide 60
  • Slide 61
  • Древо видов и генов
  • Ортологи и паралоги
  • Шаги реконструирования филогенетического древа
  • Филогенетическое дерево
  • Зачем нужны филогенетические деревья
  • Терминология
  • Slide 68
  • Какие бывают деревья
  • Slide 70
  • Slide 71
  • Slide 72
  • 4 OTUs 3 неукорененных филогенетических деревьев
  • Slide 74
  • Slide 75
  • Slide 76
  • Slide 77
  • Рутинная процедура или как строят деревья
  • Slide 79
  • Slide 80
  • Slide 81
  • Slide 82
  • Slide 83
  • Slide 84
  • Slide 85
  • Slide 86
  • Slide 87
  • Slide 88
  • Slide 89
  • Как выбирать последовательности для дерева
  • Самое главное ndash хорошее выравнивание
  • Основные алгоритмы построения филогенетических деревьев
  • Пример матрицы расстояний
  • Slide 94
  • Гипотеза laquoмолекулярных часовraquo (EZuckerkandl LPauling 1962)
  • UPGMA Unweighted Pair Group Method with Arithmetic Mean
  • Недостатки UPGMA
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Метод Neighbor-joining
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Slide 101
  • Как изобразить дерево Топология дерева
  • Slide 103
  • Какие on-line программы строят деревья
  • MEGA филогенетический анализ последовательностей
  • Slide 106
  • Slide 107
  • Slide 108
Page 17: Bestfit Output

ДНК

ДНК состоит из двух цепей нуклеотидов ДНК состоит из двух цепей нуклеотидов соединённых попарносоединённых попарно

ADENINEADENINE ndash ndash THYMINETHYMINE

CYTOSINECYTOSINE - - GUANINEGUANINE

Правило комплементарностиПравило комплементарности

Двойная спиральДвойная спираль

P

P

P

O

O

O

1

23

4

5

5

3

3

5

P

P

PO

O

O

1

2 3

4

5

5

3

5

3

G C

T A

ДНК дальнейшая упаковка

ДНК

Функции ДНК mdash наследственность и изменчивость

Репликация ДНК

Репликация ДНК

bull Генетический код избыточен ndash почти все аминокислоты кодируются более чем 1 кодоном (тройка нуклеотидов)

bull Последовательность ДНК может меняться в то время как последовательность белка остается постоянной

Ser-Tyrhellip

UCAUAC UCUUAC UCGUAC Uhelliphellip

Поиск гомологов

bull Нуклеотиды ndash 4-х буквенный алфавитbull Аминокислоты ndash 20-и буквенный алфавит

Две случайные последовательности ДНК будут идентичны ~ 25Две случайные белковые последовательности будут идентичны ~ 5

Поиск гомологов

Матрицы для сравнения белков более чувствительны чем матрицы для ДНК

Базы данных ДНК намного больше белковых rarr будут случайные совпадения

Поиск гомологов

Использование белковых последовательностей более предпочтительно при поиске гомологов

Поиск гомологов

Множественное выравнивание последовательностей (MSA)

VTISCTGSSSNIGAG-NHVKWYQQLPGVTISCTGTSSNIGS--ITVNWYQQLPGLRLSCSSSGFIFSS--YAMYWVRQAPGLSLTCTVSGTSFDD--YYSTWVRQPPGPEVTCVVVDVSHEDPQVKFNWYVDG--ATLVCLISDFYPGA--VTVAWKADS--AALGCLVKDYFPEP--VTVSWNSG---VSLTCLVKGFYPSD--IAVEWWSNG--

Основные предположения

bull Гены фиксированы сохранены у очень широкого круга биологических видов у совершенно различных представителей laquoдрева жизниraquo

bull Фиксированный генетический код для белков вероятно несёт похожие зачастую идентичные функции

Например

bull Гистоны небольшие белки присутствуют у всех эукариот

Демонстрируют выраженное постоянство последовательности в MSA

Постоянство структуры и функции (упаковка DNA)

Почему множественное выравнивание

Позволяет дать характеристику семействам белков найти общие участки гомологов

Например семейство Serine protease семейство отвечающее за катализ гидролиз пептидных связей

bull Одинаковые активные центры

bull Общие участка последовательности

bull MSA ndash это первый предварительный шаг к анализу в области молекулярной эволюции и построения эволюционных деревьев

bull База для филогенеза ndash данные молекулярной биологии или морфологические данные

Подходы в MSA

2 разных подходаndash 1D sequence based ndash сравнение

последовательностейndash 2D-3D based ndash выравнивание базирующееся на

структуре

MSA algorithm

bull Попарное выравнивание всех последовательностей (pairwise alignment)

bull Кластерный анализ данных парного выравнивания для получения иерархии выравниваний (guide tree)

bull Построение множественного выравнивания (MSA) пошагово в соответствии с guide tree сначала выравнивают наиболее похожие пары затем добавляют остальные и тд

Multiple Alignment - алгоритм

(1) Парное выравнивание (подготовка guide tree)

6 pairwise alignments

then cluster analysis

(2) Множественное выравнивание следуя древу из п 1

successive alignments

Комментарии

bull Парное выравнивание - оптимальный алгоритм

bull Множественное выравнивание не является оптимальным алгоритмом Вполне могут существовать и лучшие выравнивания

bull Редакторы выравниваний могут быть полезны для корректировки

GCG

Pileup глобальный MSA

pileup [list of sequence names]

pileup hemoglobin_list

1 The sign means that the file contains a list of names

2 The list can include names from the userrsquos directory or code names (accession numbers) from the GCG databases

GCGПример входного файла

swhbb_human

swhbb_rat

swhbb_mouse

Hemoglobin_Alpha

Hemoglobin_Gamma

Hemogolibin_Delta

Syntax the file starts with ldquordquo

Sequences from the databases

Sequences from the userrsquos directory

GCG PileUp creates a multiple sequence alignment from a group of relatedsequences using progressive pairwise alignments It can also plot atree showing the clustering relationships used to create the alignment

1 IPNS_STRJU 329 aa 2 IPNS_STRCL 329 aa 3 IPNS_CEPAC 338 aa 4 IPNS_NOCLA 328 aa

What is the gap creation penalty ( 8 ) What is the gap extension penalty ( 2 )

This program can display the clustering relationships graphically Do you want to A) Plot to a FIGURE file called pileupfigure B) Plot graphics on HP7550 attached to devtty15 C) Suppress the plot Please choose one ( A ) c What should I call the output file name ( ipnsmsf )

Determining pairwise similarity scores

1 x 2 443 1 x 3 312 1 x 4 412 2 x 3 294 2 x 4 405 3 x 4 309

Aligning

Total sequences 4 Alignment length 338 CPU time 0021

Output filedatausersracheliothersracheliipnsmsf

Regular GCG syntaxDefault parametersoutput file etc

GCGAA_MULTIPLE_ALIGNMENT 10PileUp of ipnsfil

Symbol comparison table GenRunDatablosum62cmp CompCheck 1102 GapWeight 8 GapLengthWeight 2 ipnsmsf MSF 338 Type P March 14 2002 0929 Check 7631

Name IPNS_STRJU Len 338 Check 6344 Weight 100 Name IPNS_STRCL Len 338 Check 4249 Weight 100 Name IPNS_NOCLA Len 338 Check 7020 Weight 100 Name IPNS_CEPAC Len 338 Check 18 Weight 100

1 50IPNS_STRJU ~MPILMPSAE VPTIDISPLS GDDAKAKQRV AQEINKAARG SGFFYASNHGIPNS_STRCL ~MPVLMPSAH VPTIDISPLF GTDAAAKKRV AEEIHGACRG SGFFYATNHGIPNS_NOCLA ~~~MKMPSAE VPTIDVSPLF GDDAQEKVRV GQEINKACRG SGFFYAANHGIPNS_CEPAC MGSVPVPVAN VPRIDVSPLF GDDKEKKLEV ARAIDAASRD TGFFYAVNHG

51 100IPNS_STRJU VDVQLLQDVV NEFHRNMSDQ EKHDLAINAY NKDNPHVRN GYYKAIKGKKIPNS_STRCL VDVQQLQDVV NEFHGAMTDQ EKHDLAIHAY NPDNPHVRN GYYKAVPGRKIPNS_NOCLA VDVQRLQDVV NEFHRTMSPQ EKYDLAIHAY NKNNSHVRN GYYMAIEGKKIPNS_CEPAC VDLPWLSRET NKFHMSITDE EKWQLAIRAY NKEHESQIRA GYYLPIPGKK

Output filemsf format

GCG

Prettybox генерирует графический файл из файла MSA

prettybox [MSA file]

prettybox hemoglobinsmsf

1 The ldquordquo is a syntax sign meaning all the sequences in the MSA file

2 Can also calculate the consensus sequence

GCG

ClustalWbull Очень известная и широко распространённая

программа UNIX Internet Windows

bull Выполняет MSA может строить филогенетические деревья

bull Входной файл ndash формат multi-fasta

ClustalW

bull tofasta list

gtIPNS_STRJU P18286

MPILMPSAEVPTIDISPLSGDDAKAKQRVAQEINKAARGSGFFYASNHGVDVQLLQDVVN

EFHRNMSDQEKHDLAINAYNKDNPHVRNGYYKAIKGKKAVESFCYLNPSFSDDHPMIKSE

TPMHEVNLWPDEEKHPRFRPFCEDYYRQLLRLSTVIMRGYALALGRREDFFDEALAEADT

LSSVSLIRYPYLEEYPPVKTGADGTKLSFEDHLDVSMITVLYQTEVQNLQVETVDGWQDI

PRSDEDFLVNCGTYMGHITHDYFPAPNHRVKFINAERLSLPFFLNAGHNSVIEPFVPEGA

AGTVKNPTTSYGEYLQHGLRALIVKNGQT

gtIPNS_STRCL P10621

MPVLMPSAHVPTIDISPLFGTDAAAKKRVAEEIHGACRGSGFFYATNHGVDVQQLQDVVN

EFHGAMTDQEKHDLAIHAYNPDNPHVRNGYYKAVPGRKAVESFCYLNPDFGEDHPMIAAG

TPMHEVNLWPDEERHPRFRPFCEGYYRQMLKLSTVLMRGLALALGRPEHFFDAALAEQDS

LSSVSLIRYPYLEEYPPVKTGPDGQLLSFEDHLDVSMITVLFQTQVQNLQVETVDGWRDI

PTSENDFLVNCGTYMAHVTNDYFPAPNHRVKFVNAERLSLPFFLNGGHEAVIEPFVPEGA

SEEVRNEALSYGDYLQHGLRALIVKNGQT

input fileMulti-fasta

Making the file in unix

ClustalWCLUSTAL W (17) multiple sequence alignment

IPNS_STRJU -MPILMPSAEVPTIDISPLSGDDAKAKQRVAQEINKAARGSGFFYASNHGVDVQLLQDVVIPNS_STRGR -MPIPMLPAHVPTIDISPLSGGDADDKKRVAQEINKACRESGFFYASHHGIDVQLLKDVVIPNS_FLASS ----MNRHADVPVIDISGLSGNDMDVKKDIAARIDRACRGSGFFYAANHGVDLAALQKFTIPNS_PENCH --MASTPKANVPKIDVSPLFGDNMEEKMKVARAIDAASRDTGFFYAVNHGVDVKRLSNKTIPNS_CEPAC MGSVPVPVANVPRIDVSPLFGDDKEKKLEVARAIDAASRDTGFFYAVNHGVDLPWLSRET

IPNS_STRJU NEFHRNMSDQEKHDLAINAYNKDNP-HVRNGYYKAIKGKKAVESFCYLNPSFSDDHPMIKIPNS_STRGR NEFHRTMTDEEKYDLAINAYNKNNP-RTRNGYYMAVKGKKAVESWCYLNPSFSEDHPQIRIPNS_FLASS TDWHMAMSAEEKWELAIRAYNPANP-RNRNGYYMAVEGKKANESFCYLNPSFDADHATIKIPNS_PENCH REFHFSITDEEKWDLAIRAYNKEHQDQIRAGYYLSIPEKKAVESFCYLNPNFKPDHPLIQIPNS_CEPAC NKFHMSITDEEKWQLAIRAYNKEHESQIRAGYYLPIPGKKAVESFCYLNPSFSPDHPRIK

Выходной файл aln format

httpwwwebiacukhelpformatshtml

форматы

ClustalW на EMBL

ClustalW на EMBL - результат

ClustalW at EMBL - Jalview

Conservation

Consensus Sequence

Мы можем вывести consensus sequence из результатов MSA The consensus sequence содержит наиболее часто встречающийся символ в кажной колонке выравнивания

A T C T T G T

A A C T T G T

A A C T T C T

A A C T T G T

Ещё пара терминовhelliphellip

Профиль (Profile)

Также возможно вывести статистическую модель описывающую MSA Профиль содержит информацию о символах в каждом столбце выравнивания

A T C T T G T

A A C T T G T

A A C T T C T

1 2 3 4 5 6

A 1 067 0 0

T 0 033 1 1

C 0 0 0 0

G 0 0 0 0

Profile vs Consensus

Consensus каждая позиция отражает наиболее часто встречающийся символ

Profile каждая позиция отражает частоту символа в данной позиции

Profile vs Consensus

Данный MSA будет иметь одинаковый consensus

A A C T T G C

A A G T C G T

C A C T T C T

A A C T T G T

A A C T T G T

A A C T T C T

A A C T T G T

Profile vs Consensus

Но разный профиль

A A C T T G C

A A G T C G T

C A C T T C T

A A C T T G T

A A C T T G T

A A C T T C T

1 2 3 4 5 6

A 066 1 0 0

T 0 0 0 1

C 033 0 066 0

G 0 0 033 0

1 2 3 4 5 6

A 1 1 0 0

T 0 0 0 1

C 0 0 1 0

G 0 0 0 0

Psi Blast (NCBI)

Position Specific Iterated ndash автоматизированный поиск по профилю

Regular blast

Construct profile from blast results

Blast profile search

Final results

PSI-Blast

Psi-Blast вывод

Проблема формулировки выводов при использовании МSA

1 Сайт выглядит общим (фиксированным) из-за того что это ndash близкородственные последовательности

2 Сайт выглядит общим из-за того что это ndash исключительно жизненно важный сайт

ФилогенезЭволюция ndash случайный процесс с неслучайным результатом

Цели филогенетического исследования

bull Реконструкция корректных генеалогических связей

между биологическими объектами

bull Оценка времени расхождения организмов

bull Определение порядка эволюционных событий в процессе

эволюции

Формат Newick

((A(BC))(DE))

Типы данных

Molecular (DNA RNA proteins)

Morphological (soft tissue hard tissue extant extinct)

Преимущества молекулярных данных

bull Наследуемость

bull Недвусмысленность в описании молекулярных характеристик

bull Поддаются количественному анализу

bull Оценка гомологии легче чем морфологические исследования

bull Данных много

Древо видов и геновbull Древо видов ndash эволюционные взаимосвязи

между видами (видообразование)bull Древо генов

Page RDM and Cotton JC (2000) GeneTree a tool for exploring gene family evolution In D Sankoff and J Nadeau (eds) Comparative Genomics Empirical and Analytical Approaches to Gene Order Dynamics Map Alignment and the Evolution of Gene Families Kluwer Academic Publishers Dordrecht pp 525-536

Figure 2 (a) Incongruent gene and species trees This incongruence can be explained by hypothesizing a gene duplication (h) at the base of the gene tree (b)The presence of only a single gene (a-d) extant in each of the present-day species(1-4) requires postulating three gene losses (c) The corresponding reconciled tree

Ортологи и паралоги

bull Гены-паралоги ndash событие дупликация (and

bull Гены-ортологи ndash событие видообразования (in the two species and in the two species

Duplication

Speciation

Species a Species b

Шаги реконструирования филогенетического

древа

1 Выбор последовательностей и поиск гомологов

2 MSA3 Матрица белков4 Филогенетическое дерево

Филогенетическое дерево

Филогения - раздел биологии изучающий родственные взаимоотношения разных групп живых организмов Филогению отображается обычно в виде эволюционных древ или систематических названий

Зачем нужны филогенетические деревья

Биологические задачи

сравнение 3-х и более объектов (кто на кого более похож )

реконструкция эволюции (кто от кого как и когда произошелhellip)

ТерминологияУзел (node) mdash точка разделения предковой последовательности(вида популяции) на две независимо эволюционирующиеСоответствует внутренней вершине графа изображающего эволюциюЛист (leaf OTU ndash оперативная таксономическая единица) mdash реальный (современный) объект внешняя вершина графаВетвь (branch) mdash связь между узлами или между узлом и листом ребро графаКорень (root) mdash общий предокКлада (clade) - группа двух или более таксонов или последователь-ностей ДНК которая включает как своего общего предка так и всех его потомков

OTU

HTU (hypotetical taxonomic unit)

Какие бывают деревья

Бинарное (разрешённое)(в один момент времени может

произойти только одно событие )

Небинарное (неразрешённое) (может ли в один момент времени

произойти два события )

Время

Какие бывают деревья

Укорененное дерево (rooted tree)отражает направление эволюции

Неукорененное (бескорневое) дерево(unrooted tree) показывает только связи между узлами

Время

Если число листьев равно n существует (2n-3)разных бинарных укоренных деревьевПо определению (2n-3) = 1middot3 middot middot(2n-3)

Существует (2n-5) разных бескорневых деревьев с n листьями

Rooting

A C B B C AA B C

3 OTUs 3 OTUs 1 н 1 неукорененное деревоеукорененное дерево 33 укорененных деревьев укорененных деревьев

A

B

C

D

C

A

B

4 OTUs 4 OTUs 3 3 неукорененных филогенетических неукорененных филогенетических деревьевдеревьев

D

B

A

C C

B

A

D

4 OTUs

15 укорененных

деревьев

Количество Количество Количество

OTU укорененных неукорененных

2 1 13 3 14 15 35 105 156 954 1057 103959548 135135 103959 2027025 13513510 34459425 202702511 654729075 3445942512 13749310575 654729075

Количество возможных деревьев

Рутинная процедура или как строят деревья

Составление выборки последовательностей

Множественное выравнивание

Построение дерева фрагмент записи в виде скобочной формулы

Визуализация и редактура дерева

(((((con1013851018(f539692826973((f67220839851max42750591)492893con923019677)1362315)953075)2583145

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Множественное выравнивание

Matches

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Multiple Alignment

Matches

Mismatches

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Multiple Alignment

Matches

Mismatches

Gaps

Seq 1 A G C G A GSeq 1 A G C G A GSeq 2 G C G G A CSeq 2 G C G G A C

Шаг 3 Перевод количества расхождений в индексы замен

Distance Matrix

Units количество замен нуклеотидов на 1000

Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86

Rice 00 118 122 122

Mosquito 00 55 51

Monkey 00 3

Human 00

Шаг 4 построение филогенетического дерева

Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86

Rice 00 118 122 122

Mosquito 00 55 51

Monkey 00 3

Human 00

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Дистанция между человеком и обезьяной минимальна Эти группы объединяются в Monkey-Human а все остальные дистанции пересчитываются

Dist[Spinach MonHum] = (Dist[Spinach Monkey] +

Dist[Spinach Human])2 = (91 + 86)2 = 885

Spinach Rice Mosquito Mon-HumSpinach 00 9 106 885

Rice 00 118 122

Mosquito 00 53

Mon-Hum 00

Редуцированная матрица дистанций

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Spi-Ric

HumanMosquito

Mon-Hum

MonkeySpinachRice

Mos-Mon-Hum

Spi-Ric

Mos-Mon-Hum-Spi-Ric

Как выбирать последовательности для дерева

Кроме случаев очень близких последовательностей проще работать с белками (а не с ДНК)

Придерживайтесь небольшой выборки (lt 50 последовательностей)

Избегайтеndash фрагментовndash Ксенологов (горизонтальный перенос генов)ndash рекомбинантных последовательностейndash многодоменных белков и повторов

Используйте outgroup (последовательность ответвившаяся от общего предка заведомо (но минимально) раньше разделения интересующих групп-клад)

Самое главное ndash хорошее выравнивание

Максимальный вклад в финальное дерево нельзя построить хорошее дерево по плохому выравниванию

Блоки содержащие много гэпов плохо выровненные N- и C- концы можно просто вырезать

Основные алгоритмы построения филогенетических деревьев

Методы основанные на оценке

расстояний (матричные методы)

bull UPGMA (кластеризация)

bull Neighbor-joining

bull Минимальная эволюция

Наибольшего правдоподобия Maximal likelihood ML Используется модель эволюции и строится дерево которое наиболее правдоподобно при данной модели

Максимальной экономии (бережливости)

maximal parsimony MP Выбирается дерево с минимальным количеством

мутаций необходимых для объяснения данных

Пример матрицы расстояний

1 2 3 4 5 6 7 8 000 1053 977 1278 1203 1654 1353 2500 HUMAN 1

000 902 1203 977 1579 902 2727 HORSE 2 000 977 902 1654 1203 2424 RABIT 3

000 226 1729 1053 2576 MOUSE 4 000 1579 827 2576 RAT 5

000 1053 2955 BOVIN 6 000 2500 PIG 7

000 CHICK 8

Расстояние (уровень дивергенции) между соответствующими последовательностями из геномов мыши и свиньи

Как понимать расстояние между объектами

bull Как время в течение которого они эволюционировалиbull Как число laquoэволюционных событийraquo (мутаций)

В первом случае объекты образуют ультраметрическое пространство(если все объекты наблюдаются в одно время что как правило верно)

Но время непосредственно измерить невозможно

Гипотеза laquoмолекулярных часовraquo(EZuckerkandl LPauling 1962)

За равное время во всех ветвях эволюции данного генабелка накапливается равное число мутацийЕсли гипотеза молекулярных часов

принимается число различий между выровненными последовательностями можно считать примерно пропорциональным времени Отклонения от ультраметричности можно считать случайными Эволюция реконструируется в виде ультраметрического дерева

Укоренённое дерево называется ультраметрическим если расстояние от корня до любого из листьев одинаково

UPGMAUnweighted Pair Group Method with Arithmetic Mean

разновидность кластерного метода

Расстояние между кластерами вычисляется как среднее арифметическое всевозможных расстояний между последовательностями из кластеров

Недостатки UPGMA

Алгоритм строит ультраметрическое дерево ndash скорость эволюции предполагается одинаковой для всех ветвей дерева Использовать этот алгоритм имеет смысл только в случае ультраметрических данных (справедливости laquoмолекулярных часовraquo)

Реальное дерево UPGMA

Метод ближайших соседей (Neighbor-joining NJ)

Строит неукоренённое дерево

Может работать с большим количеством данных

Достаточно быстрый

Если есть недвусмысленное с точки зрения эксперта дерево то оно будет построено

Метод Neighbor-joining

Рисуем laquoзвездноеraquo дерево и будем laquoотщипыватьraquo от него по паре листьев

Пусть ui = Σk Mik(n-2) mdash среднее расстояние от листа i до других

листьев

1 Рассмотрим все возможные пары листьев Выберем 2 листа i и j с минимальным значением величины

Mij ndash ui ndashuj

те выбираем 2 узла которые близки друг к другу но далеки ото всех остальных

Метод ближайших соседей (Neighbor-joining NJ)

2 Кластер (i j) ndash новый узел дерева

Расстояние от i или от j до узла (ij) D(i (ij)) = 05middot(Mij + ui ndash uj) D(j (ij)) = 05middot (Mij + uj ndash ui) те длина ветви зависит от среднего расстояния до других вершин

3 Вычисляем расстояние от нового кластера до всех других

M(ij)k = Mik+Mjk ndash Mij 2

5 В матрице М убираем i и j и добавляем (i j) Повторяем пока не останутся 3 узла

Input MSA для n последовательностей одна последовательность для каждого вида

AAAAATC

AAAAAAG

CCCCCCG

AAAAATCAAAAAAG

CCCCCCG

Длинная ветвь ndash непохоже на правду

Длинная ветвь -Похоже на правду

Методы основанные на последовательностях Maximum Likelihood (ML) Maximum Parsimony (MP)

Как изобразить дерево Топология дерева

Топология дерева mdash только листья узлы (корень) и связывающие их ветви (топология не зависит от способа изображения дерева)

A

B

C

D

E A BC D E

Два изображения одной и той же топологии

Bacterium 1

Bacterium 3

Bacterium 2

Eukaryote 1

Eukaryote 4

Eukaryote 3

Eukaryote 2

Bacterium 1

Bacterium 3Bacterium 2

Eukaryote 1

Eukaryote 4Eukaryote 3

Eukaryote 2

Филограммы ndash длины ветвей

пропорциональны

эволюционному расстоянию

Кладограммы и филограммы

Кладограммы ndash только

топологя Длины ветвей не

учитываются

6

31

2

46

24

53

Как можно нарисовать построенное дерево

Какие on-line программы строят деревья

ClustalW ldquoTree typerdquo ndash nj phylip строит только методом NJ но результат ndash в разных форматах no bootstraps

Phylip (Felsenstein 1993) ndash пакет программ для построения филогенетических деревьев (stand-alone)On-line (partly) например

httpbiowebpasteurfrseqanalphylogenyphylip-ukhtml PAUP (Phylogenetic Analysis Using Parsimony)

MEGA филогенетический анализ последовательностей

httpwwwmegasoftwarenet

Эволюция ndash исторический процесс

Из 8200794532637891559375 деревьев для 20 OTUs 1

является верным и 8200794532637891559374

неверны

Truth is one falsehoods are many

Какое из 8200794532637891559375

деревьев истинно

Мы не знаем Можно применить иные критетии

Например ldquoпохожесть=родствоraquo

GCGbull Строковый поиск простой текстовый

поиск по локальной базе данных

bull Поиск в определениях или в аннотациях

bull Определения содержат минимальное количество информации для каждой статьи доступ имя организма имя гена длина последовательности дата

  • Bestfit Output
  • SP1 at swissprot
  • EGR1 at swissprot
  • Вывод
  • Bl2Seq at NCBI
  • Bl2seq results
  • Bl2seq оценка
  • Оптимизация времени вычислений при парном выравнивании
  • Slide 9
  • Алгоритм BLAST (шаг 1)
  • Slide 11
  • Blast
  • Поиск гомологов
  • ДНК или белок
  • ДНК
  • Slide 16
  • Slide 17
  • Двойная спираль
  • ДНК дальнейшая упаковка
  • Slide 20
  • Репликация ДНК
  • Slide 22
  • Slide 23
  • Slide 24
  • Slide 25
  • Множественное выравнивание последовательностей (MSA)
  • Slide 27
  • Основные предположения
  • Например
  • Почему множественное выравнивание
  • Slide 31
  • Подходы в MSA
  • MSA algorithm
  • Multiple Alignment - алгоритм
  • Комментарии
  • GCG
  • Slide 37
  • GCG
  • Slide 39
  • Slide 40
  • Slide 41
  • ClustalW
  • Slide 43
  • Slide 44
  • ClustalW на EMBL
  • ClustalW на EMBL - результат
  • ClustalW at EMBL - Jalview
  • Consensus Sequence
  • Профиль (Profile)
  • Profile vs Consensus
  • Slide 51
  • Slide 52
  • Psi Blast (NCBI)
  • PSI-Blast
  • Psi-Blast вывод
  • Slide 56
  • Филогенез
  • Slide 58
  • Slide 59
  • Slide 60
  • Slide 61
  • Древо видов и генов
  • Ортологи и паралоги
  • Шаги реконструирования филогенетического древа
  • Филогенетическое дерево
  • Зачем нужны филогенетические деревья
  • Терминология
  • Slide 68
  • Какие бывают деревья
  • Slide 70
  • Slide 71
  • Slide 72
  • 4 OTUs 3 неукорененных филогенетических деревьев
  • Slide 74
  • Slide 75
  • Slide 76
  • Slide 77
  • Рутинная процедура или как строят деревья
  • Slide 79
  • Slide 80
  • Slide 81
  • Slide 82
  • Slide 83
  • Slide 84
  • Slide 85
  • Slide 86
  • Slide 87
  • Slide 88
  • Slide 89
  • Как выбирать последовательности для дерева
  • Самое главное ndash хорошее выравнивание
  • Основные алгоритмы построения филогенетических деревьев
  • Пример матрицы расстояний
  • Slide 94
  • Гипотеза laquoмолекулярных часовraquo (EZuckerkandl LPauling 1962)
  • UPGMA Unweighted Pair Group Method with Arithmetic Mean
  • Недостатки UPGMA
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Метод Neighbor-joining
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Slide 101
  • Как изобразить дерево Топология дерева
  • Slide 103
  • Какие on-line программы строят деревья
  • MEGA филогенетический анализ последовательностей
  • Slide 106
  • Slide 107
  • Slide 108
Page 18: Bestfit Output

Двойная спиральДвойная спираль

P

P

P

O

O

O

1

23

4

5

5

3

3

5

P

P

PO

O

O

1

2 3

4

5

5

3

5

3

G C

T A

ДНК дальнейшая упаковка

ДНК

Функции ДНК mdash наследственность и изменчивость

Репликация ДНК

Репликация ДНК

bull Генетический код избыточен ndash почти все аминокислоты кодируются более чем 1 кодоном (тройка нуклеотидов)

bull Последовательность ДНК может меняться в то время как последовательность белка остается постоянной

Ser-Tyrhellip

UCAUAC UCUUAC UCGUAC Uhelliphellip

Поиск гомологов

bull Нуклеотиды ndash 4-х буквенный алфавитbull Аминокислоты ndash 20-и буквенный алфавит

Две случайные последовательности ДНК будут идентичны ~ 25Две случайные белковые последовательности будут идентичны ~ 5

Поиск гомологов

Матрицы для сравнения белков более чувствительны чем матрицы для ДНК

Базы данных ДНК намного больше белковых rarr будут случайные совпадения

Поиск гомологов

Использование белковых последовательностей более предпочтительно при поиске гомологов

Поиск гомологов

Множественное выравнивание последовательностей (MSA)

VTISCTGSSSNIGAG-NHVKWYQQLPGVTISCTGTSSNIGS--ITVNWYQQLPGLRLSCSSSGFIFSS--YAMYWVRQAPGLSLTCTVSGTSFDD--YYSTWVRQPPGPEVTCVVVDVSHEDPQVKFNWYVDG--ATLVCLISDFYPGA--VTVAWKADS--AALGCLVKDYFPEP--VTVSWNSG---VSLTCLVKGFYPSD--IAVEWWSNG--

Основные предположения

bull Гены фиксированы сохранены у очень широкого круга биологических видов у совершенно различных представителей laquoдрева жизниraquo

bull Фиксированный генетический код для белков вероятно несёт похожие зачастую идентичные функции

Например

bull Гистоны небольшие белки присутствуют у всех эукариот

Демонстрируют выраженное постоянство последовательности в MSA

Постоянство структуры и функции (упаковка DNA)

Почему множественное выравнивание

Позволяет дать характеристику семействам белков найти общие участки гомологов

Например семейство Serine protease семейство отвечающее за катализ гидролиз пептидных связей

bull Одинаковые активные центры

bull Общие участка последовательности

bull MSA ndash это первый предварительный шаг к анализу в области молекулярной эволюции и построения эволюционных деревьев

bull База для филогенеза ndash данные молекулярной биологии или морфологические данные

Подходы в MSA

2 разных подходаndash 1D sequence based ndash сравнение

последовательностейndash 2D-3D based ndash выравнивание базирующееся на

структуре

MSA algorithm

bull Попарное выравнивание всех последовательностей (pairwise alignment)

bull Кластерный анализ данных парного выравнивания для получения иерархии выравниваний (guide tree)

bull Построение множественного выравнивания (MSA) пошагово в соответствии с guide tree сначала выравнивают наиболее похожие пары затем добавляют остальные и тд

Multiple Alignment - алгоритм

(1) Парное выравнивание (подготовка guide tree)

6 pairwise alignments

then cluster analysis

(2) Множественное выравнивание следуя древу из п 1

successive alignments

Комментарии

bull Парное выравнивание - оптимальный алгоритм

bull Множественное выравнивание не является оптимальным алгоритмом Вполне могут существовать и лучшие выравнивания

bull Редакторы выравниваний могут быть полезны для корректировки

GCG

Pileup глобальный MSA

pileup [list of sequence names]

pileup hemoglobin_list

1 The sign means that the file contains a list of names

2 The list can include names from the userrsquos directory or code names (accession numbers) from the GCG databases

GCGПример входного файла

swhbb_human

swhbb_rat

swhbb_mouse

Hemoglobin_Alpha

Hemoglobin_Gamma

Hemogolibin_Delta

Syntax the file starts with ldquordquo

Sequences from the databases

Sequences from the userrsquos directory

GCG PileUp creates a multiple sequence alignment from a group of relatedsequences using progressive pairwise alignments It can also plot atree showing the clustering relationships used to create the alignment

1 IPNS_STRJU 329 aa 2 IPNS_STRCL 329 aa 3 IPNS_CEPAC 338 aa 4 IPNS_NOCLA 328 aa

What is the gap creation penalty ( 8 ) What is the gap extension penalty ( 2 )

This program can display the clustering relationships graphically Do you want to A) Plot to a FIGURE file called pileupfigure B) Plot graphics on HP7550 attached to devtty15 C) Suppress the plot Please choose one ( A ) c What should I call the output file name ( ipnsmsf )

Determining pairwise similarity scores

1 x 2 443 1 x 3 312 1 x 4 412 2 x 3 294 2 x 4 405 3 x 4 309

Aligning

Total sequences 4 Alignment length 338 CPU time 0021

Output filedatausersracheliothersracheliipnsmsf

Regular GCG syntaxDefault parametersoutput file etc

GCGAA_MULTIPLE_ALIGNMENT 10PileUp of ipnsfil

Symbol comparison table GenRunDatablosum62cmp CompCheck 1102 GapWeight 8 GapLengthWeight 2 ipnsmsf MSF 338 Type P March 14 2002 0929 Check 7631

Name IPNS_STRJU Len 338 Check 6344 Weight 100 Name IPNS_STRCL Len 338 Check 4249 Weight 100 Name IPNS_NOCLA Len 338 Check 7020 Weight 100 Name IPNS_CEPAC Len 338 Check 18 Weight 100

1 50IPNS_STRJU ~MPILMPSAE VPTIDISPLS GDDAKAKQRV AQEINKAARG SGFFYASNHGIPNS_STRCL ~MPVLMPSAH VPTIDISPLF GTDAAAKKRV AEEIHGACRG SGFFYATNHGIPNS_NOCLA ~~~MKMPSAE VPTIDVSPLF GDDAQEKVRV GQEINKACRG SGFFYAANHGIPNS_CEPAC MGSVPVPVAN VPRIDVSPLF GDDKEKKLEV ARAIDAASRD TGFFYAVNHG

51 100IPNS_STRJU VDVQLLQDVV NEFHRNMSDQ EKHDLAINAY NKDNPHVRN GYYKAIKGKKIPNS_STRCL VDVQQLQDVV NEFHGAMTDQ EKHDLAIHAY NPDNPHVRN GYYKAVPGRKIPNS_NOCLA VDVQRLQDVV NEFHRTMSPQ EKYDLAIHAY NKNNSHVRN GYYMAIEGKKIPNS_CEPAC VDLPWLSRET NKFHMSITDE EKWQLAIRAY NKEHESQIRA GYYLPIPGKK

Output filemsf format

GCG

Prettybox генерирует графический файл из файла MSA

prettybox [MSA file]

prettybox hemoglobinsmsf

1 The ldquordquo is a syntax sign meaning all the sequences in the MSA file

2 Can also calculate the consensus sequence

GCG

ClustalWbull Очень известная и широко распространённая

программа UNIX Internet Windows

bull Выполняет MSA может строить филогенетические деревья

bull Входной файл ndash формат multi-fasta

ClustalW

bull tofasta list

gtIPNS_STRJU P18286

MPILMPSAEVPTIDISPLSGDDAKAKQRVAQEINKAARGSGFFYASNHGVDVQLLQDVVN

EFHRNMSDQEKHDLAINAYNKDNPHVRNGYYKAIKGKKAVESFCYLNPSFSDDHPMIKSE

TPMHEVNLWPDEEKHPRFRPFCEDYYRQLLRLSTVIMRGYALALGRREDFFDEALAEADT

LSSVSLIRYPYLEEYPPVKTGADGTKLSFEDHLDVSMITVLYQTEVQNLQVETVDGWQDI

PRSDEDFLVNCGTYMGHITHDYFPAPNHRVKFINAERLSLPFFLNAGHNSVIEPFVPEGA

AGTVKNPTTSYGEYLQHGLRALIVKNGQT

gtIPNS_STRCL P10621

MPVLMPSAHVPTIDISPLFGTDAAAKKRVAEEIHGACRGSGFFYATNHGVDVQQLQDVVN

EFHGAMTDQEKHDLAIHAYNPDNPHVRNGYYKAVPGRKAVESFCYLNPDFGEDHPMIAAG

TPMHEVNLWPDEERHPRFRPFCEGYYRQMLKLSTVLMRGLALALGRPEHFFDAALAEQDS

LSSVSLIRYPYLEEYPPVKTGPDGQLLSFEDHLDVSMITVLFQTQVQNLQVETVDGWRDI

PTSENDFLVNCGTYMAHVTNDYFPAPNHRVKFVNAERLSLPFFLNGGHEAVIEPFVPEGA

SEEVRNEALSYGDYLQHGLRALIVKNGQT

input fileMulti-fasta

Making the file in unix

ClustalWCLUSTAL W (17) multiple sequence alignment

IPNS_STRJU -MPILMPSAEVPTIDISPLSGDDAKAKQRVAQEINKAARGSGFFYASNHGVDVQLLQDVVIPNS_STRGR -MPIPMLPAHVPTIDISPLSGGDADDKKRVAQEINKACRESGFFYASHHGIDVQLLKDVVIPNS_FLASS ----MNRHADVPVIDISGLSGNDMDVKKDIAARIDRACRGSGFFYAANHGVDLAALQKFTIPNS_PENCH --MASTPKANVPKIDVSPLFGDNMEEKMKVARAIDAASRDTGFFYAVNHGVDVKRLSNKTIPNS_CEPAC MGSVPVPVANVPRIDVSPLFGDDKEKKLEVARAIDAASRDTGFFYAVNHGVDLPWLSRET

IPNS_STRJU NEFHRNMSDQEKHDLAINAYNKDNP-HVRNGYYKAIKGKKAVESFCYLNPSFSDDHPMIKIPNS_STRGR NEFHRTMTDEEKYDLAINAYNKNNP-RTRNGYYMAVKGKKAVESWCYLNPSFSEDHPQIRIPNS_FLASS TDWHMAMSAEEKWELAIRAYNPANP-RNRNGYYMAVEGKKANESFCYLNPSFDADHATIKIPNS_PENCH REFHFSITDEEKWDLAIRAYNKEHQDQIRAGYYLSIPEKKAVESFCYLNPNFKPDHPLIQIPNS_CEPAC NKFHMSITDEEKWQLAIRAYNKEHESQIRAGYYLPIPGKKAVESFCYLNPSFSPDHPRIK

Выходной файл aln format

httpwwwebiacukhelpformatshtml

форматы

ClustalW на EMBL

ClustalW на EMBL - результат

ClustalW at EMBL - Jalview

Conservation

Consensus Sequence

Мы можем вывести consensus sequence из результатов MSA The consensus sequence содержит наиболее часто встречающийся символ в кажной колонке выравнивания

A T C T T G T

A A C T T G T

A A C T T C T

A A C T T G T

Ещё пара терминовhelliphellip

Профиль (Profile)

Также возможно вывести статистическую модель описывающую MSA Профиль содержит информацию о символах в каждом столбце выравнивания

A T C T T G T

A A C T T G T

A A C T T C T

1 2 3 4 5 6

A 1 067 0 0

T 0 033 1 1

C 0 0 0 0

G 0 0 0 0

Profile vs Consensus

Consensus каждая позиция отражает наиболее часто встречающийся символ

Profile каждая позиция отражает частоту символа в данной позиции

Profile vs Consensus

Данный MSA будет иметь одинаковый consensus

A A C T T G C

A A G T C G T

C A C T T C T

A A C T T G T

A A C T T G T

A A C T T C T

A A C T T G T

Profile vs Consensus

Но разный профиль

A A C T T G C

A A G T C G T

C A C T T C T

A A C T T G T

A A C T T G T

A A C T T C T

1 2 3 4 5 6

A 066 1 0 0

T 0 0 0 1

C 033 0 066 0

G 0 0 033 0

1 2 3 4 5 6

A 1 1 0 0

T 0 0 0 1

C 0 0 1 0

G 0 0 0 0

Psi Blast (NCBI)

Position Specific Iterated ndash автоматизированный поиск по профилю

Regular blast

Construct profile from blast results

Blast profile search

Final results

PSI-Blast

Psi-Blast вывод

Проблема формулировки выводов при использовании МSA

1 Сайт выглядит общим (фиксированным) из-за того что это ndash близкородственные последовательности

2 Сайт выглядит общим из-за того что это ndash исключительно жизненно важный сайт

ФилогенезЭволюция ndash случайный процесс с неслучайным результатом

Цели филогенетического исследования

bull Реконструкция корректных генеалогических связей

между биологическими объектами

bull Оценка времени расхождения организмов

bull Определение порядка эволюционных событий в процессе

эволюции

Формат Newick

((A(BC))(DE))

Типы данных

Molecular (DNA RNA proteins)

Morphological (soft tissue hard tissue extant extinct)

Преимущества молекулярных данных

bull Наследуемость

bull Недвусмысленность в описании молекулярных характеристик

bull Поддаются количественному анализу

bull Оценка гомологии легче чем морфологические исследования

bull Данных много

Древо видов и геновbull Древо видов ndash эволюционные взаимосвязи

между видами (видообразование)bull Древо генов

Page RDM and Cotton JC (2000) GeneTree a tool for exploring gene family evolution In D Sankoff and J Nadeau (eds) Comparative Genomics Empirical and Analytical Approaches to Gene Order Dynamics Map Alignment and the Evolution of Gene Families Kluwer Academic Publishers Dordrecht pp 525-536

Figure 2 (a) Incongruent gene and species trees This incongruence can be explained by hypothesizing a gene duplication (h) at the base of the gene tree (b)The presence of only a single gene (a-d) extant in each of the present-day species(1-4) requires postulating three gene losses (c) The corresponding reconciled tree

Ортологи и паралоги

bull Гены-паралоги ndash событие дупликация (and

bull Гены-ортологи ndash событие видообразования (in the two species and in the two species

Duplication

Speciation

Species a Species b

Шаги реконструирования филогенетического

древа

1 Выбор последовательностей и поиск гомологов

2 MSA3 Матрица белков4 Филогенетическое дерево

Филогенетическое дерево

Филогения - раздел биологии изучающий родственные взаимоотношения разных групп живых организмов Филогению отображается обычно в виде эволюционных древ или систематических названий

Зачем нужны филогенетические деревья

Биологические задачи

сравнение 3-х и более объектов (кто на кого более похож )

реконструкция эволюции (кто от кого как и когда произошелhellip)

ТерминологияУзел (node) mdash точка разделения предковой последовательности(вида популяции) на две независимо эволюционирующиеСоответствует внутренней вершине графа изображающего эволюциюЛист (leaf OTU ndash оперативная таксономическая единица) mdash реальный (современный) объект внешняя вершина графаВетвь (branch) mdash связь между узлами или между узлом и листом ребро графаКорень (root) mdash общий предокКлада (clade) - группа двух или более таксонов или последователь-ностей ДНК которая включает как своего общего предка так и всех его потомков

OTU

HTU (hypotetical taxonomic unit)

Какие бывают деревья

Бинарное (разрешённое)(в один момент времени может

произойти только одно событие )

Небинарное (неразрешённое) (может ли в один момент времени

произойти два события )

Время

Какие бывают деревья

Укорененное дерево (rooted tree)отражает направление эволюции

Неукорененное (бескорневое) дерево(unrooted tree) показывает только связи между узлами

Время

Если число листьев равно n существует (2n-3)разных бинарных укоренных деревьевПо определению (2n-3) = 1middot3 middot middot(2n-3)

Существует (2n-5) разных бескорневых деревьев с n листьями

Rooting

A C B B C AA B C

3 OTUs 3 OTUs 1 н 1 неукорененное деревоеукорененное дерево 33 укорененных деревьев укорененных деревьев

A

B

C

D

C

A

B

4 OTUs 4 OTUs 3 3 неукорененных филогенетических неукорененных филогенетических деревьевдеревьев

D

B

A

C C

B

A

D

4 OTUs

15 укорененных

деревьев

Количество Количество Количество

OTU укорененных неукорененных

2 1 13 3 14 15 35 105 156 954 1057 103959548 135135 103959 2027025 13513510 34459425 202702511 654729075 3445942512 13749310575 654729075

Количество возможных деревьев

Рутинная процедура или как строят деревья

Составление выборки последовательностей

Множественное выравнивание

Построение дерева фрагмент записи в виде скобочной формулы

Визуализация и редактура дерева

(((((con1013851018(f539692826973((f67220839851max42750591)492893con923019677)1362315)953075)2583145

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Множественное выравнивание

Matches

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Multiple Alignment

Matches

Mismatches

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Multiple Alignment

Matches

Mismatches

Gaps

Seq 1 A G C G A GSeq 1 A G C G A GSeq 2 G C G G A CSeq 2 G C G G A C

Шаг 3 Перевод количества расхождений в индексы замен

Distance Matrix

Units количество замен нуклеотидов на 1000

Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86

Rice 00 118 122 122

Mosquito 00 55 51

Monkey 00 3

Human 00

Шаг 4 построение филогенетического дерева

Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86

Rice 00 118 122 122

Mosquito 00 55 51

Monkey 00 3

Human 00

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Дистанция между человеком и обезьяной минимальна Эти группы объединяются в Monkey-Human а все остальные дистанции пересчитываются

Dist[Spinach MonHum] = (Dist[Spinach Monkey] +

Dist[Spinach Human])2 = (91 + 86)2 = 885

Spinach Rice Mosquito Mon-HumSpinach 00 9 106 885

Rice 00 118 122

Mosquito 00 53

Mon-Hum 00

Редуцированная матрица дистанций

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Spi-Ric

HumanMosquito

Mon-Hum

MonkeySpinachRice

Mos-Mon-Hum

Spi-Ric

Mos-Mon-Hum-Spi-Ric

Как выбирать последовательности для дерева

Кроме случаев очень близких последовательностей проще работать с белками (а не с ДНК)

Придерживайтесь небольшой выборки (lt 50 последовательностей)

Избегайтеndash фрагментовndash Ксенологов (горизонтальный перенос генов)ndash рекомбинантных последовательностейndash многодоменных белков и повторов

Используйте outgroup (последовательность ответвившаяся от общего предка заведомо (но минимально) раньше разделения интересующих групп-клад)

Самое главное ndash хорошее выравнивание

Максимальный вклад в финальное дерево нельзя построить хорошее дерево по плохому выравниванию

Блоки содержащие много гэпов плохо выровненные N- и C- концы можно просто вырезать

Основные алгоритмы построения филогенетических деревьев

Методы основанные на оценке

расстояний (матричные методы)

bull UPGMA (кластеризация)

bull Neighbor-joining

bull Минимальная эволюция

Наибольшего правдоподобия Maximal likelihood ML Используется модель эволюции и строится дерево которое наиболее правдоподобно при данной модели

Максимальной экономии (бережливости)

maximal parsimony MP Выбирается дерево с минимальным количеством

мутаций необходимых для объяснения данных

Пример матрицы расстояний

1 2 3 4 5 6 7 8 000 1053 977 1278 1203 1654 1353 2500 HUMAN 1

000 902 1203 977 1579 902 2727 HORSE 2 000 977 902 1654 1203 2424 RABIT 3

000 226 1729 1053 2576 MOUSE 4 000 1579 827 2576 RAT 5

000 1053 2955 BOVIN 6 000 2500 PIG 7

000 CHICK 8

Расстояние (уровень дивергенции) между соответствующими последовательностями из геномов мыши и свиньи

Как понимать расстояние между объектами

bull Как время в течение которого они эволюционировалиbull Как число laquoэволюционных событийraquo (мутаций)

В первом случае объекты образуют ультраметрическое пространство(если все объекты наблюдаются в одно время что как правило верно)

Но время непосредственно измерить невозможно

Гипотеза laquoмолекулярных часовraquo(EZuckerkandl LPauling 1962)

За равное время во всех ветвях эволюции данного генабелка накапливается равное число мутацийЕсли гипотеза молекулярных часов

принимается число различий между выровненными последовательностями можно считать примерно пропорциональным времени Отклонения от ультраметричности можно считать случайными Эволюция реконструируется в виде ультраметрического дерева

Укоренённое дерево называется ультраметрическим если расстояние от корня до любого из листьев одинаково

UPGMAUnweighted Pair Group Method with Arithmetic Mean

разновидность кластерного метода

Расстояние между кластерами вычисляется как среднее арифметическое всевозможных расстояний между последовательностями из кластеров

Недостатки UPGMA

Алгоритм строит ультраметрическое дерево ndash скорость эволюции предполагается одинаковой для всех ветвей дерева Использовать этот алгоритм имеет смысл только в случае ультраметрических данных (справедливости laquoмолекулярных часовraquo)

Реальное дерево UPGMA

Метод ближайших соседей (Neighbor-joining NJ)

Строит неукоренённое дерево

Может работать с большим количеством данных

Достаточно быстрый

Если есть недвусмысленное с точки зрения эксперта дерево то оно будет построено

Метод Neighbor-joining

Рисуем laquoзвездноеraquo дерево и будем laquoотщипыватьraquo от него по паре листьев

Пусть ui = Σk Mik(n-2) mdash среднее расстояние от листа i до других

листьев

1 Рассмотрим все возможные пары листьев Выберем 2 листа i и j с минимальным значением величины

Mij ndash ui ndashuj

те выбираем 2 узла которые близки друг к другу но далеки ото всех остальных

Метод ближайших соседей (Neighbor-joining NJ)

2 Кластер (i j) ndash новый узел дерева

Расстояние от i или от j до узла (ij) D(i (ij)) = 05middot(Mij + ui ndash uj) D(j (ij)) = 05middot (Mij + uj ndash ui) те длина ветви зависит от среднего расстояния до других вершин

3 Вычисляем расстояние от нового кластера до всех других

M(ij)k = Mik+Mjk ndash Mij 2

5 В матрице М убираем i и j и добавляем (i j) Повторяем пока не останутся 3 узла

Input MSA для n последовательностей одна последовательность для каждого вида

AAAAATC

AAAAAAG

CCCCCCG

AAAAATCAAAAAAG

CCCCCCG

Длинная ветвь ndash непохоже на правду

Длинная ветвь -Похоже на правду

Методы основанные на последовательностях Maximum Likelihood (ML) Maximum Parsimony (MP)

Как изобразить дерево Топология дерева

Топология дерева mdash только листья узлы (корень) и связывающие их ветви (топология не зависит от способа изображения дерева)

A

B

C

D

E A BC D E

Два изображения одной и той же топологии

Bacterium 1

Bacterium 3

Bacterium 2

Eukaryote 1

Eukaryote 4

Eukaryote 3

Eukaryote 2

Bacterium 1

Bacterium 3Bacterium 2

Eukaryote 1

Eukaryote 4Eukaryote 3

Eukaryote 2

Филограммы ndash длины ветвей

пропорциональны

эволюционному расстоянию

Кладограммы и филограммы

Кладограммы ndash только

топологя Длины ветвей не

учитываются

6

31

2

46

24

53

Как можно нарисовать построенное дерево

Какие on-line программы строят деревья

ClustalW ldquoTree typerdquo ndash nj phylip строит только методом NJ но результат ndash в разных форматах no bootstraps

Phylip (Felsenstein 1993) ndash пакет программ для построения филогенетических деревьев (stand-alone)On-line (partly) например

httpbiowebpasteurfrseqanalphylogenyphylip-ukhtml PAUP (Phylogenetic Analysis Using Parsimony)

MEGA филогенетический анализ последовательностей

httpwwwmegasoftwarenet

Эволюция ndash исторический процесс

Из 8200794532637891559375 деревьев для 20 OTUs 1

является верным и 8200794532637891559374

неверны

Truth is one falsehoods are many

Какое из 8200794532637891559375

деревьев истинно

Мы не знаем Можно применить иные критетии

Например ldquoпохожесть=родствоraquo

GCGbull Строковый поиск простой текстовый

поиск по локальной базе данных

bull Поиск в определениях или в аннотациях

bull Определения содержат минимальное количество информации для каждой статьи доступ имя организма имя гена длина последовательности дата

  • Bestfit Output
  • SP1 at swissprot
  • EGR1 at swissprot
  • Вывод
  • Bl2Seq at NCBI
  • Bl2seq results
  • Bl2seq оценка
  • Оптимизация времени вычислений при парном выравнивании
  • Slide 9
  • Алгоритм BLAST (шаг 1)
  • Slide 11
  • Blast
  • Поиск гомологов
  • ДНК или белок
  • ДНК
  • Slide 16
  • Slide 17
  • Двойная спираль
  • ДНК дальнейшая упаковка
  • Slide 20
  • Репликация ДНК
  • Slide 22
  • Slide 23
  • Slide 24
  • Slide 25
  • Множественное выравнивание последовательностей (MSA)
  • Slide 27
  • Основные предположения
  • Например
  • Почему множественное выравнивание
  • Slide 31
  • Подходы в MSA
  • MSA algorithm
  • Multiple Alignment - алгоритм
  • Комментарии
  • GCG
  • Slide 37
  • GCG
  • Slide 39
  • Slide 40
  • Slide 41
  • ClustalW
  • Slide 43
  • Slide 44
  • ClustalW на EMBL
  • ClustalW на EMBL - результат
  • ClustalW at EMBL - Jalview
  • Consensus Sequence
  • Профиль (Profile)
  • Profile vs Consensus
  • Slide 51
  • Slide 52
  • Psi Blast (NCBI)
  • PSI-Blast
  • Psi-Blast вывод
  • Slide 56
  • Филогенез
  • Slide 58
  • Slide 59
  • Slide 60
  • Slide 61
  • Древо видов и генов
  • Ортологи и паралоги
  • Шаги реконструирования филогенетического древа
  • Филогенетическое дерево
  • Зачем нужны филогенетические деревья
  • Терминология
  • Slide 68
  • Какие бывают деревья
  • Slide 70
  • Slide 71
  • Slide 72
  • 4 OTUs 3 неукорененных филогенетических деревьев
  • Slide 74
  • Slide 75
  • Slide 76
  • Slide 77
  • Рутинная процедура или как строят деревья
  • Slide 79
  • Slide 80
  • Slide 81
  • Slide 82
  • Slide 83
  • Slide 84
  • Slide 85
  • Slide 86
  • Slide 87
  • Slide 88
  • Slide 89
  • Как выбирать последовательности для дерева
  • Самое главное ndash хорошее выравнивание
  • Основные алгоритмы построения филогенетических деревьев
  • Пример матрицы расстояний
  • Slide 94
  • Гипотеза laquoмолекулярных часовraquo (EZuckerkandl LPauling 1962)
  • UPGMA Unweighted Pair Group Method with Arithmetic Mean
  • Недостатки UPGMA
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Метод Neighbor-joining
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Slide 101
  • Как изобразить дерево Топология дерева
  • Slide 103
  • Какие on-line программы строят деревья
  • MEGA филогенетический анализ последовательностей
  • Slide 106
  • Slide 107
  • Slide 108
Page 19: Bestfit Output

ДНК дальнейшая упаковка

ДНК

Функции ДНК mdash наследственность и изменчивость

Репликация ДНК

Репликация ДНК

bull Генетический код избыточен ndash почти все аминокислоты кодируются более чем 1 кодоном (тройка нуклеотидов)

bull Последовательность ДНК может меняться в то время как последовательность белка остается постоянной

Ser-Tyrhellip

UCAUAC UCUUAC UCGUAC Uhelliphellip

Поиск гомологов

bull Нуклеотиды ndash 4-х буквенный алфавитbull Аминокислоты ndash 20-и буквенный алфавит

Две случайные последовательности ДНК будут идентичны ~ 25Две случайные белковые последовательности будут идентичны ~ 5

Поиск гомологов

Матрицы для сравнения белков более чувствительны чем матрицы для ДНК

Базы данных ДНК намного больше белковых rarr будут случайные совпадения

Поиск гомологов

Использование белковых последовательностей более предпочтительно при поиске гомологов

Поиск гомологов

Множественное выравнивание последовательностей (MSA)

VTISCTGSSSNIGAG-NHVKWYQQLPGVTISCTGTSSNIGS--ITVNWYQQLPGLRLSCSSSGFIFSS--YAMYWVRQAPGLSLTCTVSGTSFDD--YYSTWVRQPPGPEVTCVVVDVSHEDPQVKFNWYVDG--ATLVCLISDFYPGA--VTVAWKADS--AALGCLVKDYFPEP--VTVSWNSG---VSLTCLVKGFYPSD--IAVEWWSNG--

Основные предположения

bull Гены фиксированы сохранены у очень широкого круга биологических видов у совершенно различных представителей laquoдрева жизниraquo

bull Фиксированный генетический код для белков вероятно несёт похожие зачастую идентичные функции

Например

bull Гистоны небольшие белки присутствуют у всех эукариот

Демонстрируют выраженное постоянство последовательности в MSA

Постоянство структуры и функции (упаковка DNA)

Почему множественное выравнивание

Позволяет дать характеристику семействам белков найти общие участки гомологов

Например семейство Serine protease семейство отвечающее за катализ гидролиз пептидных связей

bull Одинаковые активные центры

bull Общие участка последовательности

bull MSA ndash это первый предварительный шаг к анализу в области молекулярной эволюции и построения эволюционных деревьев

bull База для филогенеза ndash данные молекулярной биологии или морфологические данные

Подходы в MSA

2 разных подходаndash 1D sequence based ndash сравнение

последовательностейndash 2D-3D based ndash выравнивание базирующееся на

структуре

MSA algorithm

bull Попарное выравнивание всех последовательностей (pairwise alignment)

bull Кластерный анализ данных парного выравнивания для получения иерархии выравниваний (guide tree)

bull Построение множественного выравнивания (MSA) пошагово в соответствии с guide tree сначала выравнивают наиболее похожие пары затем добавляют остальные и тд

Multiple Alignment - алгоритм

(1) Парное выравнивание (подготовка guide tree)

6 pairwise alignments

then cluster analysis

(2) Множественное выравнивание следуя древу из п 1

successive alignments

Комментарии

bull Парное выравнивание - оптимальный алгоритм

bull Множественное выравнивание не является оптимальным алгоритмом Вполне могут существовать и лучшие выравнивания

bull Редакторы выравниваний могут быть полезны для корректировки

GCG

Pileup глобальный MSA

pileup [list of sequence names]

pileup hemoglobin_list

1 The sign means that the file contains a list of names

2 The list can include names from the userrsquos directory or code names (accession numbers) from the GCG databases

GCGПример входного файла

swhbb_human

swhbb_rat

swhbb_mouse

Hemoglobin_Alpha

Hemoglobin_Gamma

Hemogolibin_Delta

Syntax the file starts with ldquordquo

Sequences from the databases

Sequences from the userrsquos directory

GCG PileUp creates a multiple sequence alignment from a group of relatedsequences using progressive pairwise alignments It can also plot atree showing the clustering relationships used to create the alignment

1 IPNS_STRJU 329 aa 2 IPNS_STRCL 329 aa 3 IPNS_CEPAC 338 aa 4 IPNS_NOCLA 328 aa

What is the gap creation penalty ( 8 ) What is the gap extension penalty ( 2 )

This program can display the clustering relationships graphically Do you want to A) Plot to a FIGURE file called pileupfigure B) Plot graphics on HP7550 attached to devtty15 C) Suppress the plot Please choose one ( A ) c What should I call the output file name ( ipnsmsf )

Determining pairwise similarity scores

1 x 2 443 1 x 3 312 1 x 4 412 2 x 3 294 2 x 4 405 3 x 4 309

Aligning

Total sequences 4 Alignment length 338 CPU time 0021

Output filedatausersracheliothersracheliipnsmsf

Regular GCG syntaxDefault parametersoutput file etc

GCGAA_MULTIPLE_ALIGNMENT 10PileUp of ipnsfil

Symbol comparison table GenRunDatablosum62cmp CompCheck 1102 GapWeight 8 GapLengthWeight 2 ipnsmsf MSF 338 Type P March 14 2002 0929 Check 7631

Name IPNS_STRJU Len 338 Check 6344 Weight 100 Name IPNS_STRCL Len 338 Check 4249 Weight 100 Name IPNS_NOCLA Len 338 Check 7020 Weight 100 Name IPNS_CEPAC Len 338 Check 18 Weight 100

1 50IPNS_STRJU ~MPILMPSAE VPTIDISPLS GDDAKAKQRV AQEINKAARG SGFFYASNHGIPNS_STRCL ~MPVLMPSAH VPTIDISPLF GTDAAAKKRV AEEIHGACRG SGFFYATNHGIPNS_NOCLA ~~~MKMPSAE VPTIDVSPLF GDDAQEKVRV GQEINKACRG SGFFYAANHGIPNS_CEPAC MGSVPVPVAN VPRIDVSPLF GDDKEKKLEV ARAIDAASRD TGFFYAVNHG

51 100IPNS_STRJU VDVQLLQDVV NEFHRNMSDQ EKHDLAINAY NKDNPHVRN GYYKAIKGKKIPNS_STRCL VDVQQLQDVV NEFHGAMTDQ EKHDLAIHAY NPDNPHVRN GYYKAVPGRKIPNS_NOCLA VDVQRLQDVV NEFHRTMSPQ EKYDLAIHAY NKNNSHVRN GYYMAIEGKKIPNS_CEPAC VDLPWLSRET NKFHMSITDE EKWQLAIRAY NKEHESQIRA GYYLPIPGKK

Output filemsf format

GCG

Prettybox генерирует графический файл из файла MSA

prettybox [MSA file]

prettybox hemoglobinsmsf

1 The ldquordquo is a syntax sign meaning all the sequences in the MSA file

2 Can also calculate the consensus sequence

GCG

ClustalWbull Очень известная и широко распространённая

программа UNIX Internet Windows

bull Выполняет MSA может строить филогенетические деревья

bull Входной файл ndash формат multi-fasta

ClustalW

bull tofasta list

gtIPNS_STRJU P18286

MPILMPSAEVPTIDISPLSGDDAKAKQRVAQEINKAARGSGFFYASNHGVDVQLLQDVVN

EFHRNMSDQEKHDLAINAYNKDNPHVRNGYYKAIKGKKAVESFCYLNPSFSDDHPMIKSE

TPMHEVNLWPDEEKHPRFRPFCEDYYRQLLRLSTVIMRGYALALGRREDFFDEALAEADT

LSSVSLIRYPYLEEYPPVKTGADGTKLSFEDHLDVSMITVLYQTEVQNLQVETVDGWQDI

PRSDEDFLVNCGTYMGHITHDYFPAPNHRVKFINAERLSLPFFLNAGHNSVIEPFVPEGA

AGTVKNPTTSYGEYLQHGLRALIVKNGQT

gtIPNS_STRCL P10621

MPVLMPSAHVPTIDISPLFGTDAAAKKRVAEEIHGACRGSGFFYATNHGVDVQQLQDVVN

EFHGAMTDQEKHDLAIHAYNPDNPHVRNGYYKAVPGRKAVESFCYLNPDFGEDHPMIAAG

TPMHEVNLWPDEERHPRFRPFCEGYYRQMLKLSTVLMRGLALALGRPEHFFDAALAEQDS

LSSVSLIRYPYLEEYPPVKTGPDGQLLSFEDHLDVSMITVLFQTQVQNLQVETVDGWRDI

PTSENDFLVNCGTYMAHVTNDYFPAPNHRVKFVNAERLSLPFFLNGGHEAVIEPFVPEGA

SEEVRNEALSYGDYLQHGLRALIVKNGQT

input fileMulti-fasta

Making the file in unix

ClustalWCLUSTAL W (17) multiple sequence alignment

IPNS_STRJU -MPILMPSAEVPTIDISPLSGDDAKAKQRVAQEINKAARGSGFFYASNHGVDVQLLQDVVIPNS_STRGR -MPIPMLPAHVPTIDISPLSGGDADDKKRVAQEINKACRESGFFYASHHGIDVQLLKDVVIPNS_FLASS ----MNRHADVPVIDISGLSGNDMDVKKDIAARIDRACRGSGFFYAANHGVDLAALQKFTIPNS_PENCH --MASTPKANVPKIDVSPLFGDNMEEKMKVARAIDAASRDTGFFYAVNHGVDVKRLSNKTIPNS_CEPAC MGSVPVPVANVPRIDVSPLFGDDKEKKLEVARAIDAASRDTGFFYAVNHGVDLPWLSRET

IPNS_STRJU NEFHRNMSDQEKHDLAINAYNKDNP-HVRNGYYKAIKGKKAVESFCYLNPSFSDDHPMIKIPNS_STRGR NEFHRTMTDEEKYDLAINAYNKNNP-RTRNGYYMAVKGKKAVESWCYLNPSFSEDHPQIRIPNS_FLASS TDWHMAMSAEEKWELAIRAYNPANP-RNRNGYYMAVEGKKANESFCYLNPSFDADHATIKIPNS_PENCH REFHFSITDEEKWDLAIRAYNKEHQDQIRAGYYLSIPEKKAVESFCYLNPNFKPDHPLIQIPNS_CEPAC NKFHMSITDEEKWQLAIRAYNKEHESQIRAGYYLPIPGKKAVESFCYLNPSFSPDHPRIK

Выходной файл aln format

httpwwwebiacukhelpformatshtml

форматы

ClustalW на EMBL

ClustalW на EMBL - результат

ClustalW at EMBL - Jalview

Conservation

Consensus Sequence

Мы можем вывести consensus sequence из результатов MSA The consensus sequence содержит наиболее часто встречающийся символ в кажной колонке выравнивания

A T C T T G T

A A C T T G T

A A C T T C T

A A C T T G T

Ещё пара терминовhelliphellip

Профиль (Profile)

Также возможно вывести статистическую модель описывающую MSA Профиль содержит информацию о символах в каждом столбце выравнивания

A T C T T G T

A A C T T G T

A A C T T C T

1 2 3 4 5 6

A 1 067 0 0

T 0 033 1 1

C 0 0 0 0

G 0 0 0 0

Profile vs Consensus

Consensus каждая позиция отражает наиболее часто встречающийся символ

Profile каждая позиция отражает частоту символа в данной позиции

Profile vs Consensus

Данный MSA будет иметь одинаковый consensus

A A C T T G C

A A G T C G T

C A C T T C T

A A C T T G T

A A C T T G T

A A C T T C T

A A C T T G T

Profile vs Consensus

Но разный профиль

A A C T T G C

A A G T C G T

C A C T T C T

A A C T T G T

A A C T T G T

A A C T T C T

1 2 3 4 5 6

A 066 1 0 0

T 0 0 0 1

C 033 0 066 0

G 0 0 033 0

1 2 3 4 5 6

A 1 1 0 0

T 0 0 0 1

C 0 0 1 0

G 0 0 0 0

Psi Blast (NCBI)

Position Specific Iterated ndash автоматизированный поиск по профилю

Regular blast

Construct profile from blast results

Blast profile search

Final results

PSI-Blast

Psi-Blast вывод

Проблема формулировки выводов при использовании МSA

1 Сайт выглядит общим (фиксированным) из-за того что это ndash близкородственные последовательности

2 Сайт выглядит общим из-за того что это ndash исключительно жизненно важный сайт

ФилогенезЭволюция ndash случайный процесс с неслучайным результатом

Цели филогенетического исследования

bull Реконструкция корректных генеалогических связей

между биологическими объектами

bull Оценка времени расхождения организмов

bull Определение порядка эволюционных событий в процессе

эволюции

Формат Newick

((A(BC))(DE))

Типы данных

Molecular (DNA RNA proteins)

Morphological (soft tissue hard tissue extant extinct)

Преимущества молекулярных данных

bull Наследуемость

bull Недвусмысленность в описании молекулярных характеристик

bull Поддаются количественному анализу

bull Оценка гомологии легче чем морфологические исследования

bull Данных много

Древо видов и геновbull Древо видов ndash эволюционные взаимосвязи

между видами (видообразование)bull Древо генов

Page RDM and Cotton JC (2000) GeneTree a tool for exploring gene family evolution In D Sankoff and J Nadeau (eds) Comparative Genomics Empirical and Analytical Approaches to Gene Order Dynamics Map Alignment and the Evolution of Gene Families Kluwer Academic Publishers Dordrecht pp 525-536

Figure 2 (a) Incongruent gene and species trees This incongruence can be explained by hypothesizing a gene duplication (h) at the base of the gene tree (b)The presence of only a single gene (a-d) extant in each of the present-day species(1-4) requires postulating three gene losses (c) The corresponding reconciled tree

Ортологи и паралоги

bull Гены-паралоги ndash событие дупликация (and

bull Гены-ортологи ndash событие видообразования (in the two species and in the two species

Duplication

Speciation

Species a Species b

Шаги реконструирования филогенетического

древа

1 Выбор последовательностей и поиск гомологов

2 MSA3 Матрица белков4 Филогенетическое дерево

Филогенетическое дерево

Филогения - раздел биологии изучающий родственные взаимоотношения разных групп живых организмов Филогению отображается обычно в виде эволюционных древ или систематических названий

Зачем нужны филогенетические деревья

Биологические задачи

сравнение 3-х и более объектов (кто на кого более похож )

реконструкция эволюции (кто от кого как и когда произошелhellip)

ТерминологияУзел (node) mdash точка разделения предковой последовательности(вида популяции) на две независимо эволюционирующиеСоответствует внутренней вершине графа изображающего эволюциюЛист (leaf OTU ndash оперативная таксономическая единица) mdash реальный (современный) объект внешняя вершина графаВетвь (branch) mdash связь между узлами или между узлом и листом ребро графаКорень (root) mdash общий предокКлада (clade) - группа двух или более таксонов или последователь-ностей ДНК которая включает как своего общего предка так и всех его потомков

OTU

HTU (hypotetical taxonomic unit)

Какие бывают деревья

Бинарное (разрешённое)(в один момент времени может

произойти только одно событие )

Небинарное (неразрешённое) (может ли в один момент времени

произойти два события )

Время

Какие бывают деревья

Укорененное дерево (rooted tree)отражает направление эволюции

Неукорененное (бескорневое) дерево(unrooted tree) показывает только связи между узлами

Время

Если число листьев равно n существует (2n-3)разных бинарных укоренных деревьевПо определению (2n-3) = 1middot3 middot middot(2n-3)

Существует (2n-5) разных бескорневых деревьев с n листьями

Rooting

A C B B C AA B C

3 OTUs 3 OTUs 1 н 1 неукорененное деревоеукорененное дерево 33 укорененных деревьев укорененных деревьев

A

B

C

D

C

A

B

4 OTUs 4 OTUs 3 3 неукорененных филогенетических неукорененных филогенетических деревьевдеревьев

D

B

A

C C

B

A

D

4 OTUs

15 укорененных

деревьев

Количество Количество Количество

OTU укорененных неукорененных

2 1 13 3 14 15 35 105 156 954 1057 103959548 135135 103959 2027025 13513510 34459425 202702511 654729075 3445942512 13749310575 654729075

Количество возможных деревьев

Рутинная процедура или как строят деревья

Составление выборки последовательностей

Множественное выравнивание

Построение дерева фрагмент записи в виде скобочной формулы

Визуализация и редактура дерева

(((((con1013851018(f539692826973((f67220839851max42750591)492893con923019677)1362315)953075)2583145

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Множественное выравнивание

Matches

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Multiple Alignment

Matches

Mismatches

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Multiple Alignment

Matches

Mismatches

Gaps

Seq 1 A G C G A GSeq 1 A G C G A GSeq 2 G C G G A CSeq 2 G C G G A C

Шаг 3 Перевод количества расхождений в индексы замен

Distance Matrix

Units количество замен нуклеотидов на 1000

Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86

Rice 00 118 122 122

Mosquito 00 55 51

Monkey 00 3

Human 00

Шаг 4 построение филогенетического дерева

Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86

Rice 00 118 122 122

Mosquito 00 55 51

Monkey 00 3

Human 00

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Дистанция между человеком и обезьяной минимальна Эти группы объединяются в Monkey-Human а все остальные дистанции пересчитываются

Dist[Spinach MonHum] = (Dist[Spinach Monkey] +

Dist[Spinach Human])2 = (91 + 86)2 = 885

Spinach Rice Mosquito Mon-HumSpinach 00 9 106 885

Rice 00 118 122

Mosquito 00 53

Mon-Hum 00

Редуцированная матрица дистанций

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Spi-Ric

HumanMosquito

Mon-Hum

MonkeySpinachRice

Mos-Mon-Hum

Spi-Ric

Mos-Mon-Hum-Spi-Ric

Как выбирать последовательности для дерева

Кроме случаев очень близких последовательностей проще работать с белками (а не с ДНК)

Придерживайтесь небольшой выборки (lt 50 последовательностей)

Избегайтеndash фрагментовndash Ксенологов (горизонтальный перенос генов)ndash рекомбинантных последовательностейndash многодоменных белков и повторов

Используйте outgroup (последовательность ответвившаяся от общего предка заведомо (но минимально) раньше разделения интересующих групп-клад)

Самое главное ndash хорошее выравнивание

Максимальный вклад в финальное дерево нельзя построить хорошее дерево по плохому выравниванию

Блоки содержащие много гэпов плохо выровненные N- и C- концы можно просто вырезать

Основные алгоритмы построения филогенетических деревьев

Методы основанные на оценке

расстояний (матричные методы)

bull UPGMA (кластеризация)

bull Neighbor-joining

bull Минимальная эволюция

Наибольшего правдоподобия Maximal likelihood ML Используется модель эволюции и строится дерево которое наиболее правдоподобно при данной модели

Максимальной экономии (бережливости)

maximal parsimony MP Выбирается дерево с минимальным количеством

мутаций необходимых для объяснения данных

Пример матрицы расстояний

1 2 3 4 5 6 7 8 000 1053 977 1278 1203 1654 1353 2500 HUMAN 1

000 902 1203 977 1579 902 2727 HORSE 2 000 977 902 1654 1203 2424 RABIT 3

000 226 1729 1053 2576 MOUSE 4 000 1579 827 2576 RAT 5

000 1053 2955 BOVIN 6 000 2500 PIG 7

000 CHICK 8

Расстояние (уровень дивергенции) между соответствующими последовательностями из геномов мыши и свиньи

Как понимать расстояние между объектами

bull Как время в течение которого они эволюционировалиbull Как число laquoэволюционных событийraquo (мутаций)

В первом случае объекты образуют ультраметрическое пространство(если все объекты наблюдаются в одно время что как правило верно)

Но время непосредственно измерить невозможно

Гипотеза laquoмолекулярных часовraquo(EZuckerkandl LPauling 1962)

За равное время во всех ветвях эволюции данного генабелка накапливается равное число мутацийЕсли гипотеза молекулярных часов

принимается число различий между выровненными последовательностями можно считать примерно пропорциональным времени Отклонения от ультраметричности можно считать случайными Эволюция реконструируется в виде ультраметрического дерева

Укоренённое дерево называется ультраметрическим если расстояние от корня до любого из листьев одинаково

UPGMAUnweighted Pair Group Method with Arithmetic Mean

разновидность кластерного метода

Расстояние между кластерами вычисляется как среднее арифметическое всевозможных расстояний между последовательностями из кластеров

Недостатки UPGMA

Алгоритм строит ультраметрическое дерево ndash скорость эволюции предполагается одинаковой для всех ветвей дерева Использовать этот алгоритм имеет смысл только в случае ультраметрических данных (справедливости laquoмолекулярных часовraquo)

Реальное дерево UPGMA

Метод ближайших соседей (Neighbor-joining NJ)

Строит неукоренённое дерево

Может работать с большим количеством данных

Достаточно быстрый

Если есть недвусмысленное с точки зрения эксперта дерево то оно будет построено

Метод Neighbor-joining

Рисуем laquoзвездноеraquo дерево и будем laquoотщипыватьraquo от него по паре листьев

Пусть ui = Σk Mik(n-2) mdash среднее расстояние от листа i до других

листьев

1 Рассмотрим все возможные пары листьев Выберем 2 листа i и j с минимальным значением величины

Mij ndash ui ndashuj

те выбираем 2 узла которые близки друг к другу но далеки ото всех остальных

Метод ближайших соседей (Neighbor-joining NJ)

2 Кластер (i j) ndash новый узел дерева

Расстояние от i или от j до узла (ij) D(i (ij)) = 05middot(Mij + ui ndash uj) D(j (ij)) = 05middot (Mij + uj ndash ui) те длина ветви зависит от среднего расстояния до других вершин

3 Вычисляем расстояние от нового кластера до всех других

M(ij)k = Mik+Mjk ndash Mij 2

5 В матрице М убираем i и j и добавляем (i j) Повторяем пока не останутся 3 узла

Input MSA для n последовательностей одна последовательность для каждого вида

AAAAATC

AAAAAAG

CCCCCCG

AAAAATCAAAAAAG

CCCCCCG

Длинная ветвь ndash непохоже на правду

Длинная ветвь -Похоже на правду

Методы основанные на последовательностях Maximum Likelihood (ML) Maximum Parsimony (MP)

Как изобразить дерево Топология дерева

Топология дерева mdash только листья узлы (корень) и связывающие их ветви (топология не зависит от способа изображения дерева)

A

B

C

D

E A BC D E

Два изображения одной и той же топологии

Bacterium 1

Bacterium 3

Bacterium 2

Eukaryote 1

Eukaryote 4

Eukaryote 3

Eukaryote 2

Bacterium 1

Bacterium 3Bacterium 2

Eukaryote 1

Eukaryote 4Eukaryote 3

Eukaryote 2

Филограммы ndash длины ветвей

пропорциональны

эволюционному расстоянию

Кладограммы и филограммы

Кладограммы ndash только

топологя Длины ветвей не

учитываются

6

31

2

46

24

53

Как можно нарисовать построенное дерево

Какие on-line программы строят деревья

ClustalW ldquoTree typerdquo ndash nj phylip строит только методом NJ но результат ndash в разных форматах no bootstraps

Phylip (Felsenstein 1993) ndash пакет программ для построения филогенетических деревьев (stand-alone)On-line (partly) например

httpbiowebpasteurfrseqanalphylogenyphylip-ukhtml PAUP (Phylogenetic Analysis Using Parsimony)

MEGA филогенетический анализ последовательностей

httpwwwmegasoftwarenet

Эволюция ndash исторический процесс

Из 8200794532637891559375 деревьев для 20 OTUs 1

является верным и 8200794532637891559374

неверны

Truth is one falsehoods are many

Какое из 8200794532637891559375

деревьев истинно

Мы не знаем Можно применить иные критетии

Например ldquoпохожесть=родствоraquo

GCGbull Строковый поиск простой текстовый

поиск по локальной базе данных

bull Поиск в определениях или в аннотациях

bull Определения содержат минимальное количество информации для каждой статьи доступ имя организма имя гена длина последовательности дата

  • Bestfit Output
  • SP1 at swissprot
  • EGR1 at swissprot
  • Вывод
  • Bl2Seq at NCBI
  • Bl2seq results
  • Bl2seq оценка
  • Оптимизация времени вычислений при парном выравнивании
  • Slide 9
  • Алгоритм BLAST (шаг 1)
  • Slide 11
  • Blast
  • Поиск гомологов
  • ДНК или белок
  • ДНК
  • Slide 16
  • Slide 17
  • Двойная спираль
  • ДНК дальнейшая упаковка
  • Slide 20
  • Репликация ДНК
  • Slide 22
  • Slide 23
  • Slide 24
  • Slide 25
  • Множественное выравнивание последовательностей (MSA)
  • Slide 27
  • Основные предположения
  • Например
  • Почему множественное выравнивание
  • Slide 31
  • Подходы в MSA
  • MSA algorithm
  • Multiple Alignment - алгоритм
  • Комментарии
  • GCG
  • Slide 37
  • GCG
  • Slide 39
  • Slide 40
  • Slide 41
  • ClustalW
  • Slide 43
  • Slide 44
  • ClustalW на EMBL
  • ClustalW на EMBL - результат
  • ClustalW at EMBL - Jalview
  • Consensus Sequence
  • Профиль (Profile)
  • Profile vs Consensus
  • Slide 51
  • Slide 52
  • Psi Blast (NCBI)
  • PSI-Blast
  • Psi-Blast вывод
  • Slide 56
  • Филогенез
  • Slide 58
  • Slide 59
  • Slide 60
  • Slide 61
  • Древо видов и генов
  • Ортологи и паралоги
  • Шаги реконструирования филогенетического древа
  • Филогенетическое дерево
  • Зачем нужны филогенетические деревья
  • Терминология
  • Slide 68
  • Какие бывают деревья
  • Slide 70
  • Slide 71
  • Slide 72
  • 4 OTUs 3 неукорененных филогенетических деревьев
  • Slide 74
  • Slide 75
  • Slide 76
  • Slide 77
  • Рутинная процедура или как строят деревья
  • Slide 79
  • Slide 80
  • Slide 81
  • Slide 82
  • Slide 83
  • Slide 84
  • Slide 85
  • Slide 86
  • Slide 87
  • Slide 88
  • Slide 89
  • Как выбирать последовательности для дерева
  • Самое главное ndash хорошее выравнивание
  • Основные алгоритмы построения филогенетических деревьев
  • Пример матрицы расстояний
  • Slide 94
  • Гипотеза laquoмолекулярных часовraquo (EZuckerkandl LPauling 1962)
  • UPGMA Unweighted Pair Group Method with Arithmetic Mean
  • Недостатки UPGMA
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Метод Neighbor-joining
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Slide 101
  • Как изобразить дерево Топология дерева
  • Slide 103
  • Какие on-line программы строят деревья
  • MEGA филогенетический анализ последовательностей
  • Slide 106
  • Slide 107
  • Slide 108
Page 20: Bestfit Output

ДНК

Функции ДНК mdash наследственность и изменчивость

Репликация ДНК

Репликация ДНК

bull Генетический код избыточен ndash почти все аминокислоты кодируются более чем 1 кодоном (тройка нуклеотидов)

bull Последовательность ДНК может меняться в то время как последовательность белка остается постоянной

Ser-Tyrhellip

UCAUAC UCUUAC UCGUAC Uhelliphellip

Поиск гомологов

bull Нуклеотиды ndash 4-х буквенный алфавитbull Аминокислоты ndash 20-и буквенный алфавит

Две случайные последовательности ДНК будут идентичны ~ 25Две случайные белковые последовательности будут идентичны ~ 5

Поиск гомологов

Матрицы для сравнения белков более чувствительны чем матрицы для ДНК

Базы данных ДНК намного больше белковых rarr будут случайные совпадения

Поиск гомологов

Использование белковых последовательностей более предпочтительно при поиске гомологов

Поиск гомологов

Множественное выравнивание последовательностей (MSA)

VTISCTGSSSNIGAG-NHVKWYQQLPGVTISCTGTSSNIGS--ITVNWYQQLPGLRLSCSSSGFIFSS--YAMYWVRQAPGLSLTCTVSGTSFDD--YYSTWVRQPPGPEVTCVVVDVSHEDPQVKFNWYVDG--ATLVCLISDFYPGA--VTVAWKADS--AALGCLVKDYFPEP--VTVSWNSG---VSLTCLVKGFYPSD--IAVEWWSNG--

Основные предположения

bull Гены фиксированы сохранены у очень широкого круга биологических видов у совершенно различных представителей laquoдрева жизниraquo

bull Фиксированный генетический код для белков вероятно несёт похожие зачастую идентичные функции

Например

bull Гистоны небольшие белки присутствуют у всех эукариот

Демонстрируют выраженное постоянство последовательности в MSA

Постоянство структуры и функции (упаковка DNA)

Почему множественное выравнивание

Позволяет дать характеристику семействам белков найти общие участки гомологов

Например семейство Serine protease семейство отвечающее за катализ гидролиз пептидных связей

bull Одинаковые активные центры

bull Общие участка последовательности

bull MSA ndash это первый предварительный шаг к анализу в области молекулярной эволюции и построения эволюционных деревьев

bull База для филогенеза ndash данные молекулярной биологии или морфологические данные

Подходы в MSA

2 разных подходаndash 1D sequence based ndash сравнение

последовательностейndash 2D-3D based ndash выравнивание базирующееся на

структуре

MSA algorithm

bull Попарное выравнивание всех последовательностей (pairwise alignment)

bull Кластерный анализ данных парного выравнивания для получения иерархии выравниваний (guide tree)

bull Построение множественного выравнивания (MSA) пошагово в соответствии с guide tree сначала выравнивают наиболее похожие пары затем добавляют остальные и тд

Multiple Alignment - алгоритм

(1) Парное выравнивание (подготовка guide tree)

6 pairwise alignments

then cluster analysis

(2) Множественное выравнивание следуя древу из п 1

successive alignments

Комментарии

bull Парное выравнивание - оптимальный алгоритм

bull Множественное выравнивание не является оптимальным алгоритмом Вполне могут существовать и лучшие выравнивания

bull Редакторы выравниваний могут быть полезны для корректировки

GCG

Pileup глобальный MSA

pileup [list of sequence names]

pileup hemoglobin_list

1 The sign means that the file contains a list of names

2 The list can include names from the userrsquos directory or code names (accession numbers) from the GCG databases

GCGПример входного файла

swhbb_human

swhbb_rat

swhbb_mouse

Hemoglobin_Alpha

Hemoglobin_Gamma

Hemogolibin_Delta

Syntax the file starts with ldquordquo

Sequences from the databases

Sequences from the userrsquos directory

GCG PileUp creates a multiple sequence alignment from a group of relatedsequences using progressive pairwise alignments It can also plot atree showing the clustering relationships used to create the alignment

1 IPNS_STRJU 329 aa 2 IPNS_STRCL 329 aa 3 IPNS_CEPAC 338 aa 4 IPNS_NOCLA 328 aa

What is the gap creation penalty ( 8 ) What is the gap extension penalty ( 2 )

This program can display the clustering relationships graphically Do you want to A) Plot to a FIGURE file called pileupfigure B) Plot graphics on HP7550 attached to devtty15 C) Suppress the plot Please choose one ( A ) c What should I call the output file name ( ipnsmsf )

Determining pairwise similarity scores

1 x 2 443 1 x 3 312 1 x 4 412 2 x 3 294 2 x 4 405 3 x 4 309

Aligning

Total sequences 4 Alignment length 338 CPU time 0021

Output filedatausersracheliothersracheliipnsmsf

Regular GCG syntaxDefault parametersoutput file etc

GCGAA_MULTIPLE_ALIGNMENT 10PileUp of ipnsfil

Symbol comparison table GenRunDatablosum62cmp CompCheck 1102 GapWeight 8 GapLengthWeight 2 ipnsmsf MSF 338 Type P March 14 2002 0929 Check 7631

Name IPNS_STRJU Len 338 Check 6344 Weight 100 Name IPNS_STRCL Len 338 Check 4249 Weight 100 Name IPNS_NOCLA Len 338 Check 7020 Weight 100 Name IPNS_CEPAC Len 338 Check 18 Weight 100

1 50IPNS_STRJU ~MPILMPSAE VPTIDISPLS GDDAKAKQRV AQEINKAARG SGFFYASNHGIPNS_STRCL ~MPVLMPSAH VPTIDISPLF GTDAAAKKRV AEEIHGACRG SGFFYATNHGIPNS_NOCLA ~~~MKMPSAE VPTIDVSPLF GDDAQEKVRV GQEINKACRG SGFFYAANHGIPNS_CEPAC MGSVPVPVAN VPRIDVSPLF GDDKEKKLEV ARAIDAASRD TGFFYAVNHG

51 100IPNS_STRJU VDVQLLQDVV NEFHRNMSDQ EKHDLAINAY NKDNPHVRN GYYKAIKGKKIPNS_STRCL VDVQQLQDVV NEFHGAMTDQ EKHDLAIHAY NPDNPHVRN GYYKAVPGRKIPNS_NOCLA VDVQRLQDVV NEFHRTMSPQ EKYDLAIHAY NKNNSHVRN GYYMAIEGKKIPNS_CEPAC VDLPWLSRET NKFHMSITDE EKWQLAIRAY NKEHESQIRA GYYLPIPGKK

Output filemsf format

GCG

Prettybox генерирует графический файл из файла MSA

prettybox [MSA file]

prettybox hemoglobinsmsf

1 The ldquordquo is a syntax sign meaning all the sequences in the MSA file

2 Can also calculate the consensus sequence

GCG

ClustalWbull Очень известная и широко распространённая

программа UNIX Internet Windows

bull Выполняет MSA может строить филогенетические деревья

bull Входной файл ndash формат multi-fasta

ClustalW

bull tofasta list

gtIPNS_STRJU P18286

MPILMPSAEVPTIDISPLSGDDAKAKQRVAQEINKAARGSGFFYASNHGVDVQLLQDVVN

EFHRNMSDQEKHDLAINAYNKDNPHVRNGYYKAIKGKKAVESFCYLNPSFSDDHPMIKSE

TPMHEVNLWPDEEKHPRFRPFCEDYYRQLLRLSTVIMRGYALALGRREDFFDEALAEADT

LSSVSLIRYPYLEEYPPVKTGADGTKLSFEDHLDVSMITVLYQTEVQNLQVETVDGWQDI

PRSDEDFLVNCGTYMGHITHDYFPAPNHRVKFINAERLSLPFFLNAGHNSVIEPFVPEGA

AGTVKNPTTSYGEYLQHGLRALIVKNGQT

gtIPNS_STRCL P10621

MPVLMPSAHVPTIDISPLFGTDAAAKKRVAEEIHGACRGSGFFYATNHGVDVQQLQDVVN

EFHGAMTDQEKHDLAIHAYNPDNPHVRNGYYKAVPGRKAVESFCYLNPDFGEDHPMIAAG

TPMHEVNLWPDEERHPRFRPFCEGYYRQMLKLSTVLMRGLALALGRPEHFFDAALAEQDS

LSSVSLIRYPYLEEYPPVKTGPDGQLLSFEDHLDVSMITVLFQTQVQNLQVETVDGWRDI

PTSENDFLVNCGTYMAHVTNDYFPAPNHRVKFVNAERLSLPFFLNGGHEAVIEPFVPEGA

SEEVRNEALSYGDYLQHGLRALIVKNGQT

input fileMulti-fasta

Making the file in unix

ClustalWCLUSTAL W (17) multiple sequence alignment

IPNS_STRJU -MPILMPSAEVPTIDISPLSGDDAKAKQRVAQEINKAARGSGFFYASNHGVDVQLLQDVVIPNS_STRGR -MPIPMLPAHVPTIDISPLSGGDADDKKRVAQEINKACRESGFFYASHHGIDVQLLKDVVIPNS_FLASS ----MNRHADVPVIDISGLSGNDMDVKKDIAARIDRACRGSGFFYAANHGVDLAALQKFTIPNS_PENCH --MASTPKANVPKIDVSPLFGDNMEEKMKVARAIDAASRDTGFFYAVNHGVDVKRLSNKTIPNS_CEPAC MGSVPVPVANVPRIDVSPLFGDDKEKKLEVARAIDAASRDTGFFYAVNHGVDLPWLSRET

IPNS_STRJU NEFHRNMSDQEKHDLAINAYNKDNP-HVRNGYYKAIKGKKAVESFCYLNPSFSDDHPMIKIPNS_STRGR NEFHRTMTDEEKYDLAINAYNKNNP-RTRNGYYMAVKGKKAVESWCYLNPSFSEDHPQIRIPNS_FLASS TDWHMAMSAEEKWELAIRAYNPANP-RNRNGYYMAVEGKKANESFCYLNPSFDADHATIKIPNS_PENCH REFHFSITDEEKWDLAIRAYNKEHQDQIRAGYYLSIPEKKAVESFCYLNPNFKPDHPLIQIPNS_CEPAC NKFHMSITDEEKWQLAIRAYNKEHESQIRAGYYLPIPGKKAVESFCYLNPSFSPDHPRIK

Выходной файл aln format

httpwwwebiacukhelpformatshtml

форматы

ClustalW на EMBL

ClustalW на EMBL - результат

ClustalW at EMBL - Jalview

Conservation

Consensus Sequence

Мы можем вывести consensus sequence из результатов MSA The consensus sequence содержит наиболее часто встречающийся символ в кажной колонке выравнивания

A T C T T G T

A A C T T G T

A A C T T C T

A A C T T G T

Ещё пара терминовhelliphellip

Профиль (Profile)

Также возможно вывести статистическую модель описывающую MSA Профиль содержит информацию о символах в каждом столбце выравнивания

A T C T T G T

A A C T T G T

A A C T T C T

1 2 3 4 5 6

A 1 067 0 0

T 0 033 1 1

C 0 0 0 0

G 0 0 0 0

Profile vs Consensus

Consensus каждая позиция отражает наиболее часто встречающийся символ

Profile каждая позиция отражает частоту символа в данной позиции

Profile vs Consensus

Данный MSA будет иметь одинаковый consensus

A A C T T G C

A A G T C G T

C A C T T C T

A A C T T G T

A A C T T G T

A A C T T C T

A A C T T G T

Profile vs Consensus

Но разный профиль

A A C T T G C

A A G T C G T

C A C T T C T

A A C T T G T

A A C T T G T

A A C T T C T

1 2 3 4 5 6

A 066 1 0 0

T 0 0 0 1

C 033 0 066 0

G 0 0 033 0

1 2 3 4 5 6

A 1 1 0 0

T 0 0 0 1

C 0 0 1 0

G 0 0 0 0

Psi Blast (NCBI)

Position Specific Iterated ndash автоматизированный поиск по профилю

Regular blast

Construct profile from blast results

Blast profile search

Final results

PSI-Blast

Psi-Blast вывод

Проблема формулировки выводов при использовании МSA

1 Сайт выглядит общим (фиксированным) из-за того что это ndash близкородственные последовательности

2 Сайт выглядит общим из-за того что это ndash исключительно жизненно важный сайт

ФилогенезЭволюция ndash случайный процесс с неслучайным результатом

Цели филогенетического исследования

bull Реконструкция корректных генеалогических связей

между биологическими объектами

bull Оценка времени расхождения организмов

bull Определение порядка эволюционных событий в процессе

эволюции

Формат Newick

((A(BC))(DE))

Типы данных

Molecular (DNA RNA proteins)

Morphological (soft tissue hard tissue extant extinct)

Преимущества молекулярных данных

bull Наследуемость

bull Недвусмысленность в описании молекулярных характеристик

bull Поддаются количественному анализу

bull Оценка гомологии легче чем морфологические исследования

bull Данных много

Древо видов и геновbull Древо видов ndash эволюционные взаимосвязи

между видами (видообразование)bull Древо генов

Page RDM and Cotton JC (2000) GeneTree a tool for exploring gene family evolution In D Sankoff and J Nadeau (eds) Comparative Genomics Empirical and Analytical Approaches to Gene Order Dynamics Map Alignment and the Evolution of Gene Families Kluwer Academic Publishers Dordrecht pp 525-536

Figure 2 (a) Incongruent gene and species trees This incongruence can be explained by hypothesizing a gene duplication (h) at the base of the gene tree (b)The presence of only a single gene (a-d) extant in each of the present-day species(1-4) requires postulating three gene losses (c) The corresponding reconciled tree

Ортологи и паралоги

bull Гены-паралоги ndash событие дупликация (and

bull Гены-ортологи ndash событие видообразования (in the two species and in the two species

Duplication

Speciation

Species a Species b

Шаги реконструирования филогенетического

древа

1 Выбор последовательностей и поиск гомологов

2 MSA3 Матрица белков4 Филогенетическое дерево

Филогенетическое дерево

Филогения - раздел биологии изучающий родственные взаимоотношения разных групп живых организмов Филогению отображается обычно в виде эволюционных древ или систематических названий

Зачем нужны филогенетические деревья

Биологические задачи

сравнение 3-х и более объектов (кто на кого более похож )

реконструкция эволюции (кто от кого как и когда произошелhellip)

ТерминологияУзел (node) mdash точка разделения предковой последовательности(вида популяции) на две независимо эволюционирующиеСоответствует внутренней вершине графа изображающего эволюциюЛист (leaf OTU ndash оперативная таксономическая единица) mdash реальный (современный) объект внешняя вершина графаВетвь (branch) mdash связь между узлами или между узлом и листом ребро графаКорень (root) mdash общий предокКлада (clade) - группа двух или более таксонов или последователь-ностей ДНК которая включает как своего общего предка так и всех его потомков

OTU

HTU (hypotetical taxonomic unit)

Какие бывают деревья

Бинарное (разрешённое)(в один момент времени может

произойти только одно событие )

Небинарное (неразрешённое) (может ли в один момент времени

произойти два события )

Время

Какие бывают деревья

Укорененное дерево (rooted tree)отражает направление эволюции

Неукорененное (бескорневое) дерево(unrooted tree) показывает только связи между узлами

Время

Если число листьев равно n существует (2n-3)разных бинарных укоренных деревьевПо определению (2n-3) = 1middot3 middot middot(2n-3)

Существует (2n-5) разных бескорневых деревьев с n листьями

Rooting

A C B B C AA B C

3 OTUs 3 OTUs 1 н 1 неукорененное деревоеукорененное дерево 33 укорененных деревьев укорененных деревьев

A

B

C

D

C

A

B

4 OTUs 4 OTUs 3 3 неукорененных филогенетических неукорененных филогенетических деревьевдеревьев

D

B

A

C C

B

A

D

4 OTUs

15 укорененных

деревьев

Количество Количество Количество

OTU укорененных неукорененных

2 1 13 3 14 15 35 105 156 954 1057 103959548 135135 103959 2027025 13513510 34459425 202702511 654729075 3445942512 13749310575 654729075

Количество возможных деревьев

Рутинная процедура или как строят деревья

Составление выборки последовательностей

Множественное выравнивание

Построение дерева фрагмент записи в виде скобочной формулы

Визуализация и редактура дерева

(((((con1013851018(f539692826973((f67220839851max42750591)492893con923019677)1362315)953075)2583145

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Множественное выравнивание

Matches

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Multiple Alignment

Matches

Mismatches

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Multiple Alignment

Matches

Mismatches

Gaps

Seq 1 A G C G A GSeq 1 A G C G A GSeq 2 G C G G A CSeq 2 G C G G A C

Шаг 3 Перевод количества расхождений в индексы замен

Distance Matrix

Units количество замен нуклеотидов на 1000

Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86

Rice 00 118 122 122

Mosquito 00 55 51

Monkey 00 3

Human 00

Шаг 4 построение филогенетического дерева

Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86

Rice 00 118 122 122

Mosquito 00 55 51

Monkey 00 3

Human 00

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Дистанция между человеком и обезьяной минимальна Эти группы объединяются в Monkey-Human а все остальные дистанции пересчитываются

Dist[Spinach MonHum] = (Dist[Spinach Monkey] +

Dist[Spinach Human])2 = (91 + 86)2 = 885

Spinach Rice Mosquito Mon-HumSpinach 00 9 106 885

Rice 00 118 122

Mosquito 00 53

Mon-Hum 00

Редуцированная матрица дистанций

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Spi-Ric

HumanMosquito

Mon-Hum

MonkeySpinachRice

Mos-Mon-Hum

Spi-Ric

Mos-Mon-Hum-Spi-Ric

Как выбирать последовательности для дерева

Кроме случаев очень близких последовательностей проще работать с белками (а не с ДНК)

Придерживайтесь небольшой выборки (lt 50 последовательностей)

Избегайтеndash фрагментовndash Ксенологов (горизонтальный перенос генов)ndash рекомбинантных последовательностейndash многодоменных белков и повторов

Используйте outgroup (последовательность ответвившаяся от общего предка заведомо (но минимально) раньше разделения интересующих групп-клад)

Самое главное ndash хорошее выравнивание

Максимальный вклад в финальное дерево нельзя построить хорошее дерево по плохому выравниванию

Блоки содержащие много гэпов плохо выровненные N- и C- концы можно просто вырезать

Основные алгоритмы построения филогенетических деревьев

Методы основанные на оценке

расстояний (матричные методы)

bull UPGMA (кластеризация)

bull Neighbor-joining

bull Минимальная эволюция

Наибольшего правдоподобия Maximal likelihood ML Используется модель эволюции и строится дерево которое наиболее правдоподобно при данной модели

Максимальной экономии (бережливости)

maximal parsimony MP Выбирается дерево с минимальным количеством

мутаций необходимых для объяснения данных

Пример матрицы расстояний

1 2 3 4 5 6 7 8 000 1053 977 1278 1203 1654 1353 2500 HUMAN 1

000 902 1203 977 1579 902 2727 HORSE 2 000 977 902 1654 1203 2424 RABIT 3

000 226 1729 1053 2576 MOUSE 4 000 1579 827 2576 RAT 5

000 1053 2955 BOVIN 6 000 2500 PIG 7

000 CHICK 8

Расстояние (уровень дивергенции) между соответствующими последовательностями из геномов мыши и свиньи

Как понимать расстояние между объектами

bull Как время в течение которого они эволюционировалиbull Как число laquoэволюционных событийraquo (мутаций)

В первом случае объекты образуют ультраметрическое пространство(если все объекты наблюдаются в одно время что как правило верно)

Но время непосредственно измерить невозможно

Гипотеза laquoмолекулярных часовraquo(EZuckerkandl LPauling 1962)

За равное время во всех ветвях эволюции данного генабелка накапливается равное число мутацийЕсли гипотеза молекулярных часов

принимается число различий между выровненными последовательностями можно считать примерно пропорциональным времени Отклонения от ультраметричности можно считать случайными Эволюция реконструируется в виде ультраметрического дерева

Укоренённое дерево называется ультраметрическим если расстояние от корня до любого из листьев одинаково

UPGMAUnweighted Pair Group Method with Arithmetic Mean

разновидность кластерного метода

Расстояние между кластерами вычисляется как среднее арифметическое всевозможных расстояний между последовательностями из кластеров

Недостатки UPGMA

Алгоритм строит ультраметрическое дерево ndash скорость эволюции предполагается одинаковой для всех ветвей дерева Использовать этот алгоритм имеет смысл только в случае ультраметрических данных (справедливости laquoмолекулярных часовraquo)

Реальное дерево UPGMA

Метод ближайших соседей (Neighbor-joining NJ)

Строит неукоренённое дерево

Может работать с большим количеством данных

Достаточно быстрый

Если есть недвусмысленное с точки зрения эксперта дерево то оно будет построено

Метод Neighbor-joining

Рисуем laquoзвездноеraquo дерево и будем laquoотщипыватьraquo от него по паре листьев

Пусть ui = Σk Mik(n-2) mdash среднее расстояние от листа i до других

листьев

1 Рассмотрим все возможные пары листьев Выберем 2 листа i и j с минимальным значением величины

Mij ndash ui ndashuj

те выбираем 2 узла которые близки друг к другу но далеки ото всех остальных

Метод ближайших соседей (Neighbor-joining NJ)

2 Кластер (i j) ndash новый узел дерева

Расстояние от i или от j до узла (ij) D(i (ij)) = 05middot(Mij + ui ndash uj) D(j (ij)) = 05middot (Mij + uj ndash ui) те длина ветви зависит от среднего расстояния до других вершин

3 Вычисляем расстояние от нового кластера до всех других

M(ij)k = Mik+Mjk ndash Mij 2

5 В матрице М убираем i и j и добавляем (i j) Повторяем пока не останутся 3 узла

Input MSA для n последовательностей одна последовательность для каждого вида

AAAAATC

AAAAAAG

CCCCCCG

AAAAATCAAAAAAG

CCCCCCG

Длинная ветвь ndash непохоже на правду

Длинная ветвь -Похоже на правду

Методы основанные на последовательностях Maximum Likelihood (ML) Maximum Parsimony (MP)

Как изобразить дерево Топология дерева

Топология дерева mdash только листья узлы (корень) и связывающие их ветви (топология не зависит от способа изображения дерева)

A

B

C

D

E A BC D E

Два изображения одной и той же топологии

Bacterium 1

Bacterium 3

Bacterium 2

Eukaryote 1

Eukaryote 4

Eukaryote 3

Eukaryote 2

Bacterium 1

Bacterium 3Bacterium 2

Eukaryote 1

Eukaryote 4Eukaryote 3

Eukaryote 2

Филограммы ndash длины ветвей

пропорциональны

эволюционному расстоянию

Кладограммы и филограммы

Кладограммы ndash только

топологя Длины ветвей не

учитываются

6

31

2

46

24

53

Как можно нарисовать построенное дерево

Какие on-line программы строят деревья

ClustalW ldquoTree typerdquo ndash nj phylip строит только методом NJ но результат ndash в разных форматах no bootstraps

Phylip (Felsenstein 1993) ndash пакет программ для построения филогенетических деревьев (stand-alone)On-line (partly) например

httpbiowebpasteurfrseqanalphylogenyphylip-ukhtml PAUP (Phylogenetic Analysis Using Parsimony)

MEGA филогенетический анализ последовательностей

httpwwwmegasoftwarenet

Эволюция ndash исторический процесс

Из 8200794532637891559375 деревьев для 20 OTUs 1

является верным и 8200794532637891559374

неверны

Truth is one falsehoods are many

Какое из 8200794532637891559375

деревьев истинно

Мы не знаем Можно применить иные критетии

Например ldquoпохожесть=родствоraquo

GCGbull Строковый поиск простой текстовый

поиск по локальной базе данных

bull Поиск в определениях или в аннотациях

bull Определения содержат минимальное количество информации для каждой статьи доступ имя организма имя гена длина последовательности дата

  • Bestfit Output
  • SP1 at swissprot
  • EGR1 at swissprot
  • Вывод
  • Bl2Seq at NCBI
  • Bl2seq results
  • Bl2seq оценка
  • Оптимизация времени вычислений при парном выравнивании
  • Slide 9
  • Алгоритм BLAST (шаг 1)
  • Slide 11
  • Blast
  • Поиск гомологов
  • ДНК или белок
  • ДНК
  • Slide 16
  • Slide 17
  • Двойная спираль
  • ДНК дальнейшая упаковка
  • Slide 20
  • Репликация ДНК
  • Slide 22
  • Slide 23
  • Slide 24
  • Slide 25
  • Множественное выравнивание последовательностей (MSA)
  • Slide 27
  • Основные предположения
  • Например
  • Почему множественное выравнивание
  • Slide 31
  • Подходы в MSA
  • MSA algorithm
  • Multiple Alignment - алгоритм
  • Комментарии
  • GCG
  • Slide 37
  • GCG
  • Slide 39
  • Slide 40
  • Slide 41
  • ClustalW
  • Slide 43
  • Slide 44
  • ClustalW на EMBL
  • ClustalW на EMBL - результат
  • ClustalW at EMBL - Jalview
  • Consensus Sequence
  • Профиль (Profile)
  • Profile vs Consensus
  • Slide 51
  • Slide 52
  • Psi Blast (NCBI)
  • PSI-Blast
  • Psi-Blast вывод
  • Slide 56
  • Филогенез
  • Slide 58
  • Slide 59
  • Slide 60
  • Slide 61
  • Древо видов и генов
  • Ортологи и паралоги
  • Шаги реконструирования филогенетического древа
  • Филогенетическое дерево
  • Зачем нужны филогенетические деревья
  • Терминология
  • Slide 68
  • Какие бывают деревья
  • Slide 70
  • Slide 71
  • Slide 72
  • 4 OTUs 3 неукорененных филогенетических деревьев
  • Slide 74
  • Slide 75
  • Slide 76
  • Slide 77
  • Рутинная процедура или как строят деревья
  • Slide 79
  • Slide 80
  • Slide 81
  • Slide 82
  • Slide 83
  • Slide 84
  • Slide 85
  • Slide 86
  • Slide 87
  • Slide 88
  • Slide 89
  • Как выбирать последовательности для дерева
  • Самое главное ndash хорошее выравнивание
  • Основные алгоритмы построения филогенетических деревьев
  • Пример матрицы расстояний
  • Slide 94
  • Гипотеза laquoмолекулярных часовraquo (EZuckerkandl LPauling 1962)
  • UPGMA Unweighted Pair Group Method with Arithmetic Mean
  • Недостатки UPGMA
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Метод Neighbor-joining
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Slide 101
  • Как изобразить дерево Топология дерева
  • Slide 103
  • Какие on-line программы строят деревья
  • MEGA филогенетический анализ последовательностей
  • Slide 106
  • Slide 107
  • Slide 108
Page 21: Bestfit Output

Репликация ДНК

Репликация ДНК

bull Генетический код избыточен ndash почти все аминокислоты кодируются более чем 1 кодоном (тройка нуклеотидов)

bull Последовательность ДНК может меняться в то время как последовательность белка остается постоянной

Ser-Tyrhellip

UCAUAC UCUUAC UCGUAC Uhelliphellip

Поиск гомологов

bull Нуклеотиды ndash 4-х буквенный алфавитbull Аминокислоты ndash 20-и буквенный алфавит

Две случайные последовательности ДНК будут идентичны ~ 25Две случайные белковые последовательности будут идентичны ~ 5

Поиск гомологов

Матрицы для сравнения белков более чувствительны чем матрицы для ДНК

Базы данных ДНК намного больше белковых rarr будут случайные совпадения

Поиск гомологов

Использование белковых последовательностей более предпочтительно при поиске гомологов

Поиск гомологов

Множественное выравнивание последовательностей (MSA)

VTISCTGSSSNIGAG-NHVKWYQQLPGVTISCTGTSSNIGS--ITVNWYQQLPGLRLSCSSSGFIFSS--YAMYWVRQAPGLSLTCTVSGTSFDD--YYSTWVRQPPGPEVTCVVVDVSHEDPQVKFNWYVDG--ATLVCLISDFYPGA--VTVAWKADS--AALGCLVKDYFPEP--VTVSWNSG---VSLTCLVKGFYPSD--IAVEWWSNG--

Основные предположения

bull Гены фиксированы сохранены у очень широкого круга биологических видов у совершенно различных представителей laquoдрева жизниraquo

bull Фиксированный генетический код для белков вероятно несёт похожие зачастую идентичные функции

Например

bull Гистоны небольшие белки присутствуют у всех эукариот

Демонстрируют выраженное постоянство последовательности в MSA

Постоянство структуры и функции (упаковка DNA)

Почему множественное выравнивание

Позволяет дать характеристику семействам белков найти общие участки гомологов

Например семейство Serine protease семейство отвечающее за катализ гидролиз пептидных связей

bull Одинаковые активные центры

bull Общие участка последовательности

bull MSA ndash это первый предварительный шаг к анализу в области молекулярной эволюции и построения эволюционных деревьев

bull База для филогенеза ndash данные молекулярной биологии или морфологические данные

Подходы в MSA

2 разных подходаndash 1D sequence based ndash сравнение

последовательностейndash 2D-3D based ndash выравнивание базирующееся на

структуре

MSA algorithm

bull Попарное выравнивание всех последовательностей (pairwise alignment)

bull Кластерный анализ данных парного выравнивания для получения иерархии выравниваний (guide tree)

bull Построение множественного выравнивания (MSA) пошагово в соответствии с guide tree сначала выравнивают наиболее похожие пары затем добавляют остальные и тд

Multiple Alignment - алгоритм

(1) Парное выравнивание (подготовка guide tree)

6 pairwise alignments

then cluster analysis

(2) Множественное выравнивание следуя древу из п 1

successive alignments

Комментарии

bull Парное выравнивание - оптимальный алгоритм

bull Множественное выравнивание не является оптимальным алгоритмом Вполне могут существовать и лучшие выравнивания

bull Редакторы выравниваний могут быть полезны для корректировки

GCG

Pileup глобальный MSA

pileup [list of sequence names]

pileup hemoglobin_list

1 The sign means that the file contains a list of names

2 The list can include names from the userrsquos directory or code names (accession numbers) from the GCG databases

GCGПример входного файла

swhbb_human

swhbb_rat

swhbb_mouse

Hemoglobin_Alpha

Hemoglobin_Gamma

Hemogolibin_Delta

Syntax the file starts with ldquordquo

Sequences from the databases

Sequences from the userrsquos directory

GCG PileUp creates a multiple sequence alignment from a group of relatedsequences using progressive pairwise alignments It can also plot atree showing the clustering relationships used to create the alignment

1 IPNS_STRJU 329 aa 2 IPNS_STRCL 329 aa 3 IPNS_CEPAC 338 aa 4 IPNS_NOCLA 328 aa

What is the gap creation penalty ( 8 ) What is the gap extension penalty ( 2 )

This program can display the clustering relationships graphically Do you want to A) Plot to a FIGURE file called pileupfigure B) Plot graphics on HP7550 attached to devtty15 C) Suppress the plot Please choose one ( A ) c What should I call the output file name ( ipnsmsf )

Determining pairwise similarity scores

1 x 2 443 1 x 3 312 1 x 4 412 2 x 3 294 2 x 4 405 3 x 4 309

Aligning

Total sequences 4 Alignment length 338 CPU time 0021

Output filedatausersracheliothersracheliipnsmsf

Regular GCG syntaxDefault parametersoutput file etc

GCGAA_MULTIPLE_ALIGNMENT 10PileUp of ipnsfil

Symbol comparison table GenRunDatablosum62cmp CompCheck 1102 GapWeight 8 GapLengthWeight 2 ipnsmsf MSF 338 Type P March 14 2002 0929 Check 7631

Name IPNS_STRJU Len 338 Check 6344 Weight 100 Name IPNS_STRCL Len 338 Check 4249 Weight 100 Name IPNS_NOCLA Len 338 Check 7020 Weight 100 Name IPNS_CEPAC Len 338 Check 18 Weight 100

1 50IPNS_STRJU ~MPILMPSAE VPTIDISPLS GDDAKAKQRV AQEINKAARG SGFFYASNHGIPNS_STRCL ~MPVLMPSAH VPTIDISPLF GTDAAAKKRV AEEIHGACRG SGFFYATNHGIPNS_NOCLA ~~~MKMPSAE VPTIDVSPLF GDDAQEKVRV GQEINKACRG SGFFYAANHGIPNS_CEPAC MGSVPVPVAN VPRIDVSPLF GDDKEKKLEV ARAIDAASRD TGFFYAVNHG

51 100IPNS_STRJU VDVQLLQDVV NEFHRNMSDQ EKHDLAINAY NKDNPHVRN GYYKAIKGKKIPNS_STRCL VDVQQLQDVV NEFHGAMTDQ EKHDLAIHAY NPDNPHVRN GYYKAVPGRKIPNS_NOCLA VDVQRLQDVV NEFHRTMSPQ EKYDLAIHAY NKNNSHVRN GYYMAIEGKKIPNS_CEPAC VDLPWLSRET NKFHMSITDE EKWQLAIRAY NKEHESQIRA GYYLPIPGKK

Output filemsf format

GCG

Prettybox генерирует графический файл из файла MSA

prettybox [MSA file]

prettybox hemoglobinsmsf

1 The ldquordquo is a syntax sign meaning all the sequences in the MSA file

2 Can also calculate the consensus sequence

GCG

ClustalWbull Очень известная и широко распространённая

программа UNIX Internet Windows

bull Выполняет MSA может строить филогенетические деревья

bull Входной файл ndash формат multi-fasta

ClustalW

bull tofasta list

gtIPNS_STRJU P18286

MPILMPSAEVPTIDISPLSGDDAKAKQRVAQEINKAARGSGFFYASNHGVDVQLLQDVVN

EFHRNMSDQEKHDLAINAYNKDNPHVRNGYYKAIKGKKAVESFCYLNPSFSDDHPMIKSE

TPMHEVNLWPDEEKHPRFRPFCEDYYRQLLRLSTVIMRGYALALGRREDFFDEALAEADT

LSSVSLIRYPYLEEYPPVKTGADGTKLSFEDHLDVSMITVLYQTEVQNLQVETVDGWQDI

PRSDEDFLVNCGTYMGHITHDYFPAPNHRVKFINAERLSLPFFLNAGHNSVIEPFVPEGA

AGTVKNPTTSYGEYLQHGLRALIVKNGQT

gtIPNS_STRCL P10621

MPVLMPSAHVPTIDISPLFGTDAAAKKRVAEEIHGACRGSGFFYATNHGVDVQQLQDVVN

EFHGAMTDQEKHDLAIHAYNPDNPHVRNGYYKAVPGRKAVESFCYLNPDFGEDHPMIAAG

TPMHEVNLWPDEERHPRFRPFCEGYYRQMLKLSTVLMRGLALALGRPEHFFDAALAEQDS

LSSVSLIRYPYLEEYPPVKTGPDGQLLSFEDHLDVSMITVLFQTQVQNLQVETVDGWRDI

PTSENDFLVNCGTYMAHVTNDYFPAPNHRVKFVNAERLSLPFFLNGGHEAVIEPFVPEGA

SEEVRNEALSYGDYLQHGLRALIVKNGQT

input fileMulti-fasta

Making the file in unix

ClustalWCLUSTAL W (17) multiple sequence alignment

IPNS_STRJU -MPILMPSAEVPTIDISPLSGDDAKAKQRVAQEINKAARGSGFFYASNHGVDVQLLQDVVIPNS_STRGR -MPIPMLPAHVPTIDISPLSGGDADDKKRVAQEINKACRESGFFYASHHGIDVQLLKDVVIPNS_FLASS ----MNRHADVPVIDISGLSGNDMDVKKDIAARIDRACRGSGFFYAANHGVDLAALQKFTIPNS_PENCH --MASTPKANVPKIDVSPLFGDNMEEKMKVARAIDAASRDTGFFYAVNHGVDVKRLSNKTIPNS_CEPAC MGSVPVPVANVPRIDVSPLFGDDKEKKLEVARAIDAASRDTGFFYAVNHGVDLPWLSRET

IPNS_STRJU NEFHRNMSDQEKHDLAINAYNKDNP-HVRNGYYKAIKGKKAVESFCYLNPSFSDDHPMIKIPNS_STRGR NEFHRTMTDEEKYDLAINAYNKNNP-RTRNGYYMAVKGKKAVESWCYLNPSFSEDHPQIRIPNS_FLASS TDWHMAMSAEEKWELAIRAYNPANP-RNRNGYYMAVEGKKANESFCYLNPSFDADHATIKIPNS_PENCH REFHFSITDEEKWDLAIRAYNKEHQDQIRAGYYLSIPEKKAVESFCYLNPNFKPDHPLIQIPNS_CEPAC NKFHMSITDEEKWQLAIRAYNKEHESQIRAGYYLPIPGKKAVESFCYLNPSFSPDHPRIK

Выходной файл aln format

httpwwwebiacukhelpformatshtml

форматы

ClustalW на EMBL

ClustalW на EMBL - результат

ClustalW at EMBL - Jalview

Conservation

Consensus Sequence

Мы можем вывести consensus sequence из результатов MSA The consensus sequence содержит наиболее часто встречающийся символ в кажной колонке выравнивания

A T C T T G T

A A C T T G T

A A C T T C T

A A C T T G T

Ещё пара терминовhelliphellip

Профиль (Profile)

Также возможно вывести статистическую модель описывающую MSA Профиль содержит информацию о символах в каждом столбце выравнивания

A T C T T G T

A A C T T G T

A A C T T C T

1 2 3 4 5 6

A 1 067 0 0

T 0 033 1 1

C 0 0 0 0

G 0 0 0 0

Profile vs Consensus

Consensus каждая позиция отражает наиболее часто встречающийся символ

Profile каждая позиция отражает частоту символа в данной позиции

Profile vs Consensus

Данный MSA будет иметь одинаковый consensus

A A C T T G C

A A G T C G T

C A C T T C T

A A C T T G T

A A C T T G T

A A C T T C T

A A C T T G T

Profile vs Consensus

Но разный профиль

A A C T T G C

A A G T C G T

C A C T T C T

A A C T T G T

A A C T T G T

A A C T T C T

1 2 3 4 5 6

A 066 1 0 0

T 0 0 0 1

C 033 0 066 0

G 0 0 033 0

1 2 3 4 5 6

A 1 1 0 0

T 0 0 0 1

C 0 0 1 0

G 0 0 0 0

Psi Blast (NCBI)

Position Specific Iterated ndash автоматизированный поиск по профилю

Regular blast

Construct profile from blast results

Blast profile search

Final results

PSI-Blast

Psi-Blast вывод

Проблема формулировки выводов при использовании МSA

1 Сайт выглядит общим (фиксированным) из-за того что это ndash близкородственные последовательности

2 Сайт выглядит общим из-за того что это ndash исключительно жизненно важный сайт

ФилогенезЭволюция ndash случайный процесс с неслучайным результатом

Цели филогенетического исследования

bull Реконструкция корректных генеалогических связей

между биологическими объектами

bull Оценка времени расхождения организмов

bull Определение порядка эволюционных событий в процессе

эволюции

Формат Newick

((A(BC))(DE))

Типы данных

Molecular (DNA RNA proteins)

Morphological (soft tissue hard tissue extant extinct)

Преимущества молекулярных данных

bull Наследуемость

bull Недвусмысленность в описании молекулярных характеристик

bull Поддаются количественному анализу

bull Оценка гомологии легче чем морфологические исследования

bull Данных много

Древо видов и геновbull Древо видов ndash эволюционные взаимосвязи

между видами (видообразование)bull Древо генов

Page RDM and Cotton JC (2000) GeneTree a tool for exploring gene family evolution In D Sankoff and J Nadeau (eds) Comparative Genomics Empirical and Analytical Approaches to Gene Order Dynamics Map Alignment and the Evolution of Gene Families Kluwer Academic Publishers Dordrecht pp 525-536

Figure 2 (a) Incongruent gene and species trees This incongruence can be explained by hypothesizing a gene duplication (h) at the base of the gene tree (b)The presence of only a single gene (a-d) extant in each of the present-day species(1-4) requires postulating three gene losses (c) The corresponding reconciled tree

Ортологи и паралоги

bull Гены-паралоги ndash событие дупликация (and

bull Гены-ортологи ndash событие видообразования (in the two species and in the two species

Duplication

Speciation

Species a Species b

Шаги реконструирования филогенетического

древа

1 Выбор последовательностей и поиск гомологов

2 MSA3 Матрица белков4 Филогенетическое дерево

Филогенетическое дерево

Филогения - раздел биологии изучающий родственные взаимоотношения разных групп живых организмов Филогению отображается обычно в виде эволюционных древ или систематических названий

Зачем нужны филогенетические деревья

Биологические задачи

сравнение 3-х и более объектов (кто на кого более похож )

реконструкция эволюции (кто от кого как и когда произошелhellip)

ТерминологияУзел (node) mdash точка разделения предковой последовательности(вида популяции) на две независимо эволюционирующиеСоответствует внутренней вершине графа изображающего эволюциюЛист (leaf OTU ndash оперативная таксономическая единица) mdash реальный (современный) объект внешняя вершина графаВетвь (branch) mdash связь между узлами или между узлом и листом ребро графаКорень (root) mdash общий предокКлада (clade) - группа двух или более таксонов или последователь-ностей ДНК которая включает как своего общего предка так и всех его потомков

OTU

HTU (hypotetical taxonomic unit)

Какие бывают деревья

Бинарное (разрешённое)(в один момент времени может

произойти только одно событие )

Небинарное (неразрешённое) (может ли в один момент времени

произойти два события )

Время

Какие бывают деревья

Укорененное дерево (rooted tree)отражает направление эволюции

Неукорененное (бескорневое) дерево(unrooted tree) показывает только связи между узлами

Время

Если число листьев равно n существует (2n-3)разных бинарных укоренных деревьевПо определению (2n-3) = 1middot3 middot middot(2n-3)

Существует (2n-5) разных бескорневых деревьев с n листьями

Rooting

A C B B C AA B C

3 OTUs 3 OTUs 1 н 1 неукорененное деревоеукорененное дерево 33 укорененных деревьев укорененных деревьев

A

B

C

D

C

A

B

4 OTUs 4 OTUs 3 3 неукорененных филогенетических неукорененных филогенетических деревьевдеревьев

D

B

A

C C

B

A

D

4 OTUs

15 укорененных

деревьев

Количество Количество Количество

OTU укорененных неукорененных

2 1 13 3 14 15 35 105 156 954 1057 103959548 135135 103959 2027025 13513510 34459425 202702511 654729075 3445942512 13749310575 654729075

Количество возможных деревьев

Рутинная процедура или как строят деревья

Составление выборки последовательностей

Множественное выравнивание

Построение дерева фрагмент записи в виде скобочной формулы

Визуализация и редактура дерева

(((((con1013851018(f539692826973((f67220839851max42750591)492893con923019677)1362315)953075)2583145

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Множественное выравнивание

Matches

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Multiple Alignment

Matches

Mismatches

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Multiple Alignment

Matches

Mismatches

Gaps

Seq 1 A G C G A GSeq 1 A G C G A GSeq 2 G C G G A CSeq 2 G C G G A C

Шаг 3 Перевод количества расхождений в индексы замен

Distance Matrix

Units количество замен нуклеотидов на 1000

Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86

Rice 00 118 122 122

Mosquito 00 55 51

Monkey 00 3

Human 00

Шаг 4 построение филогенетического дерева

Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86

Rice 00 118 122 122

Mosquito 00 55 51

Monkey 00 3

Human 00

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Дистанция между человеком и обезьяной минимальна Эти группы объединяются в Monkey-Human а все остальные дистанции пересчитываются

Dist[Spinach MonHum] = (Dist[Spinach Monkey] +

Dist[Spinach Human])2 = (91 + 86)2 = 885

Spinach Rice Mosquito Mon-HumSpinach 00 9 106 885

Rice 00 118 122

Mosquito 00 53

Mon-Hum 00

Редуцированная матрица дистанций

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Spi-Ric

HumanMosquito

Mon-Hum

MonkeySpinachRice

Mos-Mon-Hum

Spi-Ric

Mos-Mon-Hum-Spi-Ric

Как выбирать последовательности для дерева

Кроме случаев очень близких последовательностей проще работать с белками (а не с ДНК)

Придерживайтесь небольшой выборки (lt 50 последовательностей)

Избегайтеndash фрагментовndash Ксенологов (горизонтальный перенос генов)ndash рекомбинантных последовательностейndash многодоменных белков и повторов

Используйте outgroup (последовательность ответвившаяся от общего предка заведомо (но минимально) раньше разделения интересующих групп-клад)

Самое главное ndash хорошее выравнивание

Максимальный вклад в финальное дерево нельзя построить хорошее дерево по плохому выравниванию

Блоки содержащие много гэпов плохо выровненные N- и C- концы можно просто вырезать

Основные алгоритмы построения филогенетических деревьев

Методы основанные на оценке

расстояний (матричные методы)

bull UPGMA (кластеризация)

bull Neighbor-joining

bull Минимальная эволюция

Наибольшего правдоподобия Maximal likelihood ML Используется модель эволюции и строится дерево которое наиболее правдоподобно при данной модели

Максимальной экономии (бережливости)

maximal parsimony MP Выбирается дерево с минимальным количеством

мутаций необходимых для объяснения данных

Пример матрицы расстояний

1 2 3 4 5 6 7 8 000 1053 977 1278 1203 1654 1353 2500 HUMAN 1

000 902 1203 977 1579 902 2727 HORSE 2 000 977 902 1654 1203 2424 RABIT 3

000 226 1729 1053 2576 MOUSE 4 000 1579 827 2576 RAT 5

000 1053 2955 BOVIN 6 000 2500 PIG 7

000 CHICK 8

Расстояние (уровень дивергенции) между соответствующими последовательностями из геномов мыши и свиньи

Как понимать расстояние между объектами

bull Как время в течение которого они эволюционировалиbull Как число laquoэволюционных событийraquo (мутаций)

В первом случае объекты образуют ультраметрическое пространство(если все объекты наблюдаются в одно время что как правило верно)

Но время непосредственно измерить невозможно

Гипотеза laquoмолекулярных часовraquo(EZuckerkandl LPauling 1962)

За равное время во всех ветвях эволюции данного генабелка накапливается равное число мутацийЕсли гипотеза молекулярных часов

принимается число различий между выровненными последовательностями можно считать примерно пропорциональным времени Отклонения от ультраметричности можно считать случайными Эволюция реконструируется в виде ультраметрического дерева

Укоренённое дерево называется ультраметрическим если расстояние от корня до любого из листьев одинаково

UPGMAUnweighted Pair Group Method with Arithmetic Mean

разновидность кластерного метода

Расстояние между кластерами вычисляется как среднее арифметическое всевозможных расстояний между последовательностями из кластеров

Недостатки UPGMA

Алгоритм строит ультраметрическое дерево ndash скорость эволюции предполагается одинаковой для всех ветвей дерева Использовать этот алгоритм имеет смысл только в случае ультраметрических данных (справедливости laquoмолекулярных часовraquo)

Реальное дерево UPGMA

Метод ближайших соседей (Neighbor-joining NJ)

Строит неукоренённое дерево

Может работать с большим количеством данных

Достаточно быстрый

Если есть недвусмысленное с точки зрения эксперта дерево то оно будет построено

Метод Neighbor-joining

Рисуем laquoзвездноеraquo дерево и будем laquoотщипыватьraquo от него по паре листьев

Пусть ui = Σk Mik(n-2) mdash среднее расстояние от листа i до других

листьев

1 Рассмотрим все возможные пары листьев Выберем 2 листа i и j с минимальным значением величины

Mij ndash ui ndashuj

те выбираем 2 узла которые близки друг к другу но далеки ото всех остальных

Метод ближайших соседей (Neighbor-joining NJ)

2 Кластер (i j) ndash новый узел дерева

Расстояние от i или от j до узла (ij) D(i (ij)) = 05middot(Mij + ui ndash uj) D(j (ij)) = 05middot (Mij + uj ndash ui) те длина ветви зависит от среднего расстояния до других вершин

3 Вычисляем расстояние от нового кластера до всех других

M(ij)k = Mik+Mjk ndash Mij 2

5 В матрице М убираем i и j и добавляем (i j) Повторяем пока не останутся 3 узла

Input MSA для n последовательностей одна последовательность для каждого вида

AAAAATC

AAAAAAG

CCCCCCG

AAAAATCAAAAAAG

CCCCCCG

Длинная ветвь ndash непохоже на правду

Длинная ветвь -Похоже на правду

Методы основанные на последовательностях Maximum Likelihood (ML) Maximum Parsimony (MP)

Как изобразить дерево Топология дерева

Топология дерева mdash только листья узлы (корень) и связывающие их ветви (топология не зависит от способа изображения дерева)

A

B

C

D

E A BC D E

Два изображения одной и той же топологии

Bacterium 1

Bacterium 3

Bacterium 2

Eukaryote 1

Eukaryote 4

Eukaryote 3

Eukaryote 2

Bacterium 1

Bacterium 3Bacterium 2

Eukaryote 1

Eukaryote 4Eukaryote 3

Eukaryote 2

Филограммы ndash длины ветвей

пропорциональны

эволюционному расстоянию

Кладограммы и филограммы

Кладограммы ndash только

топологя Длины ветвей не

учитываются

6

31

2

46

24

53

Как можно нарисовать построенное дерево

Какие on-line программы строят деревья

ClustalW ldquoTree typerdquo ndash nj phylip строит только методом NJ но результат ndash в разных форматах no bootstraps

Phylip (Felsenstein 1993) ndash пакет программ для построения филогенетических деревьев (stand-alone)On-line (partly) например

httpbiowebpasteurfrseqanalphylogenyphylip-ukhtml PAUP (Phylogenetic Analysis Using Parsimony)

MEGA филогенетический анализ последовательностей

httpwwwmegasoftwarenet

Эволюция ndash исторический процесс

Из 8200794532637891559375 деревьев для 20 OTUs 1

является верным и 8200794532637891559374

неверны

Truth is one falsehoods are many

Какое из 8200794532637891559375

деревьев истинно

Мы не знаем Можно применить иные критетии

Например ldquoпохожесть=родствоraquo

GCGbull Строковый поиск простой текстовый

поиск по локальной базе данных

bull Поиск в определениях или в аннотациях

bull Определения содержат минимальное количество информации для каждой статьи доступ имя организма имя гена длина последовательности дата

  • Bestfit Output
  • SP1 at swissprot
  • EGR1 at swissprot
  • Вывод
  • Bl2Seq at NCBI
  • Bl2seq results
  • Bl2seq оценка
  • Оптимизация времени вычислений при парном выравнивании
  • Slide 9
  • Алгоритм BLAST (шаг 1)
  • Slide 11
  • Blast
  • Поиск гомологов
  • ДНК или белок
  • ДНК
  • Slide 16
  • Slide 17
  • Двойная спираль
  • ДНК дальнейшая упаковка
  • Slide 20
  • Репликация ДНК
  • Slide 22
  • Slide 23
  • Slide 24
  • Slide 25
  • Множественное выравнивание последовательностей (MSA)
  • Slide 27
  • Основные предположения
  • Например
  • Почему множественное выравнивание
  • Slide 31
  • Подходы в MSA
  • MSA algorithm
  • Multiple Alignment - алгоритм
  • Комментарии
  • GCG
  • Slide 37
  • GCG
  • Slide 39
  • Slide 40
  • Slide 41
  • ClustalW
  • Slide 43
  • Slide 44
  • ClustalW на EMBL
  • ClustalW на EMBL - результат
  • ClustalW at EMBL - Jalview
  • Consensus Sequence
  • Профиль (Profile)
  • Profile vs Consensus
  • Slide 51
  • Slide 52
  • Psi Blast (NCBI)
  • PSI-Blast
  • Psi-Blast вывод
  • Slide 56
  • Филогенез
  • Slide 58
  • Slide 59
  • Slide 60
  • Slide 61
  • Древо видов и генов
  • Ортологи и паралоги
  • Шаги реконструирования филогенетического древа
  • Филогенетическое дерево
  • Зачем нужны филогенетические деревья
  • Терминология
  • Slide 68
  • Какие бывают деревья
  • Slide 70
  • Slide 71
  • Slide 72
  • 4 OTUs 3 неукорененных филогенетических деревьев
  • Slide 74
  • Slide 75
  • Slide 76
  • Slide 77
  • Рутинная процедура или как строят деревья
  • Slide 79
  • Slide 80
  • Slide 81
  • Slide 82
  • Slide 83
  • Slide 84
  • Slide 85
  • Slide 86
  • Slide 87
  • Slide 88
  • Slide 89
  • Как выбирать последовательности для дерева
  • Самое главное ndash хорошее выравнивание
  • Основные алгоритмы построения филогенетических деревьев
  • Пример матрицы расстояний
  • Slide 94
  • Гипотеза laquoмолекулярных часовraquo (EZuckerkandl LPauling 1962)
  • UPGMA Unweighted Pair Group Method with Arithmetic Mean
  • Недостатки UPGMA
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Метод Neighbor-joining
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Slide 101
  • Как изобразить дерево Топология дерева
  • Slide 103
  • Какие on-line программы строят деревья
  • MEGA филогенетический анализ последовательностей
  • Slide 106
  • Slide 107
  • Slide 108
Page 22: Bestfit Output

bull Генетический код избыточен ndash почти все аминокислоты кодируются более чем 1 кодоном (тройка нуклеотидов)

bull Последовательность ДНК может меняться в то время как последовательность белка остается постоянной

Ser-Tyrhellip

UCAUAC UCUUAC UCGUAC Uhelliphellip

Поиск гомологов

bull Нуклеотиды ndash 4-х буквенный алфавитbull Аминокислоты ndash 20-и буквенный алфавит

Две случайные последовательности ДНК будут идентичны ~ 25Две случайные белковые последовательности будут идентичны ~ 5

Поиск гомологов

Матрицы для сравнения белков более чувствительны чем матрицы для ДНК

Базы данных ДНК намного больше белковых rarr будут случайные совпадения

Поиск гомологов

Использование белковых последовательностей более предпочтительно при поиске гомологов

Поиск гомологов

Множественное выравнивание последовательностей (MSA)

VTISCTGSSSNIGAG-NHVKWYQQLPGVTISCTGTSSNIGS--ITVNWYQQLPGLRLSCSSSGFIFSS--YAMYWVRQAPGLSLTCTVSGTSFDD--YYSTWVRQPPGPEVTCVVVDVSHEDPQVKFNWYVDG--ATLVCLISDFYPGA--VTVAWKADS--AALGCLVKDYFPEP--VTVSWNSG---VSLTCLVKGFYPSD--IAVEWWSNG--

Основные предположения

bull Гены фиксированы сохранены у очень широкого круга биологических видов у совершенно различных представителей laquoдрева жизниraquo

bull Фиксированный генетический код для белков вероятно несёт похожие зачастую идентичные функции

Например

bull Гистоны небольшие белки присутствуют у всех эукариот

Демонстрируют выраженное постоянство последовательности в MSA

Постоянство структуры и функции (упаковка DNA)

Почему множественное выравнивание

Позволяет дать характеристику семействам белков найти общие участки гомологов

Например семейство Serine protease семейство отвечающее за катализ гидролиз пептидных связей

bull Одинаковые активные центры

bull Общие участка последовательности

bull MSA ndash это первый предварительный шаг к анализу в области молекулярной эволюции и построения эволюционных деревьев

bull База для филогенеза ndash данные молекулярной биологии или морфологические данные

Подходы в MSA

2 разных подходаndash 1D sequence based ndash сравнение

последовательностейndash 2D-3D based ndash выравнивание базирующееся на

структуре

MSA algorithm

bull Попарное выравнивание всех последовательностей (pairwise alignment)

bull Кластерный анализ данных парного выравнивания для получения иерархии выравниваний (guide tree)

bull Построение множественного выравнивания (MSA) пошагово в соответствии с guide tree сначала выравнивают наиболее похожие пары затем добавляют остальные и тд

Multiple Alignment - алгоритм

(1) Парное выравнивание (подготовка guide tree)

6 pairwise alignments

then cluster analysis

(2) Множественное выравнивание следуя древу из п 1

successive alignments

Комментарии

bull Парное выравнивание - оптимальный алгоритм

bull Множественное выравнивание не является оптимальным алгоритмом Вполне могут существовать и лучшие выравнивания

bull Редакторы выравниваний могут быть полезны для корректировки

GCG

Pileup глобальный MSA

pileup [list of sequence names]

pileup hemoglobin_list

1 The sign means that the file contains a list of names

2 The list can include names from the userrsquos directory or code names (accession numbers) from the GCG databases

GCGПример входного файла

swhbb_human

swhbb_rat

swhbb_mouse

Hemoglobin_Alpha

Hemoglobin_Gamma

Hemogolibin_Delta

Syntax the file starts with ldquordquo

Sequences from the databases

Sequences from the userrsquos directory

GCG PileUp creates a multiple sequence alignment from a group of relatedsequences using progressive pairwise alignments It can also plot atree showing the clustering relationships used to create the alignment

1 IPNS_STRJU 329 aa 2 IPNS_STRCL 329 aa 3 IPNS_CEPAC 338 aa 4 IPNS_NOCLA 328 aa

What is the gap creation penalty ( 8 ) What is the gap extension penalty ( 2 )

This program can display the clustering relationships graphically Do you want to A) Plot to a FIGURE file called pileupfigure B) Plot graphics on HP7550 attached to devtty15 C) Suppress the plot Please choose one ( A ) c What should I call the output file name ( ipnsmsf )

Determining pairwise similarity scores

1 x 2 443 1 x 3 312 1 x 4 412 2 x 3 294 2 x 4 405 3 x 4 309

Aligning

Total sequences 4 Alignment length 338 CPU time 0021

Output filedatausersracheliothersracheliipnsmsf

Regular GCG syntaxDefault parametersoutput file etc

GCGAA_MULTIPLE_ALIGNMENT 10PileUp of ipnsfil

Symbol comparison table GenRunDatablosum62cmp CompCheck 1102 GapWeight 8 GapLengthWeight 2 ipnsmsf MSF 338 Type P March 14 2002 0929 Check 7631

Name IPNS_STRJU Len 338 Check 6344 Weight 100 Name IPNS_STRCL Len 338 Check 4249 Weight 100 Name IPNS_NOCLA Len 338 Check 7020 Weight 100 Name IPNS_CEPAC Len 338 Check 18 Weight 100

1 50IPNS_STRJU ~MPILMPSAE VPTIDISPLS GDDAKAKQRV AQEINKAARG SGFFYASNHGIPNS_STRCL ~MPVLMPSAH VPTIDISPLF GTDAAAKKRV AEEIHGACRG SGFFYATNHGIPNS_NOCLA ~~~MKMPSAE VPTIDVSPLF GDDAQEKVRV GQEINKACRG SGFFYAANHGIPNS_CEPAC MGSVPVPVAN VPRIDVSPLF GDDKEKKLEV ARAIDAASRD TGFFYAVNHG

51 100IPNS_STRJU VDVQLLQDVV NEFHRNMSDQ EKHDLAINAY NKDNPHVRN GYYKAIKGKKIPNS_STRCL VDVQQLQDVV NEFHGAMTDQ EKHDLAIHAY NPDNPHVRN GYYKAVPGRKIPNS_NOCLA VDVQRLQDVV NEFHRTMSPQ EKYDLAIHAY NKNNSHVRN GYYMAIEGKKIPNS_CEPAC VDLPWLSRET NKFHMSITDE EKWQLAIRAY NKEHESQIRA GYYLPIPGKK

Output filemsf format

GCG

Prettybox генерирует графический файл из файла MSA

prettybox [MSA file]

prettybox hemoglobinsmsf

1 The ldquordquo is a syntax sign meaning all the sequences in the MSA file

2 Can also calculate the consensus sequence

GCG

ClustalWbull Очень известная и широко распространённая

программа UNIX Internet Windows

bull Выполняет MSA может строить филогенетические деревья

bull Входной файл ndash формат multi-fasta

ClustalW

bull tofasta list

gtIPNS_STRJU P18286

MPILMPSAEVPTIDISPLSGDDAKAKQRVAQEINKAARGSGFFYASNHGVDVQLLQDVVN

EFHRNMSDQEKHDLAINAYNKDNPHVRNGYYKAIKGKKAVESFCYLNPSFSDDHPMIKSE

TPMHEVNLWPDEEKHPRFRPFCEDYYRQLLRLSTVIMRGYALALGRREDFFDEALAEADT

LSSVSLIRYPYLEEYPPVKTGADGTKLSFEDHLDVSMITVLYQTEVQNLQVETVDGWQDI

PRSDEDFLVNCGTYMGHITHDYFPAPNHRVKFINAERLSLPFFLNAGHNSVIEPFVPEGA

AGTVKNPTTSYGEYLQHGLRALIVKNGQT

gtIPNS_STRCL P10621

MPVLMPSAHVPTIDISPLFGTDAAAKKRVAEEIHGACRGSGFFYATNHGVDVQQLQDVVN

EFHGAMTDQEKHDLAIHAYNPDNPHVRNGYYKAVPGRKAVESFCYLNPDFGEDHPMIAAG

TPMHEVNLWPDEERHPRFRPFCEGYYRQMLKLSTVLMRGLALALGRPEHFFDAALAEQDS

LSSVSLIRYPYLEEYPPVKTGPDGQLLSFEDHLDVSMITVLFQTQVQNLQVETVDGWRDI

PTSENDFLVNCGTYMAHVTNDYFPAPNHRVKFVNAERLSLPFFLNGGHEAVIEPFVPEGA

SEEVRNEALSYGDYLQHGLRALIVKNGQT

input fileMulti-fasta

Making the file in unix

ClustalWCLUSTAL W (17) multiple sequence alignment

IPNS_STRJU -MPILMPSAEVPTIDISPLSGDDAKAKQRVAQEINKAARGSGFFYASNHGVDVQLLQDVVIPNS_STRGR -MPIPMLPAHVPTIDISPLSGGDADDKKRVAQEINKACRESGFFYASHHGIDVQLLKDVVIPNS_FLASS ----MNRHADVPVIDISGLSGNDMDVKKDIAARIDRACRGSGFFYAANHGVDLAALQKFTIPNS_PENCH --MASTPKANVPKIDVSPLFGDNMEEKMKVARAIDAASRDTGFFYAVNHGVDVKRLSNKTIPNS_CEPAC MGSVPVPVANVPRIDVSPLFGDDKEKKLEVARAIDAASRDTGFFYAVNHGVDLPWLSRET

IPNS_STRJU NEFHRNMSDQEKHDLAINAYNKDNP-HVRNGYYKAIKGKKAVESFCYLNPSFSDDHPMIKIPNS_STRGR NEFHRTMTDEEKYDLAINAYNKNNP-RTRNGYYMAVKGKKAVESWCYLNPSFSEDHPQIRIPNS_FLASS TDWHMAMSAEEKWELAIRAYNPANP-RNRNGYYMAVEGKKANESFCYLNPSFDADHATIKIPNS_PENCH REFHFSITDEEKWDLAIRAYNKEHQDQIRAGYYLSIPEKKAVESFCYLNPNFKPDHPLIQIPNS_CEPAC NKFHMSITDEEKWQLAIRAYNKEHESQIRAGYYLPIPGKKAVESFCYLNPSFSPDHPRIK

Выходной файл aln format

httpwwwebiacukhelpformatshtml

форматы

ClustalW на EMBL

ClustalW на EMBL - результат

ClustalW at EMBL - Jalview

Conservation

Consensus Sequence

Мы можем вывести consensus sequence из результатов MSA The consensus sequence содержит наиболее часто встречающийся символ в кажной колонке выравнивания

A T C T T G T

A A C T T G T

A A C T T C T

A A C T T G T

Ещё пара терминовhelliphellip

Профиль (Profile)

Также возможно вывести статистическую модель описывающую MSA Профиль содержит информацию о символах в каждом столбце выравнивания

A T C T T G T

A A C T T G T

A A C T T C T

1 2 3 4 5 6

A 1 067 0 0

T 0 033 1 1

C 0 0 0 0

G 0 0 0 0

Profile vs Consensus

Consensus каждая позиция отражает наиболее часто встречающийся символ

Profile каждая позиция отражает частоту символа в данной позиции

Profile vs Consensus

Данный MSA будет иметь одинаковый consensus

A A C T T G C

A A G T C G T

C A C T T C T

A A C T T G T

A A C T T G T

A A C T T C T

A A C T T G T

Profile vs Consensus

Но разный профиль

A A C T T G C

A A G T C G T

C A C T T C T

A A C T T G T

A A C T T G T

A A C T T C T

1 2 3 4 5 6

A 066 1 0 0

T 0 0 0 1

C 033 0 066 0

G 0 0 033 0

1 2 3 4 5 6

A 1 1 0 0

T 0 0 0 1

C 0 0 1 0

G 0 0 0 0

Psi Blast (NCBI)

Position Specific Iterated ndash автоматизированный поиск по профилю

Regular blast

Construct profile from blast results

Blast profile search

Final results

PSI-Blast

Psi-Blast вывод

Проблема формулировки выводов при использовании МSA

1 Сайт выглядит общим (фиксированным) из-за того что это ndash близкородственные последовательности

2 Сайт выглядит общим из-за того что это ndash исключительно жизненно важный сайт

ФилогенезЭволюция ndash случайный процесс с неслучайным результатом

Цели филогенетического исследования

bull Реконструкция корректных генеалогических связей

между биологическими объектами

bull Оценка времени расхождения организмов

bull Определение порядка эволюционных событий в процессе

эволюции

Формат Newick

((A(BC))(DE))

Типы данных

Molecular (DNA RNA proteins)

Morphological (soft tissue hard tissue extant extinct)

Преимущества молекулярных данных

bull Наследуемость

bull Недвусмысленность в описании молекулярных характеристик

bull Поддаются количественному анализу

bull Оценка гомологии легче чем морфологические исследования

bull Данных много

Древо видов и геновbull Древо видов ndash эволюционные взаимосвязи

между видами (видообразование)bull Древо генов

Page RDM and Cotton JC (2000) GeneTree a tool for exploring gene family evolution In D Sankoff and J Nadeau (eds) Comparative Genomics Empirical and Analytical Approaches to Gene Order Dynamics Map Alignment and the Evolution of Gene Families Kluwer Academic Publishers Dordrecht pp 525-536

Figure 2 (a) Incongruent gene and species trees This incongruence can be explained by hypothesizing a gene duplication (h) at the base of the gene tree (b)The presence of only a single gene (a-d) extant in each of the present-day species(1-4) requires postulating three gene losses (c) The corresponding reconciled tree

Ортологи и паралоги

bull Гены-паралоги ndash событие дупликация (and

bull Гены-ортологи ndash событие видообразования (in the two species and in the two species

Duplication

Speciation

Species a Species b

Шаги реконструирования филогенетического

древа

1 Выбор последовательностей и поиск гомологов

2 MSA3 Матрица белков4 Филогенетическое дерево

Филогенетическое дерево

Филогения - раздел биологии изучающий родственные взаимоотношения разных групп живых организмов Филогению отображается обычно в виде эволюционных древ или систематических названий

Зачем нужны филогенетические деревья

Биологические задачи

сравнение 3-х и более объектов (кто на кого более похож )

реконструкция эволюции (кто от кого как и когда произошелhellip)

ТерминологияУзел (node) mdash точка разделения предковой последовательности(вида популяции) на две независимо эволюционирующиеСоответствует внутренней вершине графа изображающего эволюциюЛист (leaf OTU ndash оперативная таксономическая единица) mdash реальный (современный) объект внешняя вершина графаВетвь (branch) mdash связь между узлами или между узлом и листом ребро графаКорень (root) mdash общий предокКлада (clade) - группа двух или более таксонов или последователь-ностей ДНК которая включает как своего общего предка так и всех его потомков

OTU

HTU (hypotetical taxonomic unit)

Какие бывают деревья

Бинарное (разрешённое)(в один момент времени может

произойти только одно событие )

Небинарное (неразрешённое) (может ли в один момент времени

произойти два события )

Время

Какие бывают деревья

Укорененное дерево (rooted tree)отражает направление эволюции

Неукорененное (бескорневое) дерево(unrooted tree) показывает только связи между узлами

Время

Если число листьев равно n существует (2n-3)разных бинарных укоренных деревьевПо определению (2n-3) = 1middot3 middot middot(2n-3)

Существует (2n-5) разных бескорневых деревьев с n листьями

Rooting

A C B B C AA B C

3 OTUs 3 OTUs 1 н 1 неукорененное деревоеукорененное дерево 33 укорененных деревьев укорененных деревьев

A

B

C

D

C

A

B

4 OTUs 4 OTUs 3 3 неукорененных филогенетических неукорененных филогенетических деревьевдеревьев

D

B

A

C C

B

A

D

4 OTUs

15 укорененных

деревьев

Количество Количество Количество

OTU укорененных неукорененных

2 1 13 3 14 15 35 105 156 954 1057 103959548 135135 103959 2027025 13513510 34459425 202702511 654729075 3445942512 13749310575 654729075

Количество возможных деревьев

Рутинная процедура или как строят деревья

Составление выборки последовательностей

Множественное выравнивание

Построение дерева фрагмент записи в виде скобочной формулы

Визуализация и редактура дерева

(((((con1013851018(f539692826973((f67220839851max42750591)492893con923019677)1362315)953075)2583145

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Множественное выравнивание

Matches

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Multiple Alignment

Matches

Mismatches

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Multiple Alignment

Matches

Mismatches

Gaps

Seq 1 A G C G A GSeq 1 A G C G A GSeq 2 G C G G A CSeq 2 G C G G A C

Шаг 3 Перевод количества расхождений в индексы замен

Distance Matrix

Units количество замен нуклеотидов на 1000

Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86

Rice 00 118 122 122

Mosquito 00 55 51

Monkey 00 3

Human 00

Шаг 4 построение филогенетического дерева

Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86

Rice 00 118 122 122

Mosquito 00 55 51

Monkey 00 3

Human 00

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Дистанция между человеком и обезьяной минимальна Эти группы объединяются в Monkey-Human а все остальные дистанции пересчитываются

Dist[Spinach MonHum] = (Dist[Spinach Monkey] +

Dist[Spinach Human])2 = (91 + 86)2 = 885

Spinach Rice Mosquito Mon-HumSpinach 00 9 106 885

Rice 00 118 122

Mosquito 00 53

Mon-Hum 00

Редуцированная матрица дистанций

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Spi-Ric

HumanMosquito

Mon-Hum

MonkeySpinachRice

Mos-Mon-Hum

Spi-Ric

Mos-Mon-Hum-Spi-Ric

Как выбирать последовательности для дерева

Кроме случаев очень близких последовательностей проще работать с белками (а не с ДНК)

Придерживайтесь небольшой выборки (lt 50 последовательностей)

Избегайтеndash фрагментовndash Ксенологов (горизонтальный перенос генов)ndash рекомбинантных последовательностейndash многодоменных белков и повторов

Используйте outgroup (последовательность ответвившаяся от общего предка заведомо (но минимально) раньше разделения интересующих групп-клад)

Самое главное ndash хорошее выравнивание

Максимальный вклад в финальное дерево нельзя построить хорошее дерево по плохому выравниванию

Блоки содержащие много гэпов плохо выровненные N- и C- концы можно просто вырезать

Основные алгоритмы построения филогенетических деревьев

Методы основанные на оценке

расстояний (матричные методы)

bull UPGMA (кластеризация)

bull Neighbor-joining

bull Минимальная эволюция

Наибольшего правдоподобия Maximal likelihood ML Используется модель эволюции и строится дерево которое наиболее правдоподобно при данной модели

Максимальной экономии (бережливости)

maximal parsimony MP Выбирается дерево с минимальным количеством

мутаций необходимых для объяснения данных

Пример матрицы расстояний

1 2 3 4 5 6 7 8 000 1053 977 1278 1203 1654 1353 2500 HUMAN 1

000 902 1203 977 1579 902 2727 HORSE 2 000 977 902 1654 1203 2424 RABIT 3

000 226 1729 1053 2576 MOUSE 4 000 1579 827 2576 RAT 5

000 1053 2955 BOVIN 6 000 2500 PIG 7

000 CHICK 8

Расстояние (уровень дивергенции) между соответствующими последовательностями из геномов мыши и свиньи

Как понимать расстояние между объектами

bull Как время в течение которого они эволюционировалиbull Как число laquoэволюционных событийraquo (мутаций)

В первом случае объекты образуют ультраметрическое пространство(если все объекты наблюдаются в одно время что как правило верно)

Но время непосредственно измерить невозможно

Гипотеза laquoмолекулярных часовraquo(EZuckerkandl LPauling 1962)

За равное время во всех ветвях эволюции данного генабелка накапливается равное число мутацийЕсли гипотеза молекулярных часов

принимается число различий между выровненными последовательностями можно считать примерно пропорциональным времени Отклонения от ультраметричности можно считать случайными Эволюция реконструируется в виде ультраметрического дерева

Укоренённое дерево называется ультраметрическим если расстояние от корня до любого из листьев одинаково

UPGMAUnweighted Pair Group Method with Arithmetic Mean

разновидность кластерного метода

Расстояние между кластерами вычисляется как среднее арифметическое всевозможных расстояний между последовательностями из кластеров

Недостатки UPGMA

Алгоритм строит ультраметрическое дерево ndash скорость эволюции предполагается одинаковой для всех ветвей дерева Использовать этот алгоритм имеет смысл только в случае ультраметрических данных (справедливости laquoмолекулярных часовraquo)

Реальное дерево UPGMA

Метод ближайших соседей (Neighbor-joining NJ)

Строит неукоренённое дерево

Может работать с большим количеством данных

Достаточно быстрый

Если есть недвусмысленное с точки зрения эксперта дерево то оно будет построено

Метод Neighbor-joining

Рисуем laquoзвездноеraquo дерево и будем laquoотщипыватьraquo от него по паре листьев

Пусть ui = Σk Mik(n-2) mdash среднее расстояние от листа i до других

листьев

1 Рассмотрим все возможные пары листьев Выберем 2 листа i и j с минимальным значением величины

Mij ndash ui ndashuj

те выбираем 2 узла которые близки друг к другу но далеки ото всех остальных

Метод ближайших соседей (Neighbor-joining NJ)

2 Кластер (i j) ndash новый узел дерева

Расстояние от i или от j до узла (ij) D(i (ij)) = 05middot(Mij + ui ndash uj) D(j (ij)) = 05middot (Mij + uj ndash ui) те длина ветви зависит от среднего расстояния до других вершин

3 Вычисляем расстояние от нового кластера до всех других

M(ij)k = Mik+Mjk ndash Mij 2

5 В матрице М убираем i и j и добавляем (i j) Повторяем пока не останутся 3 узла

Input MSA для n последовательностей одна последовательность для каждого вида

AAAAATC

AAAAAAG

CCCCCCG

AAAAATCAAAAAAG

CCCCCCG

Длинная ветвь ndash непохоже на правду

Длинная ветвь -Похоже на правду

Методы основанные на последовательностях Maximum Likelihood (ML) Maximum Parsimony (MP)

Как изобразить дерево Топология дерева

Топология дерева mdash только листья узлы (корень) и связывающие их ветви (топология не зависит от способа изображения дерева)

A

B

C

D

E A BC D E

Два изображения одной и той же топологии

Bacterium 1

Bacterium 3

Bacterium 2

Eukaryote 1

Eukaryote 4

Eukaryote 3

Eukaryote 2

Bacterium 1

Bacterium 3Bacterium 2

Eukaryote 1

Eukaryote 4Eukaryote 3

Eukaryote 2

Филограммы ndash длины ветвей

пропорциональны

эволюционному расстоянию

Кладограммы и филограммы

Кладограммы ndash только

топологя Длины ветвей не

учитываются

6

31

2

46

24

53

Как можно нарисовать построенное дерево

Какие on-line программы строят деревья

ClustalW ldquoTree typerdquo ndash nj phylip строит только методом NJ но результат ndash в разных форматах no bootstraps

Phylip (Felsenstein 1993) ndash пакет программ для построения филогенетических деревьев (stand-alone)On-line (partly) например

httpbiowebpasteurfrseqanalphylogenyphylip-ukhtml PAUP (Phylogenetic Analysis Using Parsimony)

MEGA филогенетический анализ последовательностей

httpwwwmegasoftwarenet

Эволюция ndash исторический процесс

Из 8200794532637891559375 деревьев для 20 OTUs 1

является верным и 8200794532637891559374

неверны

Truth is one falsehoods are many

Какое из 8200794532637891559375

деревьев истинно

Мы не знаем Можно применить иные критетии

Например ldquoпохожесть=родствоraquo

GCGbull Строковый поиск простой текстовый

поиск по локальной базе данных

bull Поиск в определениях или в аннотациях

bull Определения содержат минимальное количество информации для каждой статьи доступ имя организма имя гена длина последовательности дата

  • Bestfit Output
  • SP1 at swissprot
  • EGR1 at swissprot
  • Вывод
  • Bl2Seq at NCBI
  • Bl2seq results
  • Bl2seq оценка
  • Оптимизация времени вычислений при парном выравнивании
  • Slide 9
  • Алгоритм BLAST (шаг 1)
  • Slide 11
  • Blast
  • Поиск гомологов
  • ДНК или белок
  • ДНК
  • Slide 16
  • Slide 17
  • Двойная спираль
  • ДНК дальнейшая упаковка
  • Slide 20
  • Репликация ДНК
  • Slide 22
  • Slide 23
  • Slide 24
  • Slide 25
  • Множественное выравнивание последовательностей (MSA)
  • Slide 27
  • Основные предположения
  • Например
  • Почему множественное выравнивание
  • Slide 31
  • Подходы в MSA
  • MSA algorithm
  • Multiple Alignment - алгоритм
  • Комментарии
  • GCG
  • Slide 37
  • GCG
  • Slide 39
  • Slide 40
  • Slide 41
  • ClustalW
  • Slide 43
  • Slide 44
  • ClustalW на EMBL
  • ClustalW на EMBL - результат
  • ClustalW at EMBL - Jalview
  • Consensus Sequence
  • Профиль (Profile)
  • Profile vs Consensus
  • Slide 51
  • Slide 52
  • Psi Blast (NCBI)
  • PSI-Blast
  • Psi-Blast вывод
  • Slide 56
  • Филогенез
  • Slide 58
  • Slide 59
  • Slide 60
  • Slide 61
  • Древо видов и генов
  • Ортологи и паралоги
  • Шаги реконструирования филогенетического древа
  • Филогенетическое дерево
  • Зачем нужны филогенетические деревья
  • Терминология
  • Slide 68
  • Какие бывают деревья
  • Slide 70
  • Slide 71
  • Slide 72
  • 4 OTUs 3 неукорененных филогенетических деревьев
  • Slide 74
  • Slide 75
  • Slide 76
  • Slide 77
  • Рутинная процедура или как строят деревья
  • Slide 79
  • Slide 80
  • Slide 81
  • Slide 82
  • Slide 83
  • Slide 84
  • Slide 85
  • Slide 86
  • Slide 87
  • Slide 88
  • Slide 89
  • Как выбирать последовательности для дерева
  • Самое главное ndash хорошее выравнивание
  • Основные алгоритмы построения филогенетических деревьев
  • Пример матрицы расстояний
  • Slide 94
  • Гипотеза laquoмолекулярных часовraquo (EZuckerkandl LPauling 1962)
  • UPGMA Unweighted Pair Group Method with Arithmetic Mean
  • Недостатки UPGMA
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Метод Neighbor-joining
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Slide 101
  • Как изобразить дерево Топология дерева
  • Slide 103
  • Какие on-line программы строят деревья
  • MEGA филогенетический анализ последовательностей
  • Slide 106
  • Slide 107
  • Slide 108
Page 23: Bestfit Output

bull Нуклеотиды ndash 4-х буквенный алфавитbull Аминокислоты ndash 20-и буквенный алфавит

Две случайные последовательности ДНК будут идентичны ~ 25Две случайные белковые последовательности будут идентичны ~ 5

Поиск гомологов

Матрицы для сравнения белков более чувствительны чем матрицы для ДНК

Базы данных ДНК намного больше белковых rarr будут случайные совпадения

Поиск гомологов

Использование белковых последовательностей более предпочтительно при поиске гомологов

Поиск гомологов

Множественное выравнивание последовательностей (MSA)

VTISCTGSSSNIGAG-NHVKWYQQLPGVTISCTGTSSNIGS--ITVNWYQQLPGLRLSCSSSGFIFSS--YAMYWVRQAPGLSLTCTVSGTSFDD--YYSTWVRQPPGPEVTCVVVDVSHEDPQVKFNWYVDG--ATLVCLISDFYPGA--VTVAWKADS--AALGCLVKDYFPEP--VTVSWNSG---VSLTCLVKGFYPSD--IAVEWWSNG--

Основные предположения

bull Гены фиксированы сохранены у очень широкого круга биологических видов у совершенно различных представителей laquoдрева жизниraquo

bull Фиксированный генетический код для белков вероятно несёт похожие зачастую идентичные функции

Например

bull Гистоны небольшие белки присутствуют у всех эукариот

Демонстрируют выраженное постоянство последовательности в MSA

Постоянство структуры и функции (упаковка DNA)

Почему множественное выравнивание

Позволяет дать характеристику семействам белков найти общие участки гомологов

Например семейство Serine protease семейство отвечающее за катализ гидролиз пептидных связей

bull Одинаковые активные центры

bull Общие участка последовательности

bull MSA ndash это первый предварительный шаг к анализу в области молекулярной эволюции и построения эволюционных деревьев

bull База для филогенеза ndash данные молекулярной биологии или морфологические данные

Подходы в MSA

2 разных подходаndash 1D sequence based ndash сравнение

последовательностейndash 2D-3D based ndash выравнивание базирующееся на

структуре

MSA algorithm

bull Попарное выравнивание всех последовательностей (pairwise alignment)

bull Кластерный анализ данных парного выравнивания для получения иерархии выравниваний (guide tree)

bull Построение множественного выравнивания (MSA) пошагово в соответствии с guide tree сначала выравнивают наиболее похожие пары затем добавляют остальные и тд

Multiple Alignment - алгоритм

(1) Парное выравнивание (подготовка guide tree)

6 pairwise alignments

then cluster analysis

(2) Множественное выравнивание следуя древу из п 1

successive alignments

Комментарии

bull Парное выравнивание - оптимальный алгоритм

bull Множественное выравнивание не является оптимальным алгоритмом Вполне могут существовать и лучшие выравнивания

bull Редакторы выравниваний могут быть полезны для корректировки

GCG

Pileup глобальный MSA

pileup [list of sequence names]

pileup hemoglobin_list

1 The sign means that the file contains a list of names

2 The list can include names from the userrsquos directory or code names (accession numbers) from the GCG databases

GCGПример входного файла

swhbb_human

swhbb_rat

swhbb_mouse

Hemoglobin_Alpha

Hemoglobin_Gamma

Hemogolibin_Delta

Syntax the file starts with ldquordquo

Sequences from the databases

Sequences from the userrsquos directory

GCG PileUp creates a multiple sequence alignment from a group of relatedsequences using progressive pairwise alignments It can also plot atree showing the clustering relationships used to create the alignment

1 IPNS_STRJU 329 aa 2 IPNS_STRCL 329 aa 3 IPNS_CEPAC 338 aa 4 IPNS_NOCLA 328 aa

What is the gap creation penalty ( 8 ) What is the gap extension penalty ( 2 )

This program can display the clustering relationships graphically Do you want to A) Plot to a FIGURE file called pileupfigure B) Plot graphics on HP7550 attached to devtty15 C) Suppress the plot Please choose one ( A ) c What should I call the output file name ( ipnsmsf )

Determining pairwise similarity scores

1 x 2 443 1 x 3 312 1 x 4 412 2 x 3 294 2 x 4 405 3 x 4 309

Aligning

Total sequences 4 Alignment length 338 CPU time 0021

Output filedatausersracheliothersracheliipnsmsf

Regular GCG syntaxDefault parametersoutput file etc

GCGAA_MULTIPLE_ALIGNMENT 10PileUp of ipnsfil

Symbol comparison table GenRunDatablosum62cmp CompCheck 1102 GapWeight 8 GapLengthWeight 2 ipnsmsf MSF 338 Type P March 14 2002 0929 Check 7631

Name IPNS_STRJU Len 338 Check 6344 Weight 100 Name IPNS_STRCL Len 338 Check 4249 Weight 100 Name IPNS_NOCLA Len 338 Check 7020 Weight 100 Name IPNS_CEPAC Len 338 Check 18 Weight 100

1 50IPNS_STRJU ~MPILMPSAE VPTIDISPLS GDDAKAKQRV AQEINKAARG SGFFYASNHGIPNS_STRCL ~MPVLMPSAH VPTIDISPLF GTDAAAKKRV AEEIHGACRG SGFFYATNHGIPNS_NOCLA ~~~MKMPSAE VPTIDVSPLF GDDAQEKVRV GQEINKACRG SGFFYAANHGIPNS_CEPAC MGSVPVPVAN VPRIDVSPLF GDDKEKKLEV ARAIDAASRD TGFFYAVNHG

51 100IPNS_STRJU VDVQLLQDVV NEFHRNMSDQ EKHDLAINAY NKDNPHVRN GYYKAIKGKKIPNS_STRCL VDVQQLQDVV NEFHGAMTDQ EKHDLAIHAY NPDNPHVRN GYYKAVPGRKIPNS_NOCLA VDVQRLQDVV NEFHRTMSPQ EKYDLAIHAY NKNNSHVRN GYYMAIEGKKIPNS_CEPAC VDLPWLSRET NKFHMSITDE EKWQLAIRAY NKEHESQIRA GYYLPIPGKK

Output filemsf format

GCG

Prettybox генерирует графический файл из файла MSA

prettybox [MSA file]

prettybox hemoglobinsmsf

1 The ldquordquo is a syntax sign meaning all the sequences in the MSA file

2 Can also calculate the consensus sequence

GCG

ClustalWbull Очень известная и широко распространённая

программа UNIX Internet Windows

bull Выполняет MSA может строить филогенетические деревья

bull Входной файл ndash формат multi-fasta

ClustalW

bull tofasta list

gtIPNS_STRJU P18286

MPILMPSAEVPTIDISPLSGDDAKAKQRVAQEINKAARGSGFFYASNHGVDVQLLQDVVN

EFHRNMSDQEKHDLAINAYNKDNPHVRNGYYKAIKGKKAVESFCYLNPSFSDDHPMIKSE

TPMHEVNLWPDEEKHPRFRPFCEDYYRQLLRLSTVIMRGYALALGRREDFFDEALAEADT

LSSVSLIRYPYLEEYPPVKTGADGTKLSFEDHLDVSMITVLYQTEVQNLQVETVDGWQDI

PRSDEDFLVNCGTYMGHITHDYFPAPNHRVKFINAERLSLPFFLNAGHNSVIEPFVPEGA

AGTVKNPTTSYGEYLQHGLRALIVKNGQT

gtIPNS_STRCL P10621

MPVLMPSAHVPTIDISPLFGTDAAAKKRVAEEIHGACRGSGFFYATNHGVDVQQLQDVVN

EFHGAMTDQEKHDLAIHAYNPDNPHVRNGYYKAVPGRKAVESFCYLNPDFGEDHPMIAAG

TPMHEVNLWPDEERHPRFRPFCEGYYRQMLKLSTVLMRGLALALGRPEHFFDAALAEQDS

LSSVSLIRYPYLEEYPPVKTGPDGQLLSFEDHLDVSMITVLFQTQVQNLQVETVDGWRDI

PTSENDFLVNCGTYMAHVTNDYFPAPNHRVKFVNAERLSLPFFLNGGHEAVIEPFVPEGA

SEEVRNEALSYGDYLQHGLRALIVKNGQT

input fileMulti-fasta

Making the file in unix

ClustalWCLUSTAL W (17) multiple sequence alignment

IPNS_STRJU -MPILMPSAEVPTIDISPLSGDDAKAKQRVAQEINKAARGSGFFYASNHGVDVQLLQDVVIPNS_STRGR -MPIPMLPAHVPTIDISPLSGGDADDKKRVAQEINKACRESGFFYASHHGIDVQLLKDVVIPNS_FLASS ----MNRHADVPVIDISGLSGNDMDVKKDIAARIDRACRGSGFFYAANHGVDLAALQKFTIPNS_PENCH --MASTPKANVPKIDVSPLFGDNMEEKMKVARAIDAASRDTGFFYAVNHGVDVKRLSNKTIPNS_CEPAC MGSVPVPVANVPRIDVSPLFGDDKEKKLEVARAIDAASRDTGFFYAVNHGVDLPWLSRET

IPNS_STRJU NEFHRNMSDQEKHDLAINAYNKDNP-HVRNGYYKAIKGKKAVESFCYLNPSFSDDHPMIKIPNS_STRGR NEFHRTMTDEEKYDLAINAYNKNNP-RTRNGYYMAVKGKKAVESWCYLNPSFSEDHPQIRIPNS_FLASS TDWHMAMSAEEKWELAIRAYNPANP-RNRNGYYMAVEGKKANESFCYLNPSFDADHATIKIPNS_PENCH REFHFSITDEEKWDLAIRAYNKEHQDQIRAGYYLSIPEKKAVESFCYLNPNFKPDHPLIQIPNS_CEPAC NKFHMSITDEEKWQLAIRAYNKEHESQIRAGYYLPIPGKKAVESFCYLNPSFSPDHPRIK

Выходной файл aln format

httpwwwebiacukhelpformatshtml

форматы

ClustalW на EMBL

ClustalW на EMBL - результат

ClustalW at EMBL - Jalview

Conservation

Consensus Sequence

Мы можем вывести consensus sequence из результатов MSA The consensus sequence содержит наиболее часто встречающийся символ в кажной колонке выравнивания

A T C T T G T

A A C T T G T

A A C T T C T

A A C T T G T

Ещё пара терминовhelliphellip

Профиль (Profile)

Также возможно вывести статистическую модель описывающую MSA Профиль содержит информацию о символах в каждом столбце выравнивания

A T C T T G T

A A C T T G T

A A C T T C T

1 2 3 4 5 6

A 1 067 0 0

T 0 033 1 1

C 0 0 0 0

G 0 0 0 0

Profile vs Consensus

Consensus каждая позиция отражает наиболее часто встречающийся символ

Profile каждая позиция отражает частоту символа в данной позиции

Profile vs Consensus

Данный MSA будет иметь одинаковый consensus

A A C T T G C

A A G T C G T

C A C T T C T

A A C T T G T

A A C T T G T

A A C T T C T

A A C T T G T

Profile vs Consensus

Но разный профиль

A A C T T G C

A A G T C G T

C A C T T C T

A A C T T G T

A A C T T G T

A A C T T C T

1 2 3 4 5 6

A 066 1 0 0

T 0 0 0 1

C 033 0 066 0

G 0 0 033 0

1 2 3 4 5 6

A 1 1 0 0

T 0 0 0 1

C 0 0 1 0

G 0 0 0 0

Psi Blast (NCBI)

Position Specific Iterated ndash автоматизированный поиск по профилю

Regular blast

Construct profile from blast results

Blast profile search

Final results

PSI-Blast

Psi-Blast вывод

Проблема формулировки выводов при использовании МSA

1 Сайт выглядит общим (фиксированным) из-за того что это ndash близкородственные последовательности

2 Сайт выглядит общим из-за того что это ndash исключительно жизненно важный сайт

ФилогенезЭволюция ndash случайный процесс с неслучайным результатом

Цели филогенетического исследования

bull Реконструкция корректных генеалогических связей

между биологическими объектами

bull Оценка времени расхождения организмов

bull Определение порядка эволюционных событий в процессе

эволюции

Формат Newick

((A(BC))(DE))

Типы данных

Molecular (DNA RNA proteins)

Morphological (soft tissue hard tissue extant extinct)

Преимущества молекулярных данных

bull Наследуемость

bull Недвусмысленность в описании молекулярных характеристик

bull Поддаются количественному анализу

bull Оценка гомологии легче чем морфологические исследования

bull Данных много

Древо видов и геновbull Древо видов ndash эволюционные взаимосвязи

между видами (видообразование)bull Древо генов

Page RDM and Cotton JC (2000) GeneTree a tool for exploring gene family evolution In D Sankoff and J Nadeau (eds) Comparative Genomics Empirical and Analytical Approaches to Gene Order Dynamics Map Alignment and the Evolution of Gene Families Kluwer Academic Publishers Dordrecht pp 525-536

Figure 2 (a) Incongruent gene and species trees This incongruence can be explained by hypothesizing a gene duplication (h) at the base of the gene tree (b)The presence of only a single gene (a-d) extant in each of the present-day species(1-4) requires postulating three gene losses (c) The corresponding reconciled tree

Ортологи и паралоги

bull Гены-паралоги ndash событие дупликация (and

bull Гены-ортологи ndash событие видообразования (in the two species and in the two species

Duplication

Speciation

Species a Species b

Шаги реконструирования филогенетического

древа

1 Выбор последовательностей и поиск гомологов

2 MSA3 Матрица белков4 Филогенетическое дерево

Филогенетическое дерево

Филогения - раздел биологии изучающий родственные взаимоотношения разных групп живых организмов Филогению отображается обычно в виде эволюционных древ или систематических названий

Зачем нужны филогенетические деревья

Биологические задачи

сравнение 3-х и более объектов (кто на кого более похож )

реконструкция эволюции (кто от кого как и когда произошелhellip)

ТерминологияУзел (node) mdash точка разделения предковой последовательности(вида популяции) на две независимо эволюционирующиеСоответствует внутренней вершине графа изображающего эволюциюЛист (leaf OTU ndash оперативная таксономическая единица) mdash реальный (современный) объект внешняя вершина графаВетвь (branch) mdash связь между узлами или между узлом и листом ребро графаКорень (root) mdash общий предокКлада (clade) - группа двух или более таксонов или последователь-ностей ДНК которая включает как своего общего предка так и всех его потомков

OTU

HTU (hypotetical taxonomic unit)

Какие бывают деревья

Бинарное (разрешённое)(в один момент времени может

произойти только одно событие )

Небинарное (неразрешённое) (может ли в один момент времени

произойти два события )

Время

Какие бывают деревья

Укорененное дерево (rooted tree)отражает направление эволюции

Неукорененное (бескорневое) дерево(unrooted tree) показывает только связи между узлами

Время

Если число листьев равно n существует (2n-3)разных бинарных укоренных деревьевПо определению (2n-3) = 1middot3 middot middot(2n-3)

Существует (2n-5) разных бескорневых деревьев с n листьями

Rooting

A C B B C AA B C

3 OTUs 3 OTUs 1 н 1 неукорененное деревоеукорененное дерево 33 укорененных деревьев укорененных деревьев

A

B

C

D

C

A

B

4 OTUs 4 OTUs 3 3 неукорененных филогенетических неукорененных филогенетических деревьевдеревьев

D

B

A

C C

B

A

D

4 OTUs

15 укорененных

деревьев

Количество Количество Количество

OTU укорененных неукорененных

2 1 13 3 14 15 35 105 156 954 1057 103959548 135135 103959 2027025 13513510 34459425 202702511 654729075 3445942512 13749310575 654729075

Количество возможных деревьев

Рутинная процедура или как строят деревья

Составление выборки последовательностей

Множественное выравнивание

Построение дерева фрагмент записи в виде скобочной формулы

Визуализация и редактура дерева

(((((con1013851018(f539692826973((f67220839851max42750591)492893con923019677)1362315)953075)2583145

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Множественное выравнивание

Matches

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Multiple Alignment

Matches

Mismatches

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Multiple Alignment

Matches

Mismatches

Gaps

Seq 1 A G C G A GSeq 1 A G C G A GSeq 2 G C G G A CSeq 2 G C G G A C

Шаг 3 Перевод количества расхождений в индексы замен

Distance Matrix

Units количество замен нуклеотидов на 1000

Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86

Rice 00 118 122 122

Mosquito 00 55 51

Monkey 00 3

Human 00

Шаг 4 построение филогенетического дерева

Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86

Rice 00 118 122 122

Mosquito 00 55 51

Monkey 00 3

Human 00

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Дистанция между человеком и обезьяной минимальна Эти группы объединяются в Monkey-Human а все остальные дистанции пересчитываются

Dist[Spinach MonHum] = (Dist[Spinach Monkey] +

Dist[Spinach Human])2 = (91 + 86)2 = 885

Spinach Rice Mosquito Mon-HumSpinach 00 9 106 885

Rice 00 118 122

Mosquito 00 53

Mon-Hum 00

Редуцированная матрица дистанций

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Spi-Ric

HumanMosquito

Mon-Hum

MonkeySpinachRice

Mos-Mon-Hum

Spi-Ric

Mos-Mon-Hum-Spi-Ric

Как выбирать последовательности для дерева

Кроме случаев очень близких последовательностей проще работать с белками (а не с ДНК)

Придерживайтесь небольшой выборки (lt 50 последовательностей)

Избегайтеndash фрагментовndash Ксенологов (горизонтальный перенос генов)ndash рекомбинантных последовательностейndash многодоменных белков и повторов

Используйте outgroup (последовательность ответвившаяся от общего предка заведомо (но минимально) раньше разделения интересующих групп-клад)

Самое главное ndash хорошее выравнивание

Максимальный вклад в финальное дерево нельзя построить хорошее дерево по плохому выравниванию

Блоки содержащие много гэпов плохо выровненные N- и C- концы можно просто вырезать

Основные алгоритмы построения филогенетических деревьев

Методы основанные на оценке

расстояний (матричные методы)

bull UPGMA (кластеризация)

bull Neighbor-joining

bull Минимальная эволюция

Наибольшего правдоподобия Maximal likelihood ML Используется модель эволюции и строится дерево которое наиболее правдоподобно при данной модели

Максимальной экономии (бережливости)

maximal parsimony MP Выбирается дерево с минимальным количеством

мутаций необходимых для объяснения данных

Пример матрицы расстояний

1 2 3 4 5 6 7 8 000 1053 977 1278 1203 1654 1353 2500 HUMAN 1

000 902 1203 977 1579 902 2727 HORSE 2 000 977 902 1654 1203 2424 RABIT 3

000 226 1729 1053 2576 MOUSE 4 000 1579 827 2576 RAT 5

000 1053 2955 BOVIN 6 000 2500 PIG 7

000 CHICK 8

Расстояние (уровень дивергенции) между соответствующими последовательностями из геномов мыши и свиньи

Как понимать расстояние между объектами

bull Как время в течение которого они эволюционировалиbull Как число laquoэволюционных событийraquo (мутаций)

В первом случае объекты образуют ультраметрическое пространство(если все объекты наблюдаются в одно время что как правило верно)

Но время непосредственно измерить невозможно

Гипотеза laquoмолекулярных часовraquo(EZuckerkandl LPauling 1962)

За равное время во всех ветвях эволюции данного генабелка накапливается равное число мутацийЕсли гипотеза молекулярных часов

принимается число различий между выровненными последовательностями можно считать примерно пропорциональным времени Отклонения от ультраметричности можно считать случайными Эволюция реконструируется в виде ультраметрического дерева

Укоренённое дерево называется ультраметрическим если расстояние от корня до любого из листьев одинаково

UPGMAUnweighted Pair Group Method with Arithmetic Mean

разновидность кластерного метода

Расстояние между кластерами вычисляется как среднее арифметическое всевозможных расстояний между последовательностями из кластеров

Недостатки UPGMA

Алгоритм строит ультраметрическое дерево ndash скорость эволюции предполагается одинаковой для всех ветвей дерева Использовать этот алгоритм имеет смысл только в случае ультраметрических данных (справедливости laquoмолекулярных часовraquo)

Реальное дерево UPGMA

Метод ближайших соседей (Neighbor-joining NJ)

Строит неукоренённое дерево

Может работать с большим количеством данных

Достаточно быстрый

Если есть недвусмысленное с точки зрения эксперта дерево то оно будет построено

Метод Neighbor-joining

Рисуем laquoзвездноеraquo дерево и будем laquoотщипыватьraquo от него по паре листьев

Пусть ui = Σk Mik(n-2) mdash среднее расстояние от листа i до других

листьев

1 Рассмотрим все возможные пары листьев Выберем 2 листа i и j с минимальным значением величины

Mij ndash ui ndashuj

те выбираем 2 узла которые близки друг к другу но далеки ото всех остальных

Метод ближайших соседей (Neighbor-joining NJ)

2 Кластер (i j) ndash новый узел дерева

Расстояние от i или от j до узла (ij) D(i (ij)) = 05middot(Mij + ui ndash uj) D(j (ij)) = 05middot (Mij + uj ndash ui) те длина ветви зависит от среднего расстояния до других вершин

3 Вычисляем расстояние от нового кластера до всех других

M(ij)k = Mik+Mjk ndash Mij 2

5 В матрице М убираем i и j и добавляем (i j) Повторяем пока не останутся 3 узла

Input MSA для n последовательностей одна последовательность для каждого вида

AAAAATC

AAAAAAG

CCCCCCG

AAAAATCAAAAAAG

CCCCCCG

Длинная ветвь ndash непохоже на правду

Длинная ветвь -Похоже на правду

Методы основанные на последовательностях Maximum Likelihood (ML) Maximum Parsimony (MP)

Как изобразить дерево Топология дерева

Топология дерева mdash только листья узлы (корень) и связывающие их ветви (топология не зависит от способа изображения дерева)

A

B

C

D

E A BC D E

Два изображения одной и той же топологии

Bacterium 1

Bacterium 3

Bacterium 2

Eukaryote 1

Eukaryote 4

Eukaryote 3

Eukaryote 2

Bacterium 1

Bacterium 3Bacterium 2

Eukaryote 1

Eukaryote 4Eukaryote 3

Eukaryote 2

Филограммы ndash длины ветвей

пропорциональны

эволюционному расстоянию

Кладограммы и филограммы

Кладограммы ndash только

топологя Длины ветвей не

учитываются

6

31

2

46

24

53

Как можно нарисовать построенное дерево

Какие on-line программы строят деревья

ClustalW ldquoTree typerdquo ndash nj phylip строит только методом NJ но результат ndash в разных форматах no bootstraps

Phylip (Felsenstein 1993) ndash пакет программ для построения филогенетических деревьев (stand-alone)On-line (partly) например

httpbiowebpasteurfrseqanalphylogenyphylip-ukhtml PAUP (Phylogenetic Analysis Using Parsimony)

MEGA филогенетический анализ последовательностей

httpwwwmegasoftwarenet

Эволюция ndash исторический процесс

Из 8200794532637891559375 деревьев для 20 OTUs 1

является верным и 8200794532637891559374

неверны

Truth is one falsehoods are many

Какое из 8200794532637891559375

деревьев истинно

Мы не знаем Можно применить иные критетии

Например ldquoпохожесть=родствоraquo

GCGbull Строковый поиск простой текстовый

поиск по локальной базе данных

bull Поиск в определениях или в аннотациях

bull Определения содержат минимальное количество информации для каждой статьи доступ имя организма имя гена длина последовательности дата

  • Bestfit Output
  • SP1 at swissprot
  • EGR1 at swissprot
  • Вывод
  • Bl2Seq at NCBI
  • Bl2seq results
  • Bl2seq оценка
  • Оптимизация времени вычислений при парном выравнивании
  • Slide 9
  • Алгоритм BLAST (шаг 1)
  • Slide 11
  • Blast
  • Поиск гомологов
  • ДНК или белок
  • ДНК
  • Slide 16
  • Slide 17
  • Двойная спираль
  • ДНК дальнейшая упаковка
  • Slide 20
  • Репликация ДНК
  • Slide 22
  • Slide 23
  • Slide 24
  • Slide 25
  • Множественное выравнивание последовательностей (MSA)
  • Slide 27
  • Основные предположения
  • Например
  • Почему множественное выравнивание
  • Slide 31
  • Подходы в MSA
  • MSA algorithm
  • Multiple Alignment - алгоритм
  • Комментарии
  • GCG
  • Slide 37
  • GCG
  • Slide 39
  • Slide 40
  • Slide 41
  • ClustalW
  • Slide 43
  • Slide 44
  • ClustalW на EMBL
  • ClustalW на EMBL - результат
  • ClustalW at EMBL - Jalview
  • Consensus Sequence
  • Профиль (Profile)
  • Profile vs Consensus
  • Slide 51
  • Slide 52
  • Psi Blast (NCBI)
  • PSI-Blast
  • Psi-Blast вывод
  • Slide 56
  • Филогенез
  • Slide 58
  • Slide 59
  • Slide 60
  • Slide 61
  • Древо видов и генов
  • Ортологи и паралоги
  • Шаги реконструирования филогенетического древа
  • Филогенетическое дерево
  • Зачем нужны филогенетические деревья
  • Терминология
  • Slide 68
  • Какие бывают деревья
  • Slide 70
  • Slide 71
  • Slide 72
  • 4 OTUs 3 неукорененных филогенетических деревьев
  • Slide 74
  • Slide 75
  • Slide 76
  • Slide 77
  • Рутинная процедура или как строят деревья
  • Slide 79
  • Slide 80
  • Slide 81
  • Slide 82
  • Slide 83
  • Slide 84
  • Slide 85
  • Slide 86
  • Slide 87
  • Slide 88
  • Slide 89
  • Как выбирать последовательности для дерева
  • Самое главное ndash хорошее выравнивание
  • Основные алгоритмы построения филогенетических деревьев
  • Пример матрицы расстояний
  • Slide 94
  • Гипотеза laquoмолекулярных часовraquo (EZuckerkandl LPauling 1962)
  • UPGMA Unweighted Pair Group Method with Arithmetic Mean
  • Недостатки UPGMA
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Метод Neighbor-joining
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Slide 101
  • Как изобразить дерево Топология дерева
  • Slide 103
  • Какие on-line программы строят деревья
  • MEGA филогенетический анализ последовательностей
  • Slide 106
  • Slide 107
  • Slide 108
Page 24: Bestfit Output

Матрицы для сравнения белков более чувствительны чем матрицы для ДНК

Базы данных ДНК намного больше белковых rarr будут случайные совпадения

Поиск гомологов

Использование белковых последовательностей более предпочтительно при поиске гомологов

Поиск гомологов

Множественное выравнивание последовательностей (MSA)

VTISCTGSSSNIGAG-NHVKWYQQLPGVTISCTGTSSNIGS--ITVNWYQQLPGLRLSCSSSGFIFSS--YAMYWVRQAPGLSLTCTVSGTSFDD--YYSTWVRQPPGPEVTCVVVDVSHEDPQVKFNWYVDG--ATLVCLISDFYPGA--VTVAWKADS--AALGCLVKDYFPEP--VTVSWNSG---VSLTCLVKGFYPSD--IAVEWWSNG--

Основные предположения

bull Гены фиксированы сохранены у очень широкого круга биологических видов у совершенно различных представителей laquoдрева жизниraquo

bull Фиксированный генетический код для белков вероятно несёт похожие зачастую идентичные функции

Например

bull Гистоны небольшие белки присутствуют у всех эукариот

Демонстрируют выраженное постоянство последовательности в MSA

Постоянство структуры и функции (упаковка DNA)

Почему множественное выравнивание

Позволяет дать характеристику семействам белков найти общие участки гомологов

Например семейство Serine protease семейство отвечающее за катализ гидролиз пептидных связей

bull Одинаковые активные центры

bull Общие участка последовательности

bull MSA ndash это первый предварительный шаг к анализу в области молекулярной эволюции и построения эволюционных деревьев

bull База для филогенеза ndash данные молекулярной биологии или морфологические данные

Подходы в MSA

2 разных подходаndash 1D sequence based ndash сравнение

последовательностейndash 2D-3D based ndash выравнивание базирующееся на

структуре

MSA algorithm

bull Попарное выравнивание всех последовательностей (pairwise alignment)

bull Кластерный анализ данных парного выравнивания для получения иерархии выравниваний (guide tree)

bull Построение множественного выравнивания (MSA) пошагово в соответствии с guide tree сначала выравнивают наиболее похожие пары затем добавляют остальные и тд

Multiple Alignment - алгоритм

(1) Парное выравнивание (подготовка guide tree)

6 pairwise alignments

then cluster analysis

(2) Множественное выравнивание следуя древу из п 1

successive alignments

Комментарии

bull Парное выравнивание - оптимальный алгоритм

bull Множественное выравнивание не является оптимальным алгоритмом Вполне могут существовать и лучшие выравнивания

bull Редакторы выравниваний могут быть полезны для корректировки

GCG

Pileup глобальный MSA

pileup [list of sequence names]

pileup hemoglobin_list

1 The sign means that the file contains a list of names

2 The list can include names from the userrsquos directory or code names (accession numbers) from the GCG databases

GCGПример входного файла

swhbb_human

swhbb_rat

swhbb_mouse

Hemoglobin_Alpha

Hemoglobin_Gamma

Hemogolibin_Delta

Syntax the file starts with ldquordquo

Sequences from the databases

Sequences from the userrsquos directory

GCG PileUp creates a multiple sequence alignment from a group of relatedsequences using progressive pairwise alignments It can also plot atree showing the clustering relationships used to create the alignment

1 IPNS_STRJU 329 aa 2 IPNS_STRCL 329 aa 3 IPNS_CEPAC 338 aa 4 IPNS_NOCLA 328 aa

What is the gap creation penalty ( 8 ) What is the gap extension penalty ( 2 )

This program can display the clustering relationships graphically Do you want to A) Plot to a FIGURE file called pileupfigure B) Plot graphics on HP7550 attached to devtty15 C) Suppress the plot Please choose one ( A ) c What should I call the output file name ( ipnsmsf )

Determining pairwise similarity scores

1 x 2 443 1 x 3 312 1 x 4 412 2 x 3 294 2 x 4 405 3 x 4 309

Aligning

Total sequences 4 Alignment length 338 CPU time 0021

Output filedatausersracheliothersracheliipnsmsf

Regular GCG syntaxDefault parametersoutput file etc

GCGAA_MULTIPLE_ALIGNMENT 10PileUp of ipnsfil

Symbol comparison table GenRunDatablosum62cmp CompCheck 1102 GapWeight 8 GapLengthWeight 2 ipnsmsf MSF 338 Type P March 14 2002 0929 Check 7631

Name IPNS_STRJU Len 338 Check 6344 Weight 100 Name IPNS_STRCL Len 338 Check 4249 Weight 100 Name IPNS_NOCLA Len 338 Check 7020 Weight 100 Name IPNS_CEPAC Len 338 Check 18 Weight 100

1 50IPNS_STRJU ~MPILMPSAE VPTIDISPLS GDDAKAKQRV AQEINKAARG SGFFYASNHGIPNS_STRCL ~MPVLMPSAH VPTIDISPLF GTDAAAKKRV AEEIHGACRG SGFFYATNHGIPNS_NOCLA ~~~MKMPSAE VPTIDVSPLF GDDAQEKVRV GQEINKACRG SGFFYAANHGIPNS_CEPAC MGSVPVPVAN VPRIDVSPLF GDDKEKKLEV ARAIDAASRD TGFFYAVNHG

51 100IPNS_STRJU VDVQLLQDVV NEFHRNMSDQ EKHDLAINAY NKDNPHVRN GYYKAIKGKKIPNS_STRCL VDVQQLQDVV NEFHGAMTDQ EKHDLAIHAY NPDNPHVRN GYYKAVPGRKIPNS_NOCLA VDVQRLQDVV NEFHRTMSPQ EKYDLAIHAY NKNNSHVRN GYYMAIEGKKIPNS_CEPAC VDLPWLSRET NKFHMSITDE EKWQLAIRAY NKEHESQIRA GYYLPIPGKK

Output filemsf format

GCG

Prettybox генерирует графический файл из файла MSA

prettybox [MSA file]

prettybox hemoglobinsmsf

1 The ldquordquo is a syntax sign meaning all the sequences in the MSA file

2 Can also calculate the consensus sequence

GCG

ClustalWbull Очень известная и широко распространённая

программа UNIX Internet Windows

bull Выполняет MSA может строить филогенетические деревья

bull Входной файл ndash формат multi-fasta

ClustalW

bull tofasta list

gtIPNS_STRJU P18286

MPILMPSAEVPTIDISPLSGDDAKAKQRVAQEINKAARGSGFFYASNHGVDVQLLQDVVN

EFHRNMSDQEKHDLAINAYNKDNPHVRNGYYKAIKGKKAVESFCYLNPSFSDDHPMIKSE

TPMHEVNLWPDEEKHPRFRPFCEDYYRQLLRLSTVIMRGYALALGRREDFFDEALAEADT

LSSVSLIRYPYLEEYPPVKTGADGTKLSFEDHLDVSMITVLYQTEVQNLQVETVDGWQDI

PRSDEDFLVNCGTYMGHITHDYFPAPNHRVKFINAERLSLPFFLNAGHNSVIEPFVPEGA

AGTVKNPTTSYGEYLQHGLRALIVKNGQT

gtIPNS_STRCL P10621

MPVLMPSAHVPTIDISPLFGTDAAAKKRVAEEIHGACRGSGFFYATNHGVDVQQLQDVVN

EFHGAMTDQEKHDLAIHAYNPDNPHVRNGYYKAVPGRKAVESFCYLNPDFGEDHPMIAAG

TPMHEVNLWPDEERHPRFRPFCEGYYRQMLKLSTVLMRGLALALGRPEHFFDAALAEQDS

LSSVSLIRYPYLEEYPPVKTGPDGQLLSFEDHLDVSMITVLFQTQVQNLQVETVDGWRDI

PTSENDFLVNCGTYMAHVTNDYFPAPNHRVKFVNAERLSLPFFLNGGHEAVIEPFVPEGA

SEEVRNEALSYGDYLQHGLRALIVKNGQT

input fileMulti-fasta

Making the file in unix

ClustalWCLUSTAL W (17) multiple sequence alignment

IPNS_STRJU -MPILMPSAEVPTIDISPLSGDDAKAKQRVAQEINKAARGSGFFYASNHGVDVQLLQDVVIPNS_STRGR -MPIPMLPAHVPTIDISPLSGGDADDKKRVAQEINKACRESGFFYASHHGIDVQLLKDVVIPNS_FLASS ----MNRHADVPVIDISGLSGNDMDVKKDIAARIDRACRGSGFFYAANHGVDLAALQKFTIPNS_PENCH --MASTPKANVPKIDVSPLFGDNMEEKMKVARAIDAASRDTGFFYAVNHGVDVKRLSNKTIPNS_CEPAC MGSVPVPVANVPRIDVSPLFGDDKEKKLEVARAIDAASRDTGFFYAVNHGVDLPWLSRET

IPNS_STRJU NEFHRNMSDQEKHDLAINAYNKDNP-HVRNGYYKAIKGKKAVESFCYLNPSFSDDHPMIKIPNS_STRGR NEFHRTMTDEEKYDLAINAYNKNNP-RTRNGYYMAVKGKKAVESWCYLNPSFSEDHPQIRIPNS_FLASS TDWHMAMSAEEKWELAIRAYNPANP-RNRNGYYMAVEGKKANESFCYLNPSFDADHATIKIPNS_PENCH REFHFSITDEEKWDLAIRAYNKEHQDQIRAGYYLSIPEKKAVESFCYLNPNFKPDHPLIQIPNS_CEPAC NKFHMSITDEEKWQLAIRAYNKEHESQIRAGYYLPIPGKKAVESFCYLNPSFSPDHPRIK

Выходной файл aln format

httpwwwebiacukhelpformatshtml

форматы

ClustalW на EMBL

ClustalW на EMBL - результат

ClustalW at EMBL - Jalview

Conservation

Consensus Sequence

Мы можем вывести consensus sequence из результатов MSA The consensus sequence содержит наиболее часто встречающийся символ в кажной колонке выравнивания

A T C T T G T

A A C T T G T

A A C T T C T

A A C T T G T

Ещё пара терминовhelliphellip

Профиль (Profile)

Также возможно вывести статистическую модель описывающую MSA Профиль содержит информацию о символах в каждом столбце выравнивания

A T C T T G T

A A C T T G T

A A C T T C T

1 2 3 4 5 6

A 1 067 0 0

T 0 033 1 1

C 0 0 0 0

G 0 0 0 0

Profile vs Consensus

Consensus каждая позиция отражает наиболее часто встречающийся символ

Profile каждая позиция отражает частоту символа в данной позиции

Profile vs Consensus

Данный MSA будет иметь одинаковый consensus

A A C T T G C

A A G T C G T

C A C T T C T

A A C T T G T

A A C T T G T

A A C T T C T

A A C T T G T

Profile vs Consensus

Но разный профиль

A A C T T G C

A A G T C G T

C A C T T C T

A A C T T G T

A A C T T G T

A A C T T C T

1 2 3 4 5 6

A 066 1 0 0

T 0 0 0 1

C 033 0 066 0

G 0 0 033 0

1 2 3 4 5 6

A 1 1 0 0

T 0 0 0 1

C 0 0 1 0

G 0 0 0 0

Psi Blast (NCBI)

Position Specific Iterated ndash автоматизированный поиск по профилю

Regular blast

Construct profile from blast results

Blast profile search

Final results

PSI-Blast

Psi-Blast вывод

Проблема формулировки выводов при использовании МSA

1 Сайт выглядит общим (фиксированным) из-за того что это ndash близкородственные последовательности

2 Сайт выглядит общим из-за того что это ndash исключительно жизненно важный сайт

ФилогенезЭволюция ndash случайный процесс с неслучайным результатом

Цели филогенетического исследования

bull Реконструкция корректных генеалогических связей

между биологическими объектами

bull Оценка времени расхождения организмов

bull Определение порядка эволюционных событий в процессе

эволюции

Формат Newick

((A(BC))(DE))

Типы данных

Molecular (DNA RNA proteins)

Morphological (soft tissue hard tissue extant extinct)

Преимущества молекулярных данных

bull Наследуемость

bull Недвусмысленность в описании молекулярных характеристик

bull Поддаются количественному анализу

bull Оценка гомологии легче чем морфологические исследования

bull Данных много

Древо видов и геновbull Древо видов ndash эволюционные взаимосвязи

между видами (видообразование)bull Древо генов

Page RDM and Cotton JC (2000) GeneTree a tool for exploring gene family evolution In D Sankoff and J Nadeau (eds) Comparative Genomics Empirical and Analytical Approaches to Gene Order Dynamics Map Alignment and the Evolution of Gene Families Kluwer Academic Publishers Dordrecht pp 525-536

Figure 2 (a) Incongruent gene and species trees This incongruence can be explained by hypothesizing a gene duplication (h) at the base of the gene tree (b)The presence of only a single gene (a-d) extant in each of the present-day species(1-4) requires postulating three gene losses (c) The corresponding reconciled tree

Ортологи и паралоги

bull Гены-паралоги ndash событие дупликация (and

bull Гены-ортологи ndash событие видообразования (in the two species and in the two species

Duplication

Speciation

Species a Species b

Шаги реконструирования филогенетического

древа

1 Выбор последовательностей и поиск гомологов

2 MSA3 Матрица белков4 Филогенетическое дерево

Филогенетическое дерево

Филогения - раздел биологии изучающий родственные взаимоотношения разных групп живых организмов Филогению отображается обычно в виде эволюционных древ или систематических названий

Зачем нужны филогенетические деревья

Биологические задачи

сравнение 3-х и более объектов (кто на кого более похож )

реконструкция эволюции (кто от кого как и когда произошелhellip)

ТерминологияУзел (node) mdash точка разделения предковой последовательности(вида популяции) на две независимо эволюционирующиеСоответствует внутренней вершине графа изображающего эволюциюЛист (leaf OTU ndash оперативная таксономическая единица) mdash реальный (современный) объект внешняя вершина графаВетвь (branch) mdash связь между узлами или между узлом и листом ребро графаКорень (root) mdash общий предокКлада (clade) - группа двух или более таксонов или последователь-ностей ДНК которая включает как своего общего предка так и всех его потомков

OTU

HTU (hypotetical taxonomic unit)

Какие бывают деревья

Бинарное (разрешённое)(в один момент времени может

произойти только одно событие )

Небинарное (неразрешённое) (может ли в один момент времени

произойти два события )

Время

Какие бывают деревья

Укорененное дерево (rooted tree)отражает направление эволюции

Неукорененное (бескорневое) дерево(unrooted tree) показывает только связи между узлами

Время

Если число листьев равно n существует (2n-3)разных бинарных укоренных деревьевПо определению (2n-3) = 1middot3 middot middot(2n-3)

Существует (2n-5) разных бескорневых деревьев с n листьями

Rooting

A C B B C AA B C

3 OTUs 3 OTUs 1 н 1 неукорененное деревоеукорененное дерево 33 укорененных деревьев укорененных деревьев

A

B

C

D

C

A

B

4 OTUs 4 OTUs 3 3 неукорененных филогенетических неукорененных филогенетических деревьевдеревьев

D

B

A

C C

B

A

D

4 OTUs

15 укорененных

деревьев

Количество Количество Количество

OTU укорененных неукорененных

2 1 13 3 14 15 35 105 156 954 1057 103959548 135135 103959 2027025 13513510 34459425 202702511 654729075 3445942512 13749310575 654729075

Количество возможных деревьев

Рутинная процедура или как строят деревья

Составление выборки последовательностей

Множественное выравнивание

Построение дерева фрагмент записи в виде скобочной формулы

Визуализация и редактура дерева

(((((con1013851018(f539692826973((f67220839851max42750591)492893con923019677)1362315)953075)2583145

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Множественное выравнивание

Matches

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Multiple Alignment

Matches

Mismatches

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Multiple Alignment

Matches

Mismatches

Gaps

Seq 1 A G C G A GSeq 1 A G C G A GSeq 2 G C G G A CSeq 2 G C G G A C

Шаг 3 Перевод количества расхождений в индексы замен

Distance Matrix

Units количество замен нуклеотидов на 1000

Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86

Rice 00 118 122 122

Mosquito 00 55 51

Monkey 00 3

Human 00

Шаг 4 построение филогенетического дерева

Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86

Rice 00 118 122 122

Mosquito 00 55 51

Monkey 00 3

Human 00

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Дистанция между человеком и обезьяной минимальна Эти группы объединяются в Monkey-Human а все остальные дистанции пересчитываются

Dist[Spinach MonHum] = (Dist[Spinach Monkey] +

Dist[Spinach Human])2 = (91 + 86)2 = 885

Spinach Rice Mosquito Mon-HumSpinach 00 9 106 885

Rice 00 118 122

Mosquito 00 53

Mon-Hum 00

Редуцированная матрица дистанций

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Spi-Ric

HumanMosquito

Mon-Hum

MonkeySpinachRice

Mos-Mon-Hum

Spi-Ric

Mos-Mon-Hum-Spi-Ric

Как выбирать последовательности для дерева

Кроме случаев очень близких последовательностей проще работать с белками (а не с ДНК)

Придерживайтесь небольшой выборки (lt 50 последовательностей)

Избегайтеndash фрагментовndash Ксенологов (горизонтальный перенос генов)ndash рекомбинантных последовательностейndash многодоменных белков и повторов

Используйте outgroup (последовательность ответвившаяся от общего предка заведомо (но минимально) раньше разделения интересующих групп-клад)

Самое главное ndash хорошее выравнивание

Максимальный вклад в финальное дерево нельзя построить хорошее дерево по плохому выравниванию

Блоки содержащие много гэпов плохо выровненные N- и C- концы можно просто вырезать

Основные алгоритмы построения филогенетических деревьев

Методы основанные на оценке

расстояний (матричные методы)

bull UPGMA (кластеризация)

bull Neighbor-joining

bull Минимальная эволюция

Наибольшего правдоподобия Maximal likelihood ML Используется модель эволюции и строится дерево которое наиболее правдоподобно при данной модели

Максимальной экономии (бережливости)

maximal parsimony MP Выбирается дерево с минимальным количеством

мутаций необходимых для объяснения данных

Пример матрицы расстояний

1 2 3 4 5 6 7 8 000 1053 977 1278 1203 1654 1353 2500 HUMAN 1

000 902 1203 977 1579 902 2727 HORSE 2 000 977 902 1654 1203 2424 RABIT 3

000 226 1729 1053 2576 MOUSE 4 000 1579 827 2576 RAT 5

000 1053 2955 BOVIN 6 000 2500 PIG 7

000 CHICK 8

Расстояние (уровень дивергенции) между соответствующими последовательностями из геномов мыши и свиньи

Как понимать расстояние между объектами

bull Как время в течение которого они эволюционировалиbull Как число laquoэволюционных событийraquo (мутаций)

В первом случае объекты образуют ультраметрическое пространство(если все объекты наблюдаются в одно время что как правило верно)

Но время непосредственно измерить невозможно

Гипотеза laquoмолекулярных часовraquo(EZuckerkandl LPauling 1962)

За равное время во всех ветвях эволюции данного генабелка накапливается равное число мутацийЕсли гипотеза молекулярных часов

принимается число различий между выровненными последовательностями можно считать примерно пропорциональным времени Отклонения от ультраметричности можно считать случайными Эволюция реконструируется в виде ультраметрического дерева

Укоренённое дерево называется ультраметрическим если расстояние от корня до любого из листьев одинаково

UPGMAUnweighted Pair Group Method with Arithmetic Mean

разновидность кластерного метода

Расстояние между кластерами вычисляется как среднее арифметическое всевозможных расстояний между последовательностями из кластеров

Недостатки UPGMA

Алгоритм строит ультраметрическое дерево ndash скорость эволюции предполагается одинаковой для всех ветвей дерева Использовать этот алгоритм имеет смысл только в случае ультраметрических данных (справедливости laquoмолекулярных часовraquo)

Реальное дерево UPGMA

Метод ближайших соседей (Neighbor-joining NJ)

Строит неукоренённое дерево

Может работать с большим количеством данных

Достаточно быстрый

Если есть недвусмысленное с точки зрения эксперта дерево то оно будет построено

Метод Neighbor-joining

Рисуем laquoзвездноеraquo дерево и будем laquoотщипыватьraquo от него по паре листьев

Пусть ui = Σk Mik(n-2) mdash среднее расстояние от листа i до других

листьев

1 Рассмотрим все возможные пары листьев Выберем 2 листа i и j с минимальным значением величины

Mij ndash ui ndashuj

те выбираем 2 узла которые близки друг к другу но далеки ото всех остальных

Метод ближайших соседей (Neighbor-joining NJ)

2 Кластер (i j) ndash новый узел дерева

Расстояние от i или от j до узла (ij) D(i (ij)) = 05middot(Mij + ui ndash uj) D(j (ij)) = 05middot (Mij + uj ndash ui) те длина ветви зависит от среднего расстояния до других вершин

3 Вычисляем расстояние от нового кластера до всех других

M(ij)k = Mik+Mjk ndash Mij 2

5 В матрице М убираем i и j и добавляем (i j) Повторяем пока не останутся 3 узла

Input MSA для n последовательностей одна последовательность для каждого вида

AAAAATC

AAAAAAG

CCCCCCG

AAAAATCAAAAAAG

CCCCCCG

Длинная ветвь ndash непохоже на правду

Длинная ветвь -Похоже на правду

Методы основанные на последовательностях Maximum Likelihood (ML) Maximum Parsimony (MP)

Как изобразить дерево Топология дерева

Топология дерева mdash только листья узлы (корень) и связывающие их ветви (топология не зависит от способа изображения дерева)

A

B

C

D

E A BC D E

Два изображения одной и той же топологии

Bacterium 1

Bacterium 3

Bacterium 2

Eukaryote 1

Eukaryote 4

Eukaryote 3

Eukaryote 2

Bacterium 1

Bacterium 3Bacterium 2

Eukaryote 1

Eukaryote 4Eukaryote 3

Eukaryote 2

Филограммы ndash длины ветвей

пропорциональны

эволюционному расстоянию

Кладограммы и филограммы

Кладограммы ndash только

топологя Длины ветвей не

учитываются

6

31

2

46

24

53

Как можно нарисовать построенное дерево

Какие on-line программы строят деревья

ClustalW ldquoTree typerdquo ndash nj phylip строит только методом NJ но результат ndash в разных форматах no bootstraps

Phylip (Felsenstein 1993) ndash пакет программ для построения филогенетических деревьев (stand-alone)On-line (partly) например

httpbiowebpasteurfrseqanalphylogenyphylip-ukhtml PAUP (Phylogenetic Analysis Using Parsimony)

MEGA филогенетический анализ последовательностей

httpwwwmegasoftwarenet

Эволюция ndash исторический процесс

Из 8200794532637891559375 деревьев для 20 OTUs 1

является верным и 8200794532637891559374

неверны

Truth is one falsehoods are many

Какое из 8200794532637891559375

деревьев истинно

Мы не знаем Можно применить иные критетии

Например ldquoпохожесть=родствоraquo

GCGbull Строковый поиск простой текстовый

поиск по локальной базе данных

bull Поиск в определениях или в аннотациях

bull Определения содержат минимальное количество информации для каждой статьи доступ имя организма имя гена длина последовательности дата

  • Bestfit Output
  • SP1 at swissprot
  • EGR1 at swissprot
  • Вывод
  • Bl2Seq at NCBI
  • Bl2seq results
  • Bl2seq оценка
  • Оптимизация времени вычислений при парном выравнивании
  • Slide 9
  • Алгоритм BLAST (шаг 1)
  • Slide 11
  • Blast
  • Поиск гомологов
  • ДНК или белок
  • ДНК
  • Slide 16
  • Slide 17
  • Двойная спираль
  • ДНК дальнейшая упаковка
  • Slide 20
  • Репликация ДНК
  • Slide 22
  • Slide 23
  • Slide 24
  • Slide 25
  • Множественное выравнивание последовательностей (MSA)
  • Slide 27
  • Основные предположения
  • Например
  • Почему множественное выравнивание
  • Slide 31
  • Подходы в MSA
  • MSA algorithm
  • Multiple Alignment - алгоритм
  • Комментарии
  • GCG
  • Slide 37
  • GCG
  • Slide 39
  • Slide 40
  • Slide 41
  • ClustalW
  • Slide 43
  • Slide 44
  • ClustalW на EMBL
  • ClustalW на EMBL - результат
  • ClustalW at EMBL - Jalview
  • Consensus Sequence
  • Профиль (Profile)
  • Profile vs Consensus
  • Slide 51
  • Slide 52
  • Psi Blast (NCBI)
  • PSI-Blast
  • Psi-Blast вывод
  • Slide 56
  • Филогенез
  • Slide 58
  • Slide 59
  • Slide 60
  • Slide 61
  • Древо видов и генов
  • Ортологи и паралоги
  • Шаги реконструирования филогенетического древа
  • Филогенетическое дерево
  • Зачем нужны филогенетические деревья
  • Терминология
  • Slide 68
  • Какие бывают деревья
  • Slide 70
  • Slide 71
  • Slide 72
  • 4 OTUs 3 неукорененных филогенетических деревьев
  • Slide 74
  • Slide 75
  • Slide 76
  • Slide 77
  • Рутинная процедура или как строят деревья
  • Slide 79
  • Slide 80
  • Slide 81
  • Slide 82
  • Slide 83
  • Slide 84
  • Slide 85
  • Slide 86
  • Slide 87
  • Slide 88
  • Slide 89
  • Как выбирать последовательности для дерева
  • Самое главное ndash хорошее выравнивание
  • Основные алгоритмы построения филогенетических деревьев
  • Пример матрицы расстояний
  • Slide 94
  • Гипотеза laquoмолекулярных часовraquo (EZuckerkandl LPauling 1962)
  • UPGMA Unweighted Pair Group Method with Arithmetic Mean
  • Недостатки UPGMA
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Метод Neighbor-joining
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Slide 101
  • Как изобразить дерево Топология дерева
  • Slide 103
  • Какие on-line программы строят деревья
  • MEGA филогенетический анализ последовательностей
  • Slide 106
  • Slide 107
  • Slide 108
Page 25: Bestfit Output

Использование белковых последовательностей более предпочтительно при поиске гомологов

Поиск гомологов

Множественное выравнивание последовательностей (MSA)

VTISCTGSSSNIGAG-NHVKWYQQLPGVTISCTGTSSNIGS--ITVNWYQQLPGLRLSCSSSGFIFSS--YAMYWVRQAPGLSLTCTVSGTSFDD--YYSTWVRQPPGPEVTCVVVDVSHEDPQVKFNWYVDG--ATLVCLISDFYPGA--VTVAWKADS--AALGCLVKDYFPEP--VTVSWNSG---VSLTCLVKGFYPSD--IAVEWWSNG--

Основные предположения

bull Гены фиксированы сохранены у очень широкого круга биологических видов у совершенно различных представителей laquoдрева жизниraquo

bull Фиксированный генетический код для белков вероятно несёт похожие зачастую идентичные функции

Например

bull Гистоны небольшие белки присутствуют у всех эукариот

Демонстрируют выраженное постоянство последовательности в MSA

Постоянство структуры и функции (упаковка DNA)

Почему множественное выравнивание

Позволяет дать характеристику семействам белков найти общие участки гомологов

Например семейство Serine protease семейство отвечающее за катализ гидролиз пептидных связей

bull Одинаковые активные центры

bull Общие участка последовательности

bull MSA ndash это первый предварительный шаг к анализу в области молекулярной эволюции и построения эволюционных деревьев

bull База для филогенеза ndash данные молекулярной биологии или морфологические данные

Подходы в MSA

2 разных подходаndash 1D sequence based ndash сравнение

последовательностейndash 2D-3D based ndash выравнивание базирующееся на

структуре

MSA algorithm

bull Попарное выравнивание всех последовательностей (pairwise alignment)

bull Кластерный анализ данных парного выравнивания для получения иерархии выравниваний (guide tree)

bull Построение множественного выравнивания (MSA) пошагово в соответствии с guide tree сначала выравнивают наиболее похожие пары затем добавляют остальные и тд

Multiple Alignment - алгоритм

(1) Парное выравнивание (подготовка guide tree)

6 pairwise alignments

then cluster analysis

(2) Множественное выравнивание следуя древу из п 1

successive alignments

Комментарии

bull Парное выравнивание - оптимальный алгоритм

bull Множественное выравнивание не является оптимальным алгоритмом Вполне могут существовать и лучшие выравнивания

bull Редакторы выравниваний могут быть полезны для корректировки

GCG

Pileup глобальный MSA

pileup [list of sequence names]

pileup hemoglobin_list

1 The sign means that the file contains a list of names

2 The list can include names from the userrsquos directory or code names (accession numbers) from the GCG databases

GCGПример входного файла

swhbb_human

swhbb_rat

swhbb_mouse

Hemoglobin_Alpha

Hemoglobin_Gamma

Hemogolibin_Delta

Syntax the file starts with ldquordquo

Sequences from the databases

Sequences from the userrsquos directory

GCG PileUp creates a multiple sequence alignment from a group of relatedsequences using progressive pairwise alignments It can also plot atree showing the clustering relationships used to create the alignment

1 IPNS_STRJU 329 aa 2 IPNS_STRCL 329 aa 3 IPNS_CEPAC 338 aa 4 IPNS_NOCLA 328 aa

What is the gap creation penalty ( 8 ) What is the gap extension penalty ( 2 )

This program can display the clustering relationships graphically Do you want to A) Plot to a FIGURE file called pileupfigure B) Plot graphics on HP7550 attached to devtty15 C) Suppress the plot Please choose one ( A ) c What should I call the output file name ( ipnsmsf )

Determining pairwise similarity scores

1 x 2 443 1 x 3 312 1 x 4 412 2 x 3 294 2 x 4 405 3 x 4 309

Aligning

Total sequences 4 Alignment length 338 CPU time 0021

Output filedatausersracheliothersracheliipnsmsf

Regular GCG syntaxDefault parametersoutput file etc

GCGAA_MULTIPLE_ALIGNMENT 10PileUp of ipnsfil

Symbol comparison table GenRunDatablosum62cmp CompCheck 1102 GapWeight 8 GapLengthWeight 2 ipnsmsf MSF 338 Type P March 14 2002 0929 Check 7631

Name IPNS_STRJU Len 338 Check 6344 Weight 100 Name IPNS_STRCL Len 338 Check 4249 Weight 100 Name IPNS_NOCLA Len 338 Check 7020 Weight 100 Name IPNS_CEPAC Len 338 Check 18 Weight 100

1 50IPNS_STRJU ~MPILMPSAE VPTIDISPLS GDDAKAKQRV AQEINKAARG SGFFYASNHGIPNS_STRCL ~MPVLMPSAH VPTIDISPLF GTDAAAKKRV AEEIHGACRG SGFFYATNHGIPNS_NOCLA ~~~MKMPSAE VPTIDVSPLF GDDAQEKVRV GQEINKACRG SGFFYAANHGIPNS_CEPAC MGSVPVPVAN VPRIDVSPLF GDDKEKKLEV ARAIDAASRD TGFFYAVNHG

51 100IPNS_STRJU VDVQLLQDVV NEFHRNMSDQ EKHDLAINAY NKDNPHVRN GYYKAIKGKKIPNS_STRCL VDVQQLQDVV NEFHGAMTDQ EKHDLAIHAY NPDNPHVRN GYYKAVPGRKIPNS_NOCLA VDVQRLQDVV NEFHRTMSPQ EKYDLAIHAY NKNNSHVRN GYYMAIEGKKIPNS_CEPAC VDLPWLSRET NKFHMSITDE EKWQLAIRAY NKEHESQIRA GYYLPIPGKK

Output filemsf format

GCG

Prettybox генерирует графический файл из файла MSA

prettybox [MSA file]

prettybox hemoglobinsmsf

1 The ldquordquo is a syntax sign meaning all the sequences in the MSA file

2 Can also calculate the consensus sequence

GCG

ClustalWbull Очень известная и широко распространённая

программа UNIX Internet Windows

bull Выполняет MSA может строить филогенетические деревья

bull Входной файл ndash формат multi-fasta

ClustalW

bull tofasta list

gtIPNS_STRJU P18286

MPILMPSAEVPTIDISPLSGDDAKAKQRVAQEINKAARGSGFFYASNHGVDVQLLQDVVN

EFHRNMSDQEKHDLAINAYNKDNPHVRNGYYKAIKGKKAVESFCYLNPSFSDDHPMIKSE

TPMHEVNLWPDEEKHPRFRPFCEDYYRQLLRLSTVIMRGYALALGRREDFFDEALAEADT

LSSVSLIRYPYLEEYPPVKTGADGTKLSFEDHLDVSMITVLYQTEVQNLQVETVDGWQDI

PRSDEDFLVNCGTYMGHITHDYFPAPNHRVKFINAERLSLPFFLNAGHNSVIEPFVPEGA

AGTVKNPTTSYGEYLQHGLRALIVKNGQT

gtIPNS_STRCL P10621

MPVLMPSAHVPTIDISPLFGTDAAAKKRVAEEIHGACRGSGFFYATNHGVDVQQLQDVVN

EFHGAMTDQEKHDLAIHAYNPDNPHVRNGYYKAVPGRKAVESFCYLNPDFGEDHPMIAAG

TPMHEVNLWPDEERHPRFRPFCEGYYRQMLKLSTVLMRGLALALGRPEHFFDAALAEQDS

LSSVSLIRYPYLEEYPPVKTGPDGQLLSFEDHLDVSMITVLFQTQVQNLQVETVDGWRDI

PTSENDFLVNCGTYMAHVTNDYFPAPNHRVKFVNAERLSLPFFLNGGHEAVIEPFVPEGA

SEEVRNEALSYGDYLQHGLRALIVKNGQT

input fileMulti-fasta

Making the file in unix

ClustalWCLUSTAL W (17) multiple sequence alignment

IPNS_STRJU -MPILMPSAEVPTIDISPLSGDDAKAKQRVAQEINKAARGSGFFYASNHGVDVQLLQDVVIPNS_STRGR -MPIPMLPAHVPTIDISPLSGGDADDKKRVAQEINKACRESGFFYASHHGIDVQLLKDVVIPNS_FLASS ----MNRHADVPVIDISGLSGNDMDVKKDIAARIDRACRGSGFFYAANHGVDLAALQKFTIPNS_PENCH --MASTPKANVPKIDVSPLFGDNMEEKMKVARAIDAASRDTGFFYAVNHGVDVKRLSNKTIPNS_CEPAC MGSVPVPVANVPRIDVSPLFGDDKEKKLEVARAIDAASRDTGFFYAVNHGVDLPWLSRET

IPNS_STRJU NEFHRNMSDQEKHDLAINAYNKDNP-HVRNGYYKAIKGKKAVESFCYLNPSFSDDHPMIKIPNS_STRGR NEFHRTMTDEEKYDLAINAYNKNNP-RTRNGYYMAVKGKKAVESWCYLNPSFSEDHPQIRIPNS_FLASS TDWHMAMSAEEKWELAIRAYNPANP-RNRNGYYMAVEGKKANESFCYLNPSFDADHATIKIPNS_PENCH REFHFSITDEEKWDLAIRAYNKEHQDQIRAGYYLSIPEKKAVESFCYLNPNFKPDHPLIQIPNS_CEPAC NKFHMSITDEEKWQLAIRAYNKEHESQIRAGYYLPIPGKKAVESFCYLNPSFSPDHPRIK

Выходной файл aln format

httpwwwebiacukhelpformatshtml

форматы

ClustalW на EMBL

ClustalW на EMBL - результат

ClustalW at EMBL - Jalview

Conservation

Consensus Sequence

Мы можем вывести consensus sequence из результатов MSA The consensus sequence содержит наиболее часто встречающийся символ в кажной колонке выравнивания

A T C T T G T

A A C T T G T

A A C T T C T

A A C T T G T

Ещё пара терминовhelliphellip

Профиль (Profile)

Также возможно вывести статистическую модель описывающую MSA Профиль содержит информацию о символах в каждом столбце выравнивания

A T C T T G T

A A C T T G T

A A C T T C T

1 2 3 4 5 6

A 1 067 0 0

T 0 033 1 1

C 0 0 0 0

G 0 0 0 0

Profile vs Consensus

Consensus каждая позиция отражает наиболее часто встречающийся символ

Profile каждая позиция отражает частоту символа в данной позиции

Profile vs Consensus

Данный MSA будет иметь одинаковый consensus

A A C T T G C

A A G T C G T

C A C T T C T

A A C T T G T

A A C T T G T

A A C T T C T

A A C T T G T

Profile vs Consensus

Но разный профиль

A A C T T G C

A A G T C G T

C A C T T C T

A A C T T G T

A A C T T G T

A A C T T C T

1 2 3 4 5 6

A 066 1 0 0

T 0 0 0 1

C 033 0 066 0

G 0 0 033 0

1 2 3 4 5 6

A 1 1 0 0

T 0 0 0 1

C 0 0 1 0

G 0 0 0 0

Psi Blast (NCBI)

Position Specific Iterated ndash автоматизированный поиск по профилю

Regular blast

Construct profile from blast results

Blast profile search

Final results

PSI-Blast

Psi-Blast вывод

Проблема формулировки выводов при использовании МSA

1 Сайт выглядит общим (фиксированным) из-за того что это ndash близкородственные последовательности

2 Сайт выглядит общим из-за того что это ndash исключительно жизненно важный сайт

ФилогенезЭволюция ndash случайный процесс с неслучайным результатом

Цели филогенетического исследования

bull Реконструкция корректных генеалогических связей

между биологическими объектами

bull Оценка времени расхождения организмов

bull Определение порядка эволюционных событий в процессе

эволюции

Формат Newick

((A(BC))(DE))

Типы данных

Molecular (DNA RNA proteins)

Morphological (soft tissue hard tissue extant extinct)

Преимущества молекулярных данных

bull Наследуемость

bull Недвусмысленность в описании молекулярных характеристик

bull Поддаются количественному анализу

bull Оценка гомологии легче чем морфологические исследования

bull Данных много

Древо видов и геновbull Древо видов ndash эволюционные взаимосвязи

между видами (видообразование)bull Древо генов

Page RDM and Cotton JC (2000) GeneTree a tool for exploring gene family evolution In D Sankoff and J Nadeau (eds) Comparative Genomics Empirical and Analytical Approaches to Gene Order Dynamics Map Alignment and the Evolution of Gene Families Kluwer Academic Publishers Dordrecht pp 525-536

Figure 2 (a) Incongruent gene and species trees This incongruence can be explained by hypothesizing a gene duplication (h) at the base of the gene tree (b)The presence of only a single gene (a-d) extant in each of the present-day species(1-4) requires postulating three gene losses (c) The corresponding reconciled tree

Ортологи и паралоги

bull Гены-паралоги ndash событие дупликация (and

bull Гены-ортологи ndash событие видообразования (in the two species and in the two species

Duplication

Speciation

Species a Species b

Шаги реконструирования филогенетического

древа

1 Выбор последовательностей и поиск гомологов

2 MSA3 Матрица белков4 Филогенетическое дерево

Филогенетическое дерево

Филогения - раздел биологии изучающий родственные взаимоотношения разных групп живых организмов Филогению отображается обычно в виде эволюционных древ или систематических названий

Зачем нужны филогенетические деревья

Биологические задачи

сравнение 3-х и более объектов (кто на кого более похож )

реконструкция эволюции (кто от кого как и когда произошелhellip)

ТерминологияУзел (node) mdash точка разделения предковой последовательности(вида популяции) на две независимо эволюционирующиеСоответствует внутренней вершине графа изображающего эволюциюЛист (leaf OTU ndash оперативная таксономическая единица) mdash реальный (современный) объект внешняя вершина графаВетвь (branch) mdash связь между узлами или между узлом и листом ребро графаКорень (root) mdash общий предокКлада (clade) - группа двух или более таксонов или последователь-ностей ДНК которая включает как своего общего предка так и всех его потомков

OTU

HTU (hypotetical taxonomic unit)

Какие бывают деревья

Бинарное (разрешённое)(в один момент времени может

произойти только одно событие )

Небинарное (неразрешённое) (может ли в один момент времени

произойти два события )

Время

Какие бывают деревья

Укорененное дерево (rooted tree)отражает направление эволюции

Неукорененное (бескорневое) дерево(unrooted tree) показывает только связи между узлами

Время

Если число листьев равно n существует (2n-3)разных бинарных укоренных деревьевПо определению (2n-3) = 1middot3 middot middot(2n-3)

Существует (2n-5) разных бескорневых деревьев с n листьями

Rooting

A C B B C AA B C

3 OTUs 3 OTUs 1 н 1 неукорененное деревоеукорененное дерево 33 укорененных деревьев укорененных деревьев

A

B

C

D

C

A

B

4 OTUs 4 OTUs 3 3 неукорененных филогенетических неукорененных филогенетических деревьевдеревьев

D

B

A

C C

B

A

D

4 OTUs

15 укорененных

деревьев

Количество Количество Количество

OTU укорененных неукорененных

2 1 13 3 14 15 35 105 156 954 1057 103959548 135135 103959 2027025 13513510 34459425 202702511 654729075 3445942512 13749310575 654729075

Количество возможных деревьев

Рутинная процедура или как строят деревья

Составление выборки последовательностей

Множественное выравнивание

Построение дерева фрагмент записи в виде скобочной формулы

Визуализация и редактура дерева

(((((con1013851018(f539692826973((f67220839851max42750591)492893con923019677)1362315)953075)2583145

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Множественное выравнивание

Matches

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Multiple Alignment

Matches

Mismatches

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Multiple Alignment

Matches

Mismatches

Gaps

Seq 1 A G C G A GSeq 1 A G C G A GSeq 2 G C G G A CSeq 2 G C G G A C

Шаг 3 Перевод количества расхождений в индексы замен

Distance Matrix

Units количество замен нуклеотидов на 1000

Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86

Rice 00 118 122 122

Mosquito 00 55 51

Monkey 00 3

Human 00

Шаг 4 построение филогенетического дерева

Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86

Rice 00 118 122 122

Mosquito 00 55 51

Monkey 00 3

Human 00

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Дистанция между человеком и обезьяной минимальна Эти группы объединяются в Monkey-Human а все остальные дистанции пересчитываются

Dist[Spinach MonHum] = (Dist[Spinach Monkey] +

Dist[Spinach Human])2 = (91 + 86)2 = 885

Spinach Rice Mosquito Mon-HumSpinach 00 9 106 885

Rice 00 118 122

Mosquito 00 53

Mon-Hum 00

Редуцированная матрица дистанций

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Spi-Ric

HumanMosquito

Mon-Hum

MonkeySpinachRice

Mos-Mon-Hum

Spi-Ric

Mos-Mon-Hum-Spi-Ric

Как выбирать последовательности для дерева

Кроме случаев очень близких последовательностей проще работать с белками (а не с ДНК)

Придерживайтесь небольшой выборки (lt 50 последовательностей)

Избегайтеndash фрагментовndash Ксенологов (горизонтальный перенос генов)ndash рекомбинантных последовательностейndash многодоменных белков и повторов

Используйте outgroup (последовательность ответвившаяся от общего предка заведомо (но минимально) раньше разделения интересующих групп-клад)

Самое главное ndash хорошее выравнивание

Максимальный вклад в финальное дерево нельзя построить хорошее дерево по плохому выравниванию

Блоки содержащие много гэпов плохо выровненные N- и C- концы можно просто вырезать

Основные алгоритмы построения филогенетических деревьев

Методы основанные на оценке

расстояний (матричные методы)

bull UPGMA (кластеризация)

bull Neighbor-joining

bull Минимальная эволюция

Наибольшего правдоподобия Maximal likelihood ML Используется модель эволюции и строится дерево которое наиболее правдоподобно при данной модели

Максимальной экономии (бережливости)

maximal parsimony MP Выбирается дерево с минимальным количеством

мутаций необходимых для объяснения данных

Пример матрицы расстояний

1 2 3 4 5 6 7 8 000 1053 977 1278 1203 1654 1353 2500 HUMAN 1

000 902 1203 977 1579 902 2727 HORSE 2 000 977 902 1654 1203 2424 RABIT 3

000 226 1729 1053 2576 MOUSE 4 000 1579 827 2576 RAT 5

000 1053 2955 BOVIN 6 000 2500 PIG 7

000 CHICK 8

Расстояние (уровень дивергенции) между соответствующими последовательностями из геномов мыши и свиньи

Как понимать расстояние между объектами

bull Как время в течение которого они эволюционировалиbull Как число laquoэволюционных событийraquo (мутаций)

В первом случае объекты образуют ультраметрическое пространство(если все объекты наблюдаются в одно время что как правило верно)

Но время непосредственно измерить невозможно

Гипотеза laquoмолекулярных часовraquo(EZuckerkandl LPauling 1962)

За равное время во всех ветвях эволюции данного генабелка накапливается равное число мутацийЕсли гипотеза молекулярных часов

принимается число различий между выровненными последовательностями можно считать примерно пропорциональным времени Отклонения от ультраметричности можно считать случайными Эволюция реконструируется в виде ультраметрического дерева

Укоренённое дерево называется ультраметрическим если расстояние от корня до любого из листьев одинаково

UPGMAUnweighted Pair Group Method with Arithmetic Mean

разновидность кластерного метода

Расстояние между кластерами вычисляется как среднее арифметическое всевозможных расстояний между последовательностями из кластеров

Недостатки UPGMA

Алгоритм строит ультраметрическое дерево ndash скорость эволюции предполагается одинаковой для всех ветвей дерева Использовать этот алгоритм имеет смысл только в случае ультраметрических данных (справедливости laquoмолекулярных часовraquo)

Реальное дерево UPGMA

Метод ближайших соседей (Neighbor-joining NJ)

Строит неукоренённое дерево

Может работать с большим количеством данных

Достаточно быстрый

Если есть недвусмысленное с точки зрения эксперта дерево то оно будет построено

Метод Neighbor-joining

Рисуем laquoзвездноеraquo дерево и будем laquoотщипыватьraquo от него по паре листьев

Пусть ui = Σk Mik(n-2) mdash среднее расстояние от листа i до других

листьев

1 Рассмотрим все возможные пары листьев Выберем 2 листа i и j с минимальным значением величины

Mij ndash ui ndashuj

те выбираем 2 узла которые близки друг к другу но далеки ото всех остальных

Метод ближайших соседей (Neighbor-joining NJ)

2 Кластер (i j) ndash новый узел дерева

Расстояние от i или от j до узла (ij) D(i (ij)) = 05middot(Mij + ui ndash uj) D(j (ij)) = 05middot (Mij + uj ndash ui) те длина ветви зависит от среднего расстояния до других вершин

3 Вычисляем расстояние от нового кластера до всех других

M(ij)k = Mik+Mjk ndash Mij 2

5 В матрице М убираем i и j и добавляем (i j) Повторяем пока не останутся 3 узла

Input MSA для n последовательностей одна последовательность для каждого вида

AAAAATC

AAAAAAG

CCCCCCG

AAAAATCAAAAAAG

CCCCCCG

Длинная ветвь ndash непохоже на правду

Длинная ветвь -Похоже на правду

Методы основанные на последовательностях Maximum Likelihood (ML) Maximum Parsimony (MP)

Как изобразить дерево Топология дерева

Топология дерева mdash только листья узлы (корень) и связывающие их ветви (топология не зависит от способа изображения дерева)

A

B

C

D

E A BC D E

Два изображения одной и той же топологии

Bacterium 1

Bacterium 3

Bacterium 2

Eukaryote 1

Eukaryote 4

Eukaryote 3

Eukaryote 2

Bacterium 1

Bacterium 3Bacterium 2

Eukaryote 1

Eukaryote 4Eukaryote 3

Eukaryote 2

Филограммы ndash длины ветвей

пропорциональны

эволюционному расстоянию

Кладограммы и филограммы

Кладограммы ndash только

топологя Длины ветвей не

учитываются

6

31

2

46

24

53

Как можно нарисовать построенное дерево

Какие on-line программы строят деревья

ClustalW ldquoTree typerdquo ndash nj phylip строит только методом NJ но результат ndash в разных форматах no bootstraps

Phylip (Felsenstein 1993) ndash пакет программ для построения филогенетических деревьев (stand-alone)On-line (partly) например

httpbiowebpasteurfrseqanalphylogenyphylip-ukhtml PAUP (Phylogenetic Analysis Using Parsimony)

MEGA филогенетический анализ последовательностей

httpwwwmegasoftwarenet

Эволюция ndash исторический процесс

Из 8200794532637891559375 деревьев для 20 OTUs 1

является верным и 8200794532637891559374

неверны

Truth is one falsehoods are many

Какое из 8200794532637891559375

деревьев истинно

Мы не знаем Можно применить иные критетии

Например ldquoпохожесть=родствоraquo

GCGbull Строковый поиск простой текстовый

поиск по локальной базе данных

bull Поиск в определениях или в аннотациях

bull Определения содержат минимальное количество информации для каждой статьи доступ имя организма имя гена длина последовательности дата

  • Bestfit Output
  • SP1 at swissprot
  • EGR1 at swissprot
  • Вывод
  • Bl2Seq at NCBI
  • Bl2seq results
  • Bl2seq оценка
  • Оптимизация времени вычислений при парном выравнивании
  • Slide 9
  • Алгоритм BLAST (шаг 1)
  • Slide 11
  • Blast
  • Поиск гомологов
  • ДНК или белок
  • ДНК
  • Slide 16
  • Slide 17
  • Двойная спираль
  • ДНК дальнейшая упаковка
  • Slide 20
  • Репликация ДНК
  • Slide 22
  • Slide 23
  • Slide 24
  • Slide 25
  • Множественное выравнивание последовательностей (MSA)
  • Slide 27
  • Основные предположения
  • Например
  • Почему множественное выравнивание
  • Slide 31
  • Подходы в MSA
  • MSA algorithm
  • Multiple Alignment - алгоритм
  • Комментарии
  • GCG
  • Slide 37
  • GCG
  • Slide 39
  • Slide 40
  • Slide 41
  • ClustalW
  • Slide 43
  • Slide 44
  • ClustalW на EMBL
  • ClustalW на EMBL - результат
  • ClustalW at EMBL - Jalview
  • Consensus Sequence
  • Профиль (Profile)
  • Profile vs Consensus
  • Slide 51
  • Slide 52
  • Psi Blast (NCBI)
  • PSI-Blast
  • Psi-Blast вывод
  • Slide 56
  • Филогенез
  • Slide 58
  • Slide 59
  • Slide 60
  • Slide 61
  • Древо видов и генов
  • Ортологи и паралоги
  • Шаги реконструирования филогенетического древа
  • Филогенетическое дерево
  • Зачем нужны филогенетические деревья
  • Терминология
  • Slide 68
  • Какие бывают деревья
  • Slide 70
  • Slide 71
  • Slide 72
  • 4 OTUs 3 неукорененных филогенетических деревьев
  • Slide 74
  • Slide 75
  • Slide 76
  • Slide 77
  • Рутинная процедура или как строят деревья
  • Slide 79
  • Slide 80
  • Slide 81
  • Slide 82
  • Slide 83
  • Slide 84
  • Slide 85
  • Slide 86
  • Slide 87
  • Slide 88
  • Slide 89
  • Как выбирать последовательности для дерева
  • Самое главное ndash хорошее выравнивание
  • Основные алгоритмы построения филогенетических деревьев
  • Пример матрицы расстояний
  • Slide 94
  • Гипотеза laquoмолекулярных часовraquo (EZuckerkandl LPauling 1962)
  • UPGMA Unweighted Pair Group Method with Arithmetic Mean
  • Недостатки UPGMA
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Метод Neighbor-joining
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Slide 101
  • Как изобразить дерево Топология дерева
  • Slide 103
  • Какие on-line программы строят деревья
  • MEGA филогенетический анализ последовательностей
  • Slide 106
  • Slide 107
  • Slide 108
Page 26: Bestfit Output

Множественное выравнивание последовательностей (MSA)

VTISCTGSSSNIGAG-NHVKWYQQLPGVTISCTGTSSNIGS--ITVNWYQQLPGLRLSCSSSGFIFSS--YAMYWVRQAPGLSLTCTVSGTSFDD--YYSTWVRQPPGPEVTCVVVDVSHEDPQVKFNWYVDG--ATLVCLISDFYPGA--VTVAWKADS--AALGCLVKDYFPEP--VTVSWNSG---VSLTCLVKGFYPSD--IAVEWWSNG--

Основные предположения

bull Гены фиксированы сохранены у очень широкого круга биологических видов у совершенно различных представителей laquoдрева жизниraquo

bull Фиксированный генетический код для белков вероятно несёт похожие зачастую идентичные функции

Например

bull Гистоны небольшие белки присутствуют у всех эукариот

Демонстрируют выраженное постоянство последовательности в MSA

Постоянство структуры и функции (упаковка DNA)

Почему множественное выравнивание

Позволяет дать характеристику семействам белков найти общие участки гомологов

Например семейство Serine protease семейство отвечающее за катализ гидролиз пептидных связей

bull Одинаковые активные центры

bull Общие участка последовательности

bull MSA ndash это первый предварительный шаг к анализу в области молекулярной эволюции и построения эволюционных деревьев

bull База для филогенеза ndash данные молекулярной биологии или морфологические данные

Подходы в MSA

2 разных подходаndash 1D sequence based ndash сравнение

последовательностейndash 2D-3D based ndash выравнивание базирующееся на

структуре

MSA algorithm

bull Попарное выравнивание всех последовательностей (pairwise alignment)

bull Кластерный анализ данных парного выравнивания для получения иерархии выравниваний (guide tree)

bull Построение множественного выравнивания (MSA) пошагово в соответствии с guide tree сначала выравнивают наиболее похожие пары затем добавляют остальные и тд

Multiple Alignment - алгоритм

(1) Парное выравнивание (подготовка guide tree)

6 pairwise alignments

then cluster analysis

(2) Множественное выравнивание следуя древу из п 1

successive alignments

Комментарии

bull Парное выравнивание - оптимальный алгоритм

bull Множественное выравнивание не является оптимальным алгоритмом Вполне могут существовать и лучшие выравнивания

bull Редакторы выравниваний могут быть полезны для корректировки

GCG

Pileup глобальный MSA

pileup [list of sequence names]

pileup hemoglobin_list

1 The sign means that the file contains a list of names

2 The list can include names from the userrsquos directory or code names (accession numbers) from the GCG databases

GCGПример входного файла

swhbb_human

swhbb_rat

swhbb_mouse

Hemoglobin_Alpha

Hemoglobin_Gamma

Hemogolibin_Delta

Syntax the file starts with ldquordquo

Sequences from the databases

Sequences from the userrsquos directory

GCG PileUp creates a multiple sequence alignment from a group of relatedsequences using progressive pairwise alignments It can also plot atree showing the clustering relationships used to create the alignment

1 IPNS_STRJU 329 aa 2 IPNS_STRCL 329 aa 3 IPNS_CEPAC 338 aa 4 IPNS_NOCLA 328 aa

What is the gap creation penalty ( 8 ) What is the gap extension penalty ( 2 )

This program can display the clustering relationships graphically Do you want to A) Plot to a FIGURE file called pileupfigure B) Plot graphics on HP7550 attached to devtty15 C) Suppress the plot Please choose one ( A ) c What should I call the output file name ( ipnsmsf )

Determining pairwise similarity scores

1 x 2 443 1 x 3 312 1 x 4 412 2 x 3 294 2 x 4 405 3 x 4 309

Aligning

Total sequences 4 Alignment length 338 CPU time 0021

Output filedatausersracheliothersracheliipnsmsf

Regular GCG syntaxDefault parametersoutput file etc

GCGAA_MULTIPLE_ALIGNMENT 10PileUp of ipnsfil

Symbol comparison table GenRunDatablosum62cmp CompCheck 1102 GapWeight 8 GapLengthWeight 2 ipnsmsf MSF 338 Type P March 14 2002 0929 Check 7631

Name IPNS_STRJU Len 338 Check 6344 Weight 100 Name IPNS_STRCL Len 338 Check 4249 Weight 100 Name IPNS_NOCLA Len 338 Check 7020 Weight 100 Name IPNS_CEPAC Len 338 Check 18 Weight 100

1 50IPNS_STRJU ~MPILMPSAE VPTIDISPLS GDDAKAKQRV AQEINKAARG SGFFYASNHGIPNS_STRCL ~MPVLMPSAH VPTIDISPLF GTDAAAKKRV AEEIHGACRG SGFFYATNHGIPNS_NOCLA ~~~MKMPSAE VPTIDVSPLF GDDAQEKVRV GQEINKACRG SGFFYAANHGIPNS_CEPAC MGSVPVPVAN VPRIDVSPLF GDDKEKKLEV ARAIDAASRD TGFFYAVNHG

51 100IPNS_STRJU VDVQLLQDVV NEFHRNMSDQ EKHDLAINAY NKDNPHVRN GYYKAIKGKKIPNS_STRCL VDVQQLQDVV NEFHGAMTDQ EKHDLAIHAY NPDNPHVRN GYYKAVPGRKIPNS_NOCLA VDVQRLQDVV NEFHRTMSPQ EKYDLAIHAY NKNNSHVRN GYYMAIEGKKIPNS_CEPAC VDLPWLSRET NKFHMSITDE EKWQLAIRAY NKEHESQIRA GYYLPIPGKK

Output filemsf format

GCG

Prettybox генерирует графический файл из файла MSA

prettybox [MSA file]

prettybox hemoglobinsmsf

1 The ldquordquo is a syntax sign meaning all the sequences in the MSA file

2 Can also calculate the consensus sequence

GCG

ClustalWbull Очень известная и широко распространённая

программа UNIX Internet Windows

bull Выполняет MSA может строить филогенетические деревья

bull Входной файл ndash формат multi-fasta

ClustalW

bull tofasta list

gtIPNS_STRJU P18286

MPILMPSAEVPTIDISPLSGDDAKAKQRVAQEINKAARGSGFFYASNHGVDVQLLQDVVN

EFHRNMSDQEKHDLAINAYNKDNPHVRNGYYKAIKGKKAVESFCYLNPSFSDDHPMIKSE

TPMHEVNLWPDEEKHPRFRPFCEDYYRQLLRLSTVIMRGYALALGRREDFFDEALAEADT

LSSVSLIRYPYLEEYPPVKTGADGTKLSFEDHLDVSMITVLYQTEVQNLQVETVDGWQDI

PRSDEDFLVNCGTYMGHITHDYFPAPNHRVKFINAERLSLPFFLNAGHNSVIEPFVPEGA

AGTVKNPTTSYGEYLQHGLRALIVKNGQT

gtIPNS_STRCL P10621

MPVLMPSAHVPTIDISPLFGTDAAAKKRVAEEIHGACRGSGFFYATNHGVDVQQLQDVVN

EFHGAMTDQEKHDLAIHAYNPDNPHVRNGYYKAVPGRKAVESFCYLNPDFGEDHPMIAAG

TPMHEVNLWPDEERHPRFRPFCEGYYRQMLKLSTVLMRGLALALGRPEHFFDAALAEQDS

LSSVSLIRYPYLEEYPPVKTGPDGQLLSFEDHLDVSMITVLFQTQVQNLQVETVDGWRDI

PTSENDFLVNCGTYMAHVTNDYFPAPNHRVKFVNAERLSLPFFLNGGHEAVIEPFVPEGA

SEEVRNEALSYGDYLQHGLRALIVKNGQT

input fileMulti-fasta

Making the file in unix

ClustalWCLUSTAL W (17) multiple sequence alignment

IPNS_STRJU -MPILMPSAEVPTIDISPLSGDDAKAKQRVAQEINKAARGSGFFYASNHGVDVQLLQDVVIPNS_STRGR -MPIPMLPAHVPTIDISPLSGGDADDKKRVAQEINKACRESGFFYASHHGIDVQLLKDVVIPNS_FLASS ----MNRHADVPVIDISGLSGNDMDVKKDIAARIDRACRGSGFFYAANHGVDLAALQKFTIPNS_PENCH --MASTPKANVPKIDVSPLFGDNMEEKMKVARAIDAASRDTGFFYAVNHGVDVKRLSNKTIPNS_CEPAC MGSVPVPVANVPRIDVSPLFGDDKEKKLEVARAIDAASRDTGFFYAVNHGVDLPWLSRET

IPNS_STRJU NEFHRNMSDQEKHDLAINAYNKDNP-HVRNGYYKAIKGKKAVESFCYLNPSFSDDHPMIKIPNS_STRGR NEFHRTMTDEEKYDLAINAYNKNNP-RTRNGYYMAVKGKKAVESWCYLNPSFSEDHPQIRIPNS_FLASS TDWHMAMSAEEKWELAIRAYNPANP-RNRNGYYMAVEGKKANESFCYLNPSFDADHATIKIPNS_PENCH REFHFSITDEEKWDLAIRAYNKEHQDQIRAGYYLSIPEKKAVESFCYLNPNFKPDHPLIQIPNS_CEPAC NKFHMSITDEEKWQLAIRAYNKEHESQIRAGYYLPIPGKKAVESFCYLNPSFSPDHPRIK

Выходной файл aln format

httpwwwebiacukhelpformatshtml

форматы

ClustalW на EMBL

ClustalW на EMBL - результат

ClustalW at EMBL - Jalview

Conservation

Consensus Sequence

Мы можем вывести consensus sequence из результатов MSA The consensus sequence содержит наиболее часто встречающийся символ в кажной колонке выравнивания

A T C T T G T

A A C T T G T

A A C T T C T

A A C T T G T

Ещё пара терминовhelliphellip

Профиль (Profile)

Также возможно вывести статистическую модель описывающую MSA Профиль содержит информацию о символах в каждом столбце выравнивания

A T C T T G T

A A C T T G T

A A C T T C T

1 2 3 4 5 6

A 1 067 0 0

T 0 033 1 1

C 0 0 0 0

G 0 0 0 0

Profile vs Consensus

Consensus каждая позиция отражает наиболее часто встречающийся символ

Profile каждая позиция отражает частоту символа в данной позиции

Profile vs Consensus

Данный MSA будет иметь одинаковый consensus

A A C T T G C

A A G T C G T

C A C T T C T

A A C T T G T

A A C T T G T

A A C T T C T

A A C T T G T

Profile vs Consensus

Но разный профиль

A A C T T G C

A A G T C G T

C A C T T C T

A A C T T G T

A A C T T G T

A A C T T C T

1 2 3 4 5 6

A 066 1 0 0

T 0 0 0 1

C 033 0 066 0

G 0 0 033 0

1 2 3 4 5 6

A 1 1 0 0

T 0 0 0 1

C 0 0 1 0

G 0 0 0 0

Psi Blast (NCBI)

Position Specific Iterated ndash автоматизированный поиск по профилю

Regular blast

Construct profile from blast results

Blast profile search

Final results

PSI-Blast

Psi-Blast вывод

Проблема формулировки выводов при использовании МSA

1 Сайт выглядит общим (фиксированным) из-за того что это ndash близкородственные последовательности

2 Сайт выглядит общим из-за того что это ndash исключительно жизненно важный сайт

ФилогенезЭволюция ndash случайный процесс с неслучайным результатом

Цели филогенетического исследования

bull Реконструкция корректных генеалогических связей

между биологическими объектами

bull Оценка времени расхождения организмов

bull Определение порядка эволюционных событий в процессе

эволюции

Формат Newick

((A(BC))(DE))

Типы данных

Molecular (DNA RNA proteins)

Morphological (soft tissue hard tissue extant extinct)

Преимущества молекулярных данных

bull Наследуемость

bull Недвусмысленность в описании молекулярных характеристик

bull Поддаются количественному анализу

bull Оценка гомологии легче чем морфологические исследования

bull Данных много

Древо видов и геновbull Древо видов ndash эволюционные взаимосвязи

между видами (видообразование)bull Древо генов

Page RDM and Cotton JC (2000) GeneTree a tool for exploring gene family evolution In D Sankoff and J Nadeau (eds) Comparative Genomics Empirical and Analytical Approaches to Gene Order Dynamics Map Alignment and the Evolution of Gene Families Kluwer Academic Publishers Dordrecht pp 525-536

Figure 2 (a) Incongruent gene and species trees This incongruence can be explained by hypothesizing a gene duplication (h) at the base of the gene tree (b)The presence of only a single gene (a-d) extant in each of the present-day species(1-4) requires postulating three gene losses (c) The corresponding reconciled tree

Ортологи и паралоги

bull Гены-паралоги ndash событие дупликация (and

bull Гены-ортологи ndash событие видообразования (in the two species and in the two species

Duplication

Speciation

Species a Species b

Шаги реконструирования филогенетического

древа

1 Выбор последовательностей и поиск гомологов

2 MSA3 Матрица белков4 Филогенетическое дерево

Филогенетическое дерево

Филогения - раздел биологии изучающий родственные взаимоотношения разных групп живых организмов Филогению отображается обычно в виде эволюционных древ или систематических названий

Зачем нужны филогенетические деревья

Биологические задачи

сравнение 3-х и более объектов (кто на кого более похож )

реконструкция эволюции (кто от кого как и когда произошелhellip)

ТерминологияУзел (node) mdash точка разделения предковой последовательности(вида популяции) на две независимо эволюционирующиеСоответствует внутренней вершине графа изображающего эволюциюЛист (leaf OTU ndash оперативная таксономическая единица) mdash реальный (современный) объект внешняя вершина графаВетвь (branch) mdash связь между узлами или между узлом и листом ребро графаКорень (root) mdash общий предокКлада (clade) - группа двух или более таксонов или последователь-ностей ДНК которая включает как своего общего предка так и всех его потомков

OTU

HTU (hypotetical taxonomic unit)

Какие бывают деревья

Бинарное (разрешённое)(в один момент времени может

произойти только одно событие )

Небинарное (неразрешённое) (может ли в один момент времени

произойти два события )

Время

Какие бывают деревья

Укорененное дерево (rooted tree)отражает направление эволюции

Неукорененное (бескорневое) дерево(unrooted tree) показывает только связи между узлами

Время

Если число листьев равно n существует (2n-3)разных бинарных укоренных деревьевПо определению (2n-3) = 1middot3 middot middot(2n-3)

Существует (2n-5) разных бескорневых деревьев с n листьями

Rooting

A C B B C AA B C

3 OTUs 3 OTUs 1 н 1 неукорененное деревоеукорененное дерево 33 укорененных деревьев укорененных деревьев

A

B

C

D

C

A

B

4 OTUs 4 OTUs 3 3 неукорененных филогенетических неукорененных филогенетических деревьевдеревьев

D

B

A

C C

B

A

D

4 OTUs

15 укорененных

деревьев

Количество Количество Количество

OTU укорененных неукорененных

2 1 13 3 14 15 35 105 156 954 1057 103959548 135135 103959 2027025 13513510 34459425 202702511 654729075 3445942512 13749310575 654729075

Количество возможных деревьев

Рутинная процедура или как строят деревья

Составление выборки последовательностей

Множественное выравнивание

Построение дерева фрагмент записи в виде скобочной формулы

Визуализация и редактура дерева

(((((con1013851018(f539692826973((f67220839851max42750591)492893con923019677)1362315)953075)2583145

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Множественное выравнивание

Matches

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Multiple Alignment

Matches

Mismatches

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Multiple Alignment

Matches

Mismatches

Gaps

Seq 1 A G C G A GSeq 1 A G C G A GSeq 2 G C G G A CSeq 2 G C G G A C

Шаг 3 Перевод количества расхождений в индексы замен

Distance Matrix

Units количество замен нуклеотидов на 1000

Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86

Rice 00 118 122 122

Mosquito 00 55 51

Monkey 00 3

Human 00

Шаг 4 построение филогенетического дерева

Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86

Rice 00 118 122 122

Mosquito 00 55 51

Monkey 00 3

Human 00

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Дистанция между человеком и обезьяной минимальна Эти группы объединяются в Monkey-Human а все остальные дистанции пересчитываются

Dist[Spinach MonHum] = (Dist[Spinach Monkey] +

Dist[Spinach Human])2 = (91 + 86)2 = 885

Spinach Rice Mosquito Mon-HumSpinach 00 9 106 885

Rice 00 118 122

Mosquito 00 53

Mon-Hum 00

Редуцированная матрица дистанций

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Spi-Ric

HumanMosquito

Mon-Hum

MonkeySpinachRice

Mos-Mon-Hum

Spi-Ric

Mos-Mon-Hum-Spi-Ric

Как выбирать последовательности для дерева

Кроме случаев очень близких последовательностей проще работать с белками (а не с ДНК)

Придерживайтесь небольшой выборки (lt 50 последовательностей)

Избегайтеndash фрагментовndash Ксенологов (горизонтальный перенос генов)ndash рекомбинантных последовательностейndash многодоменных белков и повторов

Используйте outgroup (последовательность ответвившаяся от общего предка заведомо (но минимально) раньше разделения интересующих групп-клад)

Самое главное ndash хорошее выравнивание

Максимальный вклад в финальное дерево нельзя построить хорошее дерево по плохому выравниванию

Блоки содержащие много гэпов плохо выровненные N- и C- концы можно просто вырезать

Основные алгоритмы построения филогенетических деревьев

Методы основанные на оценке

расстояний (матричные методы)

bull UPGMA (кластеризация)

bull Neighbor-joining

bull Минимальная эволюция

Наибольшего правдоподобия Maximal likelihood ML Используется модель эволюции и строится дерево которое наиболее правдоподобно при данной модели

Максимальной экономии (бережливости)

maximal parsimony MP Выбирается дерево с минимальным количеством

мутаций необходимых для объяснения данных

Пример матрицы расстояний

1 2 3 4 5 6 7 8 000 1053 977 1278 1203 1654 1353 2500 HUMAN 1

000 902 1203 977 1579 902 2727 HORSE 2 000 977 902 1654 1203 2424 RABIT 3

000 226 1729 1053 2576 MOUSE 4 000 1579 827 2576 RAT 5

000 1053 2955 BOVIN 6 000 2500 PIG 7

000 CHICK 8

Расстояние (уровень дивергенции) между соответствующими последовательностями из геномов мыши и свиньи

Как понимать расстояние между объектами

bull Как время в течение которого они эволюционировалиbull Как число laquoэволюционных событийraquo (мутаций)

В первом случае объекты образуют ультраметрическое пространство(если все объекты наблюдаются в одно время что как правило верно)

Но время непосредственно измерить невозможно

Гипотеза laquoмолекулярных часовraquo(EZuckerkandl LPauling 1962)

За равное время во всех ветвях эволюции данного генабелка накапливается равное число мутацийЕсли гипотеза молекулярных часов

принимается число различий между выровненными последовательностями можно считать примерно пропорциональным времени Отклонения от ультраметричности можно считать случайными Эволюция реконструируется в виде ультраметрического дерева

Укоренённое дерево называется ультраметрическим если расстояние от корня до любого из листьев одинаково

UPGMAUnweighted Pair Group Method with Arithmetic Mean

разновидность кластерного метода

Расстояние между кластерами вычисляется как среднее арифметическое всевозможных расстояний между последовательностями из кластеров

Недостатки UPGMA

Алгоритм строит ультраметрическое дерево ndash скорость эволюции предполагается одинаковой для всех ветвей дерева Использовать этот алгоритм имеет смысл только в случае ультраметрических данных (справедливости laquoмолекулярных часовraquo)

Реальное дерево UPGMA

Метод ближайших соседей (Neighbor-joining NJ)

Строит неукоренённое дерево

Может работать с большим количеством данных

Достаточно быстрый

Если есть недвусмысленное с точки зрения эксперта дерево то оно будет построено

Метод Neighbor-joining

Рисуем laquoзвездноеraquo дерево и будем laquoотщипыватьraquo от него по паре листьев

Пусть ui = Σk Mik(n-2) mdash среднее расстояние от листа i до других

листьев

1 Рассмотрим все возможные пары листьев Выберем 2 листа i и j с минимальным значением величины

Mij ndash ui ndashuj

те выбираем 2 узла которые близки друг к другу но далеки ото всех остальных

Метод ближайших соседей (Neighbor-joining NJ)

2 Кластер (i j) ndash новый узел дерева

Расстояние от i или от j до узла (ij) D(i (ij)) = 05middot(Mij + ui ndash uj) D(j (ij)) = 05middot (Mij + uj ndash ui) те длина ветви зависит от среднего расстояния до других вершин

3 Вычисляем расстояние от нового кластера до всех других

M(ij)k = Mik+Mjk ndash Mij 2

5 В матрице М убираем i и j и добавляем (i j) Повторяем пока не останутся 3 узла

Input MSA для n последовательностей одна последовательность для каждого вида

AAAAATC

AAAAAAG

CCCCCCG

AAAAATCAAAAAAG

CCCCCCG

Длинная ветвь ndash непохоже на правду

Длинная ветвь -Похоже на правду

Методы основанные на последовательностях Maximum Likelihood (ML) Maximum Parsimony (MP)

Как изобразить дерево Топология дерева

Топология дерева mdash только листья узлы (корень) и связывающие их ветви (топология не зависит от способа изображения дерева)

A

B

C

D

E A BC D E

Два изображения одной и той же топологии

Bacterium 1

Bacterium 3

Bacterium 2

Eukaryote 1

Eukaryote 4

Eukaryote 3

Eukaryote 2

Bacterium 1

Bacterium 3Bacterium 2

Eukaryote 1

Eukaryote 4Eukaryote 3

Eukaryote 2

Филограммы ndash длины ветвей

пропорциональны

эволюционному расстоянию

Кладограммы и филограммы

Кладограммы ndash только

топологя Длины ветвей не

учитываются

6

31

2

46

24

53

Как можно нарисовать построенное дерево

Какие on-line программы строят деревья

ClustalW ldquoTree typerdquo ndash nj phylip строит только методом NJ но результат ndash в разных форматах no bootstraps

Phylip (Felsenstein 1993) ndash пакет программ для построения филогенетических деревьев (stand-alone)On-line (partly) например

httpbiowebpasteurfrseqanalphylogenyphylip-ukhtml PAUP (Phylogenetic Analysis Using Parsimony)

MEGA филогенетический анализ последовательностей

httpwwwmegasoftwarenet

Эволюция ndash исторический процесс

Из 8200794532637891559375 деревьев для 20 OTUs 1

является верным и 8200794532637891559374

неверны

Truth is one falsehoods are many

Какое из 8200794532637891559375

деревьев истинно

Мы не знаем Можно применить иные критетии

Например ldquoпохожесть=родствоraquo

GCGbull Строковый поиск простой текстовый

поиск по локальной базе данных

bull Поиск в определениях или в аннотациях

bull Определения содержат минимальное количество информации для каждой статьи доступ имя организма имя гена длина последовательности дата

  • Bestfit Output
  • SP1 at swissprot
  • EGR1 at swissprot
  • Вывод
  • Bl2Seq at NCBI
  • Bl2seq results
  • Bl2seq оценка
  • Оптимизация времени вычислений при парном выравнивании
  • Slide 9
  • Алгоритм BLAST (шаг 1)
  • Slide 11
  • Blast
  • Поиск гомологов
  • ДНК или белок
  • ДНК
  • Slide 16
  • Slide 17
  • Двойная спираль
  • ДНК дальнейшая упаковка
  • Slide 20
  • Репликация ДНК
  • Slide 22
  • Slide 23
  • Slide 24
  • Slide 25
  • Множественное выравнивание последовательностей (MSA)
  • Slide 27
  • Основные предположения
  • Например
  • Почему множественное выравнивание
  • Slide 31
  • Подходы в MSA
  • MSA algorithm
  • Multiple Alignment - алгоритм
  • Комментарии
  • GCG
  • Slide 37
  • GCG
  • Slide 39
  • Slide 40
  • Slide 41
  • ClustalW
  • Slide 43
  • Slide 44
  • ClustalW на EMBL
  • ClustalW на EMBL - результат
  • ClustalW at EMBL - Jalview
  • Consensus Sequence
  • Профиль (Profile)
  • Profile vs Consensus
  • Slide 51
  • Slide 52
  • Psi Blast (NCBI)
  • PSI-Blast
  • Psi-Blast вывод
  • Slide 56
  • Филогенез
  • Slide 58
  • Slide 59
  • Slide 60
  • Slide 61
  • Древо видов и генов
  • Ортологи и паралоги
  • Шаги реконструирования филогенетического древа
  • Филогенетическое дерево
  • Зачем нужны филогенетические деревья
  • Терминология
  • Slide 68
  • Какие бывают деревья
  • Slide 70
  • Slide 71
  • Slide 72
  • 4 OTUs 3 неукорененных филогенетических деревьев
  • Slide 74
  • Slide 75
  • Slide 76
  • Slide 77
  • Рутинная процедура или как строят деревья
  • Slide 79
  • Slide 80
  • Slide 81
  • Slide 82
  • Slide 83
  • Slide 84
  • Slide 85
  • Slide 86
  • Slide 87
  • Slide 88
  • Slide 89
  • Как выбирать последовательности для дерева
  • Самое главное ndash хорошее выравнивание
  • Основные алгоритмы построения филогенетических деревьев
  • Пример матрицы расстояний
  • Slide 94
  • Гипотеза laquoмолекулярных часовraquo (EZuckerkandl LPauling 1962)
  • UPGMA Unweighted Pair Group Method with Arithmetic Mean
  • Недостатки UPGMA
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Метод Neighbor-joining
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Slide 101
  • Как изобразить дерево Топология дерева
  • Slide 103
  • Какие on-line программы строят деревья
  • MEGA филогенетический анализ последовательностей
  • Slide 106
  • Slide 107
  • Slide 108
Page 27: Bestfit Output

VTISCTGSSSNIGAG-NHVKWYQQLPGVTISCTGTSSNIGS--ITVNWYQQLPGLRLSCSSSGFIFSS--YAMYWVRQAPGLSLTCTVSGTSFDD--YYSTWVRQPPGPEVTCVVVDVSHEDPQVKFNWYVDG--ATLVCLISDFYPGA--VTVAWKADS--AALGCLVKDYFPEP--VTVSWNSG---VSLTCLVKGFYPSD--IAVEWWSNG--

Основные предположения

bull Гены фиксированы сохранены у очень широкого круга биологических видов у совершенно различных представителей laquoдрева жизниraquo

bull Фиксированный генетический код для белков вероятно несёт похожие зачастую идентичные функции

Например

bull Гистоны небольшие белки присутствуют у всех эукариот

Демонстрируют выраженное постоянство последовательности в MSA

Постоянство структуры и функции (упаковка DNA)

Почему множественное выравнивание

Позволяет дать характеристику семействам белков найти общие участки гомологов

Например семейство Serine protease семейство отвечающее за катализ гидролиз пептидных связей

bull Одинаковые активные центры

bull Общие участка последовательности

bull MSA ndash это первый предварительный шаг к анализу в области молекулярной эволюции и построения эволюционных деревьев

bull База для филогенеза ndash данные молекулярной биологии или морфологические данные

Подходы в MSA

2 разных подходаndash 1D sequence based ndash сравнение

последовательностейndash 2D-3D based ndash выравнивание базирующееся на

структуре

MSA algorithm

bull Попарное выравнивание всех последовательностей (pairwise alignment)

bull Кластерный анализ данных парного выравнивания для получения иерархии выравниваний (guide tree)

bull Построение множественного выравнивания (MSA) пошагово в соответствии с guide tree сначала выравнивают наиболее похожие пары затем добавляют остальные и тд

Multiple Alignment - алгоритм

(1) Парное выравнивание (подготовка guide tree)

6 pairwise alignments

then cluster analysis

(2) Множественное выравнивание следуя древу из п 1

successive alignments

Комментарии

bull Парное выравнивание - оптимальный алгоритм

bull Множественное выравнивание не является оптимальным алгоритмом Вполне могут существовать и лучшие выравнивания

bull Редакторы выравниваний могут быть полезны для корректировки

GCG

Pileup глобальный MSA

pileup [list of sequence names]

pileup hemoglobin_list

1 The sign means that the file contains a list of names

2 The list can include names from the userrsquos directory or code names (accession numbers) from the GCG databases

GCGПример входного файла

swhbb_human

swhbb_rat

swhbb_mouse

Hemoglobin_Alpha

Hemoglobin_Gamma

Hemogolibin_Delta

Syntax the file starts with ldquordquo

Sequences from the databases

Sequences from the userrsquos directory

GCG PileUp creates a multiple sequence alignment from a group of relatedsequences using progressive pairwise alignments It can also plot atree showing the clustering relationships used to create the alignment

1 IPNS_STRJU 329 aa 2 IPNS_STRCL 329 aa 3 IPNS_CEPAC 338 aa 4 IPNS_NOCLA 328 aa

What is the gap creation penalty ( 8 ) What is the gap extension penalty ( 2 )

This program can display the clustering relationships graphically Do you want to A) Plot to a FIGURE file called pileupfigure B) Plot graphics on HP7550 attached to devtty15 C) Suppress the plot Please choose one ( A ) c What should I call the output file name ( ipnsmsf )

Determining pairwise similarity scores

1 x 2 443 1 x 3 312 1 x 4 412 2 x 3 294 2 x 4 405 3 x 4 309

Aligning

Total sequences 4 Alignment length 338 CPU time 0021

Output filedatausersracheliothersracheliipnsmsf

Regular GCG syntaxDefault parametersoutput file etc

GCGAA_MULTIPLE_ALIGNMENT 10PileUp of ipnsfil

Symbol comparison table GenRunDatablosum62cmp CompCheck 1102 GapWeight 8 GapLengthWeight 2 ipnsmsf MSF 338 Type P March 14 2002 0929 Check 7631

Name IPNS_STRJU Len 338 Check 6344 Weight 100 Name IPNS_STRCL Len 338 Check 4249 Weight 100 Name IPNS_NOCLA Len 338 Check 7020 Weight 100 Name IPNS_CEPAC Len 338 Check 18 Weight 100

1 50IPNS_STRJU ~MPILMPSAE VPTIDISPLS GDDAKAKQRV AQEINKAARG SGFFYASNHGIPNS_STRCL ~MPVLMPSAH VPTIDISPLF GTDAAAKKRV AEEIHGACRG SGFFYATNHGIPNS_NOCLA ~~~MKMPSAE VPTIDVSPLF GDDAQEKVRV GQEINKACRG SGFFYAANHGIPNS_CEPAC MGSVPVPVAN VPRIDVSPLF GDDKEKKLEV ARAIDAASRD TGFFYAVNHG

51 100IPNS_STRJU VDVQLLQDVV NEFHRNMSDQ EKHDLAINAY NKDNPHVRN GYYKAIKGKKIPNS_STRCL VDVQQLQDVV NEFHGAMTDQ EKHDLAIHAY NPDNPHVRN GYYKAVPGRKIPNS_NOCLA VDVQRLQDVV NEFHRTMSPQ EKYDLAIHAY NKNNSHVRN GYYMAIEGKKIPNS_CEPAC VDLPWLSRET NKFHMSITDE EKWQLAIRAY NKEHESQIRA GYYLPIPGKK

Output filemsf format

GCG

Prettybox генерирует графический файл из файла MSA

prettybox [MSA file]

prettybox hemoglobinsmsf

1 The ldquordquo is a syntax sign meaning all the sequences in the MSA file

2 Can also calculate the consensus sequence

GCG

ClustalWbull Очень известная и широко распространённая

программа UNIX Internet Windows

bull Выполняет MSA может строить филогенетические деревья

bull Входной файл ndash формат multi-fasta

ClustalW

bull tofasta list

gtIPNS_STRJU P18286

MPILMPSAEVPTIDISPLSGDDAKAKQRVAQEINKAARGSGFFYASNHGVDVQLLQDVVN

EFHRNMSDQEKHDLAINAYNKDNPHVRNGYYKAIKGKKAVESFCYLNPSFSDDHPMIKSE

TPMHEVNLWPDEEKHPRFRPFCEDYYRQLLRLSTVIMRGYALALGRREDFFDEALAEADT

LSSVSLIRYPYLEEYPPVKTGADGTKLSFEDHLDVSMITVLYQTEVQNLQVETVDGWQDI

PRSDEDFLVNCGTYMGHITHDYFPAPNHRVKFINAERLSLPFFLNAGHNSVIEPFVPEGA

AGTVKNPTTSYGEYLQHGLRALIVKNGQT

gtIPNS_STRCL P10621

MPVLMPSAHVPTIDISPLFGTDAAAKKRVAEEIHGACRGSGFFYATNHGVDVQQLQDVVN

EFHGAMTDQEKHDLAIHAYNPDNPHVRNGYYKAVPGRKAVESFCYLNPDFGEDHPMIAAG

TPMHEVNLWPDEERHPRFRPFCEGYYRQMLKLSTVLMRGLALALGRPEHFFDAALAEQDS

LSSVSLIRYPYLEEYPPVKTGPDGQLLSFEDHLDVSMITVLFQTQVQNLQVETVDGWRDI

PTSENDFLVNCGTYMAHVTNDYFPAPNHRVKFVNAERLSLPFFLNGGHEAVIEPFVPEGA

SEEVRNEALSYGDYLQHGLRALIVKNGQT

input fileMulti-fasta

Making the file in unix

ClustalWCLUSTAL W (17) multiple sequence alignment

IPNS_STRJU -MPILMPSAEVPTIDISPLSGDDAKAKQRVAQEINKAARGSGFFYASNHGVDVQLLQDVVIPNS_STRGR -MPIPMLPAHVPTIDISPLSGGDADDKKRVAQEINKACRESGFFYASHHGIDVQLLKDVVIPNS_FLASS ----MNRHADVPVIDISGLSGNDMDVKKDIAARIDRACRGSGFFYAANHGVDLAALQKFTIPNS_PENCH --MASTPKANVPKIDVSPLFGDNMEEKMKVARAIDAASRDTGFFYAVNHGVDVKRLSNKTIPNS_CEPAC MGSVPVPVANVPRIDVSPLFGDDKEKKLEVARAIDAASRDTGFFYAVNHGVDLPWLSRET

IPNS_STRJU NEFHRNMSDQEKHDLAINAYNKDNP-HVRNGYYKAIKGKKAVESFCYLNPSFSDDHPMIKIPNS_STRGR NEFHRTMTDEEKYDLAINAYNKNNP-RTRNGYYMAVKGKKAVESWCYLNPSFSEDHPQIRIPNS_FLASS TDWHMAMSAEEKWELAIRAYNPANP-RNRNGYYMAVEGKKANESFCYLNPSFDADHATIKIPNS_PENCH REFHFSITDEEKWDLAIRAYNKEHQDQIRAGYYLSIPEKKAVESFCYLNPNFKPDHPLIQIPNS_CEPAC NKFHMSITDEEKWQLAIRAYNKEHESQIRAGYYLPIPGKKAVESFCYLNPSFSPDHPRIK

Выходной файл aln format

httpwwwebiacukhelpformatshtml

форматы

ClustalW на EMBL

ClustalW на EMBL - результат

ClustalW at EMBL - Jalview

Conservation

Consensus Sequence

Мы можем вывести consensus sequence из результатов MSA The consensus sequence содержит наиболее часто встречающийся символ в кажной колонке выравнивания

A T C T T G T

A A C T T G T

A A C T T C T

A A C T T G T

Ещё пара терминовhelliphellip

Профиль (Profile)

Также возможно вывести статистическую модель описывающую MSA Профиль содержит информацию о символах в каждом столбце выравнивания

A T C T T G T

A A C T T G T

A A C T T C T

1 2 3 4 5 6

A 1 067 0 0

T 0 033 1 1

C 0 0 0 0

G 0 0 0 0

Profile vs Consensus

Consensus каждая позиция отражает наиболее часто встречающийся символ

Profile каждая позиция отражает частоту символа в данной позиции

Profile vs Consensus

Данный MSA будет иметь одинаковый consensus

A A C T T G C

A A G T C G T

C A C T T C T

A A C T T G T

A A C T T G T

A A C T T C T

A A C T T G T

Profile vs Consensus

Но разный профиль

A A C T T G C

A A G T C G T

C A C T T C T

A A C T T G T

A A C T T G T

A A C T T C T

1 2 3 4 5 6

A 066 1 0 0

T 0 0 0 1

C 033 0 066 0

G 0 0 033 0

1 2 3 4 5 6

A 1 1 0 0

T 0 0 0 1

C 0 0 1 0

G 0 0 0 0

Psi Blast (NCBI)

Position Specific Iterated ndash автоматизированный поиск по профилю

Regular blast

Construct profile from blast results

Blast profile search

Final results

PSI-Blast

Psi-Blast вывод

Проблема формулировки выводов при использовании МSA

1 Сайт выглядит общим (фиксированным) из-за того что это ndash близкородственные последовательности

2 Сайт выглядит общим из-за того что это ndash исключительно жизненно важный сайт

ФилогенезЭволюция ndash случайный процесс с неслучайным результатом

Цели филогенетического исследования

bull Реконструкция корректных генеалогических связей

между биологическими объектами

bull Оценка времени расхождения организмов

bull Определение порядка эволюционных событий в процессе

эволюции

Формат Newick

((A(BC))(DE))

Типы данных

Molecular (DNA RNA proteins)

Morphological (soft tissue hard tissue extant extinct)

Преимущества молекулярных данных

bull Наследуемость

bull Недвусмысленность в описании молекулярных характеристик

bull Поддаются количественному анализу

bull Оценка гомологии легче чем морфологические исследования

bull Данных много

Древо видов и геновbull Древо видов ndash эволюционные взаимосвязи

между видами (видообразование)bull Древо генов

Page RDM and Cotton JC (2000) GeneTree a tool for exploring gene family evolution In D Sankoff and J Nadeau (eds) Comparative Genomics Empirical and Analytical Approaches to Gene Order Dynamics Map Alignment and the Evolution of Gene Families Kluwer Academic Publishers Dordrecht pp 525-536

Figure 2 (a) Incongruent gene and species trees This incongruence can be explained by hypothesizing a gene duplication (h) at the base of the gene tree (b)The presence of only a single gene (a-d) extant in each of the present-day species(1-4) requires postulating three gene losses (c) The corresponding reconciled tree

Ортологи и паралоги

bull Гены-паралоги ndash событие дупликация (and

bull Гены-ортологи ndash событие видообразования (in the two species and in the two species

Duplication

Speciation

Species a Species b

Шаги реконструирования филогенетического

древа

1 Выбор последовательностей и поиск гомологов

2 MSA3 Матрица белков4 Филогенетическое дерево

Филогенетическое дерево

Филогения - раздел биологии изучающий родственные взаимоотношения разных групп живых организмов Филогению отображается обычно в виде эволюционных древ или систематических названий

Зачем нужны филогенетические деревья

Биологические задачи

сравнение 3-х и более объектов (кто на кого более похож )

реконструкция эволюции (кто от кого как и когда произошелhellip)

ТерминологияУзел (node) mdash точка разделения предковой последовательности(вида популяции) на две независимо эволюционирующиеСоответствует внутренней вершине графа изображающего эволюциюЛист (leaf OTU ndash оперативная таксономическая единица) mdash реальный (современный) объект внешняя вершина графаВетвь (branch) mdash связь между узлами или между узлом и листом ребро графаКорень (root) mdash общий предокКлада (clade) - группа двух или более таксонов или последователь-ностей ДНК которая включает как своего общего предка так и всех его потомков

OTU

HTU (hypotetical taxonomic unit)

Какие бывают деревья

Бинарное (разрешённое)(в один момент времени может

произойти только одно событие )

Небинарное (неразрешённое) (может ли в один момент времени

произойти два события )

Время

Какие бывают деревья

Укорененное дерево (rooted tree)отражает направление эволюции

Неукорененное (бескорневое) дерево(unrooted tree) показывает только связи между узлами

Время

Если число листьев равно n существует (2n-3)разных бинарных укоренных деревьевПо определению (2n-3) = 1middot3 middot middot(2n-3)

Существует (2n-5) разных бескорневых деревьев с n листьями

Rooting

A C B B C AA B C

3 OTUs 3 OTUs 1 н 1 неукорененное деревоеукорененное дерево 33 укорененных деревьев укорененных деревьев

A

B

C

D

C

A

B

4 OTUs 4 OTUs 3 3 неукорененных филогенетических неукорененных филогенетических деревьевдеревьев

D

B

A

C C

B

A

D

4 OTUs

15 укорененных

деревьев

Количество Количество Количество

OTU укорененных неукорененных

2 1 13 3 14 15 35 105 156 954 1057 103959548 135135 103959 2027025 13513510 34459425 202702511 654729075 3445942512 13749310575 654729075

Количество возможных деревьев

Рутинная процедура или как строят деревья

Составление выборки последовательностей

Множественное выравнивание

Построение дерева фрагмент записи в виде скобочной формулы

Визуализация и редактура дерева

(((((con1013851018(f539692826973((f67220839851max42750591)492893con923019677)1362315)953075)2583145

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Множественное выравнивание

Matches

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Multiple Alignment

Matches

Mismatches

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Multiple Alignment

Matches

Mismatches

Gaps

Seq 1 A G C G A GSeq 1 A G C G A GSeq 2 G C G G A CSeq 2 G C G G A C

Шаг 3 Перевод количества расхождений в индексы замен

Distance Matrix

Units количество замен нуклеотидов на 1000

Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86

Rice 00 118 122 122

Mosquito 00 55 51

Monkey 00 3

Human 00

Шаг 4 построение филогенетического дерева

Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86

Rice 00 118 122 122

Mosquito 00 55 51

Monkey 00 3

Human 00

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Дистанция между человеком и обезьяной минимальна Эти группы объединяются в Monkey-Human а все остальные дистанции пересчитываются

Dist[Spinach MonHum] = (Dist[Spinach Monkey] +

Dist[Spinach Human])2 = (91 + 86)2 = 885

Spinach Rice Mosquito Mon-HumSpinach 00 9 106 885

Rice 00 118 122

Mosquito 00 53

Mon-Hum 00

Редуцированная матрица дистанций

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Spi-Ric

HumanMosquito

Mon-Hum

MonkeySpinachRice

Mos-Mon-Hum

Spi-Ric

Mos-Mon-Hum-Spi-Ric

Как выбирать последовательности для дерева

Кроме случаев очень близких последовательностей проще работать с белками (а не с ДНК)

Придерживайтесь небольшой выборки (lt 50 последовательностей)

Избегайтеndash фрагментовndash Ксенологов (горизонтальный перенос генов)ndash рекомбинантных последовательностейndash многодоменных белков и повторов

Используйте outgroup (последовательность ответвившаяся от общего предка заведомо (но минимально) раньше разделения интересующих групп-клад)

Самое главное ndash хорошее выравнивание

Максимальный вклад в финальное дерево нельзя построить хорошее дерево по плохому выравниванию

Блоки содержащие много гэпов плохо выровненные N- и C- концы можно просто вырезать

Основные алгоритмы построения филогенетических деревьев

Методы основанные на оценке

расстояний (матричные методы)

bull UPGMA (кластеризация)

bull Neighbor-joining

bull Минимальная эволюция

Наибольшего правдоподобия Maximal likelihood ML Используется модель эволюции и строится дерево которое наиболее правдоподобно при данной модели

Максимальной экономии (бережливости)

maximal parsimony MP Выбирается дерево с минимальным количеством

мутаций необходимых для объяснения данных

Пример матрицы расстояний

1 2 3 4 5 6 7 8 000 1053 977 1278 1203 1654 1353 2500 HUMAN 1

000 902 1203 977 1579 902 2727 HORSE 2 000 977 902 1654 1203 2424 RABIT 3

000 226 1729 1053 2576 MOUSE 4 000 1579 827 2576 RAT 5

000 1053 2955 BOVIN 6 000 2500 PIG 7

000 CHICK 8

Расстояние (уровень дивергенции) между соответствующими последовательностями из геномов мыши и свиньи

Как понимать расстояние между объектами

bull Как время в течение которого они эволюционировалиbull Как число laquoэволюционных событийraquo (мутаций)

В первом случае объекты образуют ультраметрическое пространство(если все объекты наблюдаются в одно время что как правило верно)

Но время непосредственно измерить невозможно

Гипотеза laquoмолекулярных часовraquo(EZuckerkandl LPauling 1962)

За равное время во всех ветвях эволюции данного генабелка накапливается равное число мутацийЕсли гипотеза молекулярных часов

принимается число различий между выровненными последовательностями можно считать примерно пропорциональным времени Отклонения от ультраметричности можно считать случайными Эволюция реконструируется в виде ультраметрического дерева

Укоренённое дерево называется ультраметрическим если расстояние от корня до любого из листьев одинаково

UPGMAUnweighted Pair Group Method with Arithmetic Mean

разновидность кластерного метода

Расстояние между кластерами вычисляется как среднее арифметическое всевозможных расстояний между последовательностями из кластеров

Недостатки UPGMA

Алгоритм строит ультраметрическое дерево ndash скорость эволюции предполагается одинаковой для всех ветвей дерева Использовать этот алгоритм имеет смысл только в случае ультраметрических данных (справедливости laquoмолекулярных часовraquo)

Реальное дерево UPGMA

Метод ближайших соседей (Neighbor-joining NJ)

Строит неукоренённое дерево

Может работать с большим количеством данных

Достаточно быстрый

Если есть недвусмысленное с точки зрения эксперта дерево то оно будет построено

Метод Neighbor-joining

Рисуем laquoзвездноеraquo дерево и будем laquoотщипыватьraquo от него по паре листьев

Пусть ui = Σk Mik(n-2) mdash среднее расстояние от листа i до других

листьев

1 Рассмотрим все возможные пары листьев Выберем 2 листа i и j с минимальным значением величины

Mij ndash ui ndashuj

те выбираем 2 узла которые близки друг к другу но далеки ото всех остальных

Метод ближайших соседей (Neighbor-joining NJ)

2 Кластер (i j) ndash новый узел дерева

Расстояние от i или от j до узла (ij) D(i (ij)) = 05middot(Mij + ui ndash uj) D(j (ij)) = 05middot (Mij + uj ndash ui) те длина ветви зависит от среднего расстояния до других вершин

3 Вычисляем расстояние от нового кластера до всех других

M(ij)k = Mik+Mjk ndash Mij 2

5 В матрице М убираем i и j и добавляем (i j) Повторяем пока не останутся 3 узла

Input MSA для n последовательностей одна последовательность для каждого вида

AAAAATC

AAAAAAG

CCCCCCG

AAAAATCAAAAAAG

CCCCCCG

Длинная ветвь ndash непохоже на правду

Длинная ветвь -Похоже на правду

Методы основанные на последовательностях Maximum Likelihood (ML) Maximum Parsimony (MP)

Как изобразить дерево Топология дерева

Топология дерева mdash только листья узлы (корень) и связывающие их ветви (топология не зависит от способа изображения дерева)

A

B

C

D

E A BC D E

Два изображения одной и той же топологии

Bacterium 1

Bacterium 3

Bacterium 2

Eukaryote 1

Eukaryote 4

Eukaryote 3

Eukaryote 2

Bacterium 1

Bacterium 3Bacterium 2

Eukaryote 1

Eukaryote 4Eukaryote 3

Eukaryote 2

Филограммы ndash длины ветвей

пропорциональны

эволюционному расстоянию

Кладограммы и филограммы

Кладограммы ndash только

топологя Длины ветвей не

учитываются

6

31

2

46

24

53

Как можно нарисовать построенное дерево

Какие on-line программы строят деревья

ClustalW ldquoTree typerdquo ndash nj phylip строит только методом NJ но результат ndash в разных форматах no bootstraps

Phylip (Felsenstein 1993) ndash пакет программ для построения филогенетических деревьев (stand-alone)On-line (partly) например

httpbiowebpasteurfrseqanalphylogenyphylip-ukhtml PAUP (Phylogenetic Analysis Using Parsimony)

MEGA филогенетический анализ последовательностей

httpwwwmegasoftwarenet

Эволюция ndash исторический процесс

Из 8200794532637891559375 деревьев для 20 OTUs 1

является верным и 8200794532637891559374

неверны

Truth is one falsehoods are many

Какое из 8200794532637891559375

деревьев истинно

Мы не знаем Можно применить иные критетии

Например ldquoпохожесть=родствоraquo

GCGbull Строковый поиск простой текстовый

поиск по локальной базе данных

bull Поиск в определениях или в аннотациях

bull Определения содержат минимальное количество информации для каждой статьи доступ имя организма имя гена длина последовательности дата

  • Bestfit Output
  • SP1 at swissprot
  • EGR1 at swissprot
  • Вывод
  • Bl2Seq at NCBI
  • Bl2seq results
  • Bl2seq оценка
  • Оптимизация времени вычислений при парном выравнивании
  • Slide 9
  • Алгоритм BLAST (шаг 1)
  • Slide 11
  • Blast
  • Поиск гомологов
  • ДНК или белок
  • ДНК
  • Slide 16
  • Slide 17
  • Двойная спираль
  • ДНК дальнейшая упаковка
  • Slide 20
  • Репликация ДНК
  • Slide 22
  • Slide 23
  • Slide 24
  • Slide 25
  • Множественное выравнивание последовательностей (MSA)
  • Slide 27
  • Основные предположения
  • Например
  • Почему множественное выравнивание
  • Slide 31
  • Подходы в MSA
  • MSA algorithm
  • Multiple Alignment - алгоритм
  • Комментарии
  • GCG
  • Slide 37
  • GCG
  • Slide 39
  • Slide 40
  • Slide 41
  • ClustalW
  • Slide 43
  • Slide 44
  • ClustalW на EMBL
  • ClustalW на EMBL - результат
  • ClustalW at EMBL - Jalview
  • Consensus Sequence
  • Профиль (Profile)
  • Profile vs Consensus
  • Slide 51
  • Slide 52
  • Psi Blast (NCBI)
  • PSI-Blast
  • Psi-Blast вывод
  • Slide 56
  • Филогенез
  • Slide 58
  • Slide 59
  • Slide 60
  • Slide 61
  • Древо видов и генов
  • Ортологи и паралоги
  • Шаги реконструирования филогенетического древа
  • Филогенетическое дерево
  • Зачем нужны филогенетические деревья
  • Терминология
  • Slide 68
  • Какие бывают деревья
  • Slide 70
  • Slide 71
  • Slide 72
  • 4 OTUs 3 неукорененных филогенетических деревьев
  • Slide 74
  • Slide 75
  • Slide 76
  • Slide 77
  • Рутинная процедура или как строят деревья
  • Slide 79
  • Slide 80
  • Slide 81
  • Slide 82
  • Slide 83
  • Slide 84
  • Slide 85
  • Slide 86
  • Slide 87
  • Slide 88
  • Slide 89
  • Как выбирать последовательности для дерева
  • Самое главное ndash хорошее выравнивание
  • Основные алгоритмы построения филогенетических деревьев
  • Пример матрицы расстояний
  • Slide 94
  • Гипотеза laquoмолекулярных часовraquo (EZuckerkandl LPauling 1962)
  • UPGMA Unweighted Pair Group Method with Arithmetic Mean
  • Недостатки UPGMA
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Метод Neighbor-joining
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Slide 101
  • Как изобразить дерево Топология дерева
  • Slide 103
  • Какие on-line программы строят деревья
  • MEGA филогенетический анализ последовательностей
  • Slide 106
  • Slide 107
  • Slide 108
Page 28: Bestfit Output

Основные предположения

bull Гены фиксированы сохранены у очень широкого круга биологических видов у совершенно различных представителей laquoдрева жизниraquo

bull Фиксированный генетический код для белков вероятно несёт похожие зачастую идентичные функции

Например

bull Гистоны небольшие белки присутствуют у всех эукариот

Демонстрируют выраженное постоянство последовательности в MSA

Постоянство структуры и функции (упаковка DNA)

Почему множественное выравнивание

Позволяет дать характеристику семействам белков найти общие участки гомологов

Например семейство Serine protease семейство отвечающее за катализ гидролиз пептидных связей

bull Одинаковые активные центры

bull Общие участка последовательности

bull MSA ndash это первый предварительный шаг к анализу в области молекулярной эволюции и построения эволюционных деревьев

bull База для филогенеза ndash данные молекулярной биологии или морфологические данные

Подходы в MSA

2 разных подходаndash 1D sequence based ndash сравнение

последовательностейndash 2D-3D based ndash выравнивание базирующееся на

структуре

MSA algorithm

bull Попарное выравнивание всех последовательностей (pairwise alignment)

bull Кластерный анализ данных парного выравнивания для получения иерархии выравниваний (guide tree)

bull Построение множественного выравнивания (MSA) пошагово в соответствии с guide tree сначала выравнивают наиболее похожие пары затем добавляют остальные и тд

Multiple Alignment - алгоритм

(1) Парное выравнивание (подготовка guide tree)

6 pairwise alignments

then cluster analysis

(2) Множественное выравнивание следуя древу из п 1

successive alignments

Комментарии

bull Парное выравнивание - оптимальный алгоритм

bull Множественное выравнивание не является оптимальным алгоритмом Вполне могут существовать и лучшие выравнивания

bull Редакторы выравниваний могут быть полезны для корректировки

GCG

Pileup глобальный MSA

pileup [list of sequence names]

pileup hemoglobin_list

1 The sign means that the file contains a list of names

2 The list can include names from the userrsquos directory or code names (accession numbers) from the GCG databases

GCGПример входного файла

swhbb_human

swhbb_rat

swhbb_mouse

Hemoglobin_Alpha

Hemoglobin_Gamma

Hemogolibin_Delta

Syntax the file starts with ldquordquo

Sequences from the databases

Sequences from the userrsquos directory

GCG PileUp creates a multiple sequence alignment from a group of relatedsequences using progressive pairwise alignments It can also plot atree showing the clustering relationships used to create the alignment

1 IPNS_STRJU 329 aa 2 IPNS_STRCL 329 aa 3 IPNS_CEPAC 338 aa 4 IPNS_NOCLA 328 aa

What is the gap creation penalty ( 8 ) What is the gap extension penalty ( 2 )

This program can display the clustering relationships graphically Do you want to A) Plot to a FIGURE file called pileupfigure B) Plot graphics on HP7550 attached to devtty15 C) Suppress the plot Please choose one ( A ) c What should I call the output file name ( ipnsmsf )

Determining pairwise similarity scores

1 x 2 443 1 x 3 312 1 x 4 412 2 x 3 294 2 x 4 405 3 x 4 309

Aligning

Total sequences 4 Alignment length 338 CPU time 0021

Output filedatausersracheliothersracheliipnsmsf

Regular GCG syntaxDefault parametersoutput file etc

GCGAA_MULTIPLE_ALIGNMENT 10PileUp of ipnsfil

Symbol comparison table GenRunDatablosum62cmp CompCheck 1102 GapWeight 8 GapLengthWeight 2 ipnsmsf MSF 338 Type P March 14 2002 0929 Check 7631

Name IPNS_STRJU Len 338 Check 6344 Weight 100 Name IPNS_STRCL Len 338 Check 4249 Weight 100 Name IPNS_NOCLA Len 338 Check 7020 Weight 100 Name IPNS_CEPAC Len 338 Check 18 Weight 100

1 50IPNS_STRJU ~MPILMPSAE VPTIDISPLS GDDAKAKQRV AQEINKAARG SGFFYASNHGIPNS_STRCL ~MPVLMPSAH VPTIDISPLF GTDAAAKKRV AEEIHGACRG SGFFYATNHGIPNS_NOCLA ~~~MKMPSAE VPTIDVSPLF GDDAQEKVRV GQEINKACRG SGFFYAANHGIPNS_CEPAC MGSVPVPVAN VPRIDVSPLF GDDKEKKLEV ARAIDAASRD TGFFYAVNHG

51 100IPNS_STRJU VDVQLLQDVV NEFHRNMSDQ EKHDLAINAY NKDNPHVRN GYYKAIKGKKIPNS_STRCL VDVQQLQDVV NEFHGAMTDQ EKHDLAIHAY NPDNPHVRN GYYKAVPGRKIPNS_NOCLA VDVQRLQDVV NEFHRTMSPQ EKYDLAIHAY NKNNSHVRN GYYMAIEGKKIPNS_CEPAC VDLPWLSRET NKFHMSITDE EKWQLAIRAY NKEHESQIRA GYYLPIPGKK

Output filemsf format

GCG

Prettybox генерирует графический файл из файла MSA

prettybox [MSA file]

prettybox hemoglobinsmsf

1 The ldquordquo is a syntax sign meaning all the sequences in the MSA file

2 Can also calculate the consensus sequence

GCG

ClustalWbull Очень известная и широко распространённая

программа UNIX Internet Windows

bull Выполняет MSA может строить филогенетические деревья

bull Входной файл ndash формат multi-fasta

ClustalW

bull tofasta list

gtIPNS_STRJU P18286

MPILMPSAEVPTIDISPLSGDDAKAKQRVAQEINKAARGSGFFYASNHGVDVQLLQDVVN

EFHRNMSDQEKHDLAINAYNKDNPHVRNGYYKAIKGKKAVESFCYLNPSFSDDHPMIKSE

TPMHEVNLWPDEEKHPRFRPFCEDYYRQLLRLSTVIMRGYALALGRREDFFDEALAEADT

LSSVSLIRYPYLEEYPPVKTGADGTKLSFEDHLDVSMITVLYQTEVQNLQVETVDGWQDI

PRSDEDFLVNCGTYMGHITHDYFPAPNHRVKFINAERLSLPFFLNAGHNSVIEPFVPEGA

AGTVKNPTTSYGEYLQHGLRALIVKNGQT

gtIPNS_STRCL P10621

MPVLMPSAHVPTIDISPLFGTDAAAKKRVAEEIHGACRGSGFFYATNHGVDVQQLQDVVN

EFHGAMTDQEKHDLAIHAYNPDNPHVRNGYYKAVPGRKAVESFCYLNPDFGEDHPMIAAG

TPMHEVNLWPDEERHPRFRPFCEGYYRQMLKLSTVLMRGLALALGRPEHFFDAALAEQDS

LSSVSLIRYPYLEEYPPVKTGPDGQLLSFEDHLDVSMITVLFQTQVQNLQVETVDGWRDI

PTSENDFLVNCGTYMAHVTNDYFPAPNHRVKFVNAERLSLPFFLNGGHEAVIEPFVPEGA

SEEVRNEALSYGDYLQHGLRALIVKNGQT

input fileMulti-fasta

Making the file in unix

ClustalWCLUSTAL W (17) multiple sequence alignment

IPNS_STRJU -MPILMPSAEVPTIDISPLSGDDAKAKQRVAQEINKAARGSGFFYASNHGVDVQLLQDVVIPNS_STRGR -MPIPMLPAHVPTIDISPLSGGDADDKKRVAQEINKACRESGFFYASHHGIDVQLLKDVVIPNS_FLASS ----MNRHADVPVIDISGLSGNDMDVKKDIAARIDRACRGSGFFYAANHGVDLAALQKFTIPNS_PENCH --MASTPKANVPKIDVSPLFGDNMEEKMKVARAIDAASRDTGFFYAVNHGVDVKRLSNKTIPNS_CEPAC MGSVPVPVANVPRIDVSPLFGDDKEKKLEVARAIDAASRDTGFFYAVNHGVDLPWLSRET

IPNS_STRJU NEFHRNMSDQEKHDLAINAYNKDNP-HVRNGYYKAIKGKKAVESFCYLNPSFSDDHPMIKIPNS_STRGR NEFHRTMTDEEKYDLAINAYNKNNP-RTRNGYYMAVKGKKAVESWCYLNPSFSEDHPQIRIPNS_FLASS TDWHMAMSAEEKWELAIRAYNPANP-RNRNGYYMAVEGKKANESFCYLNPSFDADHATIKIPNS_PENCH REFHFSITDEEKWDLAIRAYNKEHQDQIRAGYYLSIPEKKAVESFCYLNPNFKPDHPLIQIPNS_CEPAC NKFHMSITDEEKWQLAIRAYNKEHESQIRAGYYLPIPGKKAVESFCYLNPSFSPDHPRIK

Выходной файл aln format

httpwwwebiacukhelpformatshtml

форматы

ClustalW на EMBL

ClustalW на EMBL - результат

ClustalW at EMBL - Jalview

Conservation

Consensus Sequence

Мы можем вывести consensus sequence из результатов MSA The consensus sequence содержит наиболее часто встречающийся символ в кажной колонке выравнивания

A T C T T G T

A A C T T G T

A A C T T C T

A A C T T G T

Ещё пара терминовhelliphellip

Профиль (Profile)

Также возможно вывести статистическую модель описывающую MSA Профиль содержит информацию о символах в каждом столбце выравнивания

A T C T T G T

A A C T T G T

A A C T T C T

1 2 3 4 5 6

A 1 067 0 0

T 0 033 1 1

C 0 0 0 0

G 0 0 0 0

Profile vs Consensus

Consensus каждая позиция отражает наиболее часто встречающийся символ

Profile каждая позиция отражает частоту символа в данной позиции

Profile vs Consensus

Данный MSA будет иметь одинаковый consensus

A A C T T G C

A A G T C G T

C A C T T C T

A A C T T G T

A A C T T G T

A A C T T C T

A A C T T G T

Profile vs Consensus

Но разный профиль

A A C T T G C

A A G T C G T

C A C T T C T

A A C T T G T

A A C T T G T

A A C T T C T

1 2 3 4 5 6

A 066 1 0 0

T 0 0 0 1

C 033 0 066 0

G 0 0 033 0

1 2 3 4 5 6

A 1 1 0 0

T 0 0 0 1

C 0 0 1 0

G 0 0 0 0

Psi Blast (NCBI)

Position Specific Iterated ndash автоматизированный поиск по профилю

Regular blast

Construct profile from blast results

Blast profile search

Final results

PSI-Blast

Psi-Blast вывод

Проблема формулировки выводов при использовании МSA

1 Сайт выглядит общим (фиксированным) из-за того что это ndash близкородственные последовательности

2 Сайт выглядит общим из-за того что это ndash исключительно жизненно важный сайт

ФилогенезЭволюция ndash случайный процесс с неслучайным результатом

Цели филогенетического исследования

bull Реконструкция корректных генеалогических связей

между биологическими объектами

bull Оценка времени расхождения организмов

bull Определение порядка эволюционных событий в процессе

эволюции

Формат Newick

((A(BC))(DE))

Типы данных

Molecular (DNA RNA proteins)

Morphological (soft tissue hard tissue extant extinct)

Преимущества молекулярных данных

bull Наследуемость

bull Недвусмысленность в описании молекулярных характеристик

bull Поддаются количественному анализу

bull Оценка гомологии легче чем морфологические исследования

bull Данных много

Древо видов и геновbull Древо видов ndash эволюционные взаимосвязи

между видами (видообразование)bull Древо генов

Page RDM and Cotton JC (2000) GeneTree a tool for exploring gene family evolution In D Sankoff and J Nadeau (eds) Comparative Genomics Empirical and Analytical Approaches to Gene Order Dynamics Map Alignment and the Evolution of Gene Families Kluwer Academic Publishers Dordrecht pp 525-536

Figure 2 (a) Incongruent gene and species trees This incongruence can be explained by hypothesizing a gene duplication (h) at the base of the gene tree (b)The presence of only a single gene (a-d) extant in each of the present-day species(1-4) requires postulating three gene losses (c) The corresponding reconciled tree

Ортологи и паралоги

bull Гены-паралоги ndash событие дупликация (and

bull Гены-ортологи ndash событие видообразования (in the two species and in the two species

Duplication

Speciation

Species a Species b

Шаги реконструирования филогенетического

древа

1 Выбор последовательностей и поиск гомологов

2 MSA3 Матрица белков4 Филогенетическое дерево

Филогенетическое дерево

Филогения - раздел биологии изучающий родственные взаимоотношения разных групп живых организмов Филогению отображается обычно в виде эволюционных древ или систематических названий

Зачем нужны филогенетические деревья

Биологические задачи

сравнение 3-х и более объектов (кто на кого более похож )

реконструкция эволюции (кто от кого как и когда произошелhellip)

ТерминологияУзел (node) mdash точка разделения предковой последовательности(вида популяции) на две независимо эволюционирующиеСоответствует внутренней вершине графа изображающего эволюциюЛист (leaf OTU ndash оперативная таксономическая единица) mdash реальный (современный) объект внешняя вершина графаВетвь (branch) mdash связь между узлами или между узлом и листом ребро графаКорень (root) mdash общий предокКлада (clade) - группа двух или более таксонов или последователь-ностей ДНК которая включает как своего общего предка так и всех его потомков

OTU

HTU (hypotetical taxonomic unit)

Какие бывают деревья

Бинарное (разрешённое)(в один момент времени может

произойти только одно событие )

Небинарное (неразрешённое) (может ли в один момент времени

произойти два события )

Время

Какие бывают деревья

Укорененное дерево (rooted tree)отражает направление эволюции

Неукорененное (бескорневое) дерево(unrooted tree) показывает только связи между узлами

Время

Если число листьев равно n существует (2n-3)разных бинарных укоренных деревьевПо определению (2n-3) = 1middot3 middot middot(2n-3)

Существует (2n-5) разных бескорневых деревьев с n листьями

Rooting

A C B B C AA B C

3 OTUs 3 OTUs 1 н 1 неукорененное деревоеукорененное дерево 33 укорененных деревьев укорененных деревьев

A

B

C

D

C

A

B

4 OTUs 4 OTUs 3 3 неукорененных филогенетических неукорененных филогенетических деревьевдеревьев

D

B

A

C C

B

A

D

4 OTUs

15 укорененных

деревьев

Количество Количество Количество

OTU укорененных неукорененных

2 1 13 3 14 15 35 105 156 954 1057 103959548 135135 103959 2027025 13513510 34459425 202702511 654729075 3445942512 13749310575 654729075

Количество возможных деревьев

Рутинная процедура или как строят деревья

Составление выборки последовательностей

Множественное выравнивание

Построение дерева фрагмент записи в виде скобочной формулы

Визуализация и редактура дерева

(((((con1013851018(f539692826973((f67220839851max42750591)492893con923019677)1362315)953075)2583145

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Множественное выравнивание

Matches

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Multiple Alignment

Matches

Mismatches

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Multiple Alignment

Matches

Mismatches

Gaps

Seq 1 A G C G A GSeq 1 A G C G A GSeq 2 G C G G A CSeq 2 G C G G A C

Шаг 3 Перевод количества расхождений в индексы замен

Distance Matrix

Units количество замен нуклеотидов на 1000

Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86

Rice 00 118 122 122

Mosquito 00 55 51

Monkey 00 3

Human 00

Шаг 4 построение филогенетического дерева

Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86

Rice 00 118 122 122

Mosquito 00 55 51

Monkey 00 3

Human 00

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Дистанция между человеком и обезьяной минимальна Эти группы объединяются в Monkey-Human а все остальные дистанции пересчитываются

Dist[Spinach MonHum] = (Dist[Spinach Monkey] +

Dist[Spinach Human])2 = (91 + 86)2 = 885

Spinach Rice Mosquito Mon-HumSpinach 00 9 106 885

Rice 00 118 122

Mosquito 00 53

Mon-Hum 00

Редуцированная матрица дистанций

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Spi-Ric

HumanMosquito

Mon-Hum

MonkeySpinachRice

Mos-Mon-Hum

Spi-Ric

Mos-Mon-Hum-Spi-Ric

Как выбирать последовательности для дерева

Кроме случаев очень близких последовательностей проще работать с белками (а не с ДНК)

Придерживайтесь небольшой выборки (lt 50 последовательностей)

Избегайтеndash фрагментовndash Ксенологов (горизонтальный перенос генов)ndash рекомбинантных последовательностейndash многодоменных белков и повторов

Используйте outgroup (последовательность ответвившаяся от общего предка заведомо (но минимально) раньше разделения интересующих групп-клад)

Самое главное ndash хорошее выравнивание

Максимальный вклад в финальное дерево нельзя построить хорошее дерево по плохому выравниванию

Блоки содержащие много гэпов плохо выровненные N- и C- концы можно просто вырезать

Основные алгоритмы построения филогенетических деревьев

Методы основанные на оценке

расстояний (матричные методы)

bull UPGMA (кластеризация)

bull Neighbor-joining

bull Минимальная эволюция

Наибольшего правдоподобия Maximal likelihood ML Используется модель эволюции и строится дерево которое наиболее правдоподобно при данной модели

Максимальной экономии (бережливости)

maximal parsimony MP Выбирается дерево с минимальным количеством

мутаций необходимых для объяснения данных

Пример матрицы расстояний

1 2 3 4 5 6 7 8 000 1053 977 1278 1203 1654 1353 2500 HUMAN 1

000 902 1203 977 1579 902 2727 HORSE 2 000 977 902 1654 1203 2424 RABIT 3

000 226 1729 1053 2576 MOUSE 4 000 1579 827 2576 RAT 5

000 1053 2955 BOVIN 6 000 2500 PIG 7

000 CHICK 8

Расстояние (уровень дивергенции) между соответствующими последовательностями из геномов мыши и свиньи

Как понимать расстояние между объектами

bull Как время в течение которого они эволюционировалиbull Как число laquoэволюционных событийraquo (мутаций)

В первом случае объекты образуют ультраметрическое пространство(если все объекты наблюдаются в одно время что как правило верно)

Но время непосредственно измерить невозможно

Гипотеза laquoмолекулярных часовraquo(EZuckerkandl LPauling 1962)

За равное время во всех ветвях эволюции данного генабелка накапливается равное число мутацийЕсли гипотеза молекулярных часов

принимается число различий между выровненными последовательностями можно считать примерно пропорциональным времени Отклонения от ультраметричности можно считать случайными Эволюция реконструируется в виде ультраметрического дерева

Укоренённое дерево называется ультраметрическим если расстояние от корня до любого из листьев одинаково

UPGMAUnweighted Pair Group Method with Arithmetic Mean

разновидность кластерного метода

Расстояние между кластерами вычисляется как среднее арифметическое всевозможных расстояний между последовательностями из кластеров

Недостатки UPGMA

Алгоритм строит ультраметрическое дерево ndash скорость эволюции предполагается одинаковой для всех ветвей дерева Использовать этот алгоритм имеет смысл только в случае ультраметрических данных (справедливости laquoмолекулярных часовraquo)

Реальное дерево UPGMA

Метод ближайших соседей (Neighbor-joining NJ)

Строит неукоренённое дерево

Может работать с большим количеством данных

Достаточно быстрый

Если есть недвусмысленное с точки зрения эксперта дерево то оно будет построено

Метод Neighbor-joining

Рисуем laquoзвездноеraquo дерево и будем laquoотщипыватьraquo от него по паре листьев

Пусть ui = Σk Mik(n-2) mdash среднее расстояние от листа i до других

листьев

1 Рассмотрим все возможные пары листьев Выберем 2 листа i и j с минимальным значением величины

Mij ndash ui ndashuj

те выбираем 2 узла которые близки друг к другу но далеки ото всех остальных

Метод ближайших соседей (Neighbor-joining NJ)

2 Кластер (i j) ndash новый узел дерева

Расстояние от i или от j до узла (ij) D(i (ij)) = 05middot(Mij + ui ndash uj) D(j (ij)) = 05middot (Mij + uj ndash ui) те длина ветви зависит от среднего расстояния до других вершин

3 Вычисляем расстояние от нового кластера до всех других

M(ij)k = Mik+Mjk ndash Mij 2

5 В матрице М убираем i и j и добавляем (i j) Повторяем пока не останутся 3 узла

Input MSA для n последовательностей одна последовательность для каждого вида

AAAAATC

AAAAAAG

CCCCCCG

AAAAATCAAAAAAG

CCCCCCG

Длинная ветвь ndash непохоже на правду

Длинная ветвь -Похоже на правду

Методы основанные на последовательностях Maximum Likelihood (ML) Maximum Parsimony (MP)

Как изобразить дерево Топология дерева

Топология дерева mdash только листья узлы (корень) и связывающие их ветви (топология не зависит от способа изображения дерева)

A

B

C

D

E A BC D E

Два изображения одной и той же топологии

Bacterium 1

Bacterium 3

Bacterium 2

Eukaryote 1

Eukaryote 4

Eukaryote 3

Eukaryote 2

Bacterium 1

Bacterium 3Bacterium 2

Eukaryote 1

Eukaryote 4Eukaryote 3

Eukaryote 2

Филограммы ndash длины ветвей

пропорциональны

эволюционному расстоянию

Кладограммы и филограммы

Кладограммы ndash только

топологя Длины ветвей не

учитываются

6

31

2

46

24

53

Как можно нарисовать построенное дерево

Какие on-line программы строят деревья

ClustalW ldquoTree typerdquo ndash nj phylip строит только методом NJ но результат ndash в разных форматах no bootstraps

Phylip (Felsenstein 1993) ndash пакет программ для построения филогенетических деревьев (stand-alone)On-line (partly) например

httpbiowebpasteurfrseqanalphylogenyphylip-ukhtml PAUP (Phylogenetic Analysis Using Parsimony)

MEGA филогенетический анализ последовательностей

httpwwwmegasoftwarenet

Эволюция ndash исторический процесс

Из 8200794532637891559375 деревьев для 20 OTUs 1

является верным и 8200794532637891559374

неверны

Truth is one falsehoods are many

Какое из 8200794532637891559375

деревьев истинно

Мы не знаем Можно применить иные критетии

Например ldquoпохожесть=родствоraquo

GCGbull Строковый поиск простой текстовый

поиск по локальной базе данных

bull Поиск в определениях или в аннотациях

bull Определения содержат минимальное количество информации для каждой статьи доступ имя организма имя гена длина последовательности дата

  • Bestfit Output
  • SP1 at swissprot
  • EGR1 at swissprot
  • Вывод
  • Bl2Seq at NCBI
  • Bl2seq results
  • Bl2seq оценка
  • Оптимизация времени вычислений при парном выравнивании
  • Slide 9
  • Алгоритм BLAST (шаг 1)
  • Slide 11
  • Blast
  • Поиск гомологов
  • ДНК или белок
  • ДНК
  • Slide 16
  • Slide 17
  • Двойная спираль
  • ДНК дальнейшая упаковка
  • Slide 20
  • Репликация ДНК
  • Slide 22
  • Slide 23
  • Slide 24
  • Slide 25
  • Множественное выравнивание последовательностей (MSA)
  • Slide 27
  • Основные предположения
  • Например
  • Почему множественное выравнивание
  • Slide 31
  • Подходы в MSA
  • MSA algorithm
  • Multiple Alignment - алгоритм
  • Комментарии
  • GCG
  • Slide 37
  • GCG
  • Slide 39
  • Slide 40
  • Slide 41
  • ClustalW
  • Slide 43
  • Slide 44
  • ClustalW на EMBL
  • ClustalW на EMBL - результат
  • ClustalW at EMBL - Jalview
  • Consensus Sequence
  • Профиль (Profile)
  • Profile vs Consensus
  • Slide 51
  • Slide 52
  • Psi Blast (NCBI)
  • PSI-Blast
  • Psi-Blast вывод
  • Slide 56
  • Филогенез
  • Slide 58
  • Slide 59
  • Slide 60
  • Slide 61
  • Древо видов и генов
  • Ортологи и паралоги
  • Шаги реконструирования филогенетического древа
  • Филогенетическое дерево
  • Зачем нужны филогенетические деревья
  • Терминология
  • Slide 68
  • Какие бывают деревья
  • Slide 70
  • Slide 71
  • Slide 72
  • 4 OTUs 3 неукорененных филогенетических деревьев
  • Slide 74
  • Slide 75
  • Slide 76
  • Slide 77
  • Рутинная процедура или как строят деревья
  • Slide 79
  • Slide 80
  • Slide 81
  • Slide 82
  • Slide 83
  • Slide 84
  • Slide 85
  • Slide 86
  • Slide 87
  • Slide 88
  • Slide 89
  • Как выбирать последовательности для дерева
  • Самое главное ndash хорошее выравнивание
  • Основные алгоритмы построения филогенетических деревьев
  • Пример матрицы расстояний
  • Slide 94
  • Гипотеза laquoмолекулярных часовraquo (EZuckerkandl LPauling 1962)
  • UPGMA Unweighted Pair Group Method with Arithmetic Mean
  • Недостатки UPGMA
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Метод Neighbor-joining
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Slide 101
  • Как изобразить дерево Топология дерева
  • Slide 103
  • Какие on-line программы строят деревья
  • MEGA филогенетический анализ последовательностей
  • Slide 106
  • Slide 107
  • Slide 108
Page 29: Bestfit Output

Например

bull Гистоны небольшие белки присутствуют у всех эукариот

Демонстрируют выраженное постоянство последовательности в MSA

Постоянство структуры и функции (упаковка DNA)

Почему множественное выравнивание

Позволяет дать характеристику семействам белков найти общие участки гомологов

Например семейство Serine protease семейство отвечающее за катализ гидролиз пептидных связей

bull Одинаковые активные центры

bull Общие участка последовательности

bull MSA ndash это первый предварительный шаг к анализу в области молекулярной эволюции и построения эволюционных деревьев

bull База для филогенеза ndash данные молекулярной биологии или морфологические данные

Подходы в MSA

2 разных подходаndash 1D sequence based ndash сравнение

последовательностейndash 2D-3D based ndash выравнивание базирующееся на

структуре

MSA algorithm

bull Попарное выравнивание всех последовательностей (pairwise alignment)

bull Кластерный анализ данных парного выравнивания для получения иерархии выравниваний (guide tree)

bull Построение множественного выравнивания (MSA) пошагово в соответствии с guide tree сначала выравнивают наиболее похожие пары затем добавляют остальные и тд

Multiple Alignment - алгоритм

(1) Парное выравнивание (подготовка guide tree)

6 pairwise alignments

then cluster analysis

(2) Множественное выравнивание следуя древу из п 1

successive alignments

Комментарии

bull Парное выравнивание - оптимальный алгоритм

bull Множественное выравнивание не является оптимальным алгоритмом Вполне могут существовать и лучшие выравнивания

bull Редакторы выравниваний могут быть полезны для корректировки

GCG

Pileup глобальный MSA

pileup [list of sequence names]

pileup hemoglobin_list

1 The sign means that the file contains a list of names

2 The list can include names from the userrsquos directory or code names (accession numbers) from the GCG databases

GCGПример входного файла

swhbb_human

swhbb_rat

swhbb_mouse

Hemoglobin_Alpha

Hemoglobin_Gamma

Hemogolibin_Delta

Syntax the file starts with ldquordquo

Sequences from the databases

Sequences from the userrsquos directory

GCG PileUp creates a multiple sequence alignment from a group of relatedsequences using progressive pairwise alignments It can also plot atree showing the clustering relationships used to create the alignment

1 IPNS_STRJU 329 aa 2 IPNS_STRCL 329 aa 3 IPNS_CEPAC 338 aa 4 IPNS_NOCLA 328 aa

What is the gap creation penalty ( 8 ) What is the gap extension penalty ( 2 )

This program can display the clustering relationships graphically Do you want to A) Plot to a FIGURE file called pileupfigure B) Plot graphics on HP7550 attached to devtty15 C) Suppress the plot Please choose one ( A ) c What should I call the output file name ( ipnsmsf )

Determining pairwise similarity scores

1 x 2 443 1 x 3 312 1 x 4 412 2 x 3 294 2 x 4 405 3 x 4 309

Aligning

Total sequences 4 Alignment length 338 CPU time 0021

Output filedatausersracheliothersracheliipnsmsf

Regular GCG syntaxDefault parametersoutput file etc

GCGAA_MULTIPLE_ALIGNMENT 10PileUp of ipnsfil

Symbol comparison table GenRunDatablosum62cmp CompCheck 1102 GapWeight 8 GapLengthWeight 2 ipnsmsf MSF 338 Type P March 14 2002 0929 Check 7631

Name IPNS_STRJU Len 338 Check 6344 Weight 100 Name IPNS_STRCL Len 338 Check 4249 Weight 100 Name IPNS_NOCLA Len 338 Check 7020 Weight 100 Name IPNS_CEPAC Len 338 Check 18 Weight 100

1 50IPNS_STRJU ~MPILMPSAE VPTIDISPLS GDDAKAKQRV AQEINKAARG SGFFYASNHGIPNS_STRCL ~MPVLMPSAH VPTIDISPLF GTDAAAKKRV AEEIHGACRG SGFFYATNHGIPNS_NOCLA ~~~MKMPSAE VPTIDVSPLF GDDAQEKVRV GQEINKACRG SGFFYAANHGIPNS_CEPAC MGSVPVPVAN VPRIDVSPLF GDDKEKKLEV ARAIDAASRD TGFFYAVNHG

51 100IPNS_STRJU VDVQLLQDVV NEFHRNMSDQ EKHDLAINAY NKDNPHVRN GYYKAIKGKKIPNS_STRCL VDVQQLQDVV NEFHGAMTDQ EKHDLAIHAY NPDNPHVRN GYYKAVPGRKIPNS_NOCLA VDVQRLQDVV NEFHRTMSPQ EKYDLAIHAY NKNNSHVRN GYYMAIEGKKIPNS_CEPAC VDLPWLSRET NKFHMSITDE EKWQLAIRAY NKEHESQIRA GYYLPIPGKK

Output filemsf format

GCG

Prettybox генерирует графический файл из файла MSA

prettybox [MSA file]

prettybox hemoglobinsmsf

1 The ldquordquo is a syntax sign meaning all the sequences in the MSA file

2 Can also calculate the consensus sequence

GCG

ClustalWbull Очень известная и широко распространённая

программа UNIX Internet Windows

bull Выполняет MSA может строить филогенетические деревья

bull Входной файл ndash формат multi-fasta

ClustalW

bull tofasta list

gtIPNS_STRJU P18286

MPILMPSAEVPTIDISPLSGDDAKAKQRVAQEINKAARGSGFFYASNHGVDVQLLQDVVN

EFHRNMSDQEKHDLAINAYNKDNPHVRNGYYKAIKGKKAVESFCYLNPSFSDDHPMIKSE

TPMHEVNLWPDEEKHPRFRPFCEDYYRQLLRLSTVIMRGYALALGRREDFFDEALAEADT

LSSVSLIRYPYLEEYPPVKTGADGTKLSFEDHLDVSMITVLYQTEVQNLQVETVDGWQDI

PRSDEDFLVNCGTYMGHITHDYFPAPNHRVKFINAERLSLPFFLNAGHNSVIEPFVPEGA

AGTVKNPTTSYGEYLQHGLRALIVKNGQT

gtIPNS_STRCL P10621

MPVLMPSAHVPTIDISPLFGTDAAAKKRVAEEIHGACRGSGFFYATNHGVDVQQLQDVVN

EFHGAMTDQEKHDLAIHAYNPDNPHVRNGYYKAVPGRKAVESFCYLNPDFGEDHPMIAAG

TPMHEVNLWPDEERHPRFRPFCEGYYRQMLKLSTVLMRGLALALGRPEHFFDAALAEQDS

LSSVSLIRYPYLEEYPPVKTGPDGQLLSFEDHLDVSMITVLFQTQVQNLQVETVDGWRDI

PTSENDFLVNCGTYMAHVTNDYFPAPNHRVKFVNAERLSLPFFLNGGHEAVIEPFVPEGA

SEEVRNEALSYGDYLQHGLRALIVKNGQT

input fileMulti-fasta

Making the file in unix

ClustalWCLUSTAL W (17) multiple sequence alignment

IPNS_STRJU -MPILMPSAEVPTIDISPLSGDDAKAKQRVAQEINKAARGSGFFYASNHGVDVQLLQDVVIPNS_STRGR -MPIPMLPAHVPTIDISPLSGGDADDKKRVAQEINKACRESGFFYASHHGIDVQLLKDVVIPNS_FLASS ----MNRHADVPVIDISGLSGNDMDVKKDIAARIDRACRGSGFFYAANHGVDLAALQKFTIPNS_PENCH --MASTPKANVPKIDVSPLFGDNMEEKMKVARAIDAASRDTGFFYAVNHGVDVKRLSNKTIPNS_CEPAC MGSVPVPVANVPRIDVSPLFGDDKEKKLEVARAIDAASRDTGFFYAVNHGVDLPWLSRET

IPNS_STRJU NEFHRNMSDQEKHDLAINAYNKDNP-HVRNGYYKAIKGKKAVESFCYLNPSFSDDHPMIKIPNS_STRGR NEFHRTMTDEEKYDLAINAYNKNNP-RTRNGYYMAVKGKKAVESWCYLNPSFSEDHPQIRIPNS_FLASS TDWHMAMSAEEKWELAIRAYNPANP-RNRNGYYMAVEGKKANESFCYLNPSFDADHATIKIPNS_PENCH REFHFSITDEEKWDLAIRAYNKEHQDQIRAGYYLSIPEKKAVESFCYLNPNFKPDHPLIQIPNS_CEPAC NKFHMSITDEEKWQLAIRAYNKEHESQIRAGYYLPIPGKKAVESFCYLNPSFSPDHPRIK

Выходной файл aln format

httpwwwebiacukhelpformatshtml

форматы

ClustalW на EMBL

ClustalW на EMBL - результат

ClustalW at EMBL - Jalview

Conservation

Consensus Sequence

Мы можем вывести consensus sequence из результатов MSA The consensus sequence содержит наиболее часто встречающийся символ в кажной колонке выравнивания

A T C T T G T

A A C T T G T

A A C T T C T

A A C T T G T

Ещё пара терминовhelliphellip

Профиль (Profile)

Также возможно вывести статистическую модель описывающую MSA Профиль содержит информацию о символах в каждом столбце выравнивания

A T C T T G T

A A C T T G T

A A C T T C T

1 2 3 4 5 6

A 1 067 0 0

T 0 033 1 1

C 0 0 0 0

G 0 0 0 0

Profile vs Consensus

Consensus каждая позиция отражает наиболее часто встречающийся символ

Profile каждая позиция отражает частоту символа в данной позиции

Profile vs Consensus

Данный MSA будет иметь одинаковый consensus

A A C T T G C

A A G T C G T

C A C T T C T

A A C T T G T

A A C T T G T

A A C T T C T

A A C T T G T

Profile vs Consensus

Но разный профиль

A A C T T G C

A A G T C G T

C A C T T C T

A A C T T G T

A A C T T G T

A A C T T C T

1 2 3 4 5 6

A 066 1 0 0

T 0 0 0 1

C 033 0 066 0

G 0 0 033 0

1 2 3 4 5 6

A 1 1 0 0

T 0 0 0 1

C 0 0 1 0

G 0 0 0 0

Psi Blast (NCBI)

Position Specific Iterated ndash автоматизированный поиск по профилю

Regular blast

Construct profile from blast results

Blast profile search

Final results

PSI-Blast

Psi-Blast вывод

Проблема формулировки выводов при использовании МSA

1 Сайт выглядит общим (фиксированным) из-за того что это ndash близкородственные последовательности

2 Сайт выглядит общим из-за того что это ndash исключительно жизненно важный сайт

ФилогенезЭволюция ndash случайный процесс с неслучайным результатом

Цели филогенетического исследования

bull Реконструкция корректных генеалогических связей

между биологическими объектами

bull Оценка времени расхождения организмов

bull Определение порядка эволюционных событий в процессе

эволюции

Формат Newick

((A(BC))(DE))

Типы данных

Molecular (DNA RNA proteins)

Morphological (soft tissue hard tissue extant extinct)

Преимущества молекулярных данных

bull Наследуемость

bull Недвусмысленность в описании молекулярных характеристик

bull Поддаются количественному анализу

bull Оценка гомологии легче чем морфологические исследования

bull Данных много

Древо видов и геновbull Древо видов ndash эволюционные взаимосвязи

между видами (видообразование)bull Древо генов

Page RDM and Cotton JC (2000) GeneTree a tool for exploring gene family evolution In D Sankoff and J Nadeau (eds) Comparative Genomics Empirical and Analytical Approaches to Gene Order Dynamics Map Alignment and the Evolution of Gene Families Kluwer Academic Publishers Dordrecht pp 525-536

Figure 2 (a) Incongruent gene and species trees This incongruence can be explained by hypothesizing a gene duplication (h) at the base of the gene tree (b)The presence of only a single gene (a-d) extant in each of the present-day species(1-4) requires postulating three gene losses (c) The corresponding reconciled tree

Ортологи и паралоги

bull Гены-паралоги ndash событие дупликация (and

bull Гены-ортологи ndash событие видообразования (in the two species and in the two species

Duplication

Speciation

Species a Species b

Шаги реконструирования филогенетического

древа

1 Выбор последовательностей и поиск гомологов

2 MSA3 Матрица белков4 Филогенетическое дерево

Филогенетическое дерево

Филогения - раздел биологии изучающий родственные взаимоотношения разных групп живых организмов Филогению отображается обычно в виде эволюционных древ или систематических названий

Зачем нужны филогенетические деревья

Биологические задачи

сравнение 3-х и более объектов (кто на кого более похож )

реконструкция эволюции (кто от кого как и когда произошелhellip)

ТерминологияУзел (node) mdash точка разделения предковой последовательности(вида популяции) на две независимо эволюционирующиеСоответствует внутренней вершине графа изображающего эволюциюЛист (leaf OTU ndash оперативная таксономическая единица) mdash реальный (современный) объект внешняя вершина графаВетвь (branch) mdash связь между узлами или между узлом и листом ребро графаКорень (root) mdash общий предокКлада (clade) - группа двух или более таксонов или последователь-ностей ДНК которая включает как своего общего предка так и всех его потомков

OTU

HTU (hypotetical taxonomic unit)

Какие бывают деревья

Бинарное (разрешённое)(в один момент времени может

произойти только одно событие )

Небинарное (неразрешённое) (может ли в один момент времени

произойти два события )

Время

Какие бывают деревья

Укорененное дерево (rooted tree)отражает направление эволюции

Неукорененное (бескорневое) дерево(unrooted tree) показывает только связи между узлами

Время

Если число листьев равно n существует (2n-3)разных бинарных укоренных деревьевПо определению (2n-3) = 1middot3 middot middot(2n-3)

Существует (2n-5) разных бескорневых деревьев с n листьями

Rooting

A C B B C AA B C

3 OTUs 3 OTUs 1 н 1 неукорененное деревоеукорененное дерево 33 укорененных деревьев укорененных деревьев

A

B

C

D

C

A

B

4 OTUs 4 OTUs 3 3 неукорененных филогенетических неукорененных филогенетических деревьевдеревьев

D

B

A

C C

B

A

D

4 OTUs

15 укорененных

деревьев

Количество Количество Количество

OTU укорененных неукорененных

2 1 13 3 14 15 35 105 156 954 1057 103959548 135135 103959 2027025 13513510 34459425 202702511 654729075 3445942512 13749310575 654729075

Количество возможных деревьев

Рутинная процедура или как строят деревья

Составление выборки последовательностей

Множественное выравнивание

Построение дерева фрагмент записи в виде скобочной формулы

Визуализация и редактура дерева

(((((con1013851018(f539692826973((f67220839851max42750591)492893con923019677)1362315)953075)2583145

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Множественное выравнивание

Matches

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Multiple Alignment

Matches

Mismatches

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Multiple Alignment

Matches

Mismatches

Gaps

Seq 1 A G C G A GSeq 1 A G C G A GSeq 2 G C G G A CSeq 2 G C G G A C

Шаг 3 Перевод количества расхождений в индексы замен

Distance Matrix

Units количество замен нуклеотидов на 1000

Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86

Rice 00 118 122 122

Mosquito 00 55 51

Monkey 00 3

Human 00

Шаг 4 построение филогенетического дерева

Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86

Rice 00 118 122 122

Mosquito 00 55 51

Monkey 00 3

Human 00

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Дистанция между человеком и обезьяной минимальна Эти группы объединяются в Monkey-Human а все остальные дистанции пересчитываются

Dist[Spinach MonHum] = (Dist[Spinach Monkey] +

Dist[Spinach Human])2 = (91 + 86)2 = 885

Spinach Rice Mosquito Mon-HumSpinach 00 9 106 885

Rice 00 118 122

Mosquito 00 53

Mon-Hum 00

Редуцированная матрица дистанций

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Spi-Ric

HumanMosquito

Mon-Hum

MonkeySpinachRice

Mos-Mon-Hum

Spi-Ric

Mos-Mon-Hum-Spi-Ric

Как выбирать последовательности для дерева

Кроме случаев очень близких последовательностей проще работать с белками (а не с ДНК)

Придерживайтесь небольшой выборки (lt 50 последовательностей)

Избегайтеndash фрагментовndash Ксенологов (горизонтальный перенос генов)ndash рекомбинантных последовательностейndash многодоменных белков и повторов

Используйте outgroup (последовательность ответвившаяся от общего предка заведомо (но минимально) раньше разделения интересующих групп-клад)

Самое главное ndash хорошее выравнивание

Максимальный вклад в финальное дерево нельзя построить хорошее дерево по плохому выравниванию

Блоки содержащие много гэпов плохо выровненные N- и C- концы можно просто вырезать

Основные алгоритмы построения филогенетических деревьев

Методы основанные на оценке

расстояний (матричные методы)

bull UPGMA (кластеризация)

bull Neighbor-joining

bull Минимальная эволюция

Наибольшего правдоподобия Maximal likelihood ML Используется модель эволюции и строится дерево которое наиболее правдоподобно при данной модели

Максимальной экономии (бережливости)

maximal parsimony MP Выбирается дерево с минимальным количеством

мутаций необходимых для объяснения данных

Пример матрицы расстояний

1 2 3 4 5 6 7 8 000 1053 977 1278 1203 1654 1353 2500 HUMAN 1

000 902 1203 977 1579 902 2727 HORSE 2 000 977 902 1654 1203 2424 RABIT 3

000 226 1729 1053 2576 MOUSE 4 000 1579 827 2576 RAT 5

000 1053 2955 BOVIN 6 000 2500 PIG 7

000 CHICK 8

Расстояние (уровень дивергенции) между соответствующими последовательностями из геномов мыши и свиньи

Как понимать расстояние между объектами

bull Как время в течение которого они эволюционировалиbull Как число laquoэволюционных событийraquo (мутаций)

В первом случае объекты образуют ультраметрическое пространство(если все объекты наблюдаются в одно время что как правило верно)

Но время непосредственно измерить невозможно

Гипотеза laquoмолекулярных часовraquo(EZuckerkandl LPauling 1962)

За равное время во всех ветвях эволюции данного генабелка накапливается равное число мутацийЕсли гипотеза молекулярных часов

принимается число различий между выровненными последовательностями можно считать примерно пропорциональным времени Отклонения от ультраметричности можно считать случайными Эволюция реконструируется в виде ультраметрического дерева

Укоренённое дерево называется ультраметрическим если расстояние от корня до любого из листьев одинаково

UPGMAUnweighted Pair Group Method with Arithmetic Mean

разновидность кластерного метода

Расстояние между кластерами вычисляется как среднее арифметическое всевозможных расстояний между последовательностями из кластеров

Недостатки UPGMA

Алгоритм строит ультраметрическое дерево ndash скорость эволюции предполагается одинаковой для всех ветвей дерева Использовать этот алгоритм имеет смысл только в случае ультраметрических данных (справедливости laquoмолекулярных часовraquo)

Реальное дерево UPGMA

Метод ближайших соседей (Neighbor-joining NJ)

Строит неукоренённое дерево

Может работать с большим количеством данных

Достаточно быстрый

Если есть недвусмысленное с точки зрения эксперта дерево то оно будет построено

Метод Neighbor-joining

Рисуем laquoзвездноеraquo дерево и будем laquoотщипыватьraquo от него по паре листьев

Пусть ui = Σk Mik(n-2) mdash среднее расстояние от листа i до других

листьев

1 Рассмотрим все возможные пары листьев Выберем 2 листа i и j с минимальным значением величины

Mij ndash ui ndashuj

те выбираем 2 узла которые близки друг к другу но далеки ото всех остальных

Метод ближайших соседей (Neighbor-joining NJ)

2 Кластер (i j) ndash новый узел дерева

Расстояние от i или от j до узла (ij) D(i (ij)) = 05middot(Mij + ui ndash uj) D(j (ij)) = 05middot (Mij + uj ndash ui) те длина ветви зависит от среднего расстояния до других вершин

3 Вычисляем расстояние от нового кластера до всех других

M(ij)k = Mik+Mjk ndash Mij 2

5 В матрице М убираем i и j и добавляем (i j) Повторяем пока не останутся 3 узла

Input MSA для n последовательностей одна последовательность для каждого вида

AAAAATC

AAAAAAG

CCCCCCG

AAAAATCAAAAAAG

CCCCCCG

Длинная ветвь ndash непохоже на правду

Длинная ветвь -Похоже на правду

Методы основанные на последовательностях Maximum Likelihood (ML) Maximum Parsimony (MP)

Как изобразить дерево Топология дерева

Топология дерева mdash только листья узлы (корень) и связывающие их ветви (топология не зависит от способа изображения дерева)

A

B

C

D

E A BC D E

Два изображения одной и той же топологии

Bacterium 1

Bacterium 3

Bacterium 2

Eukaryote 1

Eukaryote 4

Eukaryote 3

Eukaryote 2

Bacterium 1

Bacterium 3Bacterium 2

Eukaryote 1

Eukaryote 4Eukaryote 3

Eukaryote 2

Филограммы ndash длины ветвей

пропорциональны

эволюционному расстоянию

Кладограммы и филограммы

Кладограммы ndash только

топологя Длины ветвей не

учитываются

6

31

2

46

24

53

Как можно нарисовать построенное дерево

Какие on-line программы строят деревья

ClustalW ldquoTree typerdquo ndash nj phylip строит только методом NJ но результат ndash в разных форматах no bootstraps

Phylip (Felsenstein 1993) ndash пакет программ для построения филогенетических деревьев (stand-alone)On-line (partly) например

httpbiowebpasteurfrseqanalphylogenyphylip-ukhtml PAUP (Phylogenetic Analysis Using Parsimony)

MEGA филогенетический анализ последовательностей

httpwwwmegasoftwarenet

Эволюция ndash исторический процесс

Из 8200794532637891559375 деревьев для 20 OTUs 1

является верным и 8200794532637891559374

неверны

Truth is one falsehoods are many

Какое из 8200794532637891559375

деревьев истинно

Мы не знаем Можно применить иные критетии

Например ldquoпохожесть=родствоraquo

GCGbull Строковый поиск простой текстовый

поиск по локальной базе данных

bull Поиск в определениях или в аннотациях

bull Определения содержат минимальное количество информации для каждой статьи доступ имя организма имя гена длина последовательности дата

  • Bestfit Output
  • SP1 at swissprot
  • EGR1 at swissprot
  • Вывод
  • Bl2Seq at NCBI
  • Bl2seq results
  • Bl2seq оценка
  • Оптимизация времени вычислений при парном выравнивании
  • Slide 9
  • Алгоритм BLAST (шаг 1)
  • Slide 11
  • Blast
  • Поиск гомологов
  • ДНК или белок
  • ДНК
  • Slide 16
  • Slide 17
  • Двойная спираль
  • ДНК дальнейшая упаковка
  • Slide 20
  • Репликация ДНК
  • Slide 22
  • Slide 23
  • Slide 24
  • Slide 25
  • Множественное выравнивание последовательностей (MSA)
  • Slide 27
  • Основные предположения
  • Например
  • Почему множественное выравнивание
  • Slide 31
  • Подходы в MSA
  • MSA algorithm
  • Multiple Alignment - алгоритм
  • Комментарии
  • GCG
  • Slide 37
  • GCG
  • Slide 39
  • Slide 40
  • Slide 41
  • ClustalW
  • Slide 43
  • Slide 44
  • ClustalW на EMBL
  • ClustalW на EMBL - результат
  • ClustalW at EMBL - Jalview
  • Consensus Sequence
  • Профиль (Profile)
  • Profile vs Consensus
  • Slide 51
  • Slide 52
  • Psi Blast (NCBI)
  • PSI-Blast
  • Psi-Blast вывод
  • Slide 56
  • Филогенез
  • Slide 58
  • Slide 59
  • Slide 60
  • Slide 61
  • Древо видов и генов
  • Ортологи и паралоги
  • Шаги реконструирования филогенетического древа
  • Филогенетическое дерево
  • Зачем нужны филогенетические деревья
  • Терминология
  • Slide 68
  • Какие бывают деревья
  • Slide 70
  • Slide 71
  • Slide 72
  • 4 OTUs 3 неукорененных филогенетических деревьев
  • Slide 74
  • Slide 75
  • Slide 76
  • Slide 77
  • Рутинная процедура или как строят деревья
  • Slide 79
  • Slide 80
  • Slide 81
  • Slide 82
  • Slide 83
  • Slide 84
  • Slide 85
  • Slide 86
  • Slide 87
  • Slide 88
  • Slide 89
  • Как выбирать последовательности для дерева
  • Самое главное ndash хорошее выравнивание
  • Основные алгоритмы построения филогенетических деревьев
  • Пример матрицы расстояний
  • Slide 94
  • Гипотеза laquoмолекулярных часовraquo (EZuckerkandl LPauling 1962)
  • UPGMA Unweighted Pair Group Method with Arithmetic Mean
  • Недостатки UPGMA
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Метод Neighbor-joining
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Slide 101
  • Как изобразить дерево Топология дерева
  • Slide 103
  • Какие on-line программы строят деревья
  • MEGA филогенетический анализ последовательностей
  • Slide 106
  • Slide 107
  • Slide 108
Page 30: Bestfit Output

Почему множественное выравнивание

Позволяет дать характеристику семействам белков найти общие участки гомологов

Например семейство Serine protease семейство отвечающее за катализ гидролиз пептидных связей

bull Одинаковые активные центры

bull Общие участка последовательности

bull MSA ndash это первый предварительный шаг к анализу в области молекулярной эволюции и построения эволюционных деревьев

bull База для филогенеза ndash данные молекулярной биологии или морфологические данные

Подходы в MSA

2 разных подходаndash 1D sequence based ndash сравнение

последовательностейndash 2D-3D based ndash выравнивание базирующееся на

структуре

MSA algorithm

bull Попарное выравнивание всех последовательностей (pairwise alignment)

bull Кластерный анализ данных парного выравнивания для получения иерархии выравниваний (guide tree)

bull Построение множественного выравнивания (MSA) пошагово в соответствии с guide tree сначала выравнивают наиболее похожие пары затем добавляют остальные и тд

Multiple Alignment - алгоритм

(1) Парное выравнивание (подготовка guide tree)

6 pairwise alignments

then cluster analysis

(2) Множественное выравнивание следуя древу из п 1

successive alignments

Комментарии

bull Парное выравнивание - оптимальный алгоритм

bull Множественное выравнивание не является оптимальным алгоритмом Вполне могут существовать и лучшие выравнивания

bull Редакторы выравниваний могут быть полезны для корректировки

GCG

Pileup глобальный MSA

pileup [list of sequence names]

pileup hemoglobin_list

1 The sign means that the file contains a list of names

2 The list can include names from the userrsquos directory or code names (accession numbers) from the GCG databases

GCGПример входного файла

swhbb_human

swhbb_rat

swhbb_mouse

Hemoglobin_Alpha

Hemoglobin_Gamma

Hemogolibin_Delta

Syntax the file starts with ldquordquo

Sequences from the databases

Sequences from the userrsquos directory

GCG PileUp creates a multiple sequence alignment from a group of relatedsequences using progressive pairwise alignments It can also plot atree showing the clustering relationships used to create the alignment

1 IPNS_STRJU 329 aa 2 IPNS_STRCL 329 aa 3 IPNS_CEPAC 338 aa 4 IPNS_NOCLA 328 aa

What is the gap creation penalty ( 8 ) What is the gap extension penalty ( 2 )

This program can display the clustering relationships graphically Do you want to A) Plot to a FIGURE file called pileupfigure B) Plot graphics on HP7550 attached to devtty15 C) Suppress the plot Please choose one ( A ) c What should I call the output file name ( ipnsmsf )

Determining pairwise similarity scores

1 x 2 443 1 x 3 312 1 x 4 412 2 x 3 294 2 x 4 405 3 x 4 309

Aligning

Total sequences 4 Alignment length 338 CPU time 0021

Output filedatausersracheliothersracheliipnsmsf

Regular GCG syntaxDefault parametersoutput file etc

GCGAA_MULTIPLE_ALIGNMENT 10PileUp of ipnsfil

Symbol comparison table GenRunDatablosum62cmp CompCheck 1102 GapWeight 8 GapLengthWeight 2 ipnsmsf MSF 338 Type P March 14 2002 0929 Check 7631

Name IPNS_STRJU Len 338 Check 6344 Weight 100 Name IPNS_STRCL Len 338 Check 4249 Weight 100 Name IPNS_NOCLA Len 338 Check 7020 Weight 100 Name IPNS_CEPAC Len 338 Check 18 Weight 100

1 50IPNS_STRJU ~MPILMPSAE VPTIDISPLS GDDAKAKQRV AQEINKAARG SGFFYASNHGIPNS_STRCL ~MPVLMPSAH VPTIDISPLF GTDAAAKKRV AEEIHGACRG SGFFYATNHGIPNS_NOCLA ~~~MKMPSAE VPTIDVSPLF GDDAQEKVRV GQEINKACRG SGFFYAANHGIPNS_CEPAC MGSVPVPVAN VPRIDVSPLF GDDKEKKLEV ARAIDAASRD TGFFYAVNHG

51 100IPNS_STRJU VDVQLLQDVV NEFHRNMSDQ EKHDLAINAY NKDNPHVRN GYYKAIKGKKIPNS_STRCL VDVQQLQDVV NEFHGAMTDQ EKHDLAIHAY NPDNPHVRN GYYKAVPGRKIPNS_NOCLA VDVQRLQDVV NEFHRTMSPQ EKYDLAIHAY NKNNSHVRN GYYMAIEGKKIPNS_CEPAC VDLPWLSRET NKFHMSITDE EKWQLAIRAY NKEHESQIRA GYYLPIPGKK

Output filemsf format

GCG

Prettybox генерирует графический файл из файла MSA

prettybox [MSA file]

prettybox hemoglobinsmsf

1 The ldquordquo is a syntax sign meaning all the sequences in the MSA file

2 Can also calculate the consensus sequence

GCG

ClustalWbull Очень известная и широко распространённая

программа UNIX Internet Windows

bull Выполняет MSA может строить филогенетические деревья

bull Входной файл ndash формат multi-fasta

ClustalW

bull tofasta list

gtIPNS_STRJU P18286

MPILMPSAEVPTIDISPLSGDDAKAKQRVAQEINKAARGSGFFYASNHGVDVQLLQDVVN

EFHRNMSDQEKHDLAINAYNKDNPHVRNGYYKAIKGKKAVESFCYLNPSFSDDHPMIKSE

TPMHEVNLWPDEEKHPRFRPFCEDYYRQLLRLSTVIMRGYALALGRREDFFDEALAEADT

LSSVSLIRYPYLEEYPPVKTGADGTKLSFEDHLDVSMITVLYQTEVQNLQVETVDGWQDI

PRSDEDFLVNCGTYMGHITHDYFPAPNHRVKFINAERLSLPFFLNAGHNSVIEPFVPEGA

AGTVKNPTTSYGEYLQHGLRALIVKNGQT

gtIPNS_STRCL P10621

MPVLMPSAHVPTIDISPLFGTDAAAKKRVAEEIHGACRGSGFFYATNHGVDVQQLQDVVN

EFHGAMTDQEKHDLAIHAYNPDNPHVRNGYYKAVPGRKAVESFCYLNPDFGEDHPMIAAG

TPMHEVNLWPDEERHPRFRPFCEGYYRQMLKLSTVLMRGLALALGRPEHFFDAALAEQDS

LSSVSLIRYPYLEEYPPVKTGPDGQLLSFEDHLDVSMITVLFQTQVQNLQVETVDGWRDI

PTSENDFLVNCGTYMAHVTNDYFPAPNHRVKFVNAERLSLPFFLNGGHEAVIEPFVPEGA

SEEVRNEALSYGDYLQHGLRALIVKNGQT

input fileMulti-fasta

Making the file in unix

ClustalWCLUSTAL W (17) multiple sequence alignment

IPNS_STRJU -MPILMPSAEVPTIDISPLSGDDAKAKQRVAQEINKAARGSGFFYASNHGVDVQLLQDVVIPNS_STRGR -MPIPMLPAHVPTIDISPLSGGDADDKKRVAQEINKACRESGFFYASHHGIDVQLLKDVVIPNS_FLASS ----MNRHADVPVIDISGLSGNDMDVKKDIAARIDRACRGSGFFYAANHGVDLAALQKFTIPNS_PENCH --MASTPKANVPKIDVSPLFGDNMEEKMKVARAIDAASRDTGFFYAVNHGVDVKRLSNKTIPNS_CEPAC MGSVPVPVANVPRIDVSPLFGDDKEKKLEVARAIDAASRDTGFFYAVNHGVDLPWLSRET

IPNS_STRJU NEFHRNMSDQEKHDLAINAYNKDNP-HVRNGYYKAIKGKKAVESFCYLNPSFSDDHPMIKIPNS_STRGR NEFHRTMTDEEKYDLAINAYNKNNP-RTRNGYYMAVKGKKAVESWCYLNPSFSEDHPQIRIPNS_FLASS TDWHMAMSAEEKWELAIRAYNPANP-RNRNGYYMAVEGKKANESFCYLNPSFDADHATIKIPNS_PENCH REFHFSITDEEKWDLAIRAYNKEHQDQIRAGYYLSIPEKKAVESFCYLNPNFKPDHPLIQIPNS_CEPAC NKFHMSITDEEKWQLAIRAYNKEHESQIRAGYYLPIPGKKAVESFCYLNPSFSPDHPRIK

Выходной файл aln format

httpwwwebiacukhelpformatshtml

форматы

ClustalW на EMBL

ClustalW на EMBL - результат

ClustalW at EMBL - Jalview

Conservation

Consensus Sequence

Мы можем вывести consensus sequence из результатов MSA The consensus sequence содержит наиболее часто встречающийся символ в кажной колонке выравнивания

A T C T T G T

A A C T T G T

A A C T T C T

A A C T T G T

Ещё пара терминовhelliphellip

Профиль (Profile)

Также возможно вывести статистическую модель описывающую MSA Профиль содержит информацию о символах в каждом столбце выравнивания

A T C T T G T

A A C T T G T

A A C T T C T

1 2 3 4 5 6

A 1 067 0 0

T 0 033 1 1

C 0 0 0 0

G 0 0 0 0

Profile vs Consensus

Consensus каждая позиция отражает наиболее часто встречающийся символ

Profile каждая позиция отражает частоту символа в данной позиции

Profile vs Consensus

Данный MSA будет иметь одинаковый consensus

A A C T T G C

A A G T C G T

C A C T T C T

A A C T T G T

A A C T T G T

A A C T T C T

A A C T T G T

Profile vs Consensus

Но разный профиль

A A C T T G C

A A G T C G T

C A C T T C T

A A C T T G T

A A C T T G T

A A C T T C T

1 2 3 4 5 6

A 066 1 0 0

T 0 0 0 1

C 033 0 066 0

G 0 0 033 0

1 2 3 4 5 6

A 1 1 0 0

T 0 0 0 1

C 0 0 1 0

G 0 0 0 0

Psi Blast (NCBI)

Position Specific Iterated ndash автоматизированный поиск по профилю

Regular blast

Construct profile from blast results

Blast profile search

Final results

PSI-Blast

Psi-Blast вывод

Проблема формулировки выводов при использовании МSA

1 Сайт выглядит общим (фиксированным) из-за того что это ndash близкородственные последовательности

2 Сайт выглядит общим из-за того что это ndash исключительно жизненно важный сайт

ФилогенезЭволюция ndash случайный процесс с неслучайным результатом

Цели филогенетического исследования

bull Реконструкция корректных генеалогических связей

между биологическими объектами

bull Оценка времени расхождения организмов

bull Определение порядка эволюционных событий в процессе

эволюции

Формат Newick

((A(BC))(DE))

Типы данных

Molecular (DNA RNA proteins)

Morphological (soft tissue hard tissue extant extinct)

Преимущества молекулярных данных

bull Наследуемость

bull Недвусмысленность в описании молекулярных характеристик

bull Поддаются количественному анализу

bull Оценка гомологии легче чем морфологические исследования

bull Данных много

Древо видов и геновbull Древо видов ndash эволюционные взаимосвязи

между видами (видообразование)bull Древо генов

Page RDM and Cotton JC (2000) GeneTree a tool for exploring gene family evolution In D Sankoff and J Nadeau (eds) Comparative Genomics Empirical and Analytical Approaches to Gene Order Dynamics Map Alignment and the Evolution of Gene Families Kluwer Academic Publishers Dordrecht pp 525-536

Figure 2 (a) Incongruent gene and species trees This incongruence can be explained by hypothesizing a gene duplication (h) at the base of the gene tree (b)The presence of only a single gene (a-d) extant in each of the present-day species(1-4) requires postulating three gene losses (c) The corresponding reconciled tree

Ортологи и паралоги

bull Гены-паралоги ndash событие дупликация (and

bull Гены-ортологи ndash событие видообразования (in the two species and in the two species

Duplication

Speciation

Species a Species b

Шаги реконструирования филогенетического

древа

1 Выбор последовательностей и поиск гомологов

2 MSA3 Матрица белков4 Филогенетическое дерево

Филогенетическое дерево

Филогения - раздел биологии изучающий родственные взаимоотношения разных групп живых организмов Филогению отображается обычно в виде эволюционных древ или систематических названий

Зачем нужны филогенетические деревья

Биологические задачи

сравнение 3-х и более объектов (кто на кого более похож )

реконструкция эволюции (кто от кого как и когда произошелhellip)

ТерминологияУзел (node) mdash точка разделения предковой последовательности(вида популяции) на две независимо эволюционирующиеСоответствует внутренней вершине графа изображающего эволюциюЛист (leaf OTU ndash оперативная таксономическая единица) mdash реальный (современный) объект внешняя вершина графаВетвь (branch) mdash связь между узлами или между узлом и листом ребро графаКорень (root) mdash общий предокКлада (clade) - группа двух или более таксонов или последователь-ностей ДНК которая включает как своего общего предка так и всех его потомков

OTU

HTU (hypotetical taxonomic unit)

Какие бывают деревья

Бинарное (разрешённое)(в один момент времени может

произойти только одно событие )

Небинарное (неразрешённое) (может ли в один момент времени

произойти два события )

Время

Какие бывают деревья

Укорененное дерево (rooted tree)отражает направление эволюции

Неукорененное (бескорневое) дерево(unrooted tree) показывает только связи между узлами

Время

Если число листьев равно n существует (2n-3)разных бинарных укоренных деревьевПо определению (2n-3) = 1middot3 middot middot(2n-3)

Существует (2n-5) разных бескорневых деревьев с n листьями

Rooting

A C B B C AA B C

3 OTUs 3 OTUs 1 н 1 неукорененное деревоеукорененное дерево 33 укорененных деревьев укорененных деревьев

A

B

C

D

C

A

B

4 OTUs 4 OTUs 3 3 неукорененных филогенетических неукорененных филогенетических деревьевдеревьев

D

B

A

C C

B

A

D

4 OTUs

15 укорененных

деревьев

Количество Количество Количество

OTU укорененных неукорененных

2 1 13 3 14 15 35 105 156 954 1057 103959548 135135 103959 2027025 13513510 34459425 202702511 654729075 3445942512 13749310575 654729075

Количество возможных деревьев

Рутинная процедура или как строят деревья

Составление выборки последовательностей

Множественное выравнивание

Построение дерева фрагмент записи в виде скобочной формулы

Визуализация и редактура дерева

(((((con1013851018(f539692826973((f67220839851max42750591)492893con923019677)1362315)953075)2583145

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Множественное выравнивание

Matches

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Multiple Alignment

Matches

Mismatches

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Multiple Alignment

Matches

Mismatches

Gaps

Seq 1 A G C G A GSeq 1 A G C G A GSeq 2 G C G G A CSeq 2 G C G G A C

Шаг 3 Перевод количества расхождений в индексы замен

Distance Matrix

Units количество замен нуклеотидов на 1000

Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86

Rice 00 118 122 122

Mosquito 00 55 51

Monkey 00 3

Human 00

Шаг 4 построение филогенетического дерева

Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86

Rice 00 118 122 122

Mosquito 00 55 51

Monkey 00 3

Human 00

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Дистанция между человеком и обезьяной минимальна Эти группы объединяются в Monkey-Human а все остальные дистанции пересчитываются

Dist[Spinach MonHum] = (Dist[Spinach Monkey] +

Dist[Spinach Human])2 = (91 + 86)2 = 885

Spinach Rice Mosquito Mon-HumSpinach 00 9 106 885

Rice 00 118 122

Mosquito 00 53

Mon-Hum 00

Редуцированная матрица дистанций

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Spi-Ric

HumanMosquito

Mon-Hum

MonkeySpinachRice

Mos-Mon-Hum

Spi-Ric

Mos-Mon-Hum-Spi-Ric

Как выбирать последовательности для дерева

Кроме случаев очень близких последовательностей проще работать с белками (а не с ДНК)

Придерживайтесь небольшой выборки (lt 50 последовательностей)

Избегайтеndash фрагментовndash Ксенологов (горизонтальный перенос генов)ndash рекомбинантных последовательностейndash многодоменных белков и повторов

Используйте outgroup (последовательность ответвившаяся от общего предка заведомо (но минимально) раньше разделения интересующих групп-клад)

Самое главное ndash хорошее выравнивание

Максимальный вклад в финальное дерево нельзя построить хорошее дерево по плохому выравниванию

Блоки содержащие много гэпов плохо выровненные N- и C- концы можно просто вырезать

Основные алгоритмы построения филогенетических деревьев

Методы основанные на оценке

расстояний (матричные методы)

bull UPGMA (кластеризация)

bull Neighbor-joining

bull Минимальная эволюция

Наибольшего правдоподобия Maximal likelihood ML Используется модель эволюции и строится дерево которое наиболее правдоподобно при данной модели

Максимальной экономии (бережливости)

maximal parsimony MP Выбирается дерево с минимальным количеством

мутаций необходимых для объяснения данных

Пример матрицы расстояний

1 2 3 4 5 6 7 8 000 1053 977 1278 1203 1654 1353 2500 HUMAN 1

000 902 1203 977 1579 902 2727 HORSE 2 000 977 902 1654 1203 2424 RABIT 3

000 226 1729 1053 2576 MOUSE 4 000 1579 827 2576 RAT 5

000 1053 2955 BOVIN 6 000 2500 PIG 7

000 CHICK 8

Расстояние (уровень дивергенции) между соответствующими последовательностями из геномов мыши и свиньи

Как понимать расстояние между объектами

bull Как время в течение которого они эволюционировалиbull Как число laquoэволюционных событийraquo (мутаций)

В первом случае объекты образуют ультраметрическое пространство(если все объекты наблюдаются в одно время что как правило верно)

Но время непосредственно измерить невозможно

Гипотеза laquoмолекулярных часовraquo(EZuckerkandl LPauling 1962)

За равное время во всех ветвях эволюции данного генабелка накапливается равное число мутацийЕсли гипотеза молекулярных часов

принимается число различий между выровненными последовательностями можно считать примерно пропорциональным времени Отклонения от ультраметричности можно считать случайными Эволюция реконструируется в виде ультраметрического дерева

Укоренённое дерево называется ультраметрическим если расстояние от корня до любого из листьев одинаково

UPGMAUnweighted Pair Group Method with Arithmetic Mean

разновидность кластерного метода

Расстояние между кластерами вычисляется как среднее арифметическое всевозможных расстояний между последовательностями из кластеров

Недостатки UPGMA

Алгоритм строит ультраметрическое дерево ndash скорость эволюции предполагается одинаковой для всех ветвей дерева Использовать этот алгоритм имеет смысл только в случае ультраметрических данных (справедливости laquoмолекулярных часовraquo)

Реальное дерево UPGMA

Метод ближайших соседей (Neighbor-joining NJ)

Строит неукоренённое дерево

Может работать с большим количеством данных

Достаточно быстрый

Если есть недвусмысленное с точки зрения эксперта дерево то оно будет построено

Метод Neighbor-joining

Рисуем laquoзвездноеraquo дерево и будем laquoотщипыватьraquo от него по паре листьев

Пусть ui = Σk Mik(n-2) mdash среднее расстояние от листа i до других

листьев

1 Рассмотрим все возможные пары листьев Выберем 2 листа i и j с минимальным значением величины

Mij ndash ui ndashuj

те выбираем 2 узла которые близки друг к другу но далеки ото всех остальных

Метод ближайших соседей (Neighbor-joining NJ)

2 Кластер (i j) ndash новый узел дерева

Расстояние от i или от j до узла (ij) D(i (ij)) = 05middot(Mij + ui ndash uj) D(j (ij)) = 05middot (Mij + uj ndash ui) те длина ветви зависит от среднего расстояния до других вершин

3 Вычисляем расстояние от нового кластера до всех других

M(ij)k = Mik+Mjk ndash Mij 2

5 В матрице М убираем i и j и добавляем (i j) Повторяем пока не останутся 3 узла

Input MSA для n последовательностей одна последовательность для каждого вида

AAAAATC

AAAAAAG

CCCCCCG

AAAAATCAAAAAAG

CCCCCCG

Длинная ветвь ndash непохоже на правду

Длинная ветвь -Похоже на правду

Методы основанные на последовательностях Maximum Likelihood (ML) Maximum Parsimony (MP)

Как изобразить дерево Топология дерева

Топология дерева mdash только листья узлы (корень) и связывающие их ветви (топология не зависит от способа изображения дерева)

A

B

C

D

E A BC D E

Два изображения одной и той же топологии

Bacterium 1

Bacterium 3

Bacterium 2

Eukaryote 1

Eukaryote 4

Eukaryote 3

Eukaryote 2

Bacterium 1

Bacterium 3Bacterium 2

Eukaryote 1

Eukaryote 4Eukaryote 3

Eukaryote 2

Филограммы ndash длины ветвей

пропорциональны

эволюционному расстоянию

Кладограммы и филограммы

Кладограммы ndash только

топологя Длины ветвей не

учитываются

6

31

2

46

24

53

Как можно нарисовать построенное дерево

Какие on-line программы строят деревья

ClustalW ldquoTree typerdquo ndash nj phylip строит только методом NJ но результат ndash в разных форматах no bootstraps

Phylip (Felsenstein 1993) ndash пакет программ для построения филогенетических деревьев (stand-alone)On-line (partly) например

httpbiowebpasteurfrseqanalphylogenyphylip-ukhtml PAUP (Phylogenetic Analysis Using Parsimony)

MEGA филогенетический анализ последовательностей

httpwwwmegasoftwarenet

Эволюция ndash исторический процесс

Из 8200794532637891559375 деревьев для 20 OTUs 1

является верным и 8200794532637891559374

неверны

Truth is one falsehoods are many

Какое из 8200794532637891559375

деревьев истинно

Мы не знаем Можно применить иные критетии

Например ldquoпохожесть=родствоraquo

GCGbull Строковый поиск простой текстовый

поиск по локальной базе данных

bull Поиск в определениях или в аннотациях

bull Определения содержат минимальное количество информации для каждой статьи доступ имя организма имя гена длина последовательности дата

  • Bestfit Output
  • SP1 at swissprot
  • EGR1 at swissprot
  • Вывод
  • Bl2Seq at NCBI
  • Bl2seq results
  • Bl2seq оценка
  • Оптимизация времени вычислений при парном выравнивании
  • Slide 9
  • Алгоритм BLAST (шаг 1)
  • Slide 11
  • Blast
  • Поиск гомологов
  • ДНК или белок
  • ДНК
  • Slide 16
  • Slide 17
  • Двойная спираль
  • ДНК дальнейшая упаковка
  • Slide 20
  • Репликация ДНК
  • Slide 22
  • Slide 23
  • Slide 24
  • Slide 25
  • Множественное выравнивание последовательностей (MSA)
  • Slide 27
  • Основные предположения
  • Например
  • Почему множественное выравнивание
  • Slide 31
  • Подходы в MSA
  • MSA algorithm
  • Multiple Alignment - алгоритм
  • Комментарии
  • GCG
  • Slide 37
  • GCG
  • Slide 39
  • Slide 40
  • Slide 41
  • ClustalW
  • Slide 43
  • Slide 44
  • ClustalW на EMBL
  • ClustalW на EMBL - результат
  • ClustalW at EMBL - Jalview
  • Consensus Sequence
  • Профиль (Profile)
  • Profile vs Consensus
  • Slide 51
  • Slide 52
  • Psi Blast (NCBI)
  • PSI-Blast
  • Psi-Blast вывод
  • Slide 56
  • Филогенез
  • Slide 58
  • Slide 59
  • Slide 60
  • Slide 61
  • Древо видов и генов
  • Ортологи и паралоги
  • Шаги реконструирования филогенетического древа
  • Филогенетическое дерево
  • Зачем нужны филогенетические деревья
  • Терминология
  • Slide 68
  • Какие бывают деревья
  • Slide 70
  • Slide 71
  • Slide 72
  • 4 OTUs 3 неукорененных филогенетических деревьев
  • Slide 74
  • Slide 75
  • Slide 76
  • Slide 77
  • Рутинная процедура или как строят деревья
  • Slide 79
  • Slide 80
  • Slide 81
  • Slide 82
  • Slide 83
  • Slide 84
  • Slide 85
  • Slide 86
  • Slide 87
  • Slide 88
  • Slide 89
  • Как выбирать последовательности для дерева
  • Самое главное ndash хорошее выравнивание
  • Основные алгоритмы построения филогенетических деревьев
  • Пример матрицы расстояний
  • Slide 94
  • Гипотеза laquoмолекулярных часовraquo (EZuckerkandl LPauling 1962)
  • UPGMA Unweighted Pair Group Method with Arithmetic Mean
  • Недостатки UPGMA
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Метод Neighbor-joining
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Slide 101
  • Как изобразить дерево Топология дерева
  • Slide 103
  • Какие on-line программы строят деревья
  • MEGA филогенетический анализ последовательностей
  • Slide 106
  • Slide 107
  • Slide 108
Page 31: Bestfit Output

bull MSA ndash это первый предварительный шаг к анализу в области молекулярной эволюции и построения эволюционных деревьев

bull База для филогенеза ndash данные молекулярной биологии или морфологические данные

Подходы в MSA

2 разных подходаndash 1D sequence based ndash сравнение

последовательностейndash 2D-3D based ndash выравнивание базирующееся на

структуре

MSA algorithm

bull Попарное выравнивание всех последовательностей (pairwise alignment)

bull Кластерный анализ данных парного выравнивания для получения иерархии выравниваний (guide tree)

bull Построение множественного выравнивания (MSA) пошагово в соответствии с guide tree сначала выравнивают наиболее похожие пары затем добавляют остальные и тд

Multiple Alignment - алгоритм

(1) Парное выравнивание (подготовка guide tree)

6 pairwise alignments

then cluster analysis

(2) Множественное выравнивание следуя древу из п 1

successive alignments

Комментарии

bull Парное выравнивание - оптимальный алгоритм

bull Множественное выравнивание не является оптимальным алгоритмом Вполне могут существовать и лучшие выравнивания

bull Редакторы выравниваний могут быть полезны для корректировки

GCG

Pileup глобальный MSA

pileup [list of sequence names]

pileup hemoglobin_list

1 The sign means that the file contains a list of names

2 The list can include names from the userrsquos directory or code names (accession numbers) from the GCG databases

GCGПример входного файла

swhbb_human

swhbb_rat

swhbb_mouse

Hemoglobin_Alpha

Hemoglobin_Gamma

Hemogolibin_Delta

Syntax the file starts with ldquordquo

Sequences from the databases

Sequences from the userrsquos directory

GCG PileUp creates a multiple sequence alignment from a group of relatedsequences using progressive pairwise alignments It can also plot atree showing the clustering relationships used to create the alignment

1 IPNS_STRJU 329 aa 2 IPNS_STRCL 329 aa 3 IPNS_CEPAC 338 aa 4 IPNS_NOCLA 328 aa

What is the gap creation penalty ( 8 ) What is the gap extension penalty ( 2 )

This program can display the clustering relationships graphically Do you want to A) Plot to a FIGURE file called pileupfigure B) Plot graphics on HP7550 attached to devtty15 C) Suppress the plot Please choose one ( A ) c What should I call the output file name ( ipnsmsf )

Determining pairwise similarity scores

1 x 2 443 1 x 3 312 1 x 4 412 2 x 3 294 2 x 4 405 3 x 4 309

Aligning

Total sequences 4 Alignment length 338 CPU time 0021

Output filedatausersracheliothersracheliipnsmsf

Regular GCG syntaxDefault parametersoutput file etc

GCGAA_MULTIPLE_ALIGNMENT 10PileUp of ipnsfil

Symbol comparison table GenRunDatablosum62cmp CompCheck 1102 GapWeight 8 GapLengthWeight 2 ipnsmsf MSF 338 Type P March 14 2002 0929 Check 7631

Name IPNS_STRJU Len 338 Check 6344 Weight 100 Name IPNS_STRCL Len 338 Check 4249 Weight 100 Name IPNS_NOCLA Len 338 Check 7020 Weight 100 Name IPNS_CEPAC Len 338 Check 18 Weight 100

1 50IPNS_STRJU ~MPILMPSAE VPTIDISPLS GDDAKAKQRV AQEINKAARG SGFFYASNHGIPNS_STRCL ~MPVLMPSAH VPTIDISPLF GTDAAAKKRV AEEIHGACRG SGFFYATNHGIPNS_NOCLA ~~~MKMPSAE VPTIDVSPLF GDDAQEKVRV GQEINKACRG SGFFYAANHGIPNS_CEPAC MGSVPVPVAN VPRIDVSPLF GDDKEKKLEV ARAIDAASRD TGFFYAVNHG

51 100IPNS_STRJU VDVQLLQDVV NEFHRNMSDQ EKHDLAINAY NKDNPHVRN GYYKAIKGKKIPNS_STRCL VDVQQLQDVV NEFHGAMTDQ EKHDLAIHAY NPDNPHVRN GYYKAVPGRKIPNS_NOCLA VDVQRLQDVV NEFHRTMSPQ EKYDLAIHAY NKNNSHVRN GYYMAIEGKKIPNS_CEPAC VDLPWLSRET NKFHMSITDE EKWQLAIRAY NKEHESQIRA GYYLPIPGKK

Output filemsf format

GCG

Prettybox генерирует графический файл из файла MSA

prettybox [MSA file]

prettybox hemoglobinsmsf

1 The ldquordquo is a syntax sign meaning all the sequences in the MSA file

2 Can also calculate the consensus sequence

GCG

ClustalWbull Очень известная и широко распространённая

программа UNIX Internet Windows

bull Выполняет MSA может строить филогенетические деревья

bull Входной файл ndash формат multi-fasta

ClustalW

bull tofasta list

gtIPNS_STRJU P18286

MPILMPSAEVPTIDISPLSGDDAKAKQRVAQEINKAARGSGFFYASNHGVDVQLLQDVVN

EFHRNMSDQEKHDLAINAYNKDNPHVRNGYYKAIKGKKAVESFCYLNPSFSDDHPMIKSE

TPMHEVNLWPDEEKHPRFRPFCEDYYRQLLRLSTVIMRGYALALGRREDFFDEALAEADT

LSSVSLIRYPYLEEYPPVKTGADGTKLSFEDHLDVSMITVLYQTEVQNLQVETVDGWQDI

PRSDEDFLVNCGTYMGHITHDYFPAPNHRVKFINAERLSLPFFLNAGHNSVIEPFVPEGA

AGTVKNPTTSYGEYLQHGLRALIVKNGQT

gtIPNS_STRCL P10621

MPVLMPSAHVPTIDISPLFGTDAAAKKRVAEEIHGACRGSGFFYATNHGVDVQQLQDVVN

EFHGAMTDQEKHDLAIHAYNPDNPHVRNGYYKAVPGRKAVESFCYLNPDFGEDHPMIAAG

TPMHEVNLWPDEERHPRFRPFCEGYYRQMLKLSTVLMRGLALALGRPEHFFDAALAEQDS

LSSVSLIRYPYLEEYPPVKTGPDGQLLSFEDHLDVSMITVLFQTQVQNLQVETVDGWRDI

PTSENDFLVNCGTYMAHVTNDYFPAPNHRVKFVNAERLSLPFFLNGGHEAVIEPFVPEGA

SEEVRNEALSYGDYLQHGLRALIVKNGQT

input fileMulti-fasta

Making the file in unix

ClustalWCLUSTAL W (17) multiple sequence alignment

IPNS_STRJU -MPILMPSAEVPTIDISPLSGDDAKAKQRVAQEINKAARGSGFFYASNHGVDVQLLQDVVIPNS_STRGR -MPIPMLPAHVPTIDISPLSGGDADDKKRVAQEINKACRESGFFYASHHGIDVQLLKDVVIPNS_FLASS ----MNRHADVPVIDISGLSGNDMDVKKDIAARIDRACRGSGFFYAANHGVDLAALQKFTIPNS_PENCH --MASTPKANVPKIDVSPLFGDNMEEKMKVARAIDAASRDTGFFYAVNHGVDVKRLSNKTIPNS_CEPAC MGSVPVPVANVPRIDVSPLFGDDKEKKLEVARAIDAASRDTGFFYAVNHGVDLPWLSRET

IPNS_STRJU NEFHRNMSDQEKHDLAINAYNKDNP-HVRNGYYKAIKGKKAVESFCYLNPSFSDDHPMIKIPNS_STRGR NEFHRTMTDEEKYDLAINAYNKNNP-RTRNGYYMAVKGKKAVESWCYLNPSFSEDHPQIRIPNS_FLASS TDWHMAMSAEEKWELAIRAYNPANP-RNRNGYYMAVEGKKANESFCYLNPSFDADHATIKIPNS_PENCH REFHFSITDEEKWDLAIRAYNKEHQDQIRAGYYLSIPEKKAVESFCYLNPNFKPDHPLIQIPNS_CEPAC NKFHMSITDEEKWQLAIRAYNKEHESQIRAGYYLPIPGKKAVESFCYLNPSFSPDHPRIK

Выходной файл aln format

httpwwwebiacukhelpformatshtml

форматы

ClustalW на EMBL

ClustalW на EMBL - результат

ClustalW at EMBL - Jalview

Conservation

Consensus Sequence

Мы можем вывести consensus sequence из результатов MSA The consensus sequence содержит наиболее часто встречающийся символ в кажной колонке выравнивания

A T C T T G T

A A C T T G T

A A C T T C T

A A C T T G T

Ещё пара терминовhelliphellip

Профиль (Profile)

Также возможно вывести статистическую модель описывающую MSA Профиль содержит информацию о символах в каждом столбце выравнивания

A T C T T G T

A A C T T G T

A A C T T C T

1 2 3 4 5 6

A 1 067 0 0

T 0 033 1 1

C 0 0 0 0

G 0 0 0 0

Profile vs Consensus

Consensus каждая позиция отражает наиболее часто встречающийся символ

Profile каждая позиция отражает частоту символа в данной позиции

Profile vs Consensus

Данный MSA будет иметь одинаковый consensus

A A C T T G C

A A G T C G T

C A C T T C T

A A C T T G T

A A C T T G T

A A C T T C T

A A C T T G T

Profile vs Consensus

Но разный профиль

A A C T T G C

A A G T C G T

C A C T T C T

A A C T T G T

A A C T T G T

A A C T T C T

1 2 3 4 5 6

A 066 1 0 0

T 0 0 0 1

C 033 0 066 0

G 0 0 033 0

1 2 3 4 5 6

A 1 1 0 0

T 0 0 0 1

C 0 0 1 0

G 0 0 0 0

Psi Blast (NCBI)

Position Specific Iterated ndash автоматизированный поиск по профилю

Regular blast

Construct profile from blast results

Blast profile search

Final results

PSI-Blast

Psi-Blast вывод

Проблема формулировки выводов при использовании МSA

1 Сайт выглядит общим (фиксированным) из-за того что это ndash близкородственные последовательности

2 Сайт выглядит общим из-за того что это ndash исключительно жизненно важный сайт

ФилогенезЭволюция ndash случайный процесс с неслучайным результатом

Цели филогенетического исследования

bull Реконструкция корректных генеалогических связей

между биологическими объектами

bull Оценка времени расхождения организмов

bull Определение порядка эволюционных событий в процессе

эволюции

Формат Newick

((A(BC))(DE))

Типы данных

Molecular (DNA RNA proteins)

Morphological (soft tissue hard tissue extant extinct)

Преимущества молекулярных данных

bull Наследуемость

bull Недвусмысленность в описании молекулярных характеристик

bull Поддаются количественному анализу

bull Оценка гомологии легче чем морфологические исследования

bull Данных много

Древо видов и геновbull Древо видов ndash эволюционные взаимосвязи

между видами (видообразование)bull Древо генов

Page RDM and Cotton JC (2000) GeneTree a tool for exploring gene family evolution In D Sankoff and J Nadeau (eds) Comparative Genomics Empirical and Analytical Approaches to Gene Order Dynamics Map Alignment and the Evolution of Gene Families Kluwer Academic Publishers Dordrecht pp 525-536

Figure 2 (a) Incongruent gene and species trees This incongruence can be explained by hypothesizing a gene duplication (h) at the base of the gene tree (b)The presence of only a single gene (a-d) extant in each of the present-day species(1-4) requires postulating three gene losses (c) The corresponding reconciled tree

Ортологи и паралоги

bull Гены-паралоги ndash событие дупликация (and

bull Гены-ортологи ndash событие видообразования (in the two species and in the two species

Duplication

Speciation

Species a Species b

Шаги реконструирования филогенетического

древа

1 Выбор последовательностей и поиск гомологов

2 MSA3 Матрица белков4 Филогенетическое дерево

Филогенетическое дерево

Филогения - раздел биологии изучающий родственные взаимоотношения разных групп живых организмов Филогению отображается обычно в виде эволюционных древ или систематических названий

Зачем нужны филогенетические деревья

Биологические задачи

сравнение 3-х и более объектов (кто на кого более похож )

реконструкция эволюции (кто от кого как и когда произошелhellip)

ТерминологияУзел (node) mdash точка разделения предковой последовательности(вида популяции) на две независимо эволюционирующиеСоответствует внутренней вершине графа изображающего эволюциюЛист (leaf OTU ndash оперативная таксономическая единица) mdash реальный (современный) объект внешняя вершина графаВетвь (branch) mdash связь между узлами или между узлом и листом ребро графаКорень (root) mdash общий предокКлада (clade) - группа двух или более таксонов или последователь-ностей ДНК которая включает как своего общего предка так и всех его потомков

OTU

HTU (hypotetical taxonomic unit)

Какие бывают деревья

Бинарное (разрешённое)(в один момент времени может

произойти только одно событие )

Небинарное (неразрешённое) (может ли в один момент времени

произойти два события )

Время

Какие бывают деревья

Укорененное дерево (rooted tree)отражает направление эволюции

Неукорененное (бескорневое) дерево(unrooted tree) показывает только связи между узлами

Время

Если число листьев равно n существует (2n-3)разных бинарных укоренных деревьевПо определению (2n-3) = 1middot3 middot middot(2n-3)

Существует (2n-5) разных бескорневых деревьев с n листьями

Rooting

A C B B C AA B C

3 OTUs 3 OTUs 1 н 1 неукорененное деревоеукорененное дерево 33 укорененных деревьев укорененных деревьев

A

B

C

D

C

A

B

4 OTUs 4 OTUs 3 3 неукорененных филогенетических неукорененных филогенетических деревьевдеревьев

D

B

A

C C

B

A

D

4 OTUs

15 укорененных

деревьев

Количество Количество Количество

OTU укорененных неукорененных

2 1 13 3 14 15 35 105 156 954 1057 103959548 135135 103959 2027025 13513510 34459425 202702511 654729075 3445942512 13749310575 654729075

Количество возможных деревьев

Рутинная процедура или как строят деревья

Составление выборки последовательностей

Множественное выравнивание

Построение дерева фрагмент записи в виде скобочной формулы

Визуализация и редактура дерева

(((((con1013851018(f539692826973((f67220839851max42750591)492893con923019677)1362315)953075)2583145

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Множественное выравнивание

Matches

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Multiple Alignment

Matches

Mismatches

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Multiple Alignment

Matches

Mismatches

Gaps

Seq 1 A G C G A GSeq 1 A G C G A GSeq 2 G C G G A CSeq 2 G C G G A C

Шаг 3 Перевод количества расхождений в индексы замен

Distance Matrix

Units количество замен нуклеотидов на 1000

Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86

Rice 00 118 122 122

Mosquito 00 55 51

Monkey 00 3

Human 00

Шаг 4 построение филогенетического дерева

Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86

Rice 00 118 122 122

Mosquito 00 55 51

Monkey 00 3

Human 00

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Дистанция между человеком и обезьяной минимальна Эти группы объединяются в Monkey-Human а все остальные дистанции пересчитываются

Dist[Spinach MonHum] = (Dist[Spinach Monkey] +

Dist[Spinach Human])2 = (91 + 86)2 = 885

Spinach Rice Mosquito Mon-HumSpinach 00 9 106 885

Rice 00 118 122

Mosquito 00 53

Mon-Hum 00

Редуцированная матрица дистанций

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Spi-Ric

HumanMosquito

Mon-Hum

MonkeySpinachRice

Mos-Mon-Hum

Spi-Ric

Mos-Mon-Hum-Spi-Ric

Как выбирать последовательности для дерева

Кроме случаев очень близких последовательностей проще работать с белками (а не с ДНК)

Придерживайтесь небольшой выборки (lt 50 последовательностей)

Избегайтеndash фрагментовndash Ксенологов (горизонтальный перенос генов)ndash рекомбинантных последовательностейndash многодоменных белков и повторов

Используйте outgroup (последовательность ответвившаяся от общего предка заведомо (но минимально) раньше разделения интересующих групп-клад)

Самое главное ndash хорошее выравнивание

Максимальный вклад в финальное дерево нельзя построить хорошее дерево по плохому выравниванию

Блоки содержащие много гэпов плохо выровненные N- и C- концы можно просто вырезать

Основные алгоритмы построения филогенетических деревьев

Методы основанные на оценке

расстояний (матричные методы)

bull UPGMA (кластеризация)

bull Neighbor-joining

bull Минимальная эволюция

Наибольшего правдоподобия Maximal likelihood ML Используется модель эволюции и строится дерево которое наиболее правдоподобно при данной модели

Максимальной экономии (бережливости)

maximal parsimony MP Выбирается дерево с минимальным количеством

мутаций необходимых для объяснения данных

Пример матрицы расстояний

1 2 3 4 5 6 7 8 000 1053 977 1278 1203 1654 1353 2500 HUMAN 1

000 902 1203 977 1579 902 2727 HORSE 2 000 977 902 1654 1203 2424 RABIT 3

000 226 1729 1053 2576 MOUSE 4 000 1579 827 2576 RAT 5

000 1053 2955 BOVIN 6 000 2500 PIG 7

000 CHICK 8

Расстояние (уровень дивергенции) между соответствующими последовательностями из геномов мыши и свиньи

Как понимать расстояние между объектами

bull Как время в течение которого они эволюционировалиbull Как число laquoэволюционных событийraquo (мутаций)

В первом случае объекты образуют ультраметрическое пространство(если все объекты наблюдаются в одно время что как правило верно)

Но время непосредственно измерить невозможно

Гипотеза laquoмолекулярных часовraquo(EZuckerkandl LPauling 1962)

За равное время во всех ветвях эволюции данного генабелка накапливается равное число мутацийЕсли гипотеза молекулярных часов

принимается число различий между выровненными последовательностями можно считать примерно пропорциональным времени Отклонения от ультраметричности можно считать случайными Эволюция реконструируется в виде ультраметрического дерева

Укоренённое дерево называется ультраметрическим если расстояние от корня до любого из листьев одинаково

UPGMAUnweighted Pair Group Method with Arithmetic Mean

разновидность кластерного метода

Расстояние между кластерами вычисляется как среднее арифметическое всевозможных расстояний между последовательностями из кластеров

Недостатки UPGMA

Алгоритм строит ультраметрическое дерево ndash скорость эволюции предполагается одинаковой для всех ветвей дерева Использовать этот алгоритм имеет смысл только в случае ультраметрических данных (справедливости laquoмолекулярных часовraquo)

Реальное дерево UPGMA

Метод ближайших соседей (Neighbor-joining NJ)

Строит неукоренённое дерево

Может работать с большим количеством данных

Достаточно быстрый

Если есть недвусмысленное с точки зрения эксперта дерево то оно будет построено

Метод Neighbor-joining

Рисуем laquoзвездноеraquo дерево и будем laquoотщипыватьraquo от него по паре листьев

Пусть ui = Σk Mik(n-2) mdash среднее расстояние от листа i до других

листьев

1 Рассмотрим все возможные пары листьев Выберем 2 листа i и j с минимальным значением величины

Mij ndash ui ndashuj

те выбираем 2 узла которые близки друг к другу но далеки ото всех остальных

Метод ближайших соседей (Neighbor-joining NJ)

2 Кластер (i j) ndash новый узел дерева

Расстояние от i или от j до узла (ij) D(i (ij)) = 05middot(Mij + ui ndash uj) D(j (ij)) = 05middot (Mij + uj ndash ui) те длина ветви зависит от среднего расстояния до других вершин

3 Вычисляем расстояние от нового кластера до всех других

M(ij)k = Mik+Mjk ndash Mij 2

5 В матрице М убираем i и j и добавляем (i j) Повторяем пока не останутся 3 узла

Input MSA для n последовательностей одна последовательность для каждого вида

AAAAATC

AAAAAAG

CCCCCCG

AAAAATCAAAAAAG

CCCCCCG

Длинная ветвь ndash непохоже на правду

Длинная ветвь -Похоже на правду

Методы основанные на последовательностях Maximum Likelihood (ML) Maximum Parsimony (MP)

Как изобразить дерево Топология дерева

Топология дерева mdash только листья узлы (корень) и связывающие их ветви (топология не зависит от способа изображения дерева)

A

B

C

D

E A BC D E

Два изображения одной и той же топологии

Bacterium 1

Bacterium 3

Bacterium 2

Eukaryote 1

Eukaryote 4

Eukaryote 3

Eukaryote 2

Bacterium 1

Bacterium 3Bacterium 2

Eukaryote 1

Eukaryote 4Eukaryote 3

Eukaryote 2

Филограммы ndash длины ветвей

пропорциональны

эволюционному расстоянию

Кладограммы и филограммы

Кладограммы ndash только

топологя Длины ветвей не

учитываются

6

31

2

46

24

53

Как можно нарисовать построенное дерево

Какие on-line программы строят деревья

ClustalW ldquoTree typerdquo ndash nj phylip строит только методом NJ но результат ndash в разных форматах no bootstraps

Phylip (Felsenstein 1993) ndash пакет программ для построения филогенетических деревьев (stand-alone)On-line (partly) например

httpbiowebpasteurfrseqanalphylogenyphylip-ukhtml PAUP (Phylogenetic Analysis Using Parsimony)

MEGA филогенетический анализ последовательностей

httpwwwmegasoftwarenet

Эволюция ndash исторический процесс

Из 8200794532637891559375 деревьев для 20 OTUs 1

является верным и 8200794532637891559374

неверны

Truth is one falsehoods are many

Какое из 8200794532637891559375

деревьев истинно

Мы не знаем Можно применить иные критетии

Например ldquoпохожесть=родствоraquo

GCGbull Строковый поиск простой текстовый

поиск по локальной базе данных

bull Поиск в определениях или в аннотациях

bull Определения содержат минимальное количество информации для каждой статьи доступ имя организма имя гена длина последовательности дата

  • Bestfit Output
  • SP1 at swissprot
  • EGR1 at swissprot
  • Вывод
  • Bl2Seq at NCBI
  • Bl2seq results
  • Bl2seq оценка
  • Оптимизация времени вычислений при парном выравнивании
  • Slide 9
  • Алгоритм BLAST (шаг 1)
  • Slide 11
  • Blast
  • Поиск гомологов
  • ДНК или белок
  • ДНК
  • Slide 16
  • Slide 17
  • Двойная спираль
  • ДНК дальнейшая упаковка
  • Slide 20
  • Репликация ДНК
  • Slide 22
  • Slide 23
  • Slide 24
  • Slide 25
  • Множественное выравнивание последовательностей (MSA)
  • Slide 27
  • Основные предположения
  • Например
  • Почему множественное выравнивание
  • Slide 31
  • Подходы в MSA
  • MSA algorithm
  • Multiple Alignment - алгоритм
  • Комментарии
  • GCG
  • Slide 37
  • GCG
  • Slide 39
  • Slide 40
  • Slide 41
  • ClustalW
  • Slide 43
  • Slide 44
  • ClustalW на EMBL
  • ClustalW на EMBL - результат
  • ClustalW at EMBL - Jalview
  • Consensus Sequence
  • Профиль (Profile)
  • Profile vs Consensus
  • Slide 51
  • Slide 52
  • Psi Blast (NCBI)
  • PSI-Blast
  • Psi-Blast вывод
  • Slide 56
  • Филогенез
  • Slide 58
  • Slide 59
  • Slide 60
  • Slide 61
  • Древо видов и генов
  • Ортологи и паралоги
  • Шаги реконструирования филогенетического древа
  • Филогенетическое дерево
  • Зачем нужны филогенетические деревья
  • Терминология
  • Slide 68
  • Какие бывают деревья
  • Slide 70
  • Slide 71
  • Slide 72
  • 4 OTUs 3 неукорененных филогенетических деревьев
  • Slide 74
  • Slide 75
  • Slide 76
  • Slide 77
  • Рутинная процедура или как строят деревья
  • Slide 79
  • Slide 80
  • Slide 81
  • Slide 82
  • Slide 83
  • Slide 84
  • Slide 85
  • Slide 86
  • Slide 87
  • Slide 88
  • Slide 89
  • Как выбирать последовательности для дерева
  • Самое главное ndash хорошее выравнивание
  • Основные алгоритмы построения филогенетических деревьев
  • Пример матрицы расстояний
  • Slide 94
  • Гипотеза laquoмолекулярных часовraquo (EZuckerkandl LPauling 1962)
  • UPGMA Unweighted Pair Group Method with Arithmetic Mean
  • Недостатки UPGMA
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Метод Neighbor-joining
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Slide 101
  • Как изобразить дерево Топология дерева
  • Slide 103
  • Какие on-line программы строят деревья
  • MEGA филогенетический анализ последовательностей
  • Slide 106
  • Slide 107
  • Slide 108
Page 32: Bestfit Output

Подходы в MSA

2 разных подходаndash 1D sequence based ndash сравнение

последовательностейndash 2D-3D based ndash выравнивание базирующееся на

структуре

MSA algorithm

bull Попарное выравнивание всех последовательностей (pairwise alignment)

bull Кластерный анализ данных парного выравнивания для получения иерархии выравниваний (guide tree)

bull Построение множественного выравнивания (MSA) пошагово в соответствии с guide tree сначала выравнивают наиболее похожие пары затем добавляют остальные и тд

Multiple Alignment - алгоритм

(1) Парное выравнивание (подготовка guide tree)

6 pairwise alignments

then cluster analysis

(2) Множественное выравнивание следуя древу из п 1

successive alignments

Комментарии

bull Парное выравнивание - оптимальный алгоритм

bull Множественное выравнивание не является оптимальным алгоритмом Вполне могут существовать и лучшие выравнивания

bull Редакторы выравниваний могут быть полезны для корректировки

GCG

Pileup глобальный MSA

pileup [list of sequence names]

pileup hemoglobin_list

1 The sign means that the file contains a list of names

2 The list can include names from the userrsquos directory or code names (accession numbers) from the GCG databases

GCGПример входного файла

swhbb_human

swhbb_rat

swhbb_mouse

Hemoglobin_Alpha

Hemoglobin_Gamma

Hemogolibin_Delta

Syntax the file starts with ldquordquo

Sequences from the databases

Sequences from the userrsquos directory

GCG PileUp creates a multiple sequence alignment from a group of relatedsequences using progressive pairwise alignments It can also plot atree showing the clustering relationships used to create the alignment

1 IPNS_STRJU 329 aa 2 IPNS_STRCL 329 aa 3 IPNS_CEPAC 338 aa 4 IPNS_NOCLA 328 aa

What is the gap creation penalty ( 8 ) What is the gap extension penalty ( 2 )

This program can display the clustering relationships graphically Do you want to A) Plot to a FIGURE file called pileupfigure B) Plot graphics on HP7550 attached to devtty15 C) Suppress the plot Please choose one ( A ) c What should I call the output file name ( ipnsmsf )

Determining pairwise similarity scores

1 x 2 443 1 x 3 312 1 x 4 412 2 x 3 294 2 x 4 405 3 x 4 309

Aligning

Total sequences 4 Alignment length 338 CPU time 0021

Output filedatausersracheliothersracheliipnsmsf

Regular GCG syntaxDefault parametersoutput file etc

GCGAA_MULTIPLE_ALIGNMENT 10PileUp of ipnsfil

Symbol comparison table GenRunDatablosum62cmp CompCheck 1102 GapWeight 8 GapLengthWeight 2 ipnsmsf MSF 338 Type P March 14 2002 0929 Check 7631

Name IPNS_STRJU Len 338 Check 6344 Weight 100 Name IPNS_STRCL Len 338 Check 4249 Weight 100 Name IPNS_NOCLA Len 338 Check 7020 Weight 100 Name IPNS_CEPAC Len 338 Check 18 Weight 100

1 50IPNS_STRJU ~MPILMPSAE VPTIDISPLS GDDAKAKQRV AQEINKAARG SGFFYASNHGIPNS_STRCL ~MPVLMPSAH VPTIDISPLF GTDAAAKKRV AEEIHGACRG SGFFYATNHGIPNS_NOCLA ~~~MKMPSAE VPTIDVSPLF GDDAQEKVRV GQEINKACRG SGFFYAANHGIPNS_CEPAC MGSVPVPVAN VPRIDVSPLF GDDKEKKLEV ARAIDAASRD TGFFYAVNHG

51 100IPNS_STRJU VDVQLLQDVV NEFHRNMSDQ EKHDLAINAY NKDNPHVRN GYYKAIKGKKIPNS_STRCL VDVQQLQDVV NEFHGAMTDQ EKHDLAIHAY NPDNPHVRN GYYKAVPGRKIPNS_NOCLA VDVQRLQDVV NEFHRTMSPQ EKYDLAIHAY NKNNSHVRN GYYMAIEGKKIPNS_CEPAC VDLPWLSRET NKFHMSITDE EKWQLAIRAY NKEHESQIRA GYYLPIPGKK

Output filemsf format

GCG

Prettybox генерирует графический файл из файла MSA

prettybox [MSA file]

prettybox hemoglobinsmsf

1 The ldquordquo is a syntax sign meaning all the sequences in the MSA file

2 Can also calculate the consensus sequence

GCG

ClustalWbull Очень известная и широко распространённая

программа UNIX Internet Windows

bull Выполняет MSA может строить филогенетические деревья

bull Входной файл ndash формат multi-fasta

ClustalW

bull tofasta list

gtIPNS_STRJU P18286

MPILMPSAEVPTIDISPLSGDDAKAKQRVAQEINKAARGSGFFYASNHGVDVQLLQDVVN

EFHRNMSDQEKHDLAINAYNKDNPHVRNGYYKAIKGKKAVESFCYLNPSFSDDHPMIKSE

TPMHEVNLWPDEEKHPRFRPFCEDYYRQLLRLSTVIMRGYALALGRREDFFDEALAEADT

LSSVSLIRYPYLEEYPPVKTGADGTKLSFEDHLDVSMITVLYQTEVQNLQVETVDGWQDI

PRSDEDFLVNCGTYMGHITHDYFPAPNHRVKFINAERLSLPFFLNAGHNSVIEPFVPEGA

AGTVKNPTTSYGEYLQHGLRALIVKNGQT

gtIPNS_STRCL P10621

MPVLMPSAHVPTIDISPLFGTDAAAKKRVAEEIHGACRGSGFFYATNHGVDVQQLQDVVN

EFHGAMTDQEKHDLAIHAYNPDNPHVRNGYYKAVPGRKAVESFCYLNPDFGEDHPMIAAG

TPMHEVNLWPDEERHPRFRPFCEGYYRQMLKLSTVLMRGLALALGRPEHFFDAALAEQDS

LSSVSLIRYPYLEEYPPVKTGPDGQLLSFEDHLDVSMITVLFQTQVQNLQVETVDGWRDI

PTSENDFLVNCGTYMAHVTNDYFPAPNHRVKFVNAERLSLPFFLNGGHEAVIEPFVPEGA

SEEVRNEALSYGDYLQHGLRALIVKNGQT

input fileMulti-fasta

Making the file in unix

ClustalWCLUSTAL W (17) multiple sequence alignment

IPNS_STRJU -MPILMPSAEVPTIDISPLSGDDAKAKQRVAQEINKAARGSGFFYASNHGVDVQLLQDVVIPNS_STRGR -MPIPMLPAHVPTIDISPLSGGDADDKKRVAQEINKACRESGFFYASHHGIDVQLLKDVVIPNS_FLASS ----MNRHADVPVIDISGLSGNDMDVKKDIAARIDRACRGSGFFYAANHGVDLAALQKFTIPNS_PENCH --MASTPKANVPKIDVSPLFGDNMEEKMKVARAIDAASRDTGFFYAVNHGVDVKRLSNKTIPNS_CEPAC MGSVPVPVANVPRIDVSPLFGDDKEKKLEVARAIDAASRDTGFFYAVNHGVDLPWLSRET

IPNS_STRJU NEFHRNMSDQEKHDLAINAYNKDNP-HVRNGYYKAIKGKKAVESFCYLNPSFSDDHPMIKIPNS_STRGR NEFHRTMTDEEKYDLAINAYNKNNP-RTRNGYYMAVKGKKAVESWCYLNPSFSEDHPQIRIPNS_FLASS TDWHMAMSAEEKWELAIRAYNPANP-RNRNGYYMAVEGKKANESFCYLNPSFDADHATIKIPNS_PENCH REFHFSITDEEKWDLAIRAYNKEHQDQIRAGYYLSIPEKKAVESFCYLNPNFKPDHPLIQIPNS_CEPAC NKFHMSITDEEKWQLAIRAYNKEHESQIRAGYYLPIPGKKAVESFCYLNPSFSPDHPRIK

Выходной файл aln format

httpwwwebiacukhelpformatshtml

форматы

ClustalW на EMBL

ClustalW на EMBL - результат

ClustalW at EMBL - Jalview

Conservation

Consensus Sequence

Мы можем вывести consensus sequence из результатов MSA The consensus sequence содержит наиболее часто встречающийся символ в кажной колонке выравнивания

A T C T T G T

A A C T T G T

A A C T T C T

A A C T T G T

Ещё пара терминовhelliphellip

Профиль (Profile)

Также возможно вывести статистическую модель описывающую MSA Профиль содержит информацию о символах в каждом столбце выравнивания

A T C T T G T

A A C T T G T

A A C T T C T

1 2 3 4 5 6

A 1 067 0 0

T 0 033 1 1

C 0 0 0 0

G 0 0 0 0

Profile vs Consensus

Consensus каждая позиция отражает наиболее часто встречающийся символ

Profile каждая позиция отражает частоту символа в данной позиции

Profile vs Consensus

Данный MSA будет иметь одинаковый consensus

A A C T T G C

A A G T C G T

C A C T T C T

A A C T T G T

A A C T T G T

A A C T T C T

A A C T T G T

Profile vs Consensus

Но разный профиль

A A C T T G C

A A G T C G T

C A C T T C T

A A C T T G T

A A C T T G T

A A C T T C T

1 2 3 4 5 6

A 066 1 0 0

T 0 0 0 1

C 033 0 066 0

G 0 0 033 0

1 2 3 4 5 6

A 1 1 0 0

T 0 0 0 1

C 0 0 1 0

G 0 0 0 0

Psi Blast (NCBI)

Position Specific Iterated ndash автоматизированный поиск по профилю

Regular blast

Construct profile from blast results

Blast profile search

Final results

PSI-Blast

Psi-Blast вывод

Проблема формулировки выводов при использовании МSA

1 Сайт выглядит общим (фиксированным) из-за того что это ndash близкородственные последовательности

2 Сайт выглядит общим из-за того что это ndash исключительно жизненно важный сайт

ФилогенезЭволюция ndash случайный процесс с неслучайным результатом

Цели филогенетического исследования

bull Реконструкция корректных генеалогических связей

между биологическими объектами

bull Оценка времени расхождения организмов

bull Определение порядка эволюционных событий в процессе

эволюции

Формат Newick

((A(BC))(DE))

Типы данных

Molecular (DNA RNA proteins)

Morphological (soft tissue hard tissue extant extinct)

Преимущества молекулярных данных

bull Наследуемость

bull Недвусмысленность в описании молекулярных характеристик

bull Поддаются количественному анализу

bull Оценка гомологии легче чем морфологические исследования

bull Данных много

Древо видов и геновbull Древо видов ndash эволюционные взаимосвязи

между видами (видообразование)bull Древо генов

Page RDM and Cotton JC (2000) GeneTree a tool for exploring gene family evolution In D Sankoff and J Nadeau (eds) Comparative Genomics Empirical and Analytical Approaches to Gene Order Dynamics Map Alignment and the Evolution of Gene Families Kluwer Academic Publishers Dordrecht pp 525-536

Figure 2 (a) Incongruent gene and species trees This incongruence can be explained by hypothesizing a gene duplication (h) at the base of the gene tree (b)The presence of only a single gene (a-d) extant in each of the present-day species(1-4) requires postulating three gene losses (c) The corresponding reconciled tree

Ортологи и паралоги

bull Гены-паралоги ndash событие дупликация (and

bull Гены-ортологи ndash событие видообразования (in the two species and in the two species

Duplication

Speciation

Species a Species b

Шаги реконструирования филогенетического

древа

1 Выбор последовательностей и поиск гомологов

2 MSA3 Матрица белков4 Филогенетическое дерево

Филогенетическое дерево

Филогения - раздел биологии изучающий родственные взаимоотношения разных групп живых организмов Филогению отображается обычно в виде эволюционных древ или систематических названий

Зачем нужны филогенетические деревья

Биологические задачи

сравнение 3-х и более объектов (кто на кого более похож )

реконструкция эволюции (кто от кого как и когда произошелhellip)

ТерминологияУзел (node) mdash точка разделения предковой последовательности(вида популяции) на две независимо эволюционирующиеСоответствует внутренней вершине графа изображающего эволюциюЛист (leaf OTU ndash оперативная таксономическая единица) mdash реальный (современный) объект внешняя вершина графаВетвь (branch) mdash связь между узлами или между узлом и листом ребро графаКорень (root) mdash общий предокКлада (clade) - группа двух или более таксонов или последователь-ностей ДНК которая включает как своего общего предка так и всех его потомков

OTU

HTU (hypotetical taxonomic unit)

Какие бывают деревья

Бинарное (разрешённое)(в один момент времени может

произойти только одно событие )

Небинарное (неразрешённое) (может ли в один момент времени

произойти два события )

Время

Какие бывают деревья

Укорененное дерево (rooted tree)отражает направление эволюции

Неукорененное (бескорневое) дерево(unrooted tree) показывает только связи между узлами

Время

Если число листьев равно n существует (2n-3)разных бинарных укоренных деревьевПо определению (2n-3) = 1middot3 middot middot(2n-3)

Существует (2n-5) разных бескорневых деревьев с n листьями

Rooting

A C B B C AA B C

3 OTUs 3 OTUs 1 н 1 неукорененное деревоеукорененное дерево 33 укорененных деревьев укорененных деревьев

A

B

C

D

C

A

B

4 OTUs 4 OTUs 3 3 неукорененных филогенетических неукорененных филогенетических деревьевдеревьев

D

B

A

C C

B

A

D

4 OTUs

15 укорененных

деревьев

Количество Количество Количество

OTU укорененных неукорененных

2 1 13 3 14 15 35 105 156 954 1057 103959548 135135 103959 2027025 13513510 34459425 202702511 654729075 3445942512 13749310575 654729075

Количество возможных деревьев

Рутинная процедура или как строят деревья

Составление выборки последовательностей

Множественное выравнивание

Построение дерева фрагмент записи в виде скобочной формулы

Визуализация и редактура дерева

(((((con1013851018(f539692826973((f67220839851max42750591)492893con923019677)1362315)953075)2583145

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Множественное выравнивание

Matches

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Multiple Alignment

Matches

Mismatches

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Multiple Alignment

Matches

Mismatches

Gaps

Seq 1 A G C G A GSeq 1 A G C G A GSeq 2 G C G G A CSeq 2 G C G G A C

Шаг 3 Перевод количества расхождений в индексы замен

Distance Matrix

Units количество замен нуклеотидов на 1000

Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86

Rice 00 118 122 122

Mosquito 00 55 51

Monkey 00 3

Human 00

Шаг 4 построение филогенетического дерева

Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86

Rice 00 118 122 122

Mosquito 00 55 51

Monkey 00 3

Human 00

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Дистанция между человеком и обезьяной минимальна Эти группы объединяются в Monkey-Human а все остальные дистанции пересчитываются

Dist[Spinach MonHum] = (Dist[Spinach Monkey] +

Dist[Spinach Human])2 = (91 + 86)2 = 885

Spinach Rice Mosquito Mon-HumSpinach 00 9 106 885

Rice 00 118 122

Mosquito 00 53

Mon-Hum 00

Редуцированная матрица дистанций

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Spi-Ric

HumanMosquito

Mon-Hum

MonkeySpinachRice

Mos-Mon-Hum

Spi-Ric

Mos-Mon-Hum-Spi-Ric

Как выбирать последовательности для дерева

Кроме случаев очень близких последовательностей проще работать с белками (а не с ДНК)

Придерживайтесь небольшой выборки (lt 50 последовательностей)

Избегайтеndash фрагментовndash Ксенологов (горизонтальный перенос генов)ndash рекомбинантных последовательностейndash многодоменных белков и повторов

Используйте outgroup (последовательность ответвившаяся от общего предка заведомо (но минимально) раньше разделения интересующих групп-клад)

Самое главное ndash хорошее выравнивание

Максимальный вклад в финальное дерево нельзя построить хорошее дерево по плохому выравниванию

Блоки содержащие много гэпов плохо выровненные N- и C- концы можно просто вырезать

Основные алгоритмы построения филогенетических деревьев

Методы основанные на оценке

расстояний (матричные методы)

bull UPGMA (кластеризация)

bull Neighbor-joining

bull Минимальная эволюция

Наибольшего правдоподобия Maximal likelihood ML Используется модель эволюции и строится дерево которое наиболее правдоподобно при данной модели

Максимальной экономии (бережливости)

maximal parsimony MP Выбирается дерево с минимальным количеством

мутаций необходимых для объяснения данных

Пример матрицы расстояний

1 2 3 4 5 6 7 8 000 1053 977 1278 1203 1654 1353 2500 HUMAN 1

000 902 1203 977 1579 902 2727 HORSE 2 000 977 902 1654 1203 2424 RABIT 3

000 226 1729 1053 2576 MOUSE 4 000 1579 827 2576 RAT 5

000 1053 2955 BOVIN 6 000 2500 PIG 7

000 CHICK 8

Расстояние (уровень дивергенции) между соответствующими последовательностями из геномов мыши и свиньи

Как понимать расстояние между объектами

bull Как время в течение которого они эволюционировалиbull Как число laquoэволюционных событийraquo (мутаций)

В первом случае объекты образуют ультраметрическое пространство(если все объекты наблюдаются в одно время что как правило верно)

Но время непосредственно измерить невозможно

Гипотеза laquoмолекулярных часовraquo(EZuckerkandl LPauling 1962)

За равное время во всех ветвях эволюции данного генабелка накапливается равное число мутацийЕсли гипотеза молекулярных часов

принимается число различий между выровненными последовательностями можно считать примерно пропорциональным времени Отклонения от ультраметричности можно считать случайными Эволюция реконструируется в виде ультраметрического дерева

Укоренённое дерево называется ультраметрическим если расстояние от корня до любого из листьев одинаково

UPGMAUnweighted Pair Group Method with Arithmetic Mean

разновидность кластерного метода

Расстояние между кластерами вычисляется как среднее арифметическое всевозможных расстояний между последовательностями из кластеров

Недостатки UPGMA

Алгоритм строит ультраметрическое дерево ndash скорость эволюции предполагается одинаковой для всех ветвей дерева Использовать этот алгоритм имеет смысл только в случае ультраметрических данных (справедливости laquoмолекулярных часовraquo)

Реальное дерево UPGMA

Метод ближайших соседей (Neighbor-joining NJ)

Строит неукоренённое дерево

Может работать с большим количеством данных

Достаточно быстрый

Если есть недвусмысленное с точки зрения эксперта дерево то оно будет построено

Метод Neighbor-joining

Рисуем laquoзвездноеraquo дерево и будем laquoотщипыватьraquo от него по паре листьев

Пусть ui = Σk Mik(n-2) mdash среднее расстояние от листа i до других

листьев

1 Рассмотрим все возможные пары листьев Выберем 2 листа i и j с минимальным значением величины

Mij ndash ui ndashuj

те выбираем 2 узла которые близки друг к другу но далеки ото всех остальных

Метод ближайших соседей (Neighbor-joining NJ)

2 Кластер (i j) ndash новый узел дерева

Расстояние от i или от j до узла (ij) D(i (ij)) = 05middot(Mij + ui ndash uj) D(j (ij)) = 05middot (Mij + uj ndash ui) те длина ветви зависит от среднего расстояния до других вершин

3 Вычисляем расстояние от нового кластера до всех других

M(ij)k = Mik+Mjk ndash Mij 2

5 В матрице М убираем i и j и добавляем (i j) Повторяем пока не останутся 3 узла

Input MSA для n последовательностей одна последовательность для каждого вида

AAAAATC

AAAAAAG

CCCCCCG

AAAAATCAAAAAAG

CCCCCCG

Длинная ветвь ndash непохоже на правду

Длинная ветвь -Похоже на правду

Методы основанные на последовательностях Maximum Likelihood (ML) Maximum Parsimony (MP)

Как изобразить дерево Топология дерева

Топология дерева mdash только листья узлы (корень) и связывающие их ветви (топология не зависит от способа изображения дерева)

A

B

C

D

E A BC D E

Два изображения одной и той же топологии

Bacterium 1

Bacterium 3

Bacterium 2

Eukaryote 1

Eukaryote 4

Eukaryote 3

Eukaryote 2

Bacterium 1

Bacterium 3Bacterium 2

Eukaryote 1

Eukaryote 4Eukaryote 3

Eukaryote 2

Филограммы ndash длины ветвей

пропорциональны

эволюционному расстоянию

Кладограммы и филограммы

Кладограммы ndash только

топологя Длины ветвей не

учитываются

6

31

2

46

24

53

Как можно нарисовать построенное дерево

Какие on-line программы строят деревья

ClustalW ldquoTree typerdquo ndash nj phylip строит только методом NJ но результат ndash в разных форматах no bootstraps

Phylip (Felsenstein 1993) ndash пакет программ для построения филогенетических деревьев (stand-alone)On-line (partly) например

httpbiowebpasteurfrseqanalphylogenyphylip-ukhtml PAUP (Phylogenetic Analysis Using Parsimony)

MEGA филогенетический анализ последовательностей

httpwwwmegasoftwarenet

Эволюция ndash исторический процесс

Из 8200794532637891559375 деревьев для 20 OTUs 1

является верным и 8200794532637891559374

неверны

Truth is one falsehoods are many

Какое из 8200794532637891559375

деревьев истинно

Мы не знаем Можно применить иные критетии

Например ldquoпохожесть=родствоraquo

GCGbull Строковый поиск простой текстовый

поиск по локальной базе данных

bull Поиск в определениях или в аннотациях

bull Определения содержат минимальное количество информации для каждой статьи доступ имя организма имя гена длина последовательности дата

  • Bestfit Output
  • SP1 at swissprot
  • EGR1 at swissprot
  • Вывод
  • Bl2Seq at NCBI
  • Bl2seq results
  • Bl2seq оценка
  • Оптимизация времени вычислений при парном выравнивании
  • Slide 9
  • Алгоритм BLAST (шаг 1)
  • Slide 11
  • Blast
  • Поиск гомологов
  • ДНК или белок
  • ДНК
  • Slide 16
  • Slide 17
  • Двойная спираль
  • ДНК дальнейшая упаковка
  • Slide 20
  • Репликация ДНК
  • Slide 22
  • Slide 23
  • Slide 24
  • Slide 25
  • Множественное выравнивание последовательностей (MSA)
  • Slide 27
  • Основные предположения
  • Например
  • Почему множественное выравнивание
  • Slide 31
  • Подходы в MSA
  • MSA algorithm
  • Multiple Alignment - алгоритм
  • Комментарии
  • GCG
  • Slide 37
  • GCG
  • Slide 39
  • Slide 40
  • Slide 41
  • ClustalW
  • Slide 43
  • Slide 44
  • ClustalW на EMBL
  • ClustalW на EMBL - результат
  • ClustalW at EMBL - Jalview
  • Consensus Sequence
  • Профиль (Profile)
  • Profile vs Consensus
  • Slide 51
  • Slide 52
  • Psi Blast (NCBI)
  • PSI-Blast
  • Psi-Blast вывод
  • Slide 56
  • Филогенез
  • Slide 58
  • Slide 59
  • Slide 60
  • Slide 61
  • Древо видов и генов
  • Ортологи и паралоги
  • Шаги реконструирования филогенетического древа
  • Филогенетическое дерево
  • Зачем нужны филогенетические деревья
  • Терминология
  • Slide 68
  • Какие бывают деревья
  • Slide 70
  • Slide 71
  • Slide 72
  • 4 OTUs 3 неукорененных филогенетических деревьев
  • Slide 74
  • Slide 75
  • Slide 76
  • Slide 77
  • Рутинная процедура или как строят деревья
  • Slide 79
  • Slide 80
  • Slide 81
  • Slide 82
  • Slide 83
  • Slide 84
  • Slide 85
  • Slide 86
  • Slide 87
  • Slide 88
  • Slide 89
  • Как выбирать последовательности для дерева
  • Самое главное ndash хорошее выравнивание
  • Основные алгоритмы построения филогенетических деревьев
  • Пример матрицы расстояний
  • Slide 94
  • Гипотеза laquoмолекулярных часовraquo (EZuckerkandl LPauling 1962)
  • UPGMA Unweighted Pair Group Method with Arithmetic Mean
  • Недостатки UPGMA
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Метод Neighbor-joining
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Slide 101
  • Как изобразить дерево Топология дерева
  • Slide 103
  • Какие on-line программы строят деревья
  • MEGA филогенетический анализ последовательностей
  • Slide 106
  • Slide 107
  • Slide 108
Page 33: Bestfit Output

MSA algorithm

bull Попарное выравнивание всех последовательностей (pairwise alignment)

bull Кластерный анализ данных парного выравнивания для получения иерархии выравниваний (guide tree)

bull Построение множественного выравнивания (MSA) пошагово в соответствии с guide tree сначала выравнивают наиболее похожие пары затем добавляют остальные и тд

Multiple Alignment - алгоритм

(1) Парное выравнивание (подготовка guide tree)

6 pairwise alignments

then cluster analysis

(2) Множественное выравнивание следуя древу из п 1

successive alignments

Комментарии

bull Парное выравнивание - оптимальный алгоритм

bull Множественное выравнивание не является оптимальным алгоритмом Вполне могут существовать и лучшие выравнивания

bull Редакторы выравниваний могут быть полезны для корректировки

GCG

Pileup глобальный MSA

pileup [list of sequence names]

pileup hemoglobin_list

1 The sign means that the file contains a list of names

2 The list can include names from the userrsquos directory or code names (accession numbers) from the GCG databases

GCGПример входного файла

swhbb_human

swhbb_rat

swhbb_mouse

Hemoglobin_Alpha

Hemoglobin_Gamma

Hemogolibin_Delta

Syntax the file starts with ldquordquo

Sequences from the databases

Sequences from the userrsquos directory

GCG PileUp creates a multiple sequence alignment from a group of relatedsequences using progressive pairwise alignments It can also plot atree showing the clustering relationships used to create the alignment

1 IPNS_STRJU 329 aa 2 IPNS_STRCL 329 aa 3 IPNS_CEPAC 338 aa 4 IPNS_NOCLA 328 aa

What is the gap creation penalty ( 8 ) What is the gap extension penalty ( 2 )

This program can display the clustering relationships graphically Do you want to A) Plot to a FIGURE file called pileupfigure B) Plot graphics on HP7550 attached to devtty15 C) Suppress the plot Please choose one ( A ) c What should I call the output file name ( ipnsmsf )

Determining pairwise similarity scores

1 x 2 443 1 x 3 312 1 x 4 412 2 x 3 294 2 x 4 405 3 x 4 309

Aligning

Total sequences 4 Alignment length 338 CPU time 0021

Output filedatausersracheliothersracheliipnsmsf

Regular GCG syntaxDefault parametersoutput file etc

GCGAA_MULTIPLE_ALIGNMENT 10PileUp of ipnsfil

Symbol comparison table GenRunDatablosum62cmp CompCheck 1102 GapWeight 8 GapLengthWeight 2 ipnsmsf MSF 338 Type P March 14 2002 0929 Check 7631

Name IPNS_STRJU Len 338 Check 6344 Weight 100 Name IPNS_STRCL Len 338 Check 4249 Weight 100 Name IPNS_NOCLA Len 338 Check 7020 Weight 100 Name IPNS_CEPAC Len 338 Check 18 Weight 100

1 50IPNS_STRJU ~MPILMPSAE VPTIDISPLS GDDAKAKQRV AQEINKAARG SGFFYASNHGIPNS_STRCL ~MPVLMPSAH VPTIDISPLF GTDAAAKKRV AEEIHGACRG SGFFYATNHGIPNS_NOCLA ~~~MKMPSAE VPTIDVSPLF GDDAQEKVRV GQEINKACRG SGFFYAANHGIPNS_CEPAC MGSVPVPVAN VPRIDVSPLF GDDKEKKLEV ARAIDAASRD TGFFYAVNHG

51 100IPNS_STRJU VDVQLLQDVV NEFHRNMSDQ EKHDLAINAY NKDNPHVRN GYYKAIKGKKIPNS_STRCL VDVQQLQDVV NEFHGAMTDQ EKHDLAIHAY NPDNPHVRN GYYKAVPGRKIPNS_NOCLA VDVQRLQDVV NEFHRTMSPQ EKYDLAIHAY NKNNSHVRN GYYMAIEGKKIPNS_CEPAC VDLPWLSRET NKFHMSITDE EKWQLAIRAY NKEHESQIRA GYYLPIPGKK

Output filemsf format

GCG

Prettybox генерирует графический файл из файла MSA

prettybox [MSA file]

prettybox hemoglobinsmsf

1 The ldquordquo is a syntax sign meaning all the sequences in the MSA file

2 Can also calculate the consensus sequence

GCG

ClustalWbull Очень известная и широко распространённая

программа UNIX Internet Windows

bull Выполняет MSA может строить филогенетические деревья

bull Входной файл ndash формат multi-fasta

ClustalW

bull tofasta list

gtIPNS_STRJU P18286

MPILMPSAEVPTIDISPLSGDDAKAKQRVAQEINKAARGSGFFYASNHGVDVQLLQDVVN

EFHRNMSDQEKHDLAINAYNKDNPHVRNGYYKAIKGKKAVESFCYLNPSFSDDHPMIKSE

TPMHEVNLWPDEEKHPRFRPFCEDYYRQLLRLSTVIMRGYALALGRREDFFDEALAEADT

LSSVSLIRYPYLEEYPPVKTGADGTKLSFEDHLDVSMITVLYQTEVQNLQVETVDGWQDI

PRSDEDFLVNCGTYMGHITHDYFPAPNHRVKFINAERLSLPFFLNAGHNSVIEPFVPEGA

AGTVKNPTTSYGEYLQHGLRALIVKNGQT

gtIPNS_STRCL P10621

MPVLMPSAHVPTIDISPLFGTDAAAKKRVAEEIHGACRGSGFFYATNHGVDVQQLQDVVN

EFHGAMTDQEKHDLAIHAYNPDNPHVRNGYYKAVPGRKAVESFCYLNPDFGEDHPMIAAG

TPMHEVNLWPDEERHPRFRPFCEGYYRQMLKLSTVLMRGLALALGRPEHFFDAALAEQDS

LSSVSLIRYPYLEEYPPVKTGPDGQLLSFEDHLDVSMITVLFQTQVQNLQVETVDGWRDI

PTSENDFLVNCGTYMAHVTNDYFPAPNHRVKFVNAERLSLPFFLNGGHEAVIEPFVPEGA

SEEVRNEALSYGDYLQHGLRALIVKNGQT

input fileMulti-fasta

Making the file in unix

ClustalWCLUSTAL W (17) multiple sequence alignment

IPNS_STRJU -MPILMPSAEVPTIDISPLSGDDAKAKQRVAQEINKAARGSGFFYASNHGVDVQLLQDVVIPNS_STRGR -MPIPMLPAHVPTIDISPLSGGDADDKKRVAQEINKACRESGFFYASHHGIDVQLLKDVVIPNS_FLASS ----MNRHADVPVIDISGLSGNDMDVKKDIAARIDRACRGSGFFYAANHGVDLAALQKFTIPNS_PENCH --MASTPKANVPKIDVSPLFGDNMEEKMKVARAIDAASRDTGFFYAVNHGVDVKRLSNKTIPNS_CEPAC MGSVPVPVANVPRIDVSPLFGDDKEKKLEVARAIDAASRDTGFFYAVNHGVDLPWLSRET

IPNS_STRJU NEFHRNMSDQEKHDLAINAYNKDNP-HVRNGYYKAIKGKKAVESFCYLNPSFSDDHPMIKIPNS_STRGR NEFHRTMTDEEKYDLAINAYNKNNP-RTRNGYYMAVKGKKAVESWCYLNPSFSEDHPQIRIPNS_FLASS TDWHMAMSAEEKWELAIRAYNPANP-RNRNGYYMAVEGKKANESFCYLNPSFDADHATIKIPNS_PENCH REFHFSITDEEKWDLAIRAYNKEHQDQIRAGYYLSIPEKKAVESFCYLNPNFKPDHPLIQIPNS_CEPAC NKFHMSITDEEKWQLAIRAYNKEHESQIRAGYYLPIPGKKAVESFCYLNPSFSPDHPRIK

Выходной файл aln format

httpwwwebiacukhelpformatshtml

форматы

ClustalW на EMBL

ClustalW на EMBL - результат

ClustalW at EMBL - Jalview

Conservation

Consensus Sequence

Мы можем вывести consensus sequence из результатов MSA The consensus sequence содержит наиболее часто встречающийся символ в кажной колонке выравнивания

A T C T T G T

A A C T T G T

A A C T T C T

A A C T T G T

Ещё пара терминовhelliphellip

Профиль (Profile)

Также возможно вывести статистическую модель описывающую MSA Профиль содержит информацию о символах в каждом столбце выравнивания

A T C T T G T

A A C T T G T

A A C T T C T

1 2 3 4 5 6

A 1 067 0 0

T 0 033 1 1

C 0 0 0 0

G 0 0 0 0

Profile vs Consensus

Consensus каждая позиция отражает наиболее часто встречающийся символ

Profile каждая позиция отражает частоту символа в данной позиции

Profile vs Consensus

Данный MSA будет иметь одинаковый consensus

A A C T T G C

A A G T C G T

C A C T T C T

A A C T T G T

A A C T T G T

A A C T T C T

A A C T T G T

Profile vs Consensus

Но разный профиль

A A C T T G C

A A G T C G T

C A C T T C T

A A C T T G T

A A C T T G T

A A C T T C T

1 2 3 4 5 6

A 066 1 0 0

T 0 0 0 1

C 033 0 066 0

G 0 0 033 0

1 2 3 4 5 6

A 1 1 0 0

T 0 0 0 1

C 0 0 1 0

G 0 0 0 0

Psi Blast (NCBI)

Position Specific Iterated ndash автоматизированный поиск по профилю

Regular blast

Construct profile from blast results

Blast profile search

Final results

PSI-Blast

Psi-Blast вывод

Проблема формулировки выводов при использовании МSA

1 Сайт выглядит общим (фиксированным) из-за того что это ndash близкородственные последовательности

2 Сайт выглядит общим из-за того что это ndash исключительно жизненно важный сайт

ФилогенезЭволюция ndash случайный процесс с неслучайным результатом

Цели филогенетического исследования

bull Реконструкция корректных генеалогических связей

между биологическими объектами

bull Оценка времени расхождения организмов

bull Определение порядка эволюционных событий в процессе

эволюции

Формат Newick

((A(BC))(DE))

Типы данных

Molecular (DNA RNA proteins)

Morphological (soft tissue hard tissue extant extinct)

Преимущества молекулярных данных

bull Наследуемость

bull Недвусмысленность в описании молекулярных характеристик

bull Поддаются количественному анализу

bull Оценка гомологии легче чем морфологические исследования

bull Данных много

Древо видов и геновbull Древо видов ndash эволюционные взаимосвязи

между видами (видообразование)bull Древо генов

Page RDM and Cotton JC (2000) GeneTree a tool for exploring gene family evolution In D Sankoff and J Nadeau (eds) Comparative Genomics Empirical and Analytical Approaches to Gene Order Dynamics Map Alignment and the Evolution of Gene Families Kluwer Academic Publishers Dordrecht pp 525-536

Figure 2 (a) Incongruent gene and species trees This incongruence can be explained by hypothesizing a gene duplication (h) at the base of the gene tree (b)The presence of only a single gene (a-d) extant in each of the present-day species(1-4) requires postulating three gene losses (c) The corresponding reconciled tree

Ортологи и паралоги

bull Гены-паралоги ndash событие дупликация (and

bull Гены-ортологи ndash событие видообразования (in the two species and in the two species

Duplication

Speciation

Species a Species b

Шаги реконструирования филогенетического

древа

1 Выбор последовательностей и поиск гомологов

2 MSA3 Матрица белков4 Филогенетическое дерево

Филогенетическое дерево

Филогения - раздел биологии изучающий родственные взаимоотношения разных групп живых организмов Филогению отображается обычно в виде эволюционных древ или систематических названий

Зачем нужны филогенетические деревья

Биологические задачи

сравнение 3-х и более объектов (кто на кого более похож )

реконструкция эволюции (кто от кого как и когда произошелhellip)

ТерминологияУзел (node) mdash точка разделения предковой последовательности(вида популяции) на две независимо эволюционирующиеСоответствует внутренней вершине графа изображающего эволюциюЛист (leaf OTU ndash оперативная таксономическая единица) mdash реальный (современный) объект внешняя вершина графаВетвь (branch) mdash связь между узлами или между узлом и листом ребро графаКорень (root) mdash общий предокКлада (clade) - группа двух или более таксонов или последователь-ностей ДНК которая включает как своего общего предка так и всех его потомков

OTU

HTU (hypotetical taxonomic unit)

Какие бывают деревья

Бинарное (разрешённое)(в один момент времени может

произойти только одно событие )

Небинарное (неразрешённое) (может ли в один момент времени

произойти два события )

Время

Какие бывают деревья

Укорененное дерево (rooted tree)отражает направление эволюции

Неукорененное (бескорневое) дерево(unrooted tree) показывает только связи между узлами

Время

Если число листьев равно n существует (2n-3)разных бинарных укоренных деревьевПо определению (2n-3) = 1middot3 middot middot(2n-3)

Существует (2n-5) разных бескорневых деревьев с n листьями

Rooting

A C B B C AA B C

3 OTUs 3 OTUs 1 н 1 неукорененное деревоеукорененное дерево 33 укорененных деревьев укорененных деревьев

A

B

C

D

C

A

B

4 OTUs 4 OTUs 3 3 неукорененных филогенетических неукорененных филогенетических деревьевдеревьев

D

B

A

C C

B

A

D

4 OTUs

15 укорененных

деревьев

Количество Количество Количество

OTU укорененных неукорененных

2 1 13 3 14 15 35 105 156 954 1057 103959548 135135 103959 2027025 13513510 34459425 202702511 654729075 3445942512 13749310575 654729075

Количество возможных деревьев

Рутинная процедура или как строят деревья

Составление выборки последовательностей

Множественное выравнивание

Построение дерева фрагмент записи в виде скобочной формулы

Визуализация и редактура дерева

(((((con1013851018(f539692826973((f67220839851max42750591)492893con923019677)1362315)953075)2583145

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Множественное выравнивание

Matches

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Multiple Alignment

Matches

Mismatches

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Multiple Alignment

Matches

Mismatches

Gaps

Seq 1 A G C G A GSeq 1 A G C G A GSeq 2 G C G G A CSeq 2 G C G G A C

Шаг 3 Перевод количества расхождений в индексы замен

Distance Matrix

Units количество замен нуклеотидов на 1000

Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86

Rice 00 118 122 122

Mosquito 00 55 51

Monkey 00 3

Human 00

Шаг 4 построение филогенетического дерева

Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86

Rice 00 118 122 122

Mosquito 00 55 51

Monkey 00 3

Human 00

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Дистанция между человеком и обезьяной минимальна Эти группы объединяются в Monkey-Human а все остальные дистанции пересчитываются

Dist[Spinach MonHum] = (Dist[Spinach Monkey] +

Dist[Spinach Human])2 = (91 + 86)2 = 885

Spinach Rice Mosquito Mon-HumSpinach 00 9 106 885

Rice 00 118 122

Mosquito 00 53

Mon-Hum 00

Редуцированная матрица дистанций

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Spi-Ric

HumanMosquito

Mon-Hum

MonkeySpinachRice

Mos-Mon-Hum

Spi-Ric

Mos-Mon-Hum-Spi-Ric

Как выбирать последовательности для дерева

Кроме случаев очень близких последовательностей проще работать с белками (а не с ДНК)

Придерживайтесь небольшой выборки (lt 50 последовательностей)

Избегайтеndash фрагментовndash Ксенологов (горизонтальный перенос генов)ndash рекомбинантных последовательностейndash многодоменных белков и повторов

Используйте outgroup (последовательность ответвившаяся от общего предка заведомо (но минимально) раньше разделения интересующих групп-клад)

Самое главное ndash хорошее выравнивание

Максимальный вклад в финальное дерево нельзя построить хорошее дерево по плохому выравниванию

Блоки содержащие много гэпов плохо выровненные N- и C- концы можно просто вырезать

Основные алгоритмы построения филогенетических деревьев

Методы основанные на оценке

расстояний (матричные методы)

bull UPGMA (кластеризация)

bull Neighbor-joining

bull Минимальная эволюция

Наибольшего правдоподобия Maximal likelihood ML Используется модель эволюции и строится дерево которое наиболее правдоподобно при данной модели

Максимальной экономии (бережливости)

maximal parsimony MP Выбирается дерево с минимальным количеством

мутаций необходимых для объяснения данных

Пример матрицы расстояний

1 2 3 4 5 6 7 8 000 1053 977 1278 1203 1654 1353 2500 HUMAN 1

000 902 1203 977 1579 902 2727 HORSE 2 000 977 902 1654 1203 2424 RABIT 3

000 226 1729 1053 2576 MOUSE 4 000 1579 827 2576 RAT 5

000 1053 2955 BOVIN 6 000 2500 PIG 7

000 CHICK 8

Расстояние (уровень дивергенции) между соответствующими последовательностями из геномов мыши и свиньи

Как понимать расстояние между объектами

bull Как время в течение которого они эволюционировалиbull Как число laquoэволюционных событийraquo (мутаций)

В первом случае объекты образуют ультраметрическое пространство(если все объекты наблюдаются в одно время что как правило верно)

Но время непосредственно измерить невозможно

Гипотеза laquoмолекулярных часовraquo(EZuckerkandl LPauling 1962)

За равное время во всех ветвях эволюции данного генабелка накапливается равное число мутацийЕсли гипотеза молекулярных часов

принимается число различий между выровненными последовательностями можно считать примерно пропорциональным времени Отклонения от ультраметричности можно считать случайными Эволюция реконструируется в виде ультраметрического дерева

Укоренённое дерево называется ультраметрическим если расстояние от корня до любого из листьев одинаково

UPGMAUnweighted Pair Group Method with Arithmetic Mean

разновидность кластерного метода

Расстояние между кластерами вычисляется как среднее арифметическое всевозможных расстояний между последовательностями из кластеров

Недостатки UPGMA

Алгоритм строит ультраметрическое дерево ndash скорость эволюции предполагается одинаковой для всех ветвей дерева Использовать этот алгоритм имеет смысл только в случае ультраметрических данных (справедливости laquoмолекулярных часовraquo)

Реальное дерево UPGMA

Метод ближайших соседей (Neighbor-joining NJ)

Строит неукоренённое дерево

Может работать с большим количеством данных

Достаточно быстрый

Если есть недвусмысленное с точки зрения эксперта дерево то оно будет построено

Метод Neighbor-joining

Рисуем laquoзвездноеraquo дерево и будем laquoотщипыватьraquo от него по паре листьев

Пусть ui = Σk Mik(n-2) mdash среднее расстояние от листа i до других

листьев

1 Рассмотрим все возможные пары листьев Выберем 2 листа i и j с минимальным значением величины

Mij ndash ui ndashuj

те выбираем 2 узла которые близки друг к другу но далеки ото всех остальных

Метод ближайших соседей (Neighbor-joining NJ)

2 Кластер (i j) ndash новый узел дерева

Расстояние от i или от j до узла (ij) D(i (ij)) = 05middot(Mij + ui ndash uj) D(j (ij)) = 05middot (Mij + uj ndash ui) те длина ветви зависит от среднего расстояния до других вершин

3 Вычисляем расстояние от нового кластера до всех других

M(ij)k = Mik+Mjk ndash Mij 2

5 В матрице М убираем i и j и добавляем (i j) Повторяем пока не останутся 3 узла

Input MSA для n последовательностей одна последовательность для каждого вида

AAAAATC

AAAAAAG

CCCCCCG

AAAAATCAAAAAAG

CCCCCCG

Длинная ветвь ndash непохоже на правду

Длинная ветвь -Похоже на правду

Методы основанные на последовательностях Maximum Likelihood (ML) Maximum Parsimony (MP)

Как изобразить дерево Топология дерева

Топология дерева mdash только листья узлы (корень) и связывающие их ветви (топология не зависит от способа изображения дерева)

A

B

C

D

E A BC D E

Два изображения одной и той же топологии

Bacterium 1

Bacterium 3

Bacterium 2

Eukaryote 1

Eukaryote 4

Eukaryote 3

Eukaryote 2

Bacterium 1

Bacterium 3Bacterium 2

Eukaryote 1

Eukaryote 4Eukaryote 3

Eukaryote 2

Филограммы ndash длины ветвей

пропорциональны

эволюционному расстоянию

Кладограммы и филограммы

Кладограммы ndash только

топологя Длины ветвей не

учитываются

6

31

2

46

24

53

Как можно нарисовать построенное дерево

Какие on-line программы строят деревья

ClustalW ldquoTree typerdquo ndash nj phylip строит только методом NJ но результат ndash в разных форматах no bootstraps

Phylip (Felsenstein 1993) ndash пакет программ для построения филогенетических деревьев (stand-alone)On-line (partly) например

httpbiowebpasteurfrseqanalphylogenyphylip-ukhtml PAUP (Phylogenetic Analysis Using Parsimony)

MEGA филогенетический анализ последовательностей

httpwwwmegasoftwarenet

Эволюция ndash исторический процесс

Из 8200794532637891559375 деревьев для 20 OTUs 1

является верным и 8200794532637891559374

неверны

Truth is one falsehoods are many

Какое из 8200794532637891559375

деревьев истинно

Мы не знаем Можно применить иные критетии

Например ldquoпохожесть=родствоraquo

GCGbull Строковый поиск простой текстовый

поиск по локальной базе данных

bull Поиск в определениях или в аннотациях

bull Определения содержат минимальное количество информации для каждой статьи доступ имя организма имя гена длина последовательности дата

  • Bestfit Output
  • SP1 at swissprot
  • EGR1 at swissprot
  • Вывод
  • Bl2Seq at NCBI
  • Bl2seq results
  • Bl2seq оценка
  • Оптимизация времени вычислений при парном выравнивании
  • Slide 9
  • Алгоритм BLAST (шаг 1)
  • Slide 11
  • Blast
  • Поиск гомологов
  • ДНК или белок
  • ДНК
  • Slide 16
  • Slide 17
  • Двойная спираль
  • ДНК дальнейшая упаковка
  • Slide 20
  • Репликация ДНК
  • Slide 22
  • Slide 23
  • Slide 24
  • Slide 25
  • Множественное выравнивание последовательностей (MSA)
  • Slide 27
  • Основные предположения
  • Например
  • Почему множественное выравнивание
  • Slide 31
  • Подходы в MSA
  • MSA algorithm
  • Multiple Alignment - алгоритм
  • Комментарии
  • GCG
  • Slide 37
  • GCG
  • Slide 39
  • Slide 40
  • Slide 41
  • ClustalW
  • Slide 43
  • Slide 44
  • ClustalW на EMBL
  • ClustalW на EMBL - результат
  • ClustalW at EMBL - Jalview
  • Consensus Sequence
  • Профиль (Profile)
  • Profile vs Consensus
  • Slide 51
  • Slide 52
  • Psi Blast (NCBI)
  • PSI-Blast
  • Psi-Blast вывод
  • Slide 56
  • Филогенез
  • Slide 58
  • Slide 59
  • Slide 60
  • Slide 61
  • Древо видов и генов
  • Ортологи и паралоги
  • Шаги реконструирования филогенетического древа
  • Филогенетическое дерево
  • Зачем нужны филогенетические деревья
  • Терминология
  • Slide 68
  • Какие бывают деревья
  • Slide 70
  • Slide 71
  • Slide 72
  • 4 OTUs 3 неукорененных филогенетических деревьев
  • Slide 74
  • Slide 75
  • Slide 76
  • Slide 77
  • Рутинная процедура или как строят деревья
  • Slide 79
  • Slide 80
  • Slide 81
  • Slide 82
  • Slide 83
  • Slide 84
  • Slide 85
  • Slide 86
  • Slide 87
  • Slide 88
  • Slide 89
  • Как выбирать последовательности для дерева
  • Самое главное ndash хорошее выравнивание
  • Основные алгоритмы построения филогенетических деревьев
  • Пример матрицы расстояний
  • Slide 94
  • Гипотеза laquoмолекулярных часовraquo (EZuckerkandl LPauling 1962)
  • UPGMA Unweighted Pair Group Method with Arithmetic Mean
  • Недостатки UPGMA
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Метод Neighbor-joining
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Slide 101
  • Как изобразить дерево Топология дерева
  • Slide 103
  • Какие on-line программы строят деревья
  • MEGA филогенетический анализ последовательностей
  • Slide 106
  • Slide 107
  • Slide 108
Page 34: Bestfit Output

Multiple Alignment - алгоритм

(1) Парное выравнивание (подготовка guide tree)

6 pairwise alignments

then cluster analysis

(2) Множественное выравнивание следуя древу из п 1

successive alignments

Комментарии

bull Парное выравнивание - оптимальный алгоритм

bull Множественное выравнивание не является оптимальным алгоритмом Вполне могут существовать и лучшие выравнивания

bull Редакторы выравниваний могут быть полезны для корректировки

GCG

Pileup глобальный MSA

pileup [list of sequence names]

pileup hemoglobin_list

1 The sign means that the file contains a list of names

2 The list can include names from the userrsquos directory or code names (accession numbers) from the GCG databases

GCGПример входного файла

swhbb_human

swhbb_rat

swhbb_mouse

Hemoglobin_Alpha

Hemoglobin_Gamma

Hemogolibin_Delta

Syntax the file starts with ldquordquo

Sequences from the databases

Sequences from the userrsquos directory

GCG PileUp creates a multiple sequence alignment from a group of relatedsequences using progressive pairwise alignments It can also plot atree showing the clustering relationships used to create the alignment

1 IPNS_STRJU 329 aa 2 IPNS_STRCL 329 aa 3 IPNS_CEPAC 338 aa 4 IPNS_NOCLA 328 aa

What is the gap creation penalty ( 8 ) What is the gap extension penalty ( 2 )

This program can display the clustering relationships graphically Do you want to A) Plot to a FIGURE file called pileupfigure B) Plot graphics on HP7550 attached to devtty15 C) Suppress the plot Please choose one ( A ) c What should I call the output file name ( ipnsmsf )

Determining pairwise similarity scores

1 x 2 443 1 x 3 312 1 x 4 412 2 x 3 294 2 x 4 405 3 x 4 309

Aligning

Total sequences 4 Alignment length 338 CPU time 0021

Output filedatausersracheliothersracheliipnsmsf

Regular GCG syntaxDefault parametersoutput file etc

GCGAA_MULTIPLE_ALIGNMENT 10PileUp of ipnsfil

Symbol comparison table GenRunDatablosum62cmp CompCheck 1102 GapWeight 8 GapLengthWeight 2 ipnsmsf MSF 338 Type P March 14 2002 0929 Check 7631

Name IPNS_STRJU Len 338 Check 6344 Weight 100 Name IPNS_STRCL Len 338 Check 4249 Weight 100 Name IPNS_NOCLA Len 338 Check 7020 Weight 100 Name IPNS_CEPAC Len 338 Check 18 Weight 100

1 50IPNS_STRJU ~MPILMPSAE VPTIDISPLS GDDAKAKQRV AQEINKAARG SGFFYASNHGIPNS_STRCL ~MPVLMPSAH VPTIDISPLF GTDAAAKKRV AEEIHGACRG SGFFYATNHGIPNS_NOCLA ~~~MKMPSAE VPTIDVSPLF GDDAQEKVRV GQEINKACRG SGFFYAANHGIPNS_CEPAC MGSVPVPVAN VPRIDVSPLF GDDKEKKLEV ARAIDAASRD TGFFYAVNHG

51 100IPNS_STRJU VDVQLLQDVV NEFHRNMSDQ EKHDLAINAY NKDNPHVRN GYYKAIKGKKIPNS_STRCL VDVQQLQDVV NEFHGAMTDQ EKHDLAIHAY NPDNPHVRN GYYKAVPGRKIPNS_NOCLA VDVQRLQDVV NEFHRTMSPQ EKYDLAIHAY NKNNSHVRN GYYMAIEGKKIPNS_CEPAC VDLPWLSRET NKFHMSITDE EKWQLAIRAY NKEHESQIRA GYYLPIPGKK

Output filemsf format

GCG

Prettybox генерирует графический файл из файла MSA

prettybox [MSA file]

prettybox hemoglobinsmsf

1 The ldquordquo is a syntax sign meaning all the sequences in the MSA file

2 Can also calculate the consensus sequence

GCG

ClustalWbull Очень известная и широко распространённая

программа UNIX Internet Windows

bull Выполняет MSA может строить филогенетические деревья

bull Входной файл ndash формат multi-fasta

ClustalW

bull tofasta list

gtIPNS_STRJU P18286

MPILMPSAEVPTIDISPLSGDDAKAKQRVAQEINKAARGSGFFYASNHGVDVQLLQDVVN

EFHRNMSDQEKHDLAINAYNKDNPHVRNGYYKAIKGKKAVESFCYLNPSFSDDHPMIKSE

TPMHEVNLWPDEEKHPRFRPFCEDYYRQLLRLSTVIMRGYALALGRREDFFDEALAEADT

LSSVSLIRYPYLEEYPPVKTGADGTKLSFEDHLDVSMITVLYQTEVQNLQVETVDGWQDI

PRSDEDFLVNCGTYMGHITHDYFPAPNHRVKFINAERLSLPFFLNAGHNSVIEPFVPEGA

AGTVKNPTTSYGEYLQHGLRALIVKNGQT

gtIPNS_STRCL P10621

MPVLMPSAHVPTIDISPLFGTDAAAKKRVAEEIHGACRGSGFFYATNHGVDVQQLQDVVN

EFHGAMTDQEKHDLAIHAYNPDNPHVRNGYYKAVPGRKAVESFCYLNPDFGEDHPMIAAG

TPMHEVNLWPDEERHPRFRPFCEGYYRQMLKLSTVLMRGLALALGRPEHFFDAALAEQDS

LSSVSLIRYPYLEEYPPVKTGPDGQLLSFEDHLDVSMITVLFQTQVQNLQVETVDGWRDI

PTSENDFLVNCGTYMAHVTNDYFPAPNHRVKFVNAERLSLPFFLNGGHEAVIEPFVPEGA

SEEVRNEALSYGDYLQHGLRALIVKNGQT

input fileMulti-fasta

Making the file in unix

ClustalWCLUSTAL W (17) multiple sequence alignment

IPNS_STRJU -MPILMPSAEVPTIDISPLSGDDAKAKQRVAQEINKAARGSGFFYASNHGVDVQLLQDVVIPNS_STRGR -MPIPMLPAHVPTIDISPLSGGDADDKKRVAQEINKACRESGFFYASHHGIDVQLLKDVVIPNS_FLASS ----MNRHADVPVIDISGLSGNDMDVKKDIAARIDRACRGSGFFYAANHGVDLAALQKFTIPNS_PENCH --MASTPKANVPKIDVSPLFGDNMEEKMKVARAIDAASRDTGFFYAVNHGVDVKRLSNKTIPNS_CEPAC MGSVPVPVANVPRIDVSPLFGDDKEKKLEVARAIDAASRDTGFFYAVNHGVDLPWLSRET

IPNS_STRJU NEFHRNMSDQEKHDLAINAYNKDNP-HVRNGYYKAIKGKKAVESFCYLNPSFSDDHPMIKIPNS_STRGR NEFHRTMTDEEKYDLAINAYNKNNP-RTRNGYYMAVKGKKAVESWCYLNPSFSEDHPQIRIPNS_FLASS TDWHMAMSAEEKWELAIRAYNPANP-RNRNGYYMAVEGKKANESFCYLNPSFDADHATIKIPNS_PENCH REFHFSITDEEKWDLAIRAYNKEHQDQIRAGYYLSIPEKKAVESFCYLNPNFKPDHPLIQIPNS_CEPAC NKFHMSITDEEKWQLAIRAYNKEHESQIRAGYYLPIPGKKAVESFCYLNPSFSPDHPRIK

Выходной файл aln format

httpwwwebiacukhelpformatshtml

форматы

ClustalW на EMBL

ClustalW на EMBL - результат

ClustalW at EMBL - Jalview

Conservation

Consensus Sequence

Мы можем вывести consensus sequence из результатов MSA The consensus sequence содержит наиболее часто встречающийся символ в кажной колонке выравнивания

A T C T T G T

A A C T T G T

A A C T T C T

A A C T T G T

Ещё пара терминовhelliphellip

Профиль (Profile)

Также возможно вывести статистическую модель описывающую MSA Профиль содержит информацию о символах в каждом столбце выравнивания

A T C T T G T

A A C T T G T

A A C T T C T

1 2 3 4 5 6

A 1 067 0 0

T 0 033 1 1

C 0 0 0 0

G 0 0 0 0

Profile vs Consensus

Consensus каждая позиция отражает наиболее часто встречающийся символ

Profile каждая позиция отражает частоту символа в данной позиции

Profile vs Consensus

Данный MSA будет иметь одинаковый consensus

A A C T T G C

A A G T C G T

C A C T T C T

A A C T T G T

A A C T T G T

A A C T T C T

A A C T T G T

Profile vs Consensus

Но разный профиль

A A C T T G C

A A G T C G T

C A C T T C T

A A C T T G T

A A C T T G T

A A C T T C T

1 2 3 4 5 6

A 066 1 0 0

T 0 0 0 1

C 033 0 066 0

G 0 0 033 0

1 2 3 4 5 6

A 1 1 0 0

T 0 0 0 1

C 0 0 1 0

G 0 0 0 0

Psi Blast (NCBI)

Position Specific Iterated ndash автоматизированный поиск по профилю

Regular blast

Construct profile from blast results

Blast profile search

Final results

PSI-Blast

Psi-Blast вывод

Проблема формулировки выводов при использовании МSA

1 Сайт выглядит общим (фиксированным) из-за того что это ndash близкородственные последовательности

2 Сайт выглядит общим из-за того что это ndash исключительно жизненно важный сайт

ФилогенезЭволюция ndash случайный процесс с неслучайным результатом

Цели филогенетического исследования

bull Реконструкция корректных генеалогических связей

между биологическими объектами

bull Оценка времени расхождения организмов

bull Определение порядка эволюционных событий в процессе

эволюции

Формат Newick

((A(BC))(DE))

Типы данных

Molecular (DNA RNA proteins)

Morphological (soft tissue hard tissue extant extinct)

Преимущества молекулярных данных

bull Наследуемость

bull Недвусмысленность в описании молекулярных характеристик

bull Поддаются количественному анализу

bull Оценка гомологии легче чем морфологические исследования

bull Данных много

Древо видов и геновbull Древо видов ndash эволюционные взаимосвязи

между видами (видообразование)bull Древо генов

Page RDM and Cotton JC (2000) GeneTree a tool for exploring gene family evolution In D Sankoff and J Nadeau (eds) Comparative Genomics Empirical and Analytical Approaches to Gene Order Dynamics Map Alignment and the Evolution of Gene Families Kluwer Academic Publishers Dordrecht pp 525-536

Figure 2 (a) Incongruent gene and species trees This incongruence can be explained by hypothesizing a gene duplication (h) at the base of the gene tree (b)The presence of only a single gene (a-d) extant in each of the present-day species(1-4) requires postulating three gene losses (c) The corresponding reconciled tree

Ортологи и паралоги

bull Гены-паралоги ndash событие дупликация (and

bull Гены-ортологи ndash событие видообразования (in the two species and in the two species

Duplication

Speciation

Species a Species b

Шаги реконструирования филогенетического

древа

1 Выбор последовательностей и поиск гомологов

2 MSA3 Матрица белков4 Филогенетическое дерево

Филогенетическое дерево

Филогения - раздел биологии изучающий родственные взаимоотношения разных групп живых организмов Филогению отображается обычно в виде эволюционных древ или систематических названий

Зачем нужны филогенетические деревья

Биологические задачи

сравнение 3-х и более объектов (кто на кого более похож )

реконструкция эволюции (кто от кого как и когда произошелhellip)

ТерминологияУзел (node) mdash точка разделения предковой последовательности(вида популяции) на две независимо эволюционирующиеСоответствует внутренней вершине графа изображающего эволюциюЛист (leaf OTU ndash оперативная таксономическая единица) mdash реальный (современный) объект внешняя вершина графаВетвь (branch) mdash связь между узлами или между узлом и листом ребро графаКорень (root) mdash общий предокКлада (clade) - группа двух или более таксонов или последователь-ностей ДНК которая включает как своего общего предка так и всех его потомков

OTU

HTU (hypotetical taxonomic unit)

Какие бывают деревья

Бинарное (разрешённое)(в один момент времени может

произойти только одно событие )

Небинарное (неразрешённое) (может ли в один момент времени

произойти два события )

Время

Какие бывают деревья

Укорененное дерево (rooted tree)отражает направление эволюции

Неукорененное (бескорневое) дерево(unrooted tree) показывает только связи между узлами

Время

Если число листьев равно n существует (2n-3)разных бинарных укоренных деревьевПо определению (2n-3) = 1middot3 middot middot(2n-3)

Существует (2n-5) разных бескорневых деревьев с n листьями

Rooting

A C B B C AA B C

3 OTUs 3 OTUs 1 н 1 неукорененное деревоеукорененное дерево 33 укорененных деревьев укорененных деревьев

A

B

C

D

C

A

B

4 OTUs 4 OTUs 3 3 неукорененных филогенетических неукорененных филогенетических деревьевдеревьев

D

B

A

C C

B

A

D

4 OTUs

15 укорененных

деревьев

Количество Количество Количество

OTU укорененных неукорененных

2 1 13 3 14 15 35 105 156 954 1057 103959548 135135 103959 2027025 13513510 34459425 202702511 654729075 3445942512 13749310575 654729075

Количество возможных деревьев

Рутинная процедура или как строят деревья

Составление выборки последовательностей

Множественное выравнивание

Построение дерева фрагмент записи в виде скобочной формулы

Визуализация и редактура дерева

(((((con1013851018(f539692826973((f67220839851max42750591)492893con923019677)1362315)953075)2583145

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Множественное выравнивание

Matches

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Multiple Alignment

Matches

Mismatches

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Multiple Alignment

Matches

Mismatches

Gaps

Seq 1 A G C G A GSeq 1 A G C G A GSeq 2 G C G G A CSeq 2 G C G G A C

Шаг 3 Перевод количества расхождений в индексы замен

Distance Matrix

Units количество замен нуклеотидов на 1000

Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86

Rice 00 118 122 122

Mosquito 00 55 51

Monkey 00 3

Human 00

Шаг 4 построение филогенетического дерева

Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86

Rice 00 118 122 122

Mosquito 00 55 51

Monkey 00 3

Human 00

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Дистанция между человеком и обезьяной минимальна Эти группы объединяются в Monkey-Human а все остальные дистанции пересчитываются

Dist[Spinach MonHum] = (Dist[Spinach Monkey] +

Dist[Spinach Human])2 = (91 + 86)2 = 885

Spinach Rice Mosquito Mon-HumSpinach 00 9 106 885

Rice 00 118 122

Mosquito 00 53

Mon-Hum 00

Редуцированная матрица дистанций

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Spi-Ric

HumanMosquito

Mon-Hum

MonkeySpinachRice

Mos-Mon-Hum

Spi-Ric

Mos-Mon-Hum-Spi-Ric

Как выбирать последовательности для дерева

Кроме случаев очень близких последовательностей проще работать с белками (а не с ДНК)

Придерживайтесь небольшой выборки (lt 50 последовательностей)

Избегайтеndash фрагментовndash Ксенологов (горизонтальный перенос генов)ndash рекомбинантных последовательностейndash многодоменных белков и повторов

Используйте outgroup (последовательность ответвившаяся от общего предка заведомо (но минимально) раньше разделения интересующих групп-клад)

Самое главное ndash хорошее выравнивание

Максимальный вклад в финальное дерево нельзя построить хорошее дерево по плохому выравниванию

Блоки содержащие много гэпов плохо выровненные N- и C- концы можно просто вырезать

Основные алгоритмы построения филогенетических деревьев

Методы основанные на оценке

расстояний (матричные методы)

bull UPGMA (кластеризация)

bull Neighbor-joining

bull Минимальная эволюция

Наибольшего правдоподобия Maximal likelihood ML Используется модель эволюции и строится дерево которое наиболее правдоподобно при данной модели

Максимальной экономии (бережливости)

maximal parsimony MP Выбирается дерево с минимальным количеством

мутаций необходимых для объяснения данных

Пример матрицы расстояний

1 2 3 4 5 6 7 8 000 1053 977 1278 1203 1654 1353 2500 HUMAN 1

000 902 1203 977 1579 902 2727 HORSE 2 000 977 902 1654 1203 2424 RABIT 3

000 226 1729 1053 2576 MOUSE 4 000 1579 827 2576 RAT 5

000 1053 2955 BOVIN 6 000 2500 PIG 7

000 CHICK 8

Расстояние (уровень дивергенции) между соответствующими последовательностями из геномов мыши и свиньи

Как понимать расстояние между объектами

bull Как время в течение которого они эволюционировалиbull Как число laquoэволюционных событийraquo (мутаций)

В первом случае объекты образуют ультраметрическое пространство(если все объекты наблюдаются в одно время что как правило верно)

Но время непосредственно измерить невозможно

Гипотеза laquoмолекулярных часовraquo(EZuckerkandl LPauling 1962)

За равное время во всех ветвях эволюции данного генабелка накапливается равное число мутацийЕсли гипотеза молекулярных часов

принимается число различий между выровненными последовательностями можно считать примерно пропорциональным времени Отклонения от ультраметричности можно считать случайными Эволюция реконструируется в виде ультраметрического дерева

Укоренённое дерево называется ультраметрическим если расстояние от корня до любого из листьев одинаково

UPGMAUnweighted Pair Group Method with Arithmetic Mean

разновидность кластерного метода

Расстояние между кластерами вычисляется как среднее арифметическое всевозможных расстояний между последовательностями из кластеров

Недостатки UPGMA

Алгоритм строит ультраметрическое дерево ndash скорость эволюции предполагается одинаковой для всех ветвей дерева Использовать этот алгоритм имеет смысл только в случае ультраметрических данных (справедливости laquoмолекулярных часовraquo)

Реальное дерево UPGMA

Метод ближайших соседей (Neighbor-joining NJ)

Строит неукоренённое дерево

Может работать с большим количеством данных

Достаточно быстрый

Если есть недвусмысленное с точки зрения эксперта дерево то оно будет построено

Метод Neighbor-joining

Рисуем laquoзвездноеraquo дерево и будем laquoотщипыватьraquo от него по паре листьев

Пусть ui = Σk Mik(n-2) mdash среднее расстояние от листа i до других

листьев

1 Рассмотрим все возможные пары листьев Выберем 2 листа i и j с минимальным значением величины

Mij ndash ui ndashuj

те выбираем 2 узла которые близки друг к другу но далеки ото всех остальных

Метод ближайших соседей (Neighbor-joining NJ)

2 Кластер (i j) ndash новый узел дерева

Расстояние от i или от j до узла (ij) D(i (ij)) = 05middot(Mij + ui ndash uj) D(j (ij)) = 05middot (Mij + uj ndash ui) те длина ветви зависит от среднего расстояния до других вершин

3 Вычисляем расстояние от нового кластера до всех других

M(ij)k = Mik+Mjk ndash Mij 2

5 В матрице М убираем i и j и добавляем (i j) Повторяем пока не останутся 3 узла

Input MSA для n последовательностей одна последовательность для каждого вида

AAAAATC

AAAAAAG

CCCCCCG

AAAAATCAAAAAAG

CCCCCCG

Длинная ветвь ndash непохоже на правду

Длинная ветвь -Похоже на правду

Методы основанные на последовательностях Maximum Likelihood (ML) Maximum Parsimony (MP)

Как изобразить дерево Топология дерева

Топология дерева mdash только листья узлы (корень) и связывающие их ветви (топология не зависит от способа изображения дерева)

A

B

C

D

E A BC D E

Два изображения одной и той же топологии

Bacterium 1

Bacterium 3

Bacterium 2

Eukaryote 1

Eukaryote 4

Eukaryote 3

Eukaryote 2

Bacterium 1

Bacterium 3Bacterium 2

Eukaryote 1

Eukaryote 4Eukaryote 3

Eukaryote 2

Филограммы ndash длины ветвей

пропорциональны

эволюционному расстоянию

Кладограммы и филограммы

Кладограммы ndash только

топологя Длины ветвей не

учитываются

6

31

2

46

24

53

Как можно нарисовать построенное дерево

Какие on-line программы строят деревья

ClustalW ldquoTree typerdquo ndash nj phylip строит только методом NJ но результат ndash в разных форматах no bootstraps

Phylip (Felsenstein 1993) ndash пакет программ для построения филогенетических деревьев (stand-alone)On-line (partly) например

httpbiowebpasteurfrseqanalphylogenyphylip-ukhtml PAUP (Phylogenetic Analysis Using Parsimony)

MEGA филогенетический анализ последовательностей

httpwwwmegasoftwarenet

Эволюция ndash исторический процесс

Из 8200794532637891559375 деревьев для 20 OTUs 1

является верным и 8200794532637891559374

неверны

Truth is one falsehoods are many

Какое из 8200794532637891559375

деревьев истинно

Мы не знаем Можно применить иные критетии

Например ldquoпохожесть=родствоraquo

GCGbull Строковый поиск простой текстовый

поиск по локальной базе данных

bull Поиск в определениях или в аннотациях

bull Определения содержат минимальное количество информации для каждой статьи доступ имя организма имя гена длина последовательности дата

  • Bestfit Output
  • SP1 at swissprot
  • EGR1 at swissprot
  • Вывод
  • Bl2Seq at NCBI
  • Bl2seq results
  • Bl2seq оценка
  • Оптимизация времени вычислений при парном выравнивании
  • Slide 9
  • Алгоритм BLAST (шаг 1)
  • Slide 11
  • Blast
  • Поиск гомологов
  • ДНК или белок
  • ДНК
  • Slide 16
  • Slide 17
  • Двойная спираль
  • ДНК дальнейшая упаковка
  • Slide 20
  • Репликация ДНК
  • Slide 22
  • Slide 23
  • Slide 24
  • Slide 25
  • Множественное выравнивание последовательностей (MSA)
  • Slide 27
  • Основные предположения
  • Например
  • Почему множественное выравнивание
  • Slide 31
  • Подходы в MSA
  • MSA algorithm
  • Multiple Alignment - алгоритм
  • Комментарии
  • GCG
  • Slide 37
  • GCG
  • Slide 39
  • Slide 40
  • Slide 41
  • ClustalW
  • Slide 43
  • Slide 44
  • ClustalW на EMBL
  • ClustalW на EMBL - результат
  • ClustalW at EMBL - Jalview
  • Consensus Sequence
  • Профиль (Profile)
  • Profile vs Consensus
  • Slide 51
  • Slide 52
  • Psi Blast (NCBI)
  • PSI-Blast
  • Psi-Blast вывод
  • Slide 56
  • Филогенез
  • Slide 58
  • Slide 59
  • Slide 60
  • Slide 61
  • Древо видов и генов
  • Ортологи и паралоги
  • Шаги реконструирования филогенетического древа
  • Филогенетическое дерево
  • Зачем нужны филогенетические деревья
  • Терминология
  • Slide 68
  • Какие бывают деревья
  • Slide 70
  • Slide 71
  • Slide 72
  • 4 OTUs 3 неукорененных филогенетических деревьев
  • Slide 74
  • Slide 75
  • Slide 76
  • Slide 77
  • Рутинная процедура или как строят деревья
  • Slide 79
  • Slide 80
  • Slide 81
  • Slide 82
  • Slide 83
  • Slide 84
  • Slide 85
  • Slide 86
  • Slide 87
  • Slide 88
  • Slide 89
  • Как выбирать последовательности для дерева
  • Самое главное ndash хорошее выравнивание
  • Основные алгоритмы построения филогенетических деревьев
  • Пример матрицы расстояний
  • Slide 94
  • Гипотеза laquoмолекулярных часовraquo (EZuckerkandl LPauling 1962)
  • UPGMA Unweighted Pair Group Method with Arithmetic Mean
  • Недостатки UPGMA
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Метод Neighbor-joining
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Slide 101
  • Как изобразить дерево Топология дерева
  • Slide 103
  • Какие on-line программы строят деревья
  • MEGA филогенетический анализ последовательностей
  • Slide 106
  • Slide 107
  • Slide 108
Page 35: Bestfit Output

Комментарии

bull Парное выравнивание - оптимальный алгоритм

bull Множественное выравнивание не является оптимальным алгоритмом Вполне могут существовать и лучшие выравнивания

bull Редакторы выравниваний могут быть полезны для корректировки

GCG

Pileup глобальный MSA

pileup [list of sequence names]

pileup hemoglobin_list

1 The sign means that the file contains a list of names

2 The list can include names from the userrsquos directory or code names (accession numbers) from the GCG databases

GCGПример входного файла

swhbb_human

swhbb_rat

swhbb_mouse

Hemoglobin_Alpha

Hemoglobin_Gamma

Hemogolibin_Delta

Syntax the file starts with ldquordquo

Sequences from the databases

Sequences from the userrsquos directory

GCG PileUp creates a multiple sequence alignment from a group of relatedsequences using progressive pairwise alignments It can also plot atree showing the clustering relationships used to create the alignment

1 IPNS_STRJU 329 aa 2 IPNS_STRCL 329 aa 3 IPNS_CEPAC 338 aa 4 IPNS_NOCLA 328 aa

What is the gap creation penalty ( 8 ) What is the gap extension penalty ( 2 )

This program can display the clustering relationships graphically Do you want to A) Plot to a FIGURE file called pileupfigure B) Plot graphics on HP7550 attached to devtty15 C) Suppress the plot Please choose one ( A ) c What should I call the output file name ( ipnsmsf )

Determining pairwise similarity scores

1 x 2 443 1 x 3 312 1 x 4 412 2 x 3 294 2 x 4 405 3 x 4 309

Aligning

Total sequences 4 Alignment length 338 CPU time 0021

Output filedatausersracheliothersracheliipnsmsf

Regular GCG syntaxDefault parametersoutput file etc

GCGAA_MULTIPLE_ALIGNMENT 10PileUp of ipnsfil

Symbol comparison table GenRunDatablosum62cmp CompCheck 1102 GapWeight 8 GapLengthWeight 2 ipnsmsf MSF 338 Type P March 14 2002 0929 Check 7631

Name IPNS_STRJU Len 338 Check 6344 Weight 100 Name IPNS_STRCL Len 338 Check 4249 Weight 100 Name IPNS_NOCLA Len 338 Check 7020 Weight 100 Name IPNS_CEPAC Len 338 Check 18 Weight 100

1 50IPNS_STRJU ~MPILMPSAE VPTIDISPLS GDDAKAKQRV AQEINKAARG SGFFYASNHGIPNS_STRCL ~MPVLMPSAH VPTIDISPLF GTDAAAKKRV AEEIHGACRG SGFFYATNHGIPNS_NOCLA ~~~MKMPSAE VPTIDVSPLF GDDAQEKVRV GQEINKACRG SGFFYAANHGIPNS_CEPAC MGSVPVPVAN VPRIDVSPLF GDDKEKKLEV ARAIDAASRD TGFFYAVNHG

51 100IPNS_STRJU VDVQLLQDVV NEFHRNMSDQ EKHDLAINAY NKDNPHVRN GYYKAIKGKKIPNS_STRCL VDVQQLQDVV NEFHGAMTDQ EKHDLAIHAY NPDNPHVRN GYYKAVPGRKIPNS_NOCLA VDVQRLQDVV NEFHRTMSPQ EKYDLAIHAY NKNNSHVRN GYYMAIEGKKIPNS_CEPAC VDLPWLSRET NKFHMSITDE EKWQLAIRAY NKEHESQIRA GYYLPIPGKK

Output filemsf format

GCG

Prettybox генерирует графический файл из файла MSA

prettybox [MSA file]

prettybox hemoglobinsmsf

1 The ldquordquo is a syntax sign meaning all the sequences in the MSA file

2 Can also calculate the consensus sequence

GCG

ClustalWbull Очень известная и широко распространённая

программа UNIX Internet Windows

bull Выполняет MSA может строить филогенетические деревья

bull Входной файл ndash формат multi-fasta

ClustalW

bull tofasta list

gtIPNS_STRJU P18286

MPILMPSAEVPTIDISPLSGDDAKAKQRVAQEINKAARGSGFFYASNHGVDVQLLQDVVN

EFHRNMSDQEKHDLAINAYNKDNPHVRNGYYKAIKGKKAVESFCYLNPSFSDDHPMIKSE

TPMHEVNLWPDEEKHPRFRPFCEDYYRQLLRLSTVIMRGYALALGRREDFFDEALAEADT

LSSVSLIRYPYLEEYPPVKTGADGTKLSFEDHLDVSMITVLYQTEVQNLQVETVDGWQDI

PRSDEDFLVNCGTYMGHITHDYFPAPNHRVKFINAERLSLPFFLNAGHNSVIEPFVPEGA

AGTVKNPTTSYGEYLQHGLRALIVKNGQT

gtIPNS_STRCL P10621

MPVLMPSAHVPTIDISPLFGTDAAAKKRVAEEIHGACRGSGFFYATNHGVDVQQLQDVVN

EFHGAMTDQEKHDLAIHAYNPDNPHVRNGYYKAVPGRKAVESFCYLNPDFGEDHPMIAAG

TPMHEVNLWPDEERHPRFRPFCEGYYRQMLKLSTVLMRGLALALGRPEHFFDAALAEQDS

LSSVSLIRYPYLEEYPPVKTGPDGQLLSFEDHLDVSMITVLFQTQVQNLQVETVDGWRDI

PTSENDFLVNCGTYMAHVTNDYFPAPNHRVKFVNAERLSLPFFLNGGHEAVIEPFVPEGA

SEEVRNEALSYGDYLQHGLRALIVKNGQT

input fileMulti-fasta

Making the file in unix

ClustalWCLUSTAL W (17) multiple sequence alignment

IPNS_STRJU -MPILMPSAEVPTIDISPLSGDDAKAKQRVAQEINKAARGSGFFYASNHGVDVQLLQDVVIPNS_STRGR -MPIPMLPAHVPTIDISPLSGGDADDKKRVAQEINKACRESGFFYASHHGIDVQLLKDVVIPNS_FLASS ----MNRHADVPVIDISGLSGNDMDVKKDIAARIDRACRGSGFFYAANHGVDLAALQKFTIPNS_PENCH --MASTPKANVPKIDVSPLFGDNMEEKMKVARAIDAASRDTGFFYAVNHGVDVKRLSNKTIPNS_CEPAC MGSVPVPVANVPRIDVSPLFGDDKEKKLEVARAIDAASRDTGFFYAVNHGVDLPWLSRET

IPNS_STRJU NEFHRNMSDQEKHDLAINAYNKDNP-HVRNGYYKAIKGKKAVESFCYLNPSFSDDHPMIKIPNS_STRGR NEFHRTMTDEEKYDLAINAYNKNNP-RTRNGYYMAVKGKKAVESWCYLNPSFSEDHPQIRIPNS_FLASS TDWHMAMSAEEKWELAIRAYNPANP-RNRNGYYMAVEGKKANESFCYLNPSFDADHATIKIPNS_PENCH REFHFSITDEEKWDLAIRAYNKEHQDQIRAGYYLSIPEKKAVESFCYLNPNFKPDHPLIQIPNS_CEPAC NKFHMSITDEEKWQLAIRAYNKEHESQIRAGYYLPIPGKKAVESFCYLNPSFSPDHPRIK

Выходной файл aln format

httpwwwebiacukhelpformatshtml

форматы

ClustalW на EMBL

ClustalW на EMBL - результат

ClustalW at EMBL - Jalview

Conservation

Consensus Sequence

Мы можем вывести consensus sequence из результатов MSA The consensus sequence содержит наиболее часто встречающийся символ в кажной колонке выравнивания

A T C T T G T

A A C T T G T

A A C T T C T

A A C T T G T

Ещё пара терминовhelliphellip

Профиль (Profile)

Также возможно вывести статистическую модель описывающую MSA Профиль содержит информацию о символах в каждом столбце выравнивания

A T C T T G T

A A C T T G T

A A C T T C T

1 2 3 4 5 6

A 1 067 0 0

T 0 033 1 1

C 0 0 0 0

G 0 0 0 0

Profile vs Consensus

Consensus каждая позиция отражает наиболее часто встречающийся символ

Profile каждая позиция отражает частоту символа в данной позиции

Profile vs Consensus

Данный MSA будет иметь одинаковый consensus

A A C T T G C

A A G T C G T

C A C T T C T

A A C T T G T

A A C T T G T

A A C T T C T

A A C T T G T

Profile vs Consensus

Но разный профиль

A A C T T G C

A A G T C G T

C A C T T C T

A A C T T G T

A A C T T G T

A A C T T C T

1 2 3 4 5 6

A 066 1 0 0

T 0 0 0 1

C 033 0 066 0

G 0 0 033 0

1 2 3 4 5 6

A 1 1 0 0

T 0 0 0 1

C 0 0 1 0

G 0 0 0 0

Psi Blast (NCBI)

Position Specific Iterated ndash автоматизированный поиск по профилю

Regular blast

Construct profile from blast results

Blast profile search

Final results

PSI-Blast

Psi-Blast вывод

Проблема формулировки выводов при использовании МSA

1 Сайт выглядит общим (фиксированным) из-за того что это ndash близкородственные последовательности

2 Сайт выглядит общим из-за того что это ndash исключительно жизненно важный сайт

ФилогенезЭволюция ndash случайный процесс с неслучайным результатом

Цели филогенетического исследования

bull Реконструкция корректных генеалогических связей

между биологическими объектами

bull Оценка времени расхождения организмов

bull Определение порядка эволюционных событий в процессе

эволюции

Формат Newick

((A(BC))(DE))

Типы данных

Molecular (DNA RNA proteins)

Morphological (soft tissue hard tissue extant extinct)

Преимущества молекулярных данных

bull Наследуемость

bull Недвусмысленность в описании молекулярных характеристик

bull Поддаются количественному анализу

bull Оценка гомологии легче чем морфологические исследования

bull Данных много

Древо видов и геновbull Древо видов ndash эволюционные взаимосвязи

между видами (видообразование)bull Древо генов

Page RDM and Cotton JC (2000) GeneTree a tool for exploring gene family evolution In D Sankoff and J Nadeau (eds) Comparative Genomics Empirical and Analytical Approaches to Gene Order Dynamics Map Alignment and the Evolution of Gene Families Kluwer Academic Publishers Dordrecht pp 525-536

Figure 2 (a) Incongruent gene and species trees This incongruence can be explained by hypothesizing a gene duplication (h) at the base of the gene tree (b)The presence of only a single gene (a-d) extant in each of the present-day species(1-4) requires postulating three gene losses (c) The corresponding reconciled tree

Ортологи и паралоги

bull Гены-паралоги ndash событие дупликация (and

bull Гены-ортологи ndash событие видообразования (in the two species and in the two species

Duplication

Speciation

Species a Species b

Шаги реконструирования филогенетического

древа

1 Выбор последовательностей и поиск гомологов

2 MSA3 Матрица белков4 Филогенетическое дерево

Филогенетическое дерево

Филогения - раздел биологии изучающий родственные взаимоотношения разных групп живых организмов Филогению отображается обычно в виде эволюционных древ или систематических названий

Зачем нужны филогенетические деревья

Биологические задачи

сравнение 3-х и более объектов (кто на кого более похож )

реконструкция эволюции (кто от кого как и когда произошелhellip)

ТерминологияУзел (node) mdash точка разделения предковой последовательности(вида популяции) на две независимо эволюционирующиеСоответствует внутренней вершине графа изображающего эволюциюЛист (leaf OTU ndash оперативная таксономическая единица) mdash реальный (современный) объект внешняя вершина графаВетвь (branch) mdash связь между узлами или между узлом и листом ребро графаКорень (root) mdash общий предокКлада (clade) - группа двух или более таксонов или последователь-ностей ДНК которая включает как своего общего предка так и всех его потомков

OTU

HTU (hypotetical taxonomic unit)

Какие бывают деревья

Бинарное (разрешённое)(в один момент времени может

произойти только одно событие )

Небинарное (неразрешённое) (может ли в один момент времени

произойти два события )

Время

Какие бывают деревья

Укорененное дерево (rooted tree)отражает направление эволюции

Неукорененное (бескорневое) дерево(unrooted tree) показывает только связи между узлами

Время

Если число листьев равно n существует (2n-3)разных бинарных укоренных деревьевПо определению (2n-3) = 1middot3 middot middot(2n-3)

Существует (2n-5) разных бескорневых деревьев с n листьями

Rooting

A C B B C AA B C

3 OTUs 3 OTUs 1 н 1 неукорененное деревоеукорененное дерево 33 укорененных деревьев укорененных деревьев

A

B

C

D

C

A

B

4 OTUs 4 OTUs 3 3 неукорененных филогенетических неукорененных филогенетических деревьевдеревьев

D

B

A

C C

B

A

D

4 OTUs

15 укорененных

деревьев

Количество Количество Количество

OTU укорененных неукорененных

2 1 13 3 14 15 35 105 156 954 1057 103959548 135135 103959 2027025 13513510 34459425 202702511 654729075 3445942512 13749310575 654729075

Количество возможных деревьев

Рутинная процедура или как строят деревья

Составление выборки последовательностей

Множественное выравнивание

Построение дерева фрагмент записи в виде скобочной формулы

Визуализация и редактура дерева

(((((con1013851018(f539692826973((f67220839851max42750591)492893con923019677)1362315)953075)2583145

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Множественное выравнивание

Matches

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Multiple Alignment

Matches

Mismatches

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Multiple Alignment

Matches

Mismatches

Gaps

Seq 1 A G C G A GSeq 1 A G C G A GSeq 2 G C G G A CSeq 2 G C G G A C

Шаг 3 Перевод количества расхождений в индексы замен

Distance Matrix

Units количество замен нуклеотидов на 1000

Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86

Rice 00 118 122 122

Mosquito 00 55 51

Monkey 00 3

Human 00

Шаг 4 построение филогенетического дерева

Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86

Rice 00 118 122 122

Mosquito 00 55 51

Monkey 00 3

Human 00

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Дистанция между человеком и обезьяной минимальна Эти группы объединяются в Monkey-Human а все остальные дистанции пересчитываются

Dist[Spinach MonHum] = (Dist[Spinach Monkey] +

Dist[Spinach Human])2 = (91 + 86)2 = 885

Spinach Rice Mosquito Mon-HumSpinach 00 9 106 885

Rice 00 118 122

Mosquito 00 53

Mon-Hum 00

Редуцированная матрица дистанций

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Spi-Ric

HumanMosquito

Mon-Hum

MonkeySpinachRice

Mos-Mon-Hum

Spi-Ric

Mos-Mon-Hum-Spi-Ric

Как выбирать последовательности для дерева

Кроме случаев очень близких последовательностей проще работать с белками (а не с ДНК)

Придерживайтесь небольшой выборки (lt 50 последовательностей)

Избегайтеndash фрагментовndash Ксенологов (горизонтальный перенос генов)ndash рекомбинантных последовательностейndash многодоменных белков и повторов

Используйте outgroup (последовательность ответвившаяся от общего предка заведомо (но минимально) раньше разделения интересующих групп-клад)

Самое главное ndash хорошее выравнивание

Максимальный вклад в финальное дерево нельзя построить хорошее дерево по плохому выравниванию

Блоки содержащие много гэпов плохо выровненные N- и C- концы можно просто вырезать

Основные алгоритмы построения филогенетических деревьев

Методы основанные на оценке

расстояний (матричные методы)

bull UPGMA (кластеризация)

bull Neighbor-joining

bull Минимальная эволюция

Наибольшего правдоподобия Maximal likelihood ML Используется модель эволюции и строится дерево которое наиболее правдоподобно при данной модели

Максимальной экономии (бережливости)

maximal parsimony MP Выбирается дерево с минимальным количеством

мутаций необходимых для объяснения данных

Пример матрицы расстояний

1 2 3 4 5 6 7 8 000 1053 977 1278 1203 1654 1353 2500 HUMAN 1

000 902 1203 977 1579 902 2727 HORSE 2 000 977 902 1654 1203 2424 RABIT 3

000 226 1729 1053 2576 MOUSE 4 000 1579 827 2576 RAT 5

000 1053 2955 BOVIN 6 000 2500 PIG 7

000 CHICK 8

Расстояние (уровень дивергенции) между соответствующими последовательностями из геномов мыши и свиньи

Как понимать расстояние между объектами

bull Как время в течение которого они эволюционировалиbull Как число laquoэволюционных событийraquo (мутаций)

В первом случае объекты образуют ультраметрическое пространство(если все объекты наблюдаются в одно время что как правило верно)

Но время непосредственно измерить невозможно

Гипотеза laquoмолекулярных часовraquo(EZuckerkandl LPauling 1962)

За равное время во всех ветвях эволюции данного генабелка накапливается равное число мутацийЕсли гипотеза молекулярных часов

принимается число различий между выровненными последовательностями можно считать примерно пропорциональным времени Отклонения от ультраметричности можно считать случайными Эволюция реконструируется в виде ультраметрического дерева

Укоренённое дерево называется ультраметрическим если расстояние от корня до любого из листьев одинаково

UPGMAUnweighted Pair Group Method with Arithmetic Mean

разновидность кластерного метода

Расстояние между кластерами вычисляется как среднее арифметическое всевозможных расстояний между последовательностями из кластеров

Недостатки UPGMA

Алгоритм строит ультраметрическое дерево ndash скорость эволюции предполагается одинаковой для всех ветвей дерева Использовать этот алгоритм имеет смысл только в случае ультраметрических данных (справедливости laquoмолекулярных часовraquo)

Реальное дерево UPGMA

Метод ближайших соседей (Neighbor-joining NJ)

Строит неукоренённое дерево

Может работать с большим количеством данных

Достаточно быстрый

Если есть недвусмысленное с точки зрения эксперта дерево то оно будет построено

Метод Neighbor-joining

Рисуем laquoзвездноеraquo дерево и будем laquoотщипыватьraquo от него по паре листьев

Пусть ui = Σk Mik(n-2) mdash среднее расстояние от листа i до других

листьев

1 Рассмотрим все возможные пары листьев Выберем 2 листа i и j с минимальным значением величины

Mij ndash ui ndashuj

те выбираем 2 узла которые близки друг к другу но далеки ото всех остальных

Метод ближайших соседей (Neighbor-joining NJ)

2 Кластер (i j) ndash новый узел дерева

Расстояние от i или от j до узла (ij) D(i (ij)) = 05middot(Mij + ui ndash uj) D(j (ij)) = 05middot (Mij + uj ndash ui) те длина ветви зависит от среднего расстояния до других вершин

3 Вычисляем расстояние от нового кластера до всех других

M(ij)k = Mik+Mjk ndash Mij 2

5 В матрице М убираем i и j и добавляем (i j) Повторяем пока не останутся 3 узла

Input MSA для n последовательностей одна последовательность для каждого вида

AAAAATC

AAAAAAG

CCCCCCG

AAAAATCAAAAAAG

CCCCCCG

Длинная ветвь ndash непохоже на правду

Длинная ветвь -Похоже на правду

Методы основанные на последовательностях Maximum Likelihood (ML) Maximum Parsimony (MP)

Как изобразить дерево Топология дерева

Топология дерева mdash только листья узлы (корень) и связывающие их ветви (топология не зависит от способа изображения дерева)

A

B

C

D

E A BC D E

Два изображения одной и той же топологии

Bacterium 1

Bacterium 3

Bacterium 2

Eukaryote 1

Eukaryote 4

Eukaryote 3

Eukaryote 2

Bacterium 1

Bacterium 3Bacterium 2

Eukaryote 1

Eukaryote 4Eukaryote 3

Eukaryote 2

Филограммы ndash длины ветвей

пропорциональны

эволюционному расстоянию

Кладограммы и филограммы

Кладограммы ndash только

топологя Длины ветвей не

учитываются

6

31

2

46

24

53

Как можно нарисовать построенное дерево

Какие on-line программы строят деревья

ClustalW ldquoTree typerdquo ndash nj phylip строит только методом NJ но результат ndash в разных форматах no bootstraps

Phylip (Felsenstein 1993) ndash пакет программ для построения филогенетических деревьев (stand-alone)On-line (partly) например

httpbiowebpasteurfrseqanalphylogenyphylip-ukhtml PAUP (Phylogenetic Analysis Using Parsimony)

MEGA филогенетический анализ последовательностей

httpwwwmegasoftwarenet

Эволюция ndash исторический процесс

Из 8200794532637891559375 деревьев для 20 OTUs 1

является верным и 8200794532637891559374

неверны

Truth is one falsehoods are many

Какое из 8200794532637891559375

деревьев истинно

Мы не знаем Можно применить иные критетии

Например ldquoпохожесть=родствоraquo

GCGbull Строковый поиск простой текстовый

поиск по локальной базе данных

bull Поиск в определениях или в аннотациях

bull Определения содержат минимальное количество информации для каждой статьи доступ имя организма имя гена длина последовательности дата

  • Bestfit Output
  • SP1 at swissprot
  • EGR1 at swissprot
  • Вывод
  • Bl2Seq at NCBI
  • Bl2seq results
  • Bl2seq оценка
  • Оптимизация времени вычислений при парном выравнивании
  • Slide 9
  • Алгоритм BLAST (шаг 1)
  • Slide 11
  • Blast
  • Поиск гомологов
  • ДНК или белок
  • ДНК
  • Slide 16
  • Slide 17
  • Двойная спираль
  • ДНК дальнейшая упаковка
  • Slide 20
  • Репликация ДНК
  • Slide 22
  • Slide 23
  • Slide 24
  • Slide 25
  • Множественное выравнивание последовательностей (MSA)
  • Slide 27
  • Основные предположения
  • Например
  • Почему множественное выравнивание
  • Slide 31
  • Подходы в MSA
  • MSA algorithm
  • Multiple Alignment - алгоритм
  • Комментарии
  • GCG
  • Slide 37
  • GCG
  • Slide 39
  • Slide 40
  • Slide 41
  • ClustalW
  • Slide 43
  • Slide 44
  • ClustalW на EMBL
  • ClustalW на EMBL - результат
  • ClustalW at EMBL - Jalview
  • Consensus Sequence
  • Профиль (Profile)
  • Profile vs Consensus
  • Slide 51
  • Slide 52
  • Psi Blast (NCBI)
  • PSI-Blast
  • Psi-Blast вывод
  • Slide 56
  • Филогенез
  • Slide 58
  • Slide 59
  • Slide 60
  • Slide 61
  • Древо видов и генов
  • Ортологи и паралоги
  • Шаги реконструирования филогенетического древа
  • Филогенетическое дерево
  • Зачем нужны филогенетические деревья
  • Терминология
  • Slide 68
  • Какие бывают деревья
  • Slide 70
  • Slide 71
  • Slide 72
  • 4 OTUs 3 неукорененных филогенетических деревьев
  • Slide 74
  • Slide 75
  • Slide 76
  • Slide 77
  • Рутинная процедура или как строят деревья
  • Slide 79
  • Slide 80
  • Slide 81
  • Slide 82
  • Slide 83
  • Slide 84
  • Slide 85
  • Slide 86
  • Slide 87
  • Slide 88
  • Slide 89
  • Как выбирать последовательности для дерева
  • Самое главное ndash хорошее выравнивание
  • Основные алгоритмы построения филогенетических деревьев
  • Пример матрицы расстояний
  • Slide 94
  • Гипотеза laquoмолекулярных часовraquo (EZuckerkandl LPauling 1962)
  • UPGMA Unweighted Pair Group Method with Arithmetic Mean
  • Недостатки UPGMA
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Метод Neighbor-joining
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Slide 101
  • Как изобразить дерево Топология дерева
  • Slide 103
  • Какие on-line программы строят деревья
  • MEGA филогенетический анализ последовательностей
  • Slide 106
  • Slide 107
  • Slide 108
Page 36: Bestfit Output

GCG

Pileup глобальный MSA

pileup [list of sequence names]

pileup hemoglobin_list

1 The sign means that the file contains a list of names

2 The list can include names from the userrsquos directory or code names (accession numbers) from the GCG databases

GCGПример входного файла

swhbb_human

swhbb_rat

swhbb_mouse

Hemoglobin_Alpha

Hemoglobin_Gamma

Hemogolibin_Delta

Syntax the file starts with ldquordquo

Sequences from the databases

Sequences from the userrsquos directory

GCG PileUp creates a multiple sequence alignment from a group of relatedsequences using progressive pairwise alignments It can also plot atree showing the clustering relationships used to create the alignment

1 IPNS_STRJU 329 aa 2 IPNS_STRCL 329 aa 3 IPNS_CEPAC 338 aa 4 IPNS_NOCLA 328 aa

What is the gap creation penalty ( 8 ) What is the gap extension penalty ( 2 )

This program can display the clustering relationships graphically Do you want to A) Plot to a FIGURE file called pileupfigure B) Plot graphics on HP7550 attached to devtty15 C) Suppress the plot Please choose one ( A ) c What should I call the output file name ( ipnsmsf )

Determining pairwise similarity scores

1 x 2 443 1 x 3 312 1 x 4 412 2 x 3 294 2 x 4 405 3 x 4 309

Aligning

Total sequences 4 Alignment length 338 CPU time 0021

Output filedatausersracheliothersracheliipnsmsf

Regular GCG syntaxDefault parametersoutput file etc

GCGAA_MULTIPLE_ALIGNMENT 10PileUp of ipnsfil

Symbol comparison table GenRunDatablosum62cmp CompCheck 1102 GapWeight 8 GapLengthWeight 2 ipnsmsf MSF 338 Type P March 14 2002 0929 Check 7631

Name IPNS_STRJU Len 338 Check 6344 Weight 100 Name IPNS_STRCL Len 338 Check 4249 Weight 100 Name IPNS_NOCLA Len 338 Check 7020 Weight 100 Name IPNS_CEPAC Len 338 Check 18 Weight 100

1 50IPNS_STRJU ~MPILMPSAE VPTIDISPLS GDDAKAKQRV AQEINKAARG SGFFYASNHGIPNS_STRCL ~MPVLMPSAH VPTIDISPLF GTDAAAKKRV AEEIHGACRG SGFFYATNHGIPNS_NOCLA ~~~MKMPSAE VPTIDVSPLF GDDAQEKVRV GQEINKACRG SGFFYAANHGIPNS_CEPAC MGSVPVPVAN VPRIDVSPLF GDDKEKKLEV ARAIDAASRD TGFFYAVNHG

51 100IPNS_STRJU VDVQLLQDVV NEFHRNMSDQ EKHDLAINAY NKDNPHVRN GYYKAIKGKKIPNS_STRCL VDVQQLQDVV NEFHGAMTDQ EKHDLAIHAY NPDNPHVRN GYYKAVPGRKIPNS_NOCLA VDVQRLQDVV NEFHRTMSPQ EKYDLAIHAY NKNNSHVRN GYYMAIEGKKIPNS_CEPAC VDLPWLSRET NKFHMSITDE EKWQLAIRAY NKEHESQIRA GYYLPIPGKK

Output filemsf format

GCG

Prettybox генерирует графический файл из файла MSA

prettybox [MSA file]

prettybox hemoglobinsmsf

1 The ldquordquo is a syntax sign meaning all the sequences in the MSA file

2 Can also calculate the consensus sequence

GCG

ClustalWbull Очень известная и широко распространённая

программа UNIX Internet Windows

bull Выполняет MSA может строить филогенетические деревья

bull Входной файл ndash формат multi-fasta

ClustalW

bull tofasta list

gtIPNS_STRJU P18286

MPILMPSAEVPTIDISPLSGDDAKAKQRVAQEINKAARGSGFFYASNHGVDVQLLQDVVN

EFHRNMSDQEKHDLAINAYNKDNPHVRNGYYKAIKGKKAVESFCYLNPSFSDDHPMIKSE

TPMHEVNLWPDEEKHPRFRPFCEDYYRQLLRLSTVIMRGYALALGRREDFFDEALAEADT

LSSVSLIRYPYLEEYPPVKTGADGTKLSFEDHLDVSMITVLYQTEVQNLQVETVDGWQDI

PRSDEDFLVNCGTYMGHITHDYFPAPNHRVKFINAERLSLPFFLNAGHNSVIEPFVPEGA

AGTVKNPTTSYGEYLQHGLRALIVKNGQT

gtIPNS_STRCL P10621

MPVLMPSAHVPTIDISPLFGTDAAAKKRVAEEIHGACRGSGFFYATNHGVDVQQLQDVVN

EFHGAMTDQEKHDLAIHAYNPDNPHVRNGYYKAVPGRKAVESFCYLNPDFGEDHPMIAAG

TPMHEVNLWPDEERHPRFRPFCEGYYRQMLKLSTVLMRGLALALGRPEHFFDAALAEQDS

LSSVSLIRYPYLEEYPPVKTGPDGQLLSFEDHLDVSMITVLFQTQVQNLQVETVDGWRDI

PTSENDFLVNCGTYMAHVTNDYFPAPNHRVKFVNAERLSLPFFLNGGHEAVIEPFVPEGA

SEEVRNEALSYGDYLQHGLRALIVKNGQT

input fileMulti-fasta

Making the file in unix

ClustalWCLUSTAL W (17) multiple sequence alignment

IPNS_STRJU -MPILMPSAEVPTIDISPLSGDDAKAKQRVAQEINKAARGSGFFYASNHGVDVQLLQDVVIPNS_STRGR -MPIPMLPAHVPTIDISPLSGGDADDKKRVAQEINKACRESGFFYASHHGIDVQLLKDVVIPNS_FLASS ----MNRHADVPVIDISGLSGNDMDVKKDIAARIDRACRGSGFFYAANHGVDLAALQKFTIPNS_PENCH --MASTPKANVPKIDVSPLFGDNMEEKMKVARAIDAASRDTGFFYAVNHGVDVKRLSNKTIPNS_CEPAC MGSVPVPVANVPRIDVSPLFGDDKEKKLEVARAIDAASRDTGFFYAVNHGVDLPWLSRET

IPNS_STRJU NEFHRNMSDQEKHDLAINAYNKDNP-HVRNGYYKAIKGKKAVESFCYLNPSFSDDHPMIKIPNS_STRGR NEFHRTMTDEEKYDLAINAYNKNNP-RTRNGYYMAVKGKKAVESWCYLNPSFSEDHPQIRIPNS_FLASS TDWHMAMSAEEKWELAIRAYNPANP-RNRNGYYMAVEGKKANESFCYLNPSFDADHATIKIPNS_PENCH REFHFSITDEEKWDLAIRAYNKEHQDQIRAGYYLSIPEKKAVESFCYLNPNFKPDHPLIQIPNS_CEPAC NKFHMSITDEEKWQLAIRAYNKEHESQIRAGYYLPIPGKKAVESFCYLNPSFSPDHPRIK

Выходной файл aln format

httpwwwebiacukhelpformatshtml

форматы

ClustalW на EMBL

ClustalW на EMBL - результат

ClustalW at EMBL - Jalview

Conservation

Consensus Sequence

Мы можем вывести consensus sequence из результатов MSA The consensus sequence содержит наиболее часто встречающийся символ в кажной колонке выравнивания

A T C T T G T

A A C T T G T

A A C T T C T

A A C T T G T

Ещё пара терминовhelliphellip

Профиль (Profile)

Также возможно вывести статистическую модель описывающую MSA Профиль содержит информацию о символах в каждом столбце выравнивания

A T C T T G T

A A C T T G T

A A C T T C T

1 2 3 4 5 6

A 1 067 0 0

T 0 033 1 1

C 0 0 0 0

G 0 0 0 0

Profile vs Consensus

Consensus каждая позиция отражает наиболее часто встречающийся символ

Profile каждая позиция отражает частоту символа в данной позиции

Profile vs Consensus

Данный MSA будет иметь одинаковый consensus

A A C T T G C

A A G T C G T

C A C T T C T

A A C T T G T

A A C T T G T

A A C T T C T

A A C T T G T

Profile vs Consensus

Но разный профиль

A A C T T G C

A A G T C G T

C A C T T C T

A A C T T G T

A A C T T G T

A A C T T C T

1 2 3 4 5 6

A 066 1 0 0

T 0 0 0 1

C 033 0 066 0

G 0 0 033 0

1 2 3 4 5 6

A 1 1 0 0

T 0 0 0 1

C 0 0 1 0

G 0 0 0 0

Psi Blast (NCBI)

Position Specific Iterated ndash автоматизированный поиск по профилю

Regular blast

Construct profile from blast results

Blast profile search

Final results

PSI-Blast

Psi-Blast вывод

Проблема формулировки выводов при использовании МSA

1 Сайт выглядит общим (фиксированным) из-за того что это ndash близкородственные последовательности

2 Сайт выглядит общим из-за того что это ndash исключительно жизненно важный сайт

ФилогенезЭволюция ndash случайный процесс с неслучайным результатом

Цели филогенетического исследования

bull Реконструкция корректных генеалогических связей

между биологическими объектами

bull Оценка времени расхождения организмов

bull Определение порядка эволюционных событий в процессе

эволюции

Формат Newick

((A(BC))(DE))

Типы данных

Molecular (DNA RNA proteins)

Morphological (soft tissue hard tissue extant extinct)

Преимущества молекулярных данных

bull Наследуемость

bull Недвусмысленность в описании молекулярных характеристик

bull Поддаются количественному анализу

bull Оценка гомологии легче чем морфологические исследования

bull Данных много

Древо видов и геновbull Древо видов ndash эволюционные взаимосвязи

между видами (видообразование)bull Древо генов

Page RDM and Cotton JC (2000) GeneTree a tool for exploring gene family evolution In D Sankoff and J Nadeau (eds) Comparative Genomics Empirical and Analytical Approaches to Gene Order Dynamics Map Alignment and the Evolution of Gene Families Kluwer Academic Publishers Dordrecht pp 525-536

Figure 2 (a) Incongruent gene and species trees This incongruence can be explained by hypothesizing a gene duplication (h) at the base of the gene tree (b)The presence of only a single gene (a-d) extant in each of the present-day species(1-4) requires postulating three gene losses (c) The corresponding reconciled tree

Ортологи и паралоги

bull Гены-паралоги ndash событие дупликация (and

bull Гены-ортологи ndash событие видообразования (in the two species and in the two species

Duplication

Speciation

Species a Species b

Шаги реконструирования филогенетического

древа

1 Выбор последовательностей и поиск гомологов

2 MSA3 Матрица белков4 Филогенетическое дерево

Филогенетическое дерево

Филогения - раздел биологии изучающий родственные взаимоотношения разных групп живых организмов Филогению отображается обычно в виде эволюционных древ или систематических названий

Зачем нужны филогенетические деревья

Биологические задачи

сравнение 3-х и более объектов (кто на кого более похож )

реконструкция эволюции (кто от кого как и когда произошелhellip)

ТерминологияУзел (node) mdash точка разделения предковой последовательности(вида популяции) на две независимо эволюционирующиеСоответствует внутренней вершине графа изображающего эволюциюЛист (leaf OTU ndash оперативная таксономическая единица) mdash реальный (современный) объект внешняя вершина графаВетвь (branch) mdash связь между узлами или между узлом и листом ребро графаКорень (root) mdash общий предокКлада (clade) - группа двух или более таксонов или последователь-ностей ДНК которая включает как своего общего предка так и всех его потомков

OTU

HTU (hypotetical taxonomic unit)

Какие бывают деревья

Бинарное (разрешённое)(в один момент времени может

произойти только одно событие )

Небинарное (неразрешённое) (может ли в один момент времени

произойти два события )

Время

Какие бывают деревья

Укорененное дерево (rooted tree)отражает направление эволюции

Неукорененное (бескорневое) дерево(unrooted tree) показывает только связи между узлами

Время

Если число листьев равно n существует (2n-3)разных бинарных укоренных деревьевПо определению (2n-3) = 1middot3 middot middot(2n-3)

Существует (2n-5) разных бескорневых деревьев с n листьями

Rooting

A C B B C AA B C

3 OTUs 3 OTUs 1 н 1 неукорененное деревоеукорененное дерево 33 укорененных деревьев укорененных деревьев

A

B

C

D

C

A

B

4 OTUs 4 OTUs 3 3 неукорененных филогенетических неукорененных филогенетических деревьевдеревьев

D

B

A

C C

B

A

D

4 OTUs

15 укорененных

деревьев

Количество Количество Количество

OTU укорененных неукорененных

2 1 13 3 14 15 35 105 156 954 1057 103959548 135135 103959 2027025 13513510 34459425 202702511 654729075 3445942512 13749310575 654729075

Количество возможных деревьев

Рутинная процедура или как строят деревья

Составление выборки последовательностей

Множественное выравнивание

Построение дерева фрагмент записи в виде скобочной формулы

Визуализация и редактура дерева

(((((con1013851018(f539692826973((f67220839851max42750591)492893con923019677)1362315)953075)2583145

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Множественное выравнивание

Matches

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Multiple Alignment

Matches

Mismatches

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Multiple Alignment

Matches

Mismatches

Gaps

Seq 1 A G C G A GSeq 1 A G C G A GSeq 2 G C G G A CSeq 2 G C G G A C

Шаг 3 Перевод количества расхождений в индексы замен

Distance Matrix

Units количество замен нуклеотидов на 1000

Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86

Rice 00 118 122 122

Mosquito 00 55 51

Monkey 00 3

Human 00

Шаг 4 построение филогенетического дерева

Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86

Rice 00 118 122 122

Mosquito 00 55 51

Monkey 00 3

Human 00

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Дистанция между человеком и обезьяной минимальна Эти группы объединяются в Monkey-Human а все остальные дистанции пересчитываются

Dist[Spinach MonHum] = (Dist[Spinach Monkey] +

Dist[Spinach Human])2 = (91 + 86)2 = 885

Spinach Rice Mosquito Mon-HumSpinach 00 9 106 885

Rice 00 118 122

Mosquito 00 53

Mon-Hum 00

Редуцированная матрица дистанций

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Spi-Ric

HumanMosquito

Mon-Hum

MonkeySpinachRice

Mos-Mon-Hum

Spi-Ric

Mos-Mon-Hum-Spi-Ric

Как выбирать последовательности для дерева

Кроме случаев очень близких последовательностей проще работать с белками (а не с ДНК)

Придерживайтесь небольшой выборки (lt 50 последовательностей)

Избегайтеndash фрагментовndash Ксенологов (горизонтальный перенос генов)ndash рекомбинантных последовательностейndash многодоменных белков и повторов

Используйте outgroup (последовательность ответвившаяся от общего предка заведомо (но минимально) раньше разделения интересующих групп-клад)

Самое главное ndash хорошее выравнивание

Максимальный вклад в финальное дерево нельзя построить хорошее дерево по плохому выравниванию

Блоки содержащие много гэпов плохо выровненные N- и C- концы можно просто вырезать

Основные алгоритмы построения филогенетических деревьев

Методы основанные на оценке

расстояний (матричные методы)

bull UPGMA (кластеризация)

bull Neighbor-joining

bull Минимальная эволюция

Наибольшего правдоподобия Maximal likelihood ML Используется модель эволюции и строится дерево которое наиболее правдоподобно при данной модели

Максимальной экономии (бережливости)

maximal parsimony MP Выбирается дерево с минимальным количеством

мутаций необходимых для объяснения данных

Пример матрицы расстояний

1 2 3 4 5 6 7 8 000 1053 977 1278 1203 1654 1353 2500 HUMAN 1

000 902 1203 977 1579 902 2727 HORSE 2 000 977 902 1654 1203 2424 RABIT 3

000 226 1729 1053 2576 MOUSE 4 000 1579 827 2576 RAT 5

000 1053 2955 BOVIN 6 000 2500 PIG 7

000 CHICK 8

Расстояние (уровень дивергенции) между соответствующими последовательностями из геномов мыши и свиньи

Как понимать расстояние между объектами

bull Как время в течение которого они эволюционировалиbull Как число laquoэволюционных событийraquo (мутаций)

В первом случае объекты образуют ультраметрическое пространство(если все объекты наблюдаются в одно время что как правило верно)

Но время непосредственно измерить невозможно

Гипотеза laquoмолекулярных часовraquo(EZuckerkandl LPauling 1962)

За равное время во всех ветвях эволюции данного генабелка накапливается равное число мутацийЕсли гипотеза молекулярных часов

принимается число различий между выровненными последовательностями можно считать примерно пропорциональным времени Отклонения от ультраметричности можно считать случайными Эволюция реконструируется в виде ультраметрического дерева

Укоренённое дерево называется ультраметрическим если расстояние от корня до любого из листьев одинаково

UPGMAUnweighted Pair Group Method with Arithmetic Mean

разновидность кластерного метода

Расстояние между кластерами вычисляется как среднее арифметическое всевозможных расстояний между последовательностями из кластеров

Недостатки UPGMA

Алгоритм строит ультраметрическое дерево ndash скорость эволюции предполагается одинаковой для всех ветвей дерева Использовать этот алгоритм имеет смысл только в случае ультраметрических данных (справедливости laquoмолекулярных часовraquo)

Реальное дерево UPGMA

Метод ближайших соседей (Neighbor-joining NJ)

Строит неукоренённое дерево

Может работать с большим количеством данных

Достаточно быстрый

Если есть недвусмысленное с точки зрения эксперта дерево то оно будет построено

Метод Neighbor-joining

Рисуем laquoзвездноеraquo дерево и будем laquoотщипыватьraquo от него по паре листьев

Пусть ui = Σk Mik(n-2) mdash среднее расстояние от листа i до других

листьев

1 Рассмотрим все возможные пары листьев Выберем 2 листа i и j с минимальным значением величины

Mij ndash ui ndashuj

те выбираем 2 узла которые близки друг к другу но далеки ото всех остальных

Метод ближайших соседей (Neighbor-joining NJ)

2 Кластер (i j) ndash новый узел дерева

Расстояние от i или от j до узла (ij) D(i (ij)) = 05middot(Mij + ui ndash uj) D(j (ij)) = 05middot (Mij + uj ndash ui) те длина ветви зависит от среднего расстояния до других вершин

3 Вычисляем расстояние от нового кластера до всех других

M(ij)k = Mik+Mjk ndash Mij 2

5 В матрице М убираем i и j и добавляем (i j) Повторяем пока не останутся 3 узла

Input MSA для n последовательностей одна последовательность для каждого вида

AAAAATC

AAAAAAG

CCCCCCG

AAAAATCAAAAAAG

CCCCCCG

Длинная ветвь ndash непохоже на правду

Длинная ветвь -Похоже на правду

Методы основанные на последовательностях Maximum Likelihood (ML) Maximum Parsimony (MP)

Как изобразить дерево Топология дерева

Топология дерева mdash только листья узлы (корень) и связывающие их ветви (топология не зависит от способа изображения дерева)

A

B

C

D

E A BC D E

Два изображения одной и той же топологии

Bacterium 1

Bacterium 3

Bacterium 2

Eukaryote 1

Eukaryote 4

Eukaryote 3

Eukaryote 2

Bacterium 1

Bacterium 3Bacterium 2

Eukaryote 1

Eukaryote 4Eukaryote 3

Eukaryote 2

Филограммы ndash длины ветвей

пропорциональны

эволюционному расстоянию

Кладограммы и филограммы

Кладограммы ndash только

топологя Длины ветвей не

учитываются

6

31

2

46

24

53

Как можно нарисовать построенное дерево

Какие on-line программы строят деревья

ClustalW ldquoTree typerdquo ndash nj phylip строит только методом NJ но результат ndash в разных форматах no bootstraps

Phylip (Felsenstein 1993) ndash пакет программ для построения филогенетических деревьев (stand-alone)On-line (partly) например

httpbiowebpasteurfrseqanalphylogenyphylip-ukhtml PAUP (Phylogenetic Analysis Using Parsimony)

MEGA филогенетический анализ последовательностей

httpwwwmegasoftwarenet

Эволюция ndash исторический процесс

Из 8200794532637891559375 деревьев для 20 OTUs 1

является верным и 8200794532637891559374

неверны

Truth is one falsehoods are many

Какое из 8200794532637891559375

деревьев истинно

Мы не знаем Можно применить иные критетии

Например ldquoпохожесть=родствоraquo

GCGbull Строковый поиск простой текстовый

поиск по локальной базе данных

bull Поиск в определениях или в аннотациях

bull Определения содержат минимальное количество информации для каждой статьи доступ имя организма имя гена длина последовательности дата

  • Bestfit Output
  • SP1 at swissprot
  • EGR1 at swissprot
  • Вывод
  • Bl2Seq at NCBI
  • Bl2seq results
  • Bl2seq оценка
  • Оптимизация времени вычислений при парном выравнивании
  • Slide 9
  • Алгоритм BLAST (шаг 1)
  • Slide 11
  • Blast
  • Поиск гомологов
  • ДНК или белок
  • ДНК
  • Slide 16
  • Slide 17
  • Двойная спираль
  • ДНК дальнейшая упаковка
  • Slide 20
  • Репликация ДНК
  • Slide 22
  • Slide 23
  • Slide 24
  • Slide 25
  • Множественное выравнивание последовательностей (MSA)
  • Slide 27
  • Основные предположения
  • Например
  • Почему множественное выравнивание
  • Slide 31
  • Подходы в MSA
  • MSA algorithm
  • Multiple Alignment - алгоритм
  • Комментарии
  • GCG
  • Slide 37
  • GCG
  • Slide 39
  • Slide 40
  • Slide 41
  • ClustalW
  • Slide 43
  • Slide 44
  • ClustalW на EMBL
  • ClustalW на EMBL - результат
  • ClustalW at EMBL - Jalview
  • Consensus Sequence
  • Профиль (Profile)
  • Profile vs Consensus
  • Slide 51
  • Slide 52
  • Psi Blast (NCBI)
  • PSI-Blast
  • Psi-Blast вывод
  • Slide 56
  • Филогенез
  • Slide 58
  • Slide 59
  • Slide 60
  • Slide 61
  • Древо видов и генов
  • Ортологи и паралоги
  • Шаги реконструирования филогенетического древа
  • Филогенетическое дерево
  • Зачем нужны филогенетические деревья
  • Терминология
  • Slide 68
  • Какие бывают деревья
  • Slide 70
  • Slide 71
  • Slide 72
  • 4 OTUs 3 неукорененных филогенетических деревьев
  • Slide 74
  • Slide 75
  • Slide 76
  • Slide 77
  • Рутинная процедура или как строят деревья
  • Slide 79
  • Slide 80
  • Slide 81
  • Slide 82
  • Slide 83
  • Slide 84
  • Slide 85
  • Slide 86
  • Slide 87
  • Slide 88
  • Slide 89
  • Как выбирать последовательности для дерева
  • Самое главное ndash хорошее выравнивание
  • Основные алгоритмы построения филогенетических деревьев
  • Пример матрицы расстояний
  • Slide 94
  • Гипотеза laquoмолекулярных часовraquo (EZuckerkandl LPauling 1962)
  • UPGMA Unweighted Pair Group Method with Arithmetic Mean
  • Недостатки UPGMA
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Метод Neighbor-joining
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Slide 101
  • Как изобразить дерево Топология дерева
  • Slide 103
  • Какие on-line программы строят деревья
  • MEGA филогенетический анализ последовательностей
  • Slide 106
  • Slide 107
  • Slide 108
Page 37: Bestfit Output

GCGПример входного файла

swhbb_human

swhbb_rat

swhbb_mouse

Hemoglobin_Alpha

Hemoglobin_Gamma

Hemogolibin_Delta

Syntax the file starts with ldquordquo

Sequences from the databases

Sequences from the userrsquos directory

GCG PileUp creates a multiple sequence alignment from a group of relatedsequences using progressive pairwise alignments It can also plot atree showing the clustering relationships used to create the alignment

1 IPNS_STRJU 329 aa 2 IPNS_STRCL 329 aa 3 IPNS_CEPAC 338 aa 4 IPNS_NOCLA 328 aa

What is the gap creation penalty ( 8 ) What is the gap extension penalty ( 2 )

This program can display the clustering relationships graphically Do you want to A) Plot to a FIGURE file called pileupfigure B) Plot graphics on HP7550 attached to devtty15 C) Suppress the plot Please choose one ( A ) c What should I call the output file name ( ipnsmsf )

Determining pairwise similarity scores

1 x 2 443 1 x 3 312 1 x 4 412 2 x 3 294 2 x 4 405 3 x 4 309

Aligning

Total sequences 4 Alignment length 338 CPU time 0021

Output filedatausersracheliothersracheliipnsmsf

Regular GCG syntaxDefault parametersoutput file etc

GCGAA_MULTIPLE_ALIGNMENT 10PileUp of ipnsfil

Symbol comparison table GenRunDatablosum62cmp CompCheck 1102 GapWeight 8 GapLengthWeight 2 ipnsmsf MSF 338 Type P March 14 2002 0929 Check 7631

Name IPNS_STRJU Len 338 Check 6344 Weight 100 Name IPNS_STRCL Len 338 Check 4249 Weight 100 Name IPNS_NOCLA Len 338 Check 7020 Weight 100 Name IPNS_CEPAC Len 338 Check 18 Weight 100

1 50IPNS_STRJU ~MPILMPSAE VPTIDISPLS GDDAKAKQRV AQEINKAARG SGFFYASNHGIPNS_STRCL ~MPVLMPSAH VPTIDISPLF GTDAAAKKRV AEEIHGACRG SGFFYATNHGIPNS_NOCLA ~~~MKMPSAE VPTIDVSPLF GDDAQEKVRV GQEINKACRG SGFFYAANHGIPNS_CEPAC MGSVPVPVAN VPRIDVSPLF GDDKEKKLEV ARAIDAASRD TGFFYAVNHG

51 100IPNS_STRJU VDVQLLQDVV NEFHRNMSDQ EKHDLAINAY NKDNPHVRN GYYKAIKGKKIPNS_STRCL VDVQQLQDVV NEFHGAMTDQ EKHDLAIHAY NPDNPHVRN GYYKAVPGRKIPNS_NOCLA VDVQRLQDVV NEFHRTMSPQ EKYDLAIHAY NKNNSHVRN GYYMAIEGKKIPNS_CEPAC VDLPWLSRET NKFHMSITDE EKWQLAIRAY NKEHESQIRA GYYLPIPGKK

Output filemsf format

GCG

Prettybox генерирует графический файл из файла MSA

prettybox [MSA file]

prettybox hemoglobinsmsf

1 The ldquordquo is a syntax sign meaning all the sequences in the MSA file

2 Can also calculate the consensus sequence

GCG

ClustalWbull Очень известная и широко распространённая

программа UNIX Internet Windows

bull Выполняет MSA может строить филогенетические деревья

bull Входной файл ndash формат multi-fasta

ClustalW

bull tofasta list

gtIPNS_STRJU P18286

MPILMPSAEVPTIDISPLSGDDAKAKQRVAQEINKAARGSGFFYASNHGVDVQLLQDVVN

EFHRNMSDQEKHDLAINAYNKDNPHVRNGYYKAIKGKKAVESFCYLNPSFSDDHPMIKSE

TPMHEVNLWPDEEKHPRFRPFCEDYYRQLLRLSTVIMRGYALALGRREDFFDEALAEADT

LSSVSLIRYPYLEEYPPVKTGADGTKLSFEDHLDVSMITVLYQTEVQNLQVETVDGWQDI

PRSDEDFLVNCGTYMGHITHDYFPAPNHRVKFINAERLSLPFFLNAGHNSVIEPFVPEGA

AGTVKNPTTSYGEYLQHGLRALIVKNGQT

gtIPNS_STRCL P10621

MPVLMPSAHVPTIDISPLFGTDAAAKKRVAEEIHGACRGSGFFYATNHGVDVQQLQDVVN

EFHGAMTDQEKHDLAIHAYNPDNPHVRNGYYKAVPGRKAVESFCYLNPDFGEDHPMIAAG

TPMHEVNLWPDEERHPRFRPFCEGYYRQMLKLSTVLMRGLALALGRPEHFFDAALAEQDS

LSSVSLIRYPYLEEYPPVKTGPDGQLLSFEDHLDVSMITVLFQTQVQNLQVETVDGWRDI

PTSENDFLVNCGTYMAHVTNDYFPAPNHRVKFVNAERLSLPFFLNGGHEAVIEPFVPEGA

SEEVRNEALSYGDYLQHGLRALIVKNGQT

input fileMulti-fasta

Making the file in unix

ClustalWCLUSTAL W (17) multiple sequence alignment

IPNS_STRJU -MPILMPSAEVPTIDISPLSGDDAKAKQRVAQEINKAARGSGFFYASNHGVDVQLLQDVVIPNS_STRGR -MPIPMLPAHVPTIDISPLSGGDADDKKRVAQEINKACRESGFFYASHHGIDVQLLKDVVIPNS_FLASS ----MNRHADVPVIDISGLSGNDMDVKKDIAARIDRACRGSGFFYAANHGVDLAALQKFTIPNS_PENCH --MASTPKANVPKIDVSPLFGDNMEEKMKVARAIDAASRDTGFFYAVNHGVDVKRLSNKTIPNS_CEPAC MGSVPVPVANVPRIDVSPLFGDDKEKKLEVARAIDAASRDTGFFYAVNHGVDLPWLSRET

IPNS_STRJU NEFHRNMSDQEKHDLAINAYNKDNP-HVRNGYYKAIKGKKAVESFCYLNPSFSDDHPMIKIPNS_STRGR NEFHRTMTDEEKYDLAINAYNKNNP-RTRNGYYMAVKGKKAVESWCYLNPSFSEDHPQIRIPNS_FLASS TDWHMAMSAEEKWELAIRAYNPANP-RNRNGYYMAVEGKKANESFCYLNPSFDADHATIKIPNS_PENCH REFHFSITDEEKWDLAIRAYNKEHQDQIRAGYYLSIPEKKAVESFCYLNPNFKPDHPLIQIPNS_CEPAC NKFHMSITDEEKWQLAIRAYNKEHESQIRAGYYLPIPGKKAVESFCYLNPSFSPDHPRIK

Выходной файл aln format

httpwwwebiacukhelpformatshtml

форматы

ClustalW на EMBL

ClustalW на EMBL - результат

ClustalW at EMBL - Jalview

Conservation

Consensus Sequence

Мы можем вывести consensus sequence из результатов MSA The consensus sequence содержит наиболее часто встречающийся символ в кажной колонке выравнивания

A T C T T G T

A A C T T G T

A A C T T C T

A A C T T G T

Ещё пара терминовhelliphellip

Профиль (Profile)

Также возможно вывести статистическую модель описывающую MSA Профиль содержит информацию о символах в каждом столбце выравнивания

A T C T T G T

A A C T T G T

A A C T T C T

1 2 3 4 5 6

A 1 067 0 0

T 0 033 1 1

C 0 0 0 0

G 0 0 0 0

Profile vs Consensus

Consensus каждая позиция отражает наиболее часто встречающийся символ

Profile каждая позиция отражает частоту символа в данной позиции

Profile vs Consensus

Данный MSA будет иметь одинаковый consensus

A A C T T G C

A A G T C G T

C A C T T C T

A A C T T G T

A A C T T G T

A A C T T C T

A A C T T G T

Profile vs Consensus

Но разный профиль

A A C T T G C

A A G T C G T

C A C T T C T

A A C T T G T

A A C T T G T

A A C T T C T

1 2 3 4 5 6

A 066 1 0 0

T 0 0 0 1

C 033 0 066 0

G 0 0 033 0

1 2 3 4 5 6

A 1 1 0 0

T 0 0 0 1

C 0 0 1 0

G 0 0 0 0

Psi Blast (NCBI)

Position Specific Iterated ndash автоматизированный поиск по профилю

Regular blast

Construct profile from blast results

Blast profile search

Final results

PSI-Blast

Psi-Blast вывод

Проблема формулировки выводов при использовании МSA

1 Сайт выглядит общим (фиксированным) из-за того что это ndash близкородственные последовательности

2 Сайт выглядит общим из-за того что это ndash исключительно жизненно важный сайт

ФилогенезЭволюция ndash случайный процесс с неслучайным результатом

Цели филогенетического исследования

bull Реконструкция корректных генеалогических связей

между биологическими объектами

bull Оценка времени расхождения организмов

bull Определение порядка эволюционных событий в процессе

эволюции

Формат Newick

((A(BC))(DE))

Типы данных

Molecular (DNA RNA proteins)

Morphological (soft tissue hard tissue extant extinct)

Преимущества молекулярных данных

bull Наследуемость

bull Недвусмысленность в описании молекулярных характеристик

bull Поддаются количественному анализу

bull Оценка гомологии легче чем морфологические исследования

bull Данных много

Древо видов и геновbull Древо видов ndash эволюционные взаимосвязи

между видами (видообразование)bull Древо генов

Page RDM and Cotton JC (2000) GeneTree a tool for exploring gene family evolution In D Sankoff and J Nadeau (eds) Comparative Genomics Empirical and Analytical Approaches to Gene Order Dynamics Map Alignment and the Evolution of Gene Families Kluwer Academic Publishers Dordrecht pp 525-536

Figure 2 (a) Incongruent gene and species trees This incongruence can be explained by hypothesizing a gene duplication (h) at the base of the gene tree (b)The presence of only a single gene (a-d) extant in each of the present-day species(1-4) requires postulating three gene losses (c) The corresponding reconciled tree

Ортологи и паралоги

bull Гены-паралоги ndash событие дупликация (and

bull Гены-ортологи ndash событие видообразования (in the two species and in the two species

Duplication

Speciation

Species a Species b

Шаги реконструирования филогенетического

древа

1 Выбор последовательностей и поиск гомологов

2 MSA3 Матрица белков4 Филогенетическое дерево

Филогенетическое дерево

Филогения - раздел биологии изучающий родственные взаимоотношения разных групп живых организмов Филогению отображается обычно в виде эволюционных древ или систематических названий

Зачем нужны филогенетические деревья

Биологические задачи

сравнение 3-х и более объектов (кто на кого более похож )

реконструкция эволюции (кто от кого как и когда произошелhellip)

ТерминологияУзел (node) mdash точка разделения предковой последовательности(вида популяции) на две независимо эволюционирующиеСоответствует внутренней вершине графа изображающего эволюциюЛист (leaf OTU ndash оперативная таксономическая единица) mdash реальный (современный) объект внешняя вершина графаВетвь (branch) mdash связь между узлами или между узлом и листом ребро графаКорень (root) mdash общий предокКлада (clade) - группа двух или более таксонов или последователь-ностей ДНК которая включает как своего общего предка так и всех его потомков

OTU

HTU (hypotetical taxonomic unit)

Какие бывают деревья

Бинарное (разрешённое)(в один момент времени может

произойти только одно событие )

Небинарное (неразрешённое) (может ли в один момент времени

произойти два события )

Время

Какие бывают деревья

Укорененное дерево (rooted tree)отражает направление эволюции

Неукорененное (бескорневое) дерево(unrooted tree) показывает только связи между узлами

Время

Если число листьев равно n существует (2n-3)разных бинарных укоренных деревьевПо определению (2n-3) = 1middot3 middot middot(2n-3)

Существует (2n-5) разных бескорневых деревьев с n листьями

Rooting

A C B B C AA B C

3 OTUs 3 OTUs 1 н 1 неукорененное деревоеукорененное дерево 33 укорененных деревьев укорененных деревьев

A

B

C

D

C

A

B

4 OTUs 4 OTUs 3 3 неукорененных филогенетических неукорененных филогенетических деревьевдеревьев

D

B

A

C C

B

A

D

4 OTUs

15 укорененных

деревьев

Количество Количество Количество

OTU укорененных неукорененных

2 1 13 3 14 15 35 105 156 954 1057 103959548 135135 103959 2027025 13513510 34459425 202702511 654729075 3445942512 13749310575 654729075

Количество возможных деревьев

Рутинная процедура или как строят деревья

Составление выборки последовательностей

Множественное выравнивание

Построение дерева фрагмент записи в виде скобочной формулы

Визуализация и редактура дерева

(((((con1013851018(f539692826973((f67220839851max42750591)492893con923019677)1362315)953075)2583145

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Множественное выравнивание

Matches

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Multiple Alignment

Matches

Mismatches

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Multiple Alignment

Matches

Mismatches

Gaps

Seq 1 A G C G A GSeq 1 A G C G A GSeq 2 G C G G A CSeq 2 G C G G A C

Шаг 3 Перевод количества расхождений в индексы замен

Distance Matrix

Units количество замен нуклеотидов на 1000

Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86

Rice 00 118 122 122

Mosquito 00 55 51

Monkey 00 3

Human 00

Шаг 4 построение филогенетического дерева

Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86

Rice 00 118 122 122

Mosquito 00 55 51

Monkey 00 3

Human 00

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Дистанция между человеком и обезьяной минимальна Эти группы объединяются в Monkey-Human а все остальные дистанции пересчитываются

Dist[Spinach MonHum] = (Dist[Spinach Monkey] +

Dist[Spinach Human])2 = (91 + 86)2 = 885

Spinach Rice Mosquito Mon-HumSpinach 00 9 106 885

Rice 00 118 122

Mosquito 00 53

Mon-Hum 00

Редуцированная матрица дистанций

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Spi-Ric

HumanMosquito

Mon-Hum

MonkeySpinachRice

Mos-Mon-Hum

Spi-Ric

Mos-Mon-Hum-Spi-Ric

Как выбирать последовательности для дерева

Кроме случаев очень близких последовательностей проще работать с белками (а не с ДНК)

Придерживайтесь небольшой выборки (lt 50 последовательностей)

Избегайтеndash фрагментовndash Ксенологов (горизонтальный перенос генов)ndash рекомбинантных последовательностейndash многодоменных белков и повторов

Используйте outgroup (последовательность ответвившаяся от общего предка заведомо (но минимально) раньше разделения интересующих групп-клад)

Самое главное ndash хорошее выравнивание

Максимальный вклад в финальное дерево нельзя построить хорошее дерево по плохому выравниванию

Блоки содержащие много гэпов плохо выровненные N- и C- концы можно просто вырезать

Основные алгоритмы построения филогенетических деревьев

Методы основанные на оценке

расстояний (матричные методы)

bull UPGMA (кластеризация)

bull Neighbor-joining

bull Минимальная эволюция

Наибольшего правдоподобия Maximal likelihood ML Используется модель эволюции и строится дерево которое наиболее правдоподобно при данной модели

Максимальной экономии (бережливости)

maximal parsimony MP Выбирается дерево с минимальным количеством

мутаций необходимых для объяснения данных

Пример матрицы расстояний

1 2 3 4 5 6 7 8 000 1053 977 1278 1203 1654 1353 2500 HUMAN 1

000 902 1203 977 1579 902 2727 HORSE 2 000 977 902 1654 1203 2424 RABIT 3

000 226 1729 1053 2576 MOUSE 4 000 1579 827 2576 RAT 5

000 1053 2955 BOVIN 6 000 2500 PIG 7

000 CHICK 8

Расстояние (уровень дивергенции) между соответствующими последовательностями из геномов мыши и свиньи

Как понимать расстояние между объектами

bull Как время в течение которого они эволюционировалиbull Как число laquoэволюционных событийraquo (мутаций)

В первом случае объекты образуют ультраметрическое пространство(если все объекты наблюдаются в одно время что как правило верно)

Но время непосредственно измерить невозможно

Гипотеза laquoмолекулярных часовraquo(EZuckerkandl LPauling 1962)

За равное время во всех ветвях эволюции данного генабелка накапливается равное число мутацийЕсли гипотеза молекулярных часов

принимается число различий между выровненными последовательностями можно считать примерно пропорциональным времени Отклонения от ультраметричности можно считать случайными Эволюция реконструируется в виде ультраметрического дерева

Укоренённое дерево называется ультраметрическим если расстояние от корня до любого из листьев одинаково

UPGMAUnweighted Pair Group Method with Arithmetic Mean

разновидность кластерного метода

Расстояние между кластерами вычисляется как среднее арифметическое всевозможных расстояний между последовательностями из кластеров

Недостатки UPGMA

Алгоритм строит ультраметрическое дерево ndash скорость эволюции предполагается одинаковой для всех ветвей дерева Использовать этот алгоритм имеет смысл только в случае ультраметрических данных (справедливости laquoмолекулярных часовraquo)

Реальное дерево UPGMA

Метод ближайших соседей (Neighbor-joining NJ)

Строит неукоренённое дерево

Может работать с большим количеством данных

Достаточно быстрый

Если есть недвусмысленное с точки зрения эксперта дерево то оно будет построено

Метод Neighbor-joining

Рисуем laquoзвездноеraquo дерево и будем laquoотщипыватьraquo от него по паре листьев

Пусть ui = Σk Mik(n-2) mdash среднее расстояние от листа i до других

листьев

1 Рассмотрим все возможные пары листьев Выберем 2 листа i и j с минимальным значением величины

Mij ndash ui ndashuj

те выбираем 2 узла которые близки друг к другу но далеки ото всех остальных

Метод ближайших соседей (Neighbor-joining NJ)

2 Кластер (i j) ndash новый узел дерева

Расстояние от i или от j до узла (ij) D(i (ij)) = 05middot(Mij + ui ndash uj) D(j (ij)) = 05middot (Mij + uj ndash ui) те длина ветви зависит от среднего расстояния до других вершин

3 Вычисляем расстояние от нового кластера до всех других

M(ij)k = Mik+Mjk ndash Mij 2

5 В матрице М убираем i и j и добавляем (i j) Повторяем пока не останутся 3 узла

Input MSA для n последовательностей одна последовательность для каждого вида

AAAAATC

AAAAAAG

CCCCCCG

AAAAATCAAAAAAG

CCCCCCG

Длинная ветвь ndash непохоже на правду

Длинная ветвь -Похоже на правду

Методы основанные на последовательностях Maximum Likelihood (ML) Maximum Parsimony (MP)

Как изобразить дерево Топология дерева

Топология дерева mdash только листья узлы (корень) и связывающие их ветви (топология не зависит от способа изображения дерева)

A

B

C

D

E A BC D E

Два изображения одной и той же топологии

Bacterium 1

Bacterium 3

Bacterium 2

Eukaryote 1

Eukaryote 4

Eukaryote 3

Eukaryote 2

Bacterium 1

Bacterium 3Bacterium 2

Eukaryote 1

Eukaryote 4Eukaryote 3

Eukaryote 2

Филограммы ndash длины ветвей

пропорциональны

эволюционному расстоянию

Кладограммы и филограммы

Кладограммы ndash только

топологя Длины ветвей не

учитываются

6

31

2

46

24

53

Как можно нарисовать построенное дерево

Какие on-line программы строят деревья

ClustalW ldquoTree typerdquo ndash nj phylip строит только методом NJ но результат ndash в разных форматах no bootstraps

Phylip (Felsenstein 1993) ndash пакет программ для построения филогенетических деревьев (stand-alone)On-line (partly) например

httpbiowebpasteurfrseqanalphylogenyphylip-ukhtml PAUP (Phylogenetic Analysis Using Parsimony)

MEGA филогенетический анализ последовательностей

httpwwwmegasoftwarenet

Эволюция ndash исторический процесс

Из 8200794532637891559375 деревьев для 20 OTUs 1

является верным и 8200794532637891559374

неверны

Truth is one falsehoods are many

Какое из 8200794532637891559375

деревьев истинно

Мы не знаем Можно применить иные критетии

Например ldquoпохожесть=родствоraquo

GCGbull Строковый поиск простой текстовый

поиск по локальной базе данных

bull Поиск в определениях или в аннотациях

bull Определения содержат минимальное количество информации для каждой статьи доступ имя организма имя гена длина последовательности дата

  • Bestfit Output
  • SP1 at swissprot
  • EGR1 at swissprot
  • Вывод
  • Bl2Seq at NCBI
  • Bl2seq results
  • Bl2seq оценка
  • Оптимизация времени вычислений при парном выравнивании
  • Slide 9
  • Алгоритм BLAST (шаг 1)
  • Slide 11
  • Blast
  • Поиск гомологов
  • ДНК или белок
  • ДНК
  • Slide 16
  • Slide 17
  • Двойная спираль
  • ДНК дальнейшая упаковка
  • Slide 20
  • Репликация ДНК
  • Slide 22
  • Slide 23
  • Slide 24
  • Slide 25
  • Множественное выравнивание последовательностей (MSA)
  • Slide 27
  • Основные предположения
  • Например
  • Почему множественное выравнивание
  • Slide 31
  • Подходы в MSA
  • MSA algorithm
  • Multiple Alignment - алгоритм
  • Комментарии
  • GCG
  • Slide 37
  • GCG
  • Slide 39
  • Slide 40
  • Slide 41
  • ClustalW
  • Slide 43
  • Slide 44
  • ClustalW на EMBL
  • ClustalW на EMBL - результат
  • ClustalW at EMBL - Jalview
  • Consensus Sequence
  • Профиль (Profile)
  • Profile vs Consensus
  • Slide 51
  • Slide 52
  • Psi Blast (NCBI)
  • PSI-Blast
  • Psi-Blast вывод
  • Slide 56
  • Филогенез
  • Slide 58
  • Slide 59
  • Slide 60
  • Slide 61
  • Древо видов и генов
  • Ортологи и паралоги
  • Шаги реконструирования филогенетического древа
  • Филогенетическое дерево
  • Зачем нужны филогенетические деревья
  • Терминология
  • Slide 68
  • Какие бывают деревья
  • Slide 70
  • Slide 71
  • Slide 72
  • 4 OTUs 3 неукорененных филогенетических деревьев
  • Slide 74
  • Slide 75
  • Slide 76
  • Slide 77
  • Рутинная процедура или как строят деревья
  • Slide 79
  • Slide 80
  • Slide 81
  • Slide 82
  • Slide 83
  • Slide 84
  • Slide 85
  • Slide 86
  • Slide 87
  • Slide 88
  • Slide 89
  • Как выбирать последовательности для дерева
  • Самое главное ndash хорошее выравнивание
  • Основные алгоритмы построения филогенетических деревьев
  • Пример матрицы расстояний
  • Slide 94
  • Гипотеза laquoмолекулярных часовraquo (EZuckerkandl LPauling 1962)
  • UPGMA Unweighted Pair Group Method with Arithmetic Mean
  • Недостатки UPGMA
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Метод Neighbor-joining
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Slide 101
  • Как изобразить дерево Топология дерева
  • Slide 103
  • Какие on-line программы строят деревья
  • MEGA филогенетический анализ последовательностей
  • Slide 106
  • Slide 107
  • Slide 108
Page 38: Bestfit Output

GCG PileUp creates a multiple sequence alignment from a group of relatedsequences using progressive pairwise alignments It can also plot atree showing the clustering relationships used to create the alignment

1 IPNS_STRJU 329 aa 2 IPNS_STRCL 329 aa 3 IPNS_CEPAC 338 aa 4 IPNS_NOCLA 328 aa

What is the gap creation penalty ( 8 ) What is the gap extension penalty ( 2 )

This program can display the clustering relationships graphically Do you want to A) Plot to a FIGURE file called pileupfigure B) Plot graphics on HP7550 attached to devtty15 C) Suppress the plot Please choose one ( A ) c What should I call the output file name ( ipnsmsf )

Determining pairwise similarity scores

1 x 2 443 1 x 3 312 1 x 4 412 2 x 3 294 2 x 4 405 3 x 4 309

Aligning

Total sequences 4 Alignment length 338 CPU time 0021

Output filedatausersracheliothersracheliipnsmsf

Regular GCG syntaxDefault parametersoutput file etc

GCGAA_MULTIPLE_ALIGNMENT 10PileUp of ipnsfil

Symbol comparison table GenRunDatablosum62cmp CompCheck 1102 GapWeight 8 GapLengthWeight 2 ipnsmsf MSF 338 Type P March 14 2002 0929 Check 7631

Name IPNS_STRJU Len 338 Check 6344 Weight 100 Name IPNS_STRCL Len 338 Check 4249 Weight 100 Name IPNS_NOCLA Len 338 Check 7020 Weight 100 Name IPNS_CEPAC Len 338 Check 18 Weight 100

1 50IPNS_STRJU ~MPILMPSAE VPTIDISPLS GDDAKAKQRV AQEINKAARG SGFFYASNHGIPNS_STRCL ~MPVLMPSAH VPTIDISPLF GTDAAAKKRV AEEIHGACRG SGFFYATNHGIPNS_NOCLA ~~~MKMPSAE VPTIDVSPLF GDDAQEKVRV GQEINKACRG SGFFYAANHGIPNS_CEPAC MGSVPVPVAN VPRIDVSPLF GDDKEKKLEV ARAIDAASRD TGFFYAVNHG

51 100IPNS_STRJU VDVQLLQDVV NEFHRNMSDQ EKHDLAINAY NKDNPHVRN GYYKAIKGKKIPNS_STRCL VDVQQLQDVV NEFHGAMTDQ EKHDLAIHAY NPDNPHVRN GYYKAVPGRKIPNS_NOCLA VDVQRLQDVV NEFHRTMSPQ EKYDLAIHAY NKNNSHVRN GYYMAIEGKKIPNS_CEPAC VDLPWLSRET NKFHMSITDE EKWQLAIRAY NKEHESQIRA GYYLPIPGKK

Output filemsf format

GCG

Prettybox генерирует графический файл из файла MSA

prettybox [MSA file]

prettybox hemoglobinsmsf

1 The ldquordquo is a syntax sign meaning all the sequences in the MSA file

2 Can also calculate the consensus sequence

GCG

ClustalWbull Очень известная и широко распространённая

программа UNIX Internet Windows

bull Выполняет MSA может строить филогенетические деревья

bull Входной файл ndash формат multi-fasta

ClustalW

bull tofasta list

gtIPNS_STRJU P18286

MPILMPSAEVPTIDISPLSGDDAKAKQRVAQEINKAARGSGFFYASNHGVDVQLLQDVVN

EFHRNMSDQEKHDLAINAYNKDNPHVRNGYYKAIKGKKAVESFCYLNPSFSDDHPMIKSE

TPMHEVNLWPDEEKHPRFRPFCEDYYRQLLRLSTVIMRGYALALGRREDFFDEALAEADT

LSSVSLIRYPYLEEYPPVKTGADGTKLSFEDHLDVSMITVLYQTEVQNLQVETVDGWQDI

PRSDEDFLVNCGTYMGHITHDYFPAPNHRVKFINAERLSLPFFLNAGHNSVIEPFVPEGA

AGTVKNPTTSYGEYLQHGLRALIVKNGQT

gtIPNS_STRCL P10621

MPVLMPSAHVPTIDISPLFGTDAAAKKRVAEEIHGACRGSGFFYATNHGVDVQQLQDVVN

EFHGAMTDQEKHDLAIHAYNPDNPHVRNGYYKAVPGRKAVESFCYLNPDFGEDHPMIAAG

TPMHEVNLWPDEERHPRFRPFCEGYYRQMLKLSTVLMRGLALALGRPEHFFDAALAEQDS

LSSVSLIRYPYLEEYPPVKTGPDGQLLSFEDHLDVSMITVLFQTQVQNLQVETVDGWRDI

PTSENDFLVNCGTYMAHVTNDYFPAPNHRVKFVNAERLSLPFFLNGGHEAVIEPFVPEGA

SEEVRNEALSYGDYLQHGLRALIVKNGQT

input fileMulti-fasta

Making the file in unix

ClustalWCLUSTAL W (17) multiple sequence alignment

IPNS_STRJU -MPILMPSAEVPTIDISPLSGDDAKAKQRVAQEINKAARGSGFFYASNHGVDVQLLQDVVIPNS_STRGR -MPIPMLPAHVPTIDISPLSGGDADDKKRVAQEINKACRESGFFYASHHGIDVQLLKDVVIPNS_FLASS ----MNRHADVPVIDISGLSGNDMDVKKDIAARIDRACRGSGFFYAANHGVDLAALQKFTIPNS_PENCH --MASTPKANVPKIDVSPLFGDNMEEKMKVARAIDAASRDTGFFYAVNHGVDVKRLSNKTIPNS_CEPAC MGSVPVPVANVPRIDVSPLFGDDKEKKLEVARAIDAASRDTGFFYAVNHGVDLPWLSRET

IPNS_STRJU NEFHRNMSDQEKHDLAINAYNKDNP-HVRNGYYKAIKGKKAVESFCYLNPSFSDDHPMIKIPNS_STRGR NEFHRTMTDEEKYDLAINAYNKNNP-RTRNGYYMAVKGKKAVESWCYLNPSFSEDHPQIRIPNS_FLASS TDWHMAMSAEEKWELAIRAYNPANP-RNRNGYYMAVEGKKANESFCYLNPSFDADHATIKIPNS_PENCH REFHFSITDEEKWDLAIRAYNKEHQDQIRAGYYLSIPEKKAVESFCYLNPNFKPDHPLIQIPNS_CEPAC NKFHMSITDEEKWQLAIRAYNKEHESQIRAGYYLPIPGKKAVESFCYLNPSFSPDHPRIK

Выходной файл aln format

httpwwwebiacukhelpformatshtml

форматы

ClustalW на EMBL

ClustalW на EMBL - результат

ClustalW at EMBL - Jalview

Conservation

Consensus Sequence

Мы можем вывести consensus sequence из результатов MSA The consensus sequence содержит наиболее часто встречающийся символ в кажной колонке выравнивания

A T C T T G T

A A C T T G T

A A C T T C T

A A C T T G T

Ещё пара терминовhelliphellip

Профиль (Profile)

Также возможно вывести статистическую модель описывающую MSA Профиль содержит информацию о символах в каждом столбце выравнивания

A T C T T G T

A A C T T G T

A A C T T C T

1 2 3 4 5 6

A 1 067 0 0

T 0 033 1 1

C 0 0 0 0

G 0 0 0 0

Profile vs Consensus

Consensus каждая позиция отражает наиболее часто встречающийся символ

Profile каждая позиция отражает частоту символа в данной позиции

Profile vs Consensus

Данный MSA будет иметь одинаковый consensus

A A C T T G C

A A G T C G T

C A C T T C T

A A C T T G T

A A C T T G T

A A C T T C T

A A C T T G T

Profile vs Consensus

Но разный профиль

A A C T T G C

A A G T C G T

C A C T T C T

A A C T T G T

A A C T T G T

A A C T T C T

1 2 3 4 5 6

A 066 1 0 0

T 0 0 0 1

C 033 0 066 0

G 0 0 033 0

1 2 3 4 5 6

A 1 1 0 0

T 0 0 0 1

C 0 0 1 0

G 0 0 0 0

Psi Blast (NCBI)

Position Specific Iterated ndash автоматизированный поиск по профилю

Regular blast

Construct profile from blast results

Blast profile search

Final results

PSI-Blast

Psi-Blast вывод

Проблема формулировки выводов при использовании МSA

1 Сайт выглядит общим (фиксированным) из-за того что это ndash близкородственные последовательности

2 Сайт выглядит общим из-за того что это ndash исключительно жизненно важный сайт

ФилогенезЭволюция ndash случайный процесс с неслучайным результатом

Цели филогенетического исследования

bull Реконструкция корректных генеалогических связей

между биологическими объектами

bull Оценка времени расхождения организмов

bull Определение порядка эволюционных событий в процессе

эволюции

Формат Newick

((A(BC))(DE))

Типы данных

Molecular (DNA RNA proteins)

Morphological (soft tissue hard tissue extant extinct)

Преимущества молекулярных данных

bull Наследуемость

bull Недвусмысленность в описании молекулярных характеристик

bull Поддаются количественному анализу

bull Оценка гомологии легче чем морфологические исследования

bull Данных много

Древо видов и геновbull Древо видов ndash эволюционные взаимосвязи

между видами (видообразование)bull Древо генов

Page RDM and Cotton JC (2000) GeneTree a tool for exploring gene family evolution In D Sankoff and J Nadeau (eds) Comparative Genomics Empirical and Analytical Approaches to Gene Order Dynamics Map Alignment and the Evolution of Gene Families Kluwer Academic Publishers Dordrecht pp 525-536

Figure 2 (a) Incongruent gene and species trees This incongruence can be explained by hypothesizing a gene duplication (h) at the base of the gene tree (b)The presence of only a single gene (a-d) extant in each of the present-day species(1-4) requires postulating three gene losses (c) The corresponding reconciled tree

Ортологи и паралоги

bull Гены-паралоги ndash событие дупликация (and

bull Гены-ортологи ndash событие видообразования (in the two species and in the two species

Duplication

Speciation

Species a Species b

Шаги реконструирования филогенетического

древа

1 Выбор последовательностей и поиск гомологов

2 MSA3 Матрица белков4 Филогенетическое дерево

Филогенетическое дерево

Филогения - раздел биологии изучающий родственные взаимоотношения разных групп живых организмов Филогению отображается обычно в виде эволюционных древ или систематических названий

Зачем нужны филогенетические деревья

Биологические задачи

сравнение 3-х и более объектов (кто на кого более похож )

реконструкция эволюции (кто от кого как и когда произошелhellip)

ТерминологияУзел (node) mdash точка разделения предковой последовательности(вида популяции) на две независимо эволюционирующиеСоответствует внутренней вершине графа изображающего эволюциюЛист (leaf OTU ndash оперативная таксономическая единица) mdash реальный (современный) объект внешняя вершина графаВетвь (branch) mdash связь между узлами или между узлом и листом ребро графаКорень (root) mdash общий предокКлада (clade) - группа двух или более таксонов или последователь-ностей ДНК которая включает как своего общего предка так и всех его потомков

OTU

HTU (hypotetical taxonomic unit)

Какие бывают деревья

Бинарное (разрешённое)(в один момент времени может

произойти только одно событие )

Небинарное (неразрешённое) (может ли в один момент времени

произойти два события )

Время

Какие бывают деревья

Укорененное дерево (rooted tree)отражает направление эволюции

Неукорененное (бескорневое) дерево(unrooted tree) показывает только связи между узлами

Время

Если число листьев равно n существует (2n-3)разных бинарных укоренных деревьевПо определению (2n-3) = 1middot3 middot middot(2n-3)

Существует (2n-5) разных бескорневых деревьев с n листьями

Rooting

A C B B C AA B C

3 OTUs 3 OTUs 1 н 1 неукорененное деревоеукорененное дерево 33 укорененных деревьев укорененных деревьев

A

B

C

D

C

A

B

4 OTUs 4 OTUs 3 3 неукорененных филогенетических неукорененных филогенетических деревьевдеревьев

D

B

A

C C

B

A

D

4 OTUs

15 укорененных

деревьев

Количество Количество Количество

OTU укорененных неукорененных

2 1 13 3 14 15 35 105 156 954 1057 103959548 135135 103959 2027025 13513510 34459425 202702511 654729075 3445942512 13749310575 654729075

Количество возможных деревьев

Рутинная процедура или как строят деревья

Составление выборки последовательностей

Множественное выравнивание

Построение дерева фрагмент записи в виде скобочной формулы

Визуализация и редактура дерева

(((((con1013851018(f539692826973((f67220839851max42750591)492893con923019677)1362315)953075)2583145

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Множественное выравнивание

Matches

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Multiple Alignment

Matches

Mismatches

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Multiple Alignment

Matches

Mismatches

Gaps

Seq 1 A G C G A GSeq 1 A G C G A GSeq 2 G C G G A CSeq 2 G C G G A C

Шаг 3 Перевод количества расхождений в индексы замен

Distance Matrix

Units количество замен нуклеотидов на 1000

Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86

Rice 00 118 122 122

Mosquito 00 55 51

Monkey 00 3

Human 00

Шаг 4 построение филогенетического дерева

Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86

Rice 00 118 122 122

Mosquito 00 55 51

Monkey 00 3

Human 00

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Дистанция между человеком и обезьяной минимальна Эти группы объединяются в Monkey-Human а все остальные дистанции пересчитываются

Dist[Spinach MonHum] = (Dist[Spinach Monkey] +

Dist[Spinach Human])2 = (91 + 86)2 = 885

Spinach Rice Mosquito Mon-HumSpinach 00 9 106 885

Rice 00 118 122

Mosquito 00 53

Mon-Hum 00

Редуцированная матрица дистанций

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Spi-Ric

HumanMosquito

Mon-Hum

MonkeySpinachRice

Mos-Mon-Hum

Spi-Ric

Mos-Mon-Hum-Spi-Ric

Как выбирать последовательности для дерева

Кроме случаев очень близких последовательностей проще работать с белками (а не с ДНК)

Придерживайтесь небольшой выборки (lt 50 последовательностей)

Избегайтеndash фрагментовndash Ксенологов (горизонтальный перенос генов)ndash рекомбинантных последовательностейndash многодоменных белков и повторов

Используйте outgroup (последовательность ответвившаяся от общего предка заведомо (но минимально) раньше разделения интересующих групп-клад)

Самое главное ndash хорошее выравнивание

Максимальный вклад в финальное дерево нельзя построить хорошее дерево по плохому выравниванию

Блоки содержащие много гэпов плохо выровненные N- и C- концы можно просто вырезать

Основные алгоритмы построения филогенетических деревьев

Методы основанные на оценке

расстояний (матричные методы)

bull UPGMA (кластеризация)

bull Neighbor-joining

bull Минимальная эволюция

Наибольшего правдоподобия Maximal likelihood ML Используется модель эволюции и строится дерево которое наиболее правдоподобно при данной модели

Максимальной экономии (бережливости)

maximal parsimony MP Выбирается дерево с минимальным количеством

мутаций необходимых для объяснения данных

Пример матрицы расстояний

1 2 3 4 5 6 7 8 000 1053 977 1278 1203 1654 1353 2500 HUMAN 1

000 902 1203 977 1579 902 2727 HORSE 2 000 977 902 1654 1203 2424 RABIT 3

000 226 1729 1053 2576 MOUSE 4 000 1579 827 2576 RAT 5

000 1053 2955 BOVIN 6 000 2500 PIG 7

000 CHICK 8

Расстояние (уровень дивергенции) между соответствующими последовательностями из геномов мыши и свиньи

Как понимать расстояние между объектами

bull Как время в течение которого они эволюционировалиbull Как число laquoэволюционных событийraquo (мутаций)

В первом случае объекты образуют ультраметрическое пространство(если все объекты наблюдаются в одно время что как правило верно)

Но время непосредственно измерить невозможно

Гипотеза laquoмолекулярных часовraquo(EZuckerkandl LPauling 1962)

За равное время во всех ветвях эволюции данного генабелка накапливается равное число мутацийЕсли гипотеза молекулярных часов

принимается число различий между выровненными последовательностями можно считать примерно пропорциональным времени Отклонения от ультраметричности можно считать случайными Эволюция реконструируется в виде ультраметрического дерева

Укоренённое дерево называется ультраметрическим если расстояние от корня до любого из листьев одинаково

UPGMAUnweighted Pair Group Method with Arithmetic Mean

разновидность кластерного метода

Расстояние между кластерами вычисляется как среднее арифметическое всевозможных расстояний между последовательностями из кластеров

Недостатки UPGMA

Алгоритм строит ультраметрическое дерево ndash скорость эволюции предполагается одинаковой для всех ветвей дерева Использовать этот алгоритм имеет смысл только в случае ультраметрических данных (справедливости laquoмолекулярных часовraquo)

Реальное дерево UPGMA

Метод ближайших соседей (Neighbor-joining NJ)

Строит неукоренённое дерево

Может работать с большим количеством данных

Достаточно быстрый

Если есть недвусмысленное с точки зрения эксперта дерево то оно будет построено

Метод Neighbor-joining

Рисуем laquoзвездноеraquo дерево и будем laquoотщипыватьraquo от него по паре листьев

Пусть ui = Σk Mik(n-2) mdash среднее расстояние от листа i до других

листьев

1 Рассмотрим все возможные пары листьев Выберем 2 листа i и j с минимальным значением величины

Mij ndash ui ndashuj

те выбираем 2 узла которые близки друг к другу но далеки ото всех остальных

Метод ближайших соседей (Neighbor-joining NJ)

2 Кластер (i j) ndash новый узел дерева

Расстояние от i или от j до узла (ij) D(i (ij)) = 05middot(Mij + ui ndash uj) D(j (ij)) = 05middot (Mij + uj ndash ui) те длина ветви зависит от среднего расстояния до других вершин

3 Вычисляем расстояние от нового кластера до всех других

M(ij)k = Mik+Mjk ndash Mij 2

5 В матрице М убираем i и j и добавляем (i j) Повторяем пока не останутся 3 узла

Input MSA для n последовательностей одна последовательность для каждого вида

AAAAATC

AAAAAAG

CCCCCCG

AAAAATCAAAAAAG

CCCCCCG

Длинная ветвь ndash непохоже на правду

Длинная ветвь -Похоже на правду

Методы основанные на последовательностях Maximum Likelihood (ML) Maximum Parsimony (MP)

Как изобразить дерево Топология дерева

Топология дерева mdash только листья узлы (корень) и связывающие их ветви (топология не зависит от способа изображения дерева)

A

B

C

D

E A BC D E

Два изображения одной и той же топологии

Bacterium 1

Bacterium 3

Bacterium 2

Eukaryote 1

Eukaryote 4

Eukaryote 3

Eukaryote 2

Bacterium 1

Bacterium 3Bacterium 2

Eukaryote 1

Eukaryote 4Eukaryote 3

Eukaryote 2

Филограммы ndash длины ветвей

пропорциональны

эволюционному расстоянию

Кладограммы и филограммы

Кладограммы ndash только

топологя Длины ветвей не

учитываются

6

31

2

46

24

53

Как можно нарисовать построенное дерево

Какие on-line программы строят деревья

ClustalW ldquoTree typerdquo ndash nj phylip строит только методом NJ но результат ndash в разных форматах no bootstraps

Phylip (Felsenstein 1993) ndash пакет программ для построения филогенетических деревьев (stand-alone)On-line (partly) например

httpbiowebpasteurfrseqanalphylogenyphylip-ukhtml PAUP (Phylogenetic Analysis Using Parsimony)

MEGA филогенетический анализ последовательностей

httpwwwmegasoftwarenet

Эволюция ndash исторический процесс

Из 8200794532637891559375 деревьев для 20 OTUs 1

является верным и 8200794532637891559374

неверны

Truth is one falsehoods are many

Какое из 8200794532637891559375

деревьев истинно

Мы не знаем Можно применить иные критетии

Например ldquoпохожесть=родствоraquo

GCGbull Строковый поиск простой текстовый

поиск по локальной базе данных

bull Поиск в определениях или в аннотациях

bull Определения содержат минимальное количество информации для каждой статьи доступ имя организма имя гена длина последовательности дата

  • Bestfit Output
  • SP1 at swissprot
  • EGR1 at swissprot
  • Вывод
  • Bl2Seq at NCBI
  • Bl2seq results
  • Bl2seq оценка
  • Оптимизация времени вычислений при парном выравнивании
  • Slide 9
  • Алгоритм BLAST (шаг 1)
  • Slide 11
  • Blast
  • Поиск гомологов
  • ДНК или белок
  • ДНК
  • Slide 16
  • Slide 17
  • Двойная спираль
  • ДНК дальнейшая упаковка
  • Slide 20
  • Репликация ДНК
  • Slide 22
  • Slide 23
  • Slide 24
  • Slide 25
  • Множественное выравнивание последовательностей (MSA)
  • Slide 27
  • Основные предположения
  • Например
  • Почему множественное выравнивание
  • Slide 31
  • Подходы в MSA
  • MSA algorithm
  • Multiple Alignment - алгоритм
  • Комментарии
  • GCG
  • Slide 37
  • GCG
  • Slide 39
  • Slide 40
  • Slide 41
  • ClustalW
  • Slide 43
  • Slide 44
  • ClustalW на EMBL
  • ClustalW на EMBL - результат
  • ClustalW at EMBL - Jalview
  • Consensus Sequence
  • Профиль (Profile)
  • Profile vs Consensus
  • Slide 51
  • Slide 52
  • Psi Blast (NCBI)
  • PSI-Blast
  • Psi-Blast вывод
  • Slide 56
  • Филогенез
  • Slide 58
  • Slide 59
  • Slide 60
  • Slide 61
  • Древо видов и генов
  • Ортологи и паралоги
  • Шаги реконструирования филогенетического древа
  • Филогенетическое дерево
  • Зачем нужны филогенетические деревья
  • Терминология
  • Slide 68
  • Какие бывают деревья
  • Slide 70
  • Slide 71
  • Slide 72
  • 4 OTUs 3 неукорененных филогенетических деревьев
  • Slide 74
  • Slide 75
  • Slide 76
  • Slide 77
  • Рутинная процедура или как строят деревья
  • Slide 79
  • Slide 80
  • Slide 81
  • Slide 82
  • Slide 83
  • Slide 84
  • Slide 85
  • Slide 86
  • Slide 87
  • Slide 88
  • Slide 89
  • Как выбирать последовательности для дерева
  • Самое главное ndash хорошее выравнивание
  • Основные алгоритмы построения филогенетических деревьев
  • Пример матрицы расстояний
  • Slide 94
  • Гипотеза laquoмолекулярных часовraquo (EZuckerkandl LPauling 1962)
  • UPGMA Unweighted Pair Group Method with Arithmetic Mean
  • Недостатки UPGMA
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Метод Neighbor-joining
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Slide 101
  • Как изобразить дерево Топология дерева
  • Slide 103
  • Какие on-line программы строят деревья
  • MEGA филогенетический анализ последовательностей
  • Slide 106
  • Slide 107
  • Slide 108
Page 39: Bestfit Output

GCGAA_MULTIPLE_ALIGNMENT 10PileUp of ipnsfil

Symbol comparison table GenRunDatablosum62cmp CompCheck 1102 GapWeight 8 GapLengthWeight 2 ipnsmsf MSF 338 Type P March 14 2002 0929 Check 7631

Name IPNS_STRJU Len 338 Check 6344 Weight 100 Name IPNS_STRCL Len 338 Check 4249 Weight 100 Name IPNS_NOCLA Len 338 Check 7020 Weight 100 Name IPNS_CEPAC Len 338 Check 18 Weight 100

1 50IPNS_STRJU ~MPILMPSAE VPTIDISPLS GDDAKAKQRV AQEINKAARG SGFFYASNHGIPNS_STRCL ~MPVLMPSAH VPTIDISPLF GTDAAAKKRV AEEIHGACRG SGFFYATNHGIPNS_NOCLA ~~~MKMPSAE VPTIDVSPLF GDDAQEKVRV GQEINKACRG SGFFYAANHGIPNS_CEPAC MGSVPVPVAN VPRIDVSPLF GDDKEKKLEV ARAIDAASRD TGFFYAVNHG

51 100IPNS_STRJU VDVQLLQDVV NEFHRNMSDQ EKHDLAINAY NKDNPHVRN GYYKAIKGKKIPNS_STRCL VDVQQLQDVV NEFHGAMTDQ EKHDLAIHAY NPDNPHVRN GYYKAVPGRKIPNS_NOCLA VDVQRLQDVV NEFHRTMSPQ EKYDLAIHAY NKNNSHVRN GYYMAIEGKKIPNS_CEPAC VDLPWLSRET NKFHMSITDE EKWQLAIRAY NKEHESQIRA GYYLPIPGKK

Output filemsf format

GCG

Prettybox генерирует графический файл из файла MSA

prettybox [MSA file]

prettybox hemoglobinsmsf

1 The ldquordquo is a syntax sign meaning all the sequences in the MSA file

2 Can also calculate the consensus sequence

GCG

ClustalWbull Очень известная и широко распространённая

программа UNIX Internet Windows

bull Выполняет MSA может строить филогенетические деревья

bull Входной файл ndash формат multi-fasta

ClustalW

bull tofasta list

gtIPNS_STRJU P18286

MPILMPSAEVPTIDISPLSGDDAKAKQRVAQEINKAARGSGFFYASNHGVDVQLLQDVVN

EFHRNMSDQEKHDLAINAYNKDNPHVRNGYYKAIKGKKAVESFCYLNPSFSDDHPMIKSE

TPMHEVNLWPDEEKHPRFRPFCEDYYRQLLRLSTVIMRGYALALGRREDFFDEALAEADT

LSSVSLIRYPYLEEYPPVKTGADGTKLSFEDHLDVSMITVLYQTEVQNLQVETVDGWQDI

PRSDEDFLVNCGTYMGHITHDYFPAPNHRVKFINAERLSLPFFLNAGHNSVIEPFVPEGA

AGTVKNPTTSYGEYLQHGLRALIVKNGQT

gtIPNS_STRCL P10621

MPVLMPSAHVPTIDISPLFGTDAAAKKRVAEEIHGACRGSGFFYATNHGVDVQQLQDVVN

EFHGAMTDQEKHDLAIHAYNPDNPHVRNGYYKAVPGRKAVESFCYLNPDFGEDHPMIAAG

TPMHEVNLWPDEERHPRFRPFCEGYYRQMLKLSTVLMRGLALALGRPEHFFDAALAEQDS

LSSVSLIRYPYLEEYPPVKTGPDGQLLSFEDHLDVSMITVLFQTQVQNLQVETVDGWRDI

PTSENDFLVNCGTYMAHVTNDYFPAPNHRVKFVNAERLSLPFFLNGGHEAVIEPFVPEGA

SEEVRNEALSYGDYLQHGLRALIVKNGQT

input fileMulti-fasta

Making the file in unix

ClustalWCLUSTAL W (17) multiple sequence alignment

IPNS_STRJU -MPILMPSAEVPTIDISPLSGDDAKAKQRVAQEINKAARGSGFFYASNHGVDVQLLQDVVIPNS_STRGR -MPIPMLPAHVPTIDISPLSGGDADDKKRVAQEINKACRESGFFYASHHGIDVQLLKDVVIPNS_FLASS ----MNRHADVPVIDISGLSGNDMDVKKDIAARIDRACRGSGFFYAANHGVDLAALQKFTIPNS_PENCH --MASTPKANVPKIDVSPLFGDNMEEKMKVARAIDAASRDTGFFYAVNHGVDVKRLSNKTIPNS_CEPAC MGSVPVPVANVPRIDVSPLFGDDKEKKLEVARAIDAASRDTGFFYAVNHGVDLPWLSRET

IPNS_STRJU NEFHRNMSDQEKHDLAINAYNKDNP-HVRNGYYKAIKGKKAVESFCYLNPSFSDDHPMIKIPNS_STRGR NEFHRTMTDEEKYDLAINAYNKNNP-RTRNGYYMAVKGKKAVESWCYLNPSFSEDHPQIRIPNS_FLASS TDWHMAMSAEEKWELAIRAYNPANP-RNRNGYYMAVEGKKANESFCYLNPSFDADHATIKIPNS_PENCH REFHFSITDEEKWDLAIRAYNKEHQDQIRAGYYLSIPEKKAVESFCYLNPNFKPDHPLIQIPNS_CEPAC NKFHMSITDEEKWQLAIRAYNKEHESQIRAGYYLPIPGKKAVESFCYLNPSFSPDHPRIK

Выходной файл aln format

httpwwwebiacukhelpformatshtml

форматы

ClustalW на EMBL

ClustalW на EMBL - результат

ClustalW at EMBL - Jalview

Conservation

Consensus Sequence

Мы можем вывести consensus sequence из результатов MSA The consensus sequence содержит наиболее часто встречающийся символ в кажной колонке выравнивания

A T C T T G T

A A C T T G T

A A C T T C T

A A C T T G T

Ещё пара терминовhelliphellip

Профиль (Profile)

Также возможно вывести статистическую модель описывающую MSA Профиль содержит информацию о символах в каждом столбце выравнивания

A T C T T G T

A A C T T G T

A A C T T C T

1 2 3 4 5 6

A 1 067 0 0

T 0 033 1 1

C 0 0 0 0

G 0 0 0 0

Profile vs Consensus

Consensus каждая позиция отражает наиболее часто встречающийся символ

Profile каждая позиция отражает частоту символа в данной позиции

Profile vs Consensus

Данный MSA будет иметь одинаковый consensus

A A C T T G C

A A G T C G T

C A C T T C T

A A C T T G T

A A C T T G T

A A C T T C T

A A C T T G T

Profile vs Consensus

Но разный профиль

A A C T T G C

A A G T C G T

C A C T T C T

A A C T T G T

A A C T T G T

A A C T T C T

1 2 3 4 5 6

A 066 1 0 0

T 0 0 0 1

C 033 0 066 0

G 0 0 033 0

1 2 3 4 5 6

A 1 1 0 0

T 0 0 0 1

C 0 0 1 0

G 0 0 0 0

Psi Blast (NCBI)

Position Specific Iterated ndash автоматизированный поиск по профилю

Regular blast

Construct profile from blast results

Blast profile search

Final results

PSI-Blast

Psi-Blast вывод

Проблема формулировки выводов при использовании МSA

1 Сайт выглядит общим (фиксированным) из-за того что это ndash близкородственные последовательности

2 Сайт выглядит общим из-за того что это ndash исключительно жизненно важный сайт

ФилогенезЭволюция ndash случайный процесс с неслучайным результатом

Цели филогенетического исследования

bull Реконструкция корректных генеалогических связей

между биологическими объектами

bull Оценка времени расхождения организмов

bull Определение порядка эволюционных событий в процессе

эволюции

Формат Newick

((A(BC))(DE))

Типы данных

Molecular (DNA RNA proteins)

Morphological (soft tissue hard tissue extant extinct)

Преимущества молекулярных данных

bull Наследуемость

bull Недвусмысленность в описании молекулярных характеристик

bull Поддаются количественному анализу

bull Оценка гомологии легче чем морфологические исследования

bull Данных много

Древо видов и геновbull Древо видов ndash эволюционные взаимосвязи

между видами (видообразование)bull Древо генов

Page RDM and Cotton JC (2000) GeneTree a tool for exploring gene family evolution In D Sankoff and J Nadeau (eds) Comparative Genomics Empirical and Analytical Approaches to Gene Order Dynamics Map Alignment and the Evolution of Gene Families Kluwer Academic Publishers Dordrecht pp 525-536

Figure 2 (a) Incongruent gene and species trees This incongruence can be explained by hypothesizing a gene duplication (h) at the base of the gene tree (b)The presence of only a single gene (a-d) extant in each of the present-day species(1-4) requires postulating three gene losses (c) The corresponding reconciled tree

Ортологи и паралоги

bull Гены-паралоги ndash событие дупликация (and

bull Гены-ортологи ndash событие видообразования (in the two species and in the two species

Duplication

Speciation

Species a Species b

Шаги реконструирования филогенетического

древа

1 Выбор последовательностей и поиск гомологов

2 MSA3 Матрица белков4 Филогенетическое дерево

Филогенетическое дерево

Филогения - раздел биологии изучающий родственные взаимоотношения разных групп живых организмов Филогению отображается обычно в виде эволюционных древ или систематических названий

Зачем нужны филогенетические деревья

Биологические задачи

сравнение 3-х и более объектов (кто на кого более похож )

реконструкция эволюции (кто от кого как и когда произошелhellip)

ТерминологияУзел (node) mdash точка разделения предковой последовательности(вида популяции) на две независимо эволюционирующиеСоответствует внутренней вершине графа изображающего эволюциюЛист (leaf OTU ndash оперативная таксономическая единица) mdash реальный (современный) объект внешняя вершина графаВетвь (branch) mdash связь между узлами или между узлом и листом ребро графаКорень (root) mdash общий предокКлада (clade) - группа двух или более таксонов или последователь-ностей ДНК которая включает как своего общего предка так и всех его потомков

OTU

HTU (hypotetical taxonomic unit)

Какие бывают деревья

Бинарное (разрешённое)(в один момент времени может

произойти только одно событие )

Небинарное (неразрешённое) (может ли в один момент времени

произойти два события )

Время

Какие бывают деревья

Укорененное дерево (rooted tree)отражает направление эволюции

Неукорененное (бескорневое) дерево(unrooted tree) показывает только связи между узлами

Время

Если число листьев равно n существует (2n-3)разных бинарных укоренных деревьевПо определению (2n-3) = 1middot3 middot middot(2n-3)

Существует (2n-5) разных бескорневых деревьев с n листьями

Rooting

A C B B C AA B C

3 OTUs 3 OTUs 1 н 1 неукорененное деревоеукорененное дерево 33 укорененных деревьев укорененных деревьев

A

B

C

D

C

A

B

4 OTUs 4 OTUs 3 3 неукорененных филогенетических неукорененных филогенетических деревьевдеревьев

D

B

A

C C

B

A

D

4 OTUs

15 укорененных

деревьев

Количество Количество Количество

OTU укорененных неукорененных

2 1 13 3 14 15 35 105 156 954 1057 103959548 135135 103959 2027025 13513510 34459425 202702511 654729075 3445942512 13749310575 654729075

Количество возможных деревьев

Рутинная процедура или как строят деревья

Составление выборки последовательностей

Множественное выравнивание

Построение дерева фрагмент записи в виде скобочной формулы

Визуализация и редактура дерева

(((((con1013851018(f539692826973((f67220839851max42750591)492893con923019677)1362315)953075)2583145

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Множественное выравнивание

Matches

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Multiple Alignment

Matches

Mismatches

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Multiple Alignment

Matches

Mismatches

Gaps

Seq 1 A G C G A GSeq 1 A G C G A GSeq 2 G C G G A CSeq 2 G C G G A C

Шаг 3 Перевод количества расхождений в индексы замен

Distance Matrix

Units количество замен нуклеотидов на 1000

Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86

Rice 00 118 122 122

Mosquito 00 55 51

Monkey 00 3

Human 00

Шаг 4 построение филогенетического дерева

Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86

Rice 00 118 122 122

Mosquito 00 55 51

Monkey 00 3

Human 00

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Дистанция между человеком и обезьяной минимальна Эти группы объединяются в Monkey-Human а все остальные дистанции пересчитываются

Dist[Spinach MonHum] = (Dist[Spinach Monkey] +

Dist[Spinach Human])2 = (91 + 86)2 = 885

Spinach Rice Mosquito Mon-HumSpinach 00 9 106 885

Rice 00 118 122

Mosquito 00 53

Mon-Hum 00

Редуцированная матрица дистанций

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Spi-Ric

HumanMosquito

Mon-Hum

MonkeySpinachRice

Mos-Mon-Hum

Spi-Ric

Mos-Mon-Hum-Spi-Ric

Как выбирать последовательности для дерева

Кроме случаев очень близких последовательностей проще работать с белками (а не с ДНК)

Придерживайтесь небольшой выборки (lt 50 последовательностей)

Избегайтеndash фрагментовndash Ксенологов (горизонтальный перенос генов)ndash рекомбинантных последовательностейndash многодоменных белков и повторов

Используйте outgroup (последовательность ответвившаяся от общего предка заведомо (но минимально) раньше разделения интересующих групп-клад)

Самое главное ndash хорошее выравнивание

Максимальный вклад в финальное дерево нельзя построить хорошее дерево по плохому выравниванию

Блоки содержащие много гэпов плохо выровненные N- и C- концы можно просто вырезать

Основные алгоритмы построения филогенетических деревьев

Методы основанные на оценке

расстояний (матричные методы)

bull UPGMA (кластеризация)

bull Neighbor-joining

bull Минимальная эволюция

Наибольшего правдоподобия Maximal likelihood ML Используется модель эволюции и строится дерево которое наиболее правдоподобно при данной модели

Максимальной экономии (бережливости)

maximal parsimony MP Выбирается дерево с минимальным количеством

мутаций необходимых для объяснения данных

Пример матрицы расстояний

1 2 3 4 5 6 7 8 000 1053 977 1278 1203 1654 1353 2500 HUMAN 1

000 902 1203 977 1579 902 2727 HORSE 2 000 977 902 1654 1203 2424 RABIT 3

000 226 1729 1053 2576 MOUSE 4 000 1579 827 2576 RAT 5

000 1053 2955 BOVIN 6 000 2500 PIG 7

000 CHICK 8

Расстояние (уровень дивергенции) между соответствующими последовательностями из геномов мыши и свиньи

Как понимать расстояние между объектами

bull Как время в течение которого они эволюционировалиbull Как число laquoэволюционных событийraquo (мутаций)

В первом случае объекты образуют ультраметрическое пространство(если все объекты наблюдаются в одно время что как правило верно)

Но время непосредственно измерить невозможно

Гипотеза laquoмолекулярных часовraquo(EZuckerkandl LPauling 1962)

За равное время во всех ветвях эволюции данного генабелка накапливается равное число мутацийЕсли гипотеза молекулярных часов

принимается число различий между выровненными последовательностями можно считать примерно пропорциональным времени Отклонения от ультраметричности можно считать случайными Эволюция реконструируется в виде ультраметрического дерева

Укоренённое дерево называется ультраметрическим если расстояние от корня до любого из листьев одинаково

UPGMAUnweighted Pair Group Method with Arithmetic Mean

разновидность кластерного метода

Расстояние между кластерами вычисляется как среднее арифметическое всевозможных расстояний между последовательностями из кластеров

Недостатки UPGMA

Алгоритм строит ультраметрическое дерево ndash скорость эволюции предполагается одинаковой для всех ветвей дерева Использовать этот алгоритм имеет смысл только в случае ультраметрических данных (справедливости laquoмолекулярных часовraquo)

Реальное дерево UPGMA

Метод ближайших соседей (Neighbor-joining NJ)

Строит неукоренённое дерево

Может работать с большим количеством данных

Достаточно быстрый

Если есть недвусмысленное с точки зрения эксперта дерево то оно будет построено

Метод Neighbor-joining

Рисуем laquoзвездноеraquo дерево и будем laquoотщипыватьraquo от него по паре листьев

Пусть ui = Σk Mik(n-2) mdash среднее расстояние от листа i до других

листьев

1 Рассмотрим все возможные пары листьев Выберем 2 листа i и j с минимальным значением величины

Mij ndash ui ndashuj

те выбираем 2 узла которые близки друг к другу но далеки ото всех остальных

Метод ближайших соседей (Neighbor-joining NJ)

2 Кластер (i j) ndash новый узел дерева

Расстояние от i или от j до узла (ij) D(i (ij)) = 05middot(Mij + ui ndash uj) D(j (ij)) = 05middot (Mij + uj ndash ui) те длина ветви зависит от среднего расстояния до других вершин

3 Вычисляем расстояние от нового кластера до всех других

M(ij)k = Mik+Mjk ndash Mij 2

5 В матрице М убираем i и j и добавляем (i j) Повторяем пока не останутся 3 узла

Input MSA для n последовательностей одна последовательность для каждого вида

AAAAATC

AAAAAAG

CCCCCCG

AAAAATCAAAAAAG

CCCCCCG

Длинная ветвь ndash непохоже на правду

Длинная ветвь -Похоже на правду

Методы основанные на последовательностях Maximum Likelihood (ML) Maximum Parsimony (MP)

Как изобразить дерево Топология дерева

Топология дерева mdash только листья узлы (корень) и связывающие их ветви (топология не зависит от способа изображения дерева)

A

B

C

D

E A BC D E

Два изображения одной и той же топологии

Bacterium 1

Bacterium 3

Bacterium 2

Eukaryote 1

Eukaryote 4

Eukaryote 3

Eukaryote 2

Bacterium 1

Bacterium 3Bacterium 2

Eukaryote 1

Eukaryote 4Eukaryote 3

Eukaryote 2

Филограммы ndash длины ветвей

пропорциональны

эволюционному расстоянию

Кладограммы и филограммы

Кладограммы ndash только

топологя Длины ветвей не

учитываются

6

31

2

46

24

53

Как можно нарисовать построенное дерево

Какие on-line программы строят деревья

ClustalW ldquoTree typerdquo ndash nj phylip строит только методом NJ но результат ndash в разных форматах no bootstraps

Phylip (Felsenstein 1993) ndash пакет программ для построения филогенетических деревьев (stand-alone)On-line (partly) например

httpbiowebpasteurfrseqanalphylogenyphylip-ukhtml PAUP (Phylogenetic Analysis Using Parsimony)

MEGA филогенетический анализ последовательностей

httpwwwmegasoftwarenet

Эволюция ndash исторический процесс

Из 8200794532637891559375 деревьев для 20 OTUs 1

является верным и 8200794532637891559374

неверны

Truth is one falsehoods are many

Какое из 8200794532637891559375

деревьев истинно

Мы не знаем Можно применить иные критетии

Например ldquoпохожесть=родствоraquo

GCGbull Строковый поиск простой текстовый

поиск по локальной базе данных

bull Поиск в определениях или в аннотациях

bull Определения содержат минимальное количество информации для каждой статьи доступ имя организма имя гена длина последовательности дата

  • Bestfit Output
  • SP1 at swissprot
  • EGR1 at swissprot
  • Вывод
  • Bl2Seq at NCBI
  • Bl2seq results
  • Bl2seq оценка
  • Оптимизация времени вычислений при парном выравнивании
  • Slide 9
  • Алгоритм BLAST (шаг 1)
  • Slide 11
  • Blast
  • Поиск гомологов
  • ДНК или белок
  • ДНК
  • Slide 16
  • Slide 17
  • Двойная спираль
  • ДНК дальнейшая упаковка
  • Slide 20
  • Репликация ДНК
  • Slide 22
  • Slide 23
  • Slide 24
  • Slide 25
  • Множественное выравнивание последовательностей (MSA)
  • Slide 27
  • Основные предположения
  • Например
  • Почему множественное выравнивание
  • Slide 31
  • Подходы в MSA
  • MSA algorithm
  • Multiple Alignment - алгоритм
  • Комментарии
  • GCG
  • Slide 37
  • GCG
  • Slide 39
  • Slide 40
  • Slide 41
  • ClustalW
  • Slide 43
  • Slide 44
  • ClustalW на EMBL
  • ClustalW на EMBL - результат
  • ClustalW at EMBL - Jalview
  • Consensus Sequence
  • Профиль (Profile)
  • Profile vs Consensus
  • Slide 51
  • Slide 52
  • Psi Blast (NCBI)
  • PSI-Blast
  • Psi-Blast вывод
  • Slide 56
  • Филогенез
  • Slide 58
  • Slide 59
  • Slide 60
  • Slide 61
  • Древо видов и генов
  • Ортологи и паралоги
  • Шаги реконструирования филогенетического древа
  • Филогенетическое дерево
  • Зачем нужны филогенетические деревья
  • Терминология
  • Slide 68
  • Какие бывают деревья
  • Slide 70
  • Slide 71
  • Slide 72
  • 4 OTUs 3 неукорененных филогенетических деревьев
  • Slide 74
  • Slide 75
  • Slide 76
  • Slide 77
  • Рутинная процедура или как строят деревья
  • Slide 79
  • Slide 80
  • Slide 81
  • Slide 82
  • Slide 83
  • Slide 84
  • Slide 85
  • Slide 86
  • Slide 87
  • Slide 88
  • Slide 89
  • Как выбирать последовательности для дерева
  • Самое главное ndash хорошее выравнивание
  • Основные алгоритмы построения филогенетических деревьев
  • Пример матрицы расстояний
  • Slide 94
  • Гипотеза laquoмолекулярных часовraquo (EZuckerkandl LPauling 1962)
  • UPGMA Unweighted Pair Group Method with Arithmetic Mean
  • Недостатки UPGMA
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Метод Neighbor-joining
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Slide 101
  • Как изобразить дерево Топология дерева
  • Slide 103
  • Какие on-line программы строят деревья
  • MEGA филогенетический анализ последовательностей
  • Slide 106
  • Slide 107
  • Slide 108
Page 40: Bestfit Output

GCG

Prettybox генерирует графический файл из файла MSA

prettybox [MSA file]

prettybox hemoglobinsmsf

1 The ldquordquo is a syntax sign meaning all the sequences in the MSA file

2 Can also calculate the consensus sequence

GCG

ClustalWbull Очень известная и широко распространённая

программа UNIX Internet Windows

bull Выполняет MSA может строить филогенетические деревья

bull Входной файл ndash формат multi-fasta

ClustalW

bull tofasta list

gtIPNS_STRJU P18286

MPILMPSAEVPTIDISPLSGDDAKAKQRVAQEINKAARGSGFFYASNHGVDVQLLQDVVN

EFHRNMSDQEKHDLAINAYNKDNPHVRNGYYKAIKGKKAVESFCYLNPSFSDDHPMIKSE

TPMHEVNLWPDEEKHPRFRPFCEDYYRQLLRLSTVIMRGYALALGRREDFFDEALAEADT

LSSVSLIRYPYLEEYPPVKTGADGTKLSFEDHLDVSMITVLYQTEVQNLQVETVDGWQDI

PRSDEDFLVNCGTYMGHITHDYFPAPNHRVKFINAERLSLPFFLNAGHNSVIEPFVPEGA

AGTVKNPTTSYGEYLQHGLRALIVKNGQT

gtIPNS_STRCL P10621

MPVLMPSAHVPTIDISPLFGTDAAAKKRVAEEIHGACRGSGFFYATNHGVDVQQLQDVVN

EFHGAMTDQEKHDLAIHAYNPDNPHVRNGYYKAVPGRKAVESFCYLNPDFGEDHPMIAAG

TPMHEVNLWPDEERHPRFRPFCEGYYRQMLKLSTVLMRGLALALGRPEHFFDAALAEQDS

LSSVSLIRYPYLEEYPPVKTGPDGQLLSFEDHLDVSMITVLFQTQVQNLQVETVDGWRDI

PTSENDFLVNCGTYMAHVTNDYFPAPNHRVKFVNAERLSLPFFLNGGHEAVIEPFVPEGA

SEEVRNEALSYGDYLQHGLRALIVKNGQT

input fileMulti-fasta

Making the file in unix

ClustalWCLUSTAL W (17) multiple sequence alignment

IPNS_STRJU -MPILMPSAEVPTIDISPLSGDDAKAKQRVAQEINKAARGSGFFYASNHGVDVQLLQDVVIPNS_STRGR -MPIPMLPAHVPTIDISPLSGGDADDKKRVAQEINKACRESGFFYASHHGIDVQLLKDVVIPNS_FLASS ----MNRHADVPVIDISGLSGNDMDVKKDIAARIDRACRGSGFFYAANHGVDLAALQKFTIPNS_PENCH --MASTPKANVPKIDVSPLFGDNMEEKMKVARAIDAASRDTGFFYAVNHGVDVKRLSNKTIPNS_CEPAC MGSVPVPVANVPRIDVSPLFGDDKEKKLEVARAIDAASRDTGFFYAVNHGVDLPWLSRET

IPNS_STRJU NEFHRNMSDQEKHDLAINAYNKDNP-HVRNGYYKAIKGKKAVESFCYLNPSFSDDHPMIKIPNS_STRGR NEFHRTMTDEEKYDLAINAYNKNNP-RTRNGYYMAVKGKKAVESWCYLNPSFSEDHPQIRIPNS_FLASS TDWHMAMSAEEKWELAIRAYNPANP-RNRNGYYMAVEGKKANESFCYLNPSFDADHATIKIPNS_PENCH REFHFSITDEEKWDLAIRAYNKEHQDQIRAGYYLSIPEKKAVESFCYLNPNFKPDHPLIQIPNS_CEPAC NKFHMSITDEEKWQLAIRAYNKEHESQIRAGYYLPIPGKKAVESFCYLNPSFSPDHPRIK

Выходной файл aln format

httpwwwebiacukhelpformatshtml

форматы

ClustalW на EMBL

ClustalW на EMBL - результат

ClustalW at EMBL - Jalview

Conservation

Consensus Sequence

Мы можем вывести consensus sequence из результатов MSA The consensus sequence содержит наиболее часто встречающийся символ в кажной колонке выравнивания

A T C T T G T

A A C T T G T

A A C T T C T

A A C T T G T

Ещё пара терминовhelliphellip

Профиль (Profile)

Также возможно вывести статистическую модель описывающую MSA Профиль содержит информацию о символах в каждом столбце выравнивания

A T C T T G T

A A C T T G T

A A C T T C T

1 2 3 4 5 6

A 1 067 0 0

T 0 033 1 1

C 0 0 0 0

G 0 0 0 0

Profile vs Consensus

Consensus каждая позиция отражает наиболее часто встречающийся символ

Profile каждая позиция отражает частоту символа в данной позиции

Profile vs Consensus

Данный MSA будет иметь одинаковый consensus

A A C T T G C

A A G T C G T

C A C T T C T

A A C T T G T

A A C T T G T

A A C T T C T

A A C T T G T

Profile vs Consensus

Но разный профиль

A A C T T G C

A A G T C G T

C A C T T C T

A A C T T G T

A A C T T G T

A A C T T C T

1 2 3 4 5 6

A 066 1 0 0

T 0 0 0 1

C 033 0 066 0

G 0 0 033 0

1 2 3 4 5 6

A 1 1 0 0

T 0 0 0 1

C 0 0 1 0

G 0 0 0 0

Psi Blast (NCBI)

Position Specific Iterated ndash автоматизированный поиск по профилю

Regular blast

Construct profile from blast results

Blast profile search

Final results

PSI-Blast

Psi-Blast вывод

Проблема формулировки выводов при использовании МSA

1 Сайт выглядит общим (фиксированным) из-за того что это ndash близкородственные последовательности

2 Сайт выглядит общим из-за того что это ndash исключительно жизненно важный сайт

ФилогенезЭволюция ndash случайный процесс с неслучайным результатом

Цели филогенетического исследования

bull Реконструкция корректных генеалогических связей

между биологическими объектами

bull Оценка времени расхождения организмов

bull Определение порядка эволюционных событий в процессе

эволюции

Формат Newick

((A(BC))(DE))

Типы данных

Molecular (DNA RNA proteins)

Morphological (soft tissue hard tissue extant extinct)

Преимущества молекулярных данных

bull Наследуемость

bull Недвусмысленность в описании молекулярных характеристик

bull Поддаются количественному анализу

bull Оценка гомологии легче чем морфологические исследования

bull Данных много

Древо видов и геновbull Древо видов ndash эволюционные взаимосвязи

между видами (видообразование)bull Древо генов

Page RDM and Cotton JC (2000) GeneTree a tool for exploring gene family evolution In D Sankoff and J Nadeau (eds) Comparative Genomics Empirical and Analytical Approaches to Gene Order Dynamics Map Alignment and the Evolution of Gene Families Kluwer Academic Publishers Dordrecht pp 525-536

Figure 2 (a) Incongruent gene and species trees This incongruence can be explained by hypothesizing a gene duplication (h) at the base of the gene tree (b)The presence of only a single gene (a-d) extant in each of the present-day species(1-4) requires postulating three gene losses (c) The corresponding reconciled tree

Ортологи и паралоги

bull Гены-паралоги ndash событие дупликация (and

bull Гены-ортологи ndash событие видообразования (in the two species and in the two species

Duplication

Speciation

Species a Species b

Шаги реконструирования филогенетического

древа

1 Выбор последовательностей и поиск гомологов

2 MSA3 Матрица белков4 Филогенетическое дерево

Филогенетическое дерево

Филогения - раздел биологии изучающий родственные взаимоотношения разных групп живых организмов Филогению отображается обычно в виде эволюционных древ или систематических названий

Зачем нужны филогенетические деревья

Биологические задачи

сравнение 3-х и более объектов (кто на кого более похож )

реконструкция эволюции (кто от кого как и когда произошелhellip)

ТерминологияУзел (node) mdash точка разделения предковой последовательности(вида популяции) на две независимо эволюционирующиеСоответствует внутренней вершине графа изображающего эволюциюЛист (leaf OTU ndash оперативная таксономическая единица) mdash реальный (современный) объект внешняя вершина графаВетвь (branch) mdash связь между узлами или между узлом и листом ребро графаКорень (root) mdash общий предокКлада (clade) - группа двух или более таксонов или последователь-ностей ДНК которая включает как своего общего предка так и всех его потомков

OTU

HTU (hypotetical taxonomic unit)

Какие бывают деревья

Бинарное (разрешённое)(в один момент времени может

произойти только одно событие )

Небинарное (неразрешённое) (может ли в один момент времени

произойти два события )

Время

Какие бывают деревья

Укорененное дерево (rooted tree)отражает направление эволюции

Неукорененное (бескорневое) дерево(unrooted tree) показывает только связи между узлами

Время

Если число листьев равно n существует (2n-3)разных бинарных укоренных деревьевПо определению (2n-3) = 1middot3 middot middot(2n-3)

Существует (2n-5) разных бескорневых деревьев с n листьями

Rooting

A C B B C AA B C

3 OTUs 3 OTUs 1 н 1 неукорененное деревоеукорененное дерево 33 укорененных деревьев укорененных деревьев

A

B

C

D

C

A

B

4 OTUs 4 OTUs 3 3 неукорененных филогенетических неукорененных филогенетических деревьевдеревьев

D

B

A

C C

B

A

D

4 OTUs

15 укорененных

деревьев

Количество Количество Количество

OTU укорененных неукорененных

2 1 13 3 14 15 35 105 156 954 1057 103959548 135135 103959 2027025 13513510 34459425 202702511 654729075 3445942512 13749310575 654729075

Количество возможных деревьев

Рутинная процедура или как строят деревья

Составление выборки последовательностей

Множественное выравнивание

Построение дерева фрагмент записи в виде скобочной формулы

Визуализация и редактура дерева

(((((con1013851018(f539692826973((f67220839851max42750591)492893con923019677)1362315)953075)2583145

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Множественное выравнивание

Matches

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Multiple Alignment

Matches

Mismatches

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Multiple Alignment

Matches

Mismatches

Gaps

Seq 1 A G C G A GSeq 1 A G C G A GSeq 2 G C G G A CSeq 2 G C G G A C

Шаг 3 Перевод количества расхождений в индексы замен

Distance Matrix

Units количество замен нуклеотидов на 1000

Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86

Rice 00 118 122 122

Mosquito 00 55 51

Monkey 00 3

Human 00

Шаг 4 построение филогенетического дерева

Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86

Rice 00 118 122 122

Mosquito 00 55 51

Monkey 00 3

Human 00

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Дистанция между человеком и обезьяной минимальна Эти группы объединяются в Monkey-Human а все остальные дистанции пересчитываются

Dist[Spinach MonHum] = (Dist[Spinach Monkey] +

Dist[Spinach Human])2 = (91 + 86)2 = 885

Spinach Rice Mosquito Mon-HumSpinach 00 9 106 885

Rice 00 118 122

Mosquito 00 53

Mon-Hum 00

Редуцированная матрица дистанций

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Spi-Ric

HumanMosquito

Mon-Hum

MonkeySpinachRice

Mos-Mon-Hum

Spi-Ric

Mos-Mon-Hum-Spi-Ric

Как выбирать последовательности для дерева

Кроме случаев очень близких последовательностей проще работать с белками (а не с ДНК)

Придерживайтесь небольшой выборки (lt 50 последовательностей)

Избегайтеndash фрагментовndash Ксенологов (горизонтальный перенос генов)ndash рекомбинантных последовательностейndash многодоменных белков и повторов

Используйте outgroup (последовательность ответвившаяся от общего предка заведомо (но минимально) раньше разделения интересующих групп-клад)

Самое главное ndash хорошее выравнивание

Максимальный вклад в финальное дерево нельзя построить хорошее дерево по плохому выравниванию

Блоки содержащие много гэпов плохо выровненные N- и C- концы можно просто вырезать

Основные алгоритмы построения филогенетических деревьев

Методы основанные на оценке

расстояний (матричные методы)

bull UPGMA (кластеризация)

bull Neighbor-joining

bull Минимальная эволюция

Наибольшего правдоподобия Maximal likelihood ML Используется модель эволюции и строится дерево которое наиболее правдоподобно при данной модели

Максимальной экономии (бережливости)

maximal parsimony MP Выбирается дерево с минимальным количеством

мутаций необходимых для объяснения данных

Пример матрицы расстояний

1 2 3 4 5 6 7 8 000 1053 977 1278 1203 1654 1353 2500 HUMAN 1

000 902 1203 977 1579 902 2727 HORSE 2 000 977 902 1654 1203 2424 RABIT 3

000 226 1729 1053 2576 MOUSE 4 000 1579 827 2576 RAT 5

000 1053 2955 BOVIN 6 000 2500 PIG 7

000 CHICK 8

Расстояние (уровень дивергенции) между соответствующими последовательностями из геномов мыши и свиньи

Как понимать расстояние между объектами

bull Как время в течение которого они эволюционировалиbull Как число laquoэволюционных событийraquo (мутаций)

В первом случае объекты образуют ультраметрическое пространство(если все объекты наблюдаются в одно время что как правило верно)

Но время непосредственно измерить невозможно

Гипотеза laquoмолекулярных часовraquo(EZuckerkandl LPauling 1962)

За равное время во всех ветвях эволюции данного генабелка накапливается равное число мутацийЕсли гипотеза молекулярных часов

принимается число различий между выровненными последовательностями можно считать примерно пропорциональным времени Отклонения от ультраметричности можно считать случайными Эволюция реконструируется в виде ультраметрического дерева

Укоренённое дерево называется ультраметрическим если расстояние от корня до любого из листьев одинаково

UPGMAUnweighted Pair Group Method with Arithmetic Mean

разновидность кластерного метода

Расстояние между кластерами вычисляется как среднее арифметическое всевозможных расстояний между последовательностями из кластеров

Недостатки UPGMA

Алгоритм строит ультраметрическое дерево ndash скорость эволюции предполагается одинаковой для всех ветвей дерева Использовать этот алгоритм имеет смысл только в случае ультраметрических данных (справедливости laquoмолекулярных часовraquo)

Реальное дерево UPGMA

Метод ближайших соседей (Neighbor-joining NJ)

Строит неукоренённое дерево

Может работать с большим количеством данных

Достаточно быстрый

Если есть недвусмысленное с точки зрения эксперта дерево то оно будет построено

Метод Neighbor-joining

Рисуем laquoзвездноеraquo дерево и будем laquoотщипыватьraquo от него по паре листьев

Пусть ui = Σk Mik(n-2) mdash среднее расстояние от листа i до других

листьев

1 Рассмотрим все возможные пары листьев Выберем 2 листа i и j с минимальным значением величины

Mij ndash ui ndashuj

те выбираем 2 узла которые близки друг к другу но далеки ото всех остальных

Метод ближайших соседей (Neighbor-joining NJ)

2 Кластер (i j) ndash новый узел дерева

Расстояние от i или от j до узла (ij) D(i (ij)) = 05middot(Mij + ui ndash uj) D(j (ij)) = 05middot (Mij + uj ndash ui) те длина ветви зависит от среднего расстояния до других вершин

3 Вычисляем расстояние от нового кластера до всех других

M(ij)k = Mik+Mjk ndash Mij 2

5 В матрице М убираем i и j и добавляем (i j) Повторяем пока не останутся 3 узла

Input MSA для n последовательностей одна последовательность для каждого вида

AAAAATC

AAAAAAG

CCCCCCG

AAAAATCAAAAAAG

CCCCCCG

Длинная ветвь ndash непохоже на правду

Длинная ветвь -Похоже на правду

Методы основанные на последовательностях Maximum Likelihood (ML) Maximum Parsimony (MP)

Как изобразить дерево Топология дерева

Топология дерева mdash только листья узлы (корень) и связывающие их ветви (топология не зависит от способа изображения дерева)

A

B

C

D

E A BC D E

Два изображения одной и той же топологии

Bacterium 1

Bacterium 3

Bacterium 2

Eukaryote 1

Eukaryote 4

Eukaryote 3

Eukaryote 2

Bacterium 1

Bacterium 3Bacterium 2

Eukaryote 1

Eukaryote 4Eukaryote 3

Eukaryote 2

Филограммы ndash длины ветвей

пропорциональны

эволюционному расстоянию

Кладограммы и филограммы

Кладограммы ndash только

топологя Длины ветвей не

учитываются

6

31

2

46

24

53

Как можно нарисовать построенное дерево

Какие on-line программы строят деревья

ClustalW ldquoTree typerdquo ndash nj phylip строит только методом NJ но результат ndash в разных форматах no bootstraps

Phylip (Felsenstein 1993) ndash пакет программ для построения филогенетических деревьев (stand-alone)On-line (partly) например

httpbiowebpasteurfrseqanalphylogenyphylip-ukhtml PAUP (Phylogenetic Analysis Using Parsimony)

MEGA филогенетический анализ последовательностей

httpwwwmegasoftwarenet

Эволюция ndash исторический процесс

Из 8200794532637891559375 деревьев для 20 OTUs 1

является верным и 8200794532637891559374

неверны

Truth is one falsehoods are many

Какое из 8200794532637891559375

деревьев истинно

Мы не знаем Можно применить иные критетии

Например ldquoпохожесть=родствоraquo

GCGbull Строковый поиск простой текстовый

поиск по локальной базе данных

bull Поиск в определениях или в аннотациях

bull Определения содержат минимальное количество информации для каждой статьи доступ имя организма имя гена длина последовательности дата

  • Bestfit Output
  • SP1 at swissprot
  • EGR1 at swissprot
  • Вывод
  • Bl2Seq at NCBI
  • Bl2seq results
  • Bl2seq оценка
  • Оптимизация времени вычислений при парном выравнивании
  • Slide 9
  • Алгоритм BLAST (шаг 1)
  • Slide 11
  • Blast
  • Поиск гомологов
  • ДНК или белок
  • ДНК
  • Slide 16
  • Slide 17
  • Двойная спираль
  • ДНК дальнейшая упаковка
  • Slide 20
  • Репликация ДНК
  • Slide 22
  • Slide 23
  • Slide 24
  • Slide 25
  • Множественное выравнивание последовательностей (MSA)
  • Slide 27
  • Основные предположения
  • Например
  • Почему множественное выравнивание
  • Slide 31
  • Подходы в MSA
  • MSA algorithm
  • Multiple Alignment - алгоритм
  • Комментарии
  • GCG
  • Slide 37
  • GCG
  • Slide 39
  • Slide 40
  • Slide 41
  • ClustalW
  • Slide 43
  • Slide 44
  • ClustalW на EMBL
  • ClustalW на EMBL - результат
  • ClustalW at EMBL - Jalview
  • Consensus Sequence
  • Профиль (Profile)
  • Profile vs Consensus
  • Slide 51
  • Slide 52
  • Psi Blast (NCBI)
  • PSI-Blast
  • Psi-Blast вывод
  • Slide 56
  • Филогенез
  • Slide 58
  • Slide 59
  • Slide 60
  • Slide 61
  • Древо видов и генов
  • Ортологи и паралоги
  • Шаги реконструирования филогенетического древа
  • Филогенетическое дерево
  • Зачем нужны филогенетические деревья
  • Терминология
  • Slide 68
  • Какие бывают деревья
  • Slide 70
  • Slide 71
  • Slide 72
  • 4 OTUs 3 неукорененных филогенетических деревьев
  • Slide 74
  • Slide 75
  • Slide 76
  • Slide 77
  • Рутинная процедура или как строят деревья
  • Slide 79
  • Slide 80
  • Slide 81
  • Slide 82
  • Slide 83
  • Slide 84
  • Slide 85
  • Slide 86
  • Slide 87
  • Slide 88
  • Slide 89
  • Как выбирать последовательности для дерева
  • Самое главное ndash хорошее выравнивание
  • Основные алгоритмы построения филогенетических деревьев
  • Пример матрицы расстояний
  • Slide 94
  • Гипотеза laquoмолекулярных часовraquo (EZuckerkandl LPauling 1962)
  • UPGMA Unweighted Pair Group Method with Arithmetic Mean
  • Недостатки UPGMA
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Метод Neighbor-joining
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Slide 101
  • Как изобразить дерево Топология дерева
  • Slide 103
  • Какие on-line программы строят деревья
  • MEGA филогенетический анализ последовательностей
  • Slide 106
  • Slide 107
  • Slide 108
Page 41: Bestfit Output

GCG

ClustalWbull Очень известная и широко распространённая

программа UNIX Internet Windows

bull Выполняет MSA может строить филогенетические деревья

bull Входной файл ndash формат multi-fasta

ClustalW

bull tofasta list

gtIPNS_STRJU P18286

MPILMPSAEVPTIDISPLSGDDAKAKQRVAQEINKAARGSGFFYASNHGVDVQLLQDVVN

EFHRNMSDQEKHDLAINAYNKDNPHVRNGYYKAIKGKKAVESFCYLNPSFSDDHPMIKSE

TPMHEVNLWPDEEKHPRFRPFCEDYYRQLLRLSTVIMRGYALALGRREDFFDEALAEADT

LSSVSLIRYPYLEEYPPVKTGADGTKLSFEDHLDVSMITVLYQTEVQNLQVETVDGWQDI

PRSDEDFLVNCGTYMGHITHDYFPAPNHRVKFINAERLSLPFFLNAGHNSVIEPFVPEGA

AGTVKNPTTSYGEYLQHGLRALIVKNGQT

gtIPNS_STRCL P10621

MPVLMPSAHVPTIDISPLFGTDAAAKKRVAEEIHGACRGSGFFYATNHGVDVQQLQDVVN

EFHGAMTDQEKHDLAIHAYNPDNPHVRNGYYKAVPGRKAVESFCYLNPDFGEDHPMIAAG

TPMHEVNLWPDEERHPRFRPFCEGYYRQMLKLSTVLMRGLALALGRPEHFFDAALAEQDS

LSSVSLIRYPYLEEYPPVKTGPDGQLLSFEDHLDVSMITVLFQTQVQNLQVETVDGWRDI

PTSENDFLVNCGTYMAHVTNDYFPAPNHRVKFVNAERLSLPFFLNGGHEAVIEPFVPEGA

SEEVRNEALSYGDYLQHGLRALIVKNGQT

input fileMulti-fasta

Making the file in unix

ClustalWCLUSTAL W (17) multiple sequence alignment

IPNS_STRJU -MPILMPSAEVPTIDISPLSGDDAKAKQRVAQEINKAARGSGFFYASNHGVDVQLLQDVVIPNS_STRGR -MPIPMLPAHVPTIDISPLSGGDADDKKRVAQEINKACRESGFFYASHHGIDVQLLKDVVIPNS_FLASS ----MNRHADVPVIDISGLSGNDMDVKKDIAARIDRACRGSGFFYAANHGVDLAALQKFTIPNS_PENCH --MASTPKANVPKIDVSPLFGDNMEEKMKVARAIDAASRDTGFFYAVNHGVDVKRLSNKTIPNS_CEPAC MGSVPVPVANVPRIDVSPLFGDDKEKKLEVARAIDAASRDTGFFYAVNHGVDLPWLSRET

IPNS_STRJU NEFHRNMSDQEKHDLAINAYNKDNP-HVRNGYYKAIKGKKAVESFCYLNPSFSDDHPMIKIPNS_STRGR NEFHRTMTDEEKYDLAINAYNKNNP-RTRNGYYMAVKGKKAVESWCYLNPSFSEDHPQIRIPNS_FLASS TDWHMAMSAEEKWELAIRAYNPANP-RNRNGYYMAVEGKKANESFCYLNPSFDADHATIKIPNS_PENCH REFHFSITDEEKWDLAIRAYNKEHQDQIRAGYYLSIPEKKAVESFCYLNPNFKPDHPLIQIPNS_CEPAC NKFHMSITDEEKWQLAIRAYNKEHESQIRAGYYLPIPGKKAVESFCYLNPSFSPDHPRIK

Выходной файл aln format

httpwwwebiacukhelpformatshtml

форматы

ClustalW на EMBL

ClustalW на EMBL - результат

ClustalW at EMBL - Jalview

Conservation

Consensus Sequence

Мы можем вывести consensus sequence из результатов MSA The consensus sequence содержит наиболее часто встречающийся символ в кажной колонке выравнивания

A T C T T G T

A A C T T G T

A A C T T C T

A A C T T G T

Ещё пара терминовhelliphellip

Профиль (Profile)

Также возможно вывести статистическую модель описывающую MSA Профиль содержит информацию о символах в каждом столбце выравнивания

A T C T T G T

A A C T T G T

A A C T T C T

1 2 3 4 5 6

A 1 067 0 0

T 0 033 1 1

C 0 0 0 0

G 0 0 0 0

Profile vs Consensus

Consensus каждая позиция отражает наиболее часто встречающийся символ

Profile каждая позиция отражает частоту символа в данной позиции

Profile vs Consensus

Данный MSA будет иметь одинаковый consensus

A A C T T G C

A A G T C G T

C A C T T C T

A A C T T G T

A A C T T G T

A A C T T C T

A A C T T G T

Profile vs Consensus

Но разный профиль

A A C T T G C

A A G T C G T

C A C T T C T

A A C T T G T

A A C T T G T

A A C T T C T

1 2 3 4 5 6

A 066 1 0 0

T 0 0 0 1

C 033 0 066 0

G 0 0 033 0

1 2 3 4 5 6

A 1 1 0 0

T 0 0 0 1

C 0 0 1 0

G 0 0 0 0

Psi Blast (NCBI)

Position Specific Iterated ndash автоматизированный поиск по профилю

Regular blast

Construct profile from blast results

Blast profile search

Final results

PSI-Blast

Psi-Blast вывод

Проблема формулировки выводов при использовании МSA

1 Сайт выглядит общим (фиксированным) из-за того что это ndash близкородственные последовательности

2 Сайт выглядит общим из-за того что это ndash исключительно жизненно важный сайт

ФилогенезЭволюция ndash случайный процесс с неслучайным результатом

Цели филогенетического исследования

bull Реконструкция корректных генеалогических связей

между биологическими объектами

bull Оценка времени расхождения организмов

bull Определение порядка эволюционных событий в процессе

эволюции

Формат Newick

((A(BC))(DE))

Типы данных

Molecular (DNA RNA proteins)

Morphological (soft tissue hard tissue extant extinct)

Преимущества молекулярных данных

bull Наследуемость

bull Недвусмысленность в описании молекулярных характеристик

bull Поддаются количественному анализу

bull Оценка гомологии легче чем морфологические исследования

bull Данных много

Древо видов и геновbull Древо видов ndash эволюционные взаимосвязи

между видами (видообразование)bull Древо генов

Page RDM and Cotton JC (2000) GeneTree a tool for exploring gene family evolution In D Sankoff and J Nadeau (eds) Comparative Genomics Empirical and Analytical Approaches to Gene Order Dynamics Map Alignment and the Evolution of Gene Families Kluwer Academic Publishers Dordrecht pp 525-536

Figure 2 (a) Incongruent gene and species trees This incongruence can be explained by hypothesizing a gene duplication (h) at the base of the gene tree (b)The presence of only a single gene (a-d) extant in each of the present-day species(1-4) requires postulating three gene losses (c) The corresponding reconciled tree

Ортологи и паралоги

bull Гены-паралоги ndash событие дупликация (and

bull Гены-ортологи ndash событие видообразования (in the two species and in the two species

Duplication

Speciation

Species a Species b

Шаги реконструирования филогенетического

древа

1 Выбор последовательностей и поиск гомологов

2 MSA3 Матрица белков4 Филогенетическое дерево

Филогенетическое дерево

Филогения - раздел биологии изучающий родственные взаимоотношения разных групп живых организмов Филогению отображается обычно в виде эволюционных древ или систематических названий

Зачем нужны филогенетические деревья

Биологические задачи

сравнение 3-х и более объектов (кто на кого более похож )

реконструкция эволюции (кто от кого как и когда произошелhellip)

ТерминологияУзел (node) mdash точка разделения предковой последовательности(вида популяции) на две независимо эволюционирующиеСоответствует внутренней вершине графа изображающего эволюциюЛист (leaf OTU ndash оперативная таксономическая единица) mdash реальный (современный) объект внешняя вершина графаВетвь (branch) mdash связь между узлами или между узлом и листом ребро графаКорень (root) mdash общий предокКлада (clade) - группа двух или более таксонов или последователь-ностей ДНК которая включает как своего общего предка так и всех его потомков

OTU

HTU (hypotetical taxonomic unit)

Какие бывают деревья

Бинарное (разрешённое)(в один момент времени может

произойти только одно событие )

Небинарное (неразрешённое) (может ли в один момент времени

произойти два события )

Время

Какие бывают деревья

Укорененное дерево (rooted tree)отражает направление эволюции

Неукорененное (бескорневое) дерево(unrooted tree) показывает только связи между узлами

Время

Если число листьев равно n существует (2n-3)разных бинарных укоренных деревьевПо определению (2n-3) = 1middot3 middot middot(2n-3)

Существует (2n-5) разных бескорневых деревьев с n листьями

Rooting

A C B B C AA B C

3 OTUs 3 OTUs 1 н 1 неукорененное деревоеукорененное дерево 33 укорененных деревьев укорененных деревьев

A

B

C

D

C

A

B

4 OTUs 4 OTUs 3 3 неукорененных филогенетических неукорененных филогенетических деревьевдеревьев

D

B

A

C C

B

A

D

4 OTUs

15 укорененных

деревьев

Количество Количество Количество

OTU укорененных неукорененных

2 1 13 3 14 15 35 105 156 954 1057 103959548 135135 103959 2027025 13513510 34459425 202702511 654729075 3445942512 13749310575 654729075

Количество возможных деревьев

Рутинная процедура или как строят деревья

Составление выборки последовательностей

Множественное выравнивание

Построение дерева фрагмент записи в виде скобочной формулы

Визуализация и редактура дерева

(((((con1013851018(f539692826973((f67220839851max42750591)492893con923019677)1362315)953075)2583145

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Множественное выравнивание

Matches

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Multiple Alignment

Matches

Mismatches

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Multiple Alignment

Matches

Mismatches

Gaps

Seq 1 A G C G A GSeq 1 A G C G A GSeq 2 G C G G A CSeq 2 G C G G A C

Шаг 3 Перевод количества расхождений в индексы замен

Distance Matrix

Units количество замен нуклеотидов на 1000

Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86

Rice 00 118 122 122

Mosquito 00 55 51

Monkey 00 3

Human 00

Шаг 4 построение филогенетического дерева

Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86

Rice 00 118 122 122

Mosquito 00 55 51

Monkey 00 3

Human 00

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Дистанция между человеком и обезьяной минимальна Эти группы объединяются в Monkey-Human а все остальные дистанции пересчитываются

Dist[Spinach MonHum] = (Dist[Spinach Monkey] +

Dist[Spinach Human])2 = (91 + 86)2 = 885

Spinach Rice Mosquito Mon-HumSpinach 00 9 106 885

Rice 00 118 122

Mosquito 00 53

Mon-Hum 00

Редуцированная матрица дистанций

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Spi-Ric

HumanMosquito

Mon-Hum

MonkeySpinachRice

Mos-Mon-Hum

Spi-Ric

Mos-Mon-Hum-Spi-Ric

Как выбирать последовательности для дерева

Кроме случаев очень близких последовательностей проще работать с белками (а не с ДНК)

Придерживайтесь небольшой выборки (lt 50 последовательностей)

Избегайтеndash фрагментовndash Ксенологов (горизонтальный перенос генов)ndash рекомбинантных последовательностейndash многодоменных белков и повторов

Используйте outgroup (последовательность ответвившаяся от общего предка заведомо (но минимально) раньше разделения интересующих групп-клад)

Самое главное ndash хорошее выравнивание

Максимальный вклад в финальное дерево нельзя построить хорошее дерево по плохому выравниванию

Блоки содержащие много гэпов плохо выровненные N- и C- концы можно просто вырезать

Основные алгоритмы построения филогенетических деревьев

Методы основанные на оценке

расстояний (матричные методы)

bull UPGMA (кластеризация)

bull Neighbor-joining

bull Минимальная эволюция

Наибольшего правдоподобия Maximal likelihood ML Используется модель эволюции и строится дерево которое наиболее правдоподобно при данной модели

Максимальной экономии (бережливости)

maximal parsimony MP Выбирается дерево с минимальным количеством

мутаций необходимых для объяснения данных

Пример матрицы расстояний

1 2 3 4 5 6 7 8 000 1053 977 1278 1203 1654 1353 2500 HUMAN 1

000 902 1203 977 1579 902 2727 HORSE 2 000 977 902 1654 1203 2424 RABIT 3

000 226 1729 1053 2576 MOUSE 4 000 1579 827 2576 RAT 5

000 1053 2955 BOVIN 6 000 2500 PIG 7

000 CHICK 8

Расстояние (уровень дивергенции) между соответствующими последовательностями из геномов мыши и свиньи

Как понимать расстояние между объектами

bull Как время в течение которого они эволюционировалиbull Как число laquoэволюционных событийraquo (мутаций)

В первом случае объекты образуют ультраметрическое пространство(если все объекты наблюдаются в одно время что как правило верно)

Но время непосредственно измерить невозможно

Гипотеза laquoмолекулярных часовraquo(EZuckerkandl LPauling 1962)

За равное время во всех ветвях эволюции данного генабелка накапливается равное число мутацийЕсли гипотеза молекулярных часов

принимается число различий между выровненными последовательностями можно считать примерно пропорциональным времени Отклонения от ультраметричности можно считать случайными Эволюция реконструируется в виде ультраметрического дерева

Укоренённое дерево называется ультраметрическим если расстояние от корня до любого из листьев одинаково

UPGMAUnweighted Pair Group Method with Arithmetic Mean

разновидность кластерного метода

Расстояние между кластерами вычисляется как среднее арифметическое всевозможных расстояний между последовательностями из кластеров

Недостатки UPGMA

Алгоритм строит ультраметрическое дерево ndash скорость эволюции предполагается одинаковой для всех ветвей дерева Использовать этот алгоритм имеет смысл только в случае ультраметрических данных (справедливости laquoмолекулярных часовraquo)

Реальное дерево UPGMA

Метод ближайших соседей (Neighbor-joining NJ)

Строит неукоренённое дерево

Может работать с большим количеством данных

Достаточно быстрый

Если есть недвусмысленное с точки зрения эксперта дерево то оно будет построено

Метод Neighbor-joining

Рисуем laquoзвездноеraquo дерево и будем laquoотщипыватьraquo от него по паре листьев

Пусть ui = Σk Mik(n-2) mdash среднее расстояние от листа i до других

листьев

1 Рассмотрим все возможные пары листьев Выберем 2 листа i и j с минимальным значением величины

Mij ndash ui ndashuj

те выбираем 2 узла которые близки друг к другу но далеки ото всех остальных

Метод ближайших соседей (Neighbor-joining NJ)

2 Кластер (i j) ndash новый узел дерева

Расстояние от i или от j до узла (ij) D(i (ij)) = 05middot(Mij + ui ndash uj) D(j (ij)) = 05middot (Mij + uj ndash ui) те длина ветви зависит от среднего расстояния до других вершин

3 Вычисляем расстояние от нового кластера до всех других

M(ij)k = Mik+Mjk ndash Mij 2

5 В матрице М убираем i и j и добавляем (i j) Повторяем пока не останутся 3 узла

Input MSA для n последовательностей одна последовательность для каждого вида

AAAAATC

AAAAAAG

CCCCCCG

AAAAATCAAAAAAG

CCCCCCG

Длинная ветвь ndash непохоже на правду

Длинная ветвь -Похоже на правду

Методы основанные на последовательностях Maximum Likelihood (ML) Maximum Parsimony (MP)

Как изобразить дерево Топология дерева

Топология дерева mdash только листья узлы (корень) и связывающие их ветви (топология не зависит от способа изображения дерева)

A

B

C

D

E A BC D E

Два изображения одной и той же топологии

Bacterium 1

Bacterium 3

Bacterium 2

Eukaryote 1

Eukaryote 4

Eukaryote 3

Eukaryote 2

Bacterium 1

Bacterium 3Bacterium 2

Eukaryote 1

Eukaryote 4Eukaryote 3

Eukaryote 2

Филограммы ndash длины ветвей

пропорциональны

эволюционному расстоянию

Кладограммы и филограммы

Кладограммы ndash только

топологя Длины ветвей не

учитываются

6

31

2

46

24

53

Как можно нарисовать построенное дерево

Какие on-line программы строят деревья

ClustalW ldquoTree typerdquo ndash nj phylip строит только методом NJ но результат ndash в разных форматах no bootstraps

Phylip (Felsenstein 1993) ndash пакет программ для построения филогенетических деревьев (stand-alone)On-line (partly) например

httpbiowebpasteurfrseqanalphylogenyphylip-ukhtml PAUP (Phylogenetic Analysis Using Parsimony)

MEGA филогенетический анализ последовательностей

httpwwwmegasoftwarenet

Эволюция ndash исторический процесс

Из 8200794532637891559375 деревьев для 20 OTUs 1

является верным и 8200794532637891559374

неверны

Truth is one falsehoods are many

Какое из 8200794532637891559375

деревьев истинно

Мы не знаем Можно применить иные критетии

Например ldquoпохожесть=родствоraquo

GCGbull Строковый поиск простой текстовый

поиск по локальной базе данных

bull Поиск в определениях или в аннотациях

bull Определения содержат минимальное количество информации для каждой статьи доступ имя организма имя гена длина последовательности дата

  • Bestfit Output
  • SP1 at swissprot
  • EGR1 at swissprot
  • Вывод
  • Bl2Seq at NCBI
  • Bl2seq results
  • Bl2seq оценка
  • Оптимизация времени вычислений при парном выравнивании
  • Slide 9
  • Алгоритм BLAST (шаг 1)
  • Slide 11
  • Blast
  • Поиск гомологов
  • ДНК или белок
  • ДНК
  • Slide 16
  • Slide 17
  • Двойная спираль
  • ДНК дальнейшая упаковка
  • Slide 20
  • Репликация ДНК
  • Slide 22
  • Slide 23
  • Slide 24
  • Slide 25
  • Множественное выравнивание последовательностей (MSA)
  • Slide 27
  • Основные предположения
  • Например
  • Почему множественное выравнивание
  • Slide 31
  • Подходы в MSA
  • MSA algorithm
  • Multiple Alignment - алгоритм
  • Комментарии
  • GCG
  • Slide 37
  • GCG
  • Slide 39
  • Slide 40
  • Slide 41
  • ClustalW
  • Slide 43
  • Slide 44
  • ClustalW на EMBL
  • ClustalW на EMBL - результат
  • ClustalW at EMBL - Jalview
  • Consensus Sequence
  • Профиль (Profile)
  • Profile vs Consensus
  • Slide 51
  • Slide 52
  • Psi Blast (NCBI)
  • PSI-Blast
  • Psi-Blast вывод
  • Slide 56
  • Филогенез
  • Slide 58
  • Slide 59
  • Slide 60
  • Slide 61
  • Древо видов и генов
  • Ортологи и паралоги
  • Шаги реконструирования филогенетического древа
  • Филогенетическое дерево
  • Зачем нужны филогенетические деревья
  • Терминология
  • Slide 68
  • Какие бывают деревья
  • Slide 70
  • Slide 71
  • Slide 72
  • 4 OTUs 3 неукорененных филогенетических деревьев
  • Slide 74
  • Slide 75
  • Slide 76
  • Slide 77
  • Рутинная процедура или как строят деревья
  • Slide 79
  • Slide 80
  • Slide 81
  • Slide 82
  • Slide 83
  • Slide 84
  • Slide 85
  • Slide 86
  • Slide 87
  • Slide 88
  • Slide 89
  • Как выбирать последовательности для дерева
  • Самое главное ndash хорошее выравнивание
  • Основные алгоритмы построения филогенетических деревьев
  • Пример матрицы расстояний
  • Slide 94
  • Гипотеза laquoмолекулярных часовraquo (EZuckerkandl LPauling 1962)
  • UPGMA Unweighted Pair Group Method with Arithmetic Mean
  • Недостатки UPGMA
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Метод Neighbor-joining
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Slide 101
  • Как изобразить дерево Топология дерева
  • Slide 103
  • Какие on-line программы строят деревья
  • MEGA филогенетический анализ последовательностей
  • Slide 106
  • Slide 107
  • Slide 108
Page 42: Bestfit Output

ClustalWbull Очень известная и широко распространённая

программа UNIX Internet Windows

bull Выполняет MSA может строить филогенетические деревья

bull Входной файл ndash формат multi-fasta

ClustalW

bull tofasta list

gtIPNS_STRJU P18286

MPILMPSAEVPTIDISPLSGDDAKAKQRVAQEINKAARGSGFFYASNHGVDVQLLQDVVN

EFHRNMSDQEKHDLAINAYNKDNPHVRNGYYKAIKGKKAVESFCYLNPSFSDDHPMIKSE

TPMHEVNLWPDEEKHPRFRPFCEDYYRQLLRLSTVIMRGYALALGRREDFFDEALAEADT

LSSVSLIRYPYLEEYPPVKTGADGTKLSFEDHLDVSMITVLYQTEVQNLQVETVDGWQDI

PRSDEDFLVNCGTYMGHITHDYFPAPNHRVKFINAERLSLPFFLNAGHNSVIEPFVPEGA

AGTVKNPTTSYGEYLQHGLRALIVKNGQT

gtIPNS_STRCL P10621

MPVLMPSAHVPTIDISPLFGTDAAAKKRVAEEIHGACRGSGFFYATNHGVDVQQLQDVVN

EFHGAMTDQEKHDLAIHAYNPDNPHVRNGYYKAVPGRKAVESFCYLNPDFGEDHPMIAAG

TPMHEVNLWPDEERHPRFRPFCEGYYRQMLKLSTVLMRGLALALGRPEHFFDAALAEQDS

LSSVSLIRYPYLEEYPPVKTGPDGQLLSFEDHLDVSMITVLFQTQVQNLQVETVDGWRDI

PTSENDFLVNCGTYMAHVTNDYFPAPNHRVKFVNAERLSLPFFLNGGHEAVIEPFVPEGA

SEEVRNEALSYGDYLQHGLRALIVKNGQT

input fileMulti-fasta

Making the file in unix

ClustalWCLUSTAL W (17) multiple sequence alignment

IPNS_STRJU -MPILMPSAEVPTIDISPLSGDDAKAKQRVAQEINKAARGSGFFYASNHGVDVQLLQDVVIPNS_STRGR -MPIPMLPAHVPTIDISPLSGGDADDKKRVAQEINKACRESGFFYASHHGIDVQLLKDVVIPNS_FLASS ----MNRHADVPVIDISGLSGNDMDVKKDIAARIDRACRGSGFFYAANHGVDLAALQKFTIPNS_PENCH --MASTPKANVPKIDVSPLFGDNMEEKMKVARAIDAASRDTGFFYAVNHGVDVKRLSNKTIPNS_CEPAC MGSVPVPVANVPRIDVSPLFGDDKEKKLEVARAIDAASRDTGFFYAVNHGVDLPWLSRET

IPNS_STRJU NEFHRNMSDQEKHDLAINAYNKDNP-HVRNGYYKAIKGKKAVESFCYLNPSFSDDHPMIKIPNS_STRGR NEFHRTMTDEEKYDLAINAYNKNNP-RTRNGYYMAVKGKKAVESWCYLNPSFSEDHPQIRIPNS_FLASS TDWHMAMSAEEKWELAIRAYNPANP-RNRNGYYMAVEGKKANESFCYLNPSFDADHATIKIPNS_PENCH REFHFSITDEEKWDLAIRAYNKEHQDQIRAGYYLSIPEKKAVESFCYLNPNFKPDHPLIQIPNS_CEPAC NKFHMSITDEEKWQLAIRAYNKEHESQIRAGYYLPIPGKKAVESFCYLNPSFSPDHPRIK

Выходной файл aln format

httpwwwebiacukhelpformatshtml

форматы

ClustalW на EMBL

ClustalW на EMBL - результат

ClustalW at EMBL - Jalview

Conservation

Consensus Sequence

Мы можем вывести consensus sequence из результатов MSA The consensus sequence содержит наиболее часто встречающийся символ в кажной колонке выравнивания

A T C T T G T

A A C T T G T

A A C T T C T

A A C T T G T

Ещё пара терминовhelliphellip

Профиль (Profile)

Также возможно вывести статистическую модель описывающую MSA Профиль содержит информацию о символах в каждом столбце выравнивания

A T C T T G T

A A C T T G T

A A C T T C T

1 2 3 4 5 6

A 1 067 0 0

T 0 033 1 1

C 0 0 0 0

G 0 0 0 0

Profile vs Consensus

Consensus каждая позиция отражает наиболее часто встречающийся символ

Profile каждая позиция отражает частоту символа в данной позиции

Profile vs Consensus

Данный MSA будет иметь одинаковый consensus

A A C T T G C

A A G T C G T

C A C T T C T

A A C T T G T

A A C T T G T

A A C T T C T

A A C T T G T

Profile vs Consensus

Но разный профиль

A A C T T G C

A A G T C G T

C A C T T C T

A A C T T G T

A A C T T G T

A A C T T C T

1 2 3 4 5 6

A 066 1 0 0

T 0 0 0 1

C 033 0 066 0

G 0 0 033 0

1 2 3 4 5 6

A 1 1 0 0

T 0 0 0 1

C 0 0 1 0

G 0 0 0 0

Psi Blast (NCBI)

Position Specific Iterated ndash автоматизированный поиск по профилю

Regular blast

Construct profile from blast results

Blast profile search

Final results

PSI-Blast

Psi-Blast вывод

Проблема формулировки выводов при использовании МSA

1 Сайт выглядит общим (фиксированным) из-за того что это ndash близкородственные последовательности

2 Сайт выглядит общим из-за того что это ndash исключительно жизненно важный сайт

ФилогенезЭволюция ndash случайный процесс с неслучайным результатом

Цели филогенетического исследования

bull Реконструкция корректных генеалогических связей

между биологическими объектами

bull Оценка времени расхождения организмов

bull Определение порядка эволюционных событий в процессе

эволюции

Формат Newick

((A(BC))(DE))

Типы данных

Molecular (DNA RNA proteins)

Morphological (soft tissue hard tissue extant extinct)

Преимущества молекулярных данных

bull Наследуемость

bull Недвусмысленность в описании молекулярных характеристик

bull Поддаются количественному анализу

bull Оценка гомологии легче чем морфологические исследования

bull Данных много

Древо видов и геновbull Древо видов ndash эволюционные взаимосвязи

между видами (видообразование)bull Древо генов

Page RDM and Cotton JC (2000) GeneTree a tool for exploring gene family evolution In D Sankoff and J Nadeau (eds) Comparative Genomics Empirical and Analytical Approaches to Gene Order Dynamics Map Alignment and the Evolution of Gene Families Kluwer Academic Publishers Dordrecht pp 525-536

Figure 2 (a) Incongruent gene and species trees This incongruence can be explained by hypothesizing a gene duplication (h) at the base of the gene tree (b)The presence of only a single gene (a-d) extant in each of the present-day species(1-4) requires postulating three gene losses (c) The corresponding reconciled tree

Ортологи и паралоги

bull Гены-паралоги ndash событие дупликация (and

bull Гены-ортологи ndash событие видообразования (in the two species and in the two species

Duplication

Speciation

Species a Species b

Шаги реконструирования филогенетического

древа

1 Выбор последовательностей и поиск гомологов

2 MSA3 Матрица белков4 Филогенетическое дерево

Филогенетическое дерево

Филогения - раздел биологии изучающий родственные взаимоотношения разных групп живых организмов Филогению отображается обычно в виде эволюционных древ или систематических названий

Зачем нужны филогенетические деревья

Биологические задачи

сравнение 3-х и более объектов (кто на кого более похож )

реконструкция эволюции (кто от кого как и когда произошелhellip)

ТерминологияУзел (node) mdash точка разделения предковой последовательности(вида популяции) на две независимо эволюционирующиеСоответствует внутренней вершине графа изображающего эволюциюЛист (leaf OTU ndash оперативная таксономическая единица) mdash реальный (современный) объект внешняя вершина графаВетвь (branch) mdash связь между узлами или между узлом и листом ребро графаКорень (root) mdash общий предокКлада (clade) - группа двух или более таксонов или последователь-ностей ДНК которая включает как своего общего предка так и всех его потомков

OTU

HTU (hypotetical taxonomic unit)

Какие бывают деревья

Бинарное (разрешённое)(в один момент времени может

произойти только одно событие )

Небинарное (неразрешённое) (может ли в один момент времени

произойти два события )

Время

Какие бывают деревья

Укорененное дерево (rooted tree)отражает направление эволюции

Неукорененное (бескорневое) дерево(unrooted tree) показывает только связи между узлами

Время

Если число листьев равно n существует (2n-3)разных бинарных укоренных деревьевПо определению (2n-3) = 1middot3 middot middot(2n-3)

Существует (2n-5) разных бескорневых деревьев с n листьями

Rooting

A C B B C AA B C

3 OTUs 3 OTUs 1 н 1 неукорененное деревоеукорененное дерево 33 укорененных деревьев укорененных деревьев

A

B

C

D

C

A

B

4 OTUs 4 OTUs 3 3 неукорененных филогенетических неукорененных филогенетических деревьевдеревьев

D

B

A

C C

B

A

D

4 OTUs

15 укорененных

деревьев

Количество Количество Количество

OTU укорененных неукорененных

2 1 13 3 14 15 35 105 156 954 1057 103959548 135135 103959 2027025 13513510 34459425 202702511 654729075 3445942512 13749310575 654729075

Количество возможных деревьев

Рутинная процедура или как строят деревья

Составление выборки последовательностей

Множественное выравнивание

Построение дерева фрагмент записи в виде скобочной формулы

Визуализация и редактура дерева

(((((con1013851018(f539692826973((f67220839851max42750591)492893con923019677)1362315)953075)2583145

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Множественное выравнивание

Matches

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Multiple Alignment

Matches

Mismatches

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Multiple Alignment

Matches

Mismatches

Gaps

Seq 1 A G C G A GSeq 1 A G C G A GSeq 2 G C G G A CSeq 2 G C G G A C

Шаг 3 Перевод количества расхождений в индексы замен

Distance Matrix

Units количество замен нуклеотидов на 1000

Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86

Rice 00 118 122 122

Mosquito 00 55 51

Monkey 00 3

Human 00

Шаг 4 построение филогенетического дерева

Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86

Rice 00 118 122 122

Mosquito 00 55 51

Monkey 00 3

Human 00

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Дистанция между человеком и обезьяной минимальна Эти группы объединяются в Monkey-Human а все остальные дистанции пересчитываются

Dist[Spinach MonHum] = (Dist[Spinach Monkey] +

Dist[Spinach Human])2 = (91 + 86)2 = 885

Spinach Rice Mosquito Mon-HumSpinach 00 9 106 885

Rice 00 118 122

Mosquito 00 53

Mon-Hum 00

Редуцированная матрица дистанций

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Spi-Ric

HumanMosquito

Mon-Hum

MonkeySpinachRice

Mos-Mon-Hum

Spi-Ric

Mos-Mon-Hum-Spi-Ric

Как выбирать последовательности для дерева

Кроме случаев очень близких последовательностей проще работать с белками (а не с ДНК)

Придерживайтесь небольшой выборки (lt 50 последовательностей)

Избегайтеndash фрагментовndash Ксенологов (горизонтальный перенос генов)ndash рекомбинантных последовательностейndash многодоменных белков и повторов

Используйте outgroup (последовательность ответвившаяся от общего предка заведомо (но минимально) раньше разделения интересующих групп-клад)

Самое главное ndash хорошее выравнивание

Максимальный вклад в финальное дерево нельзя построить хорошее дерево по плохому выравниванию

Блоки содержащие много гэпов плохо выровненные N- и C- концы можно просто вырезать

Основные алгоритмы построения филогенетических деревьев

Методы основанные на оценке

расстояний (матричные методы)

bull UPGMA (кластеризация)

bull Neighbor-joining

bull Минимальная эволюция

Наибольшего правдоподобия Maximal likelihood ML Используется модель эволюции и строится дерево которое наиболее правдоподобно при данной модели

Максимальной экономии (бережливости)

maximal parsimony MP Выбирается дерево с минимальным количеством

мутаций необходимых для объяснения данных

Пример матрицы расстояний

1 2 3 4 5 6 7 8 000 1053 977 1278 1203 1654 1353 2500 HUMAN 1

000 902 1203 977 1579 902 2727 HORSE 2 000 977 902 1654 1203 2424 RABIT 3

000 226 1729 1053 2576 MOUSE 4 000 1579 827 2576 RAT 5

000 1053 2955 BOVIN 6 000 2500 PIG 7

000 CHICK 8

Расстояние (уровень дивергенции) между соответствующими последовательностями из геномов мыши и свиньи

Как понимать расстояние между объектами

bull Как время в течение которого они эволюционировалиbull Как число laquoэволюционных событийraquo (мутаций)

В первом случае объекты образуют ультраметрическое пространство(если все объекты наблюдаются в одно время что как правило верно)

Но время непосредственно измерить невозможно

Гипотеза laquoмолекулярных часовraquo(EZuckerkandl LPauling 1962)

За равное время во всех ветвях эволюции данного генабелка накапливается равное число мутацийЕсли гипотеза молекулярных часов

принимается число различий между выровненными последовательностями можно считать примерно пропорциональным времени Отклонения от ультраметричности можно считать случайными Эволюция реконструируется в виде ультраметрического дерева

Укоренённое дерево называется ультраметрическим если расстояние от корня до любого из листьев одинаково

UPGMAUnweighted Pair Group Method with Arithmetic Mean

разновидность кластерного метода

Расстояние между кластерами вычисляется как среднее арифметическое всевозможных расстояний между последовательностями из кластеров

Недостатки UPGMA

Алгоритм строит ультраметрическое дерево ndash скорость эволюции предполагается одинаковой для всех ветвей дерева Использовать этот алгоритм имеет смысл только в случае ультраметрических данных (справедливости laquoмолекулярных часовraquo)

Реальное дерево UPGMA

Метод ближайших соседей (Neighbor-joining NJ)

Строит неукоренённое дерево

Может работать с большим количеством данных

Достаточно быстрый

Если есть недвусмысленное с точки зрения эксперта дерево то оно будет построено

Метод Neighbor-joining

Рисуем laquoзвездноеraquo дерево и будем laquoотщипыватьraquo от него по паре листьев

Пусть ui = Σk Mik(n-2) mdash среднее расстояние от листа i до других

листьев

1 Рассмотрим все возможные пары листьев Выберем 2 листа i и j с минимальным значением величины

Mij ndash ui ndashuj

те выбираем 2 узла которые близки друг к другу но далеки ото всех остальных

Метод ближайших соседей (Neighbor-joining NJ)

2 Кластер (i j) ndash новый узел дерева

Расстояние от i или от j до узла (ij) D(i (ij)) = 05middot(Mij + ui ndash uj) D(j (ij)) = 05middot (Mij + uj ndash ui) те длина ветви зависит от среднего расстояния до других вершин

3 Вычисляем расстояние от нового кластера до всех других

M(ij)k = Mik+Mjk ndash Mij 2

5 В матрице М убираем i и j и добавляем (i j) Повторяем пока не останутся 3 узла

Input MSA для n последовательностей одна последовательность для каждого вида

AAAAATC

AAAAAAG

CCCCCCG

AAAAATCAAAAAAG

CCCCCCG

Длинная ветвь ndash непохоже на правду

Длинная ветвь -Похоже на правду

Методы основанные на последовательностях Maximum Likelihood (ML) Maximum Parsimony (MP)

Как изобразить дерево Топология дерева

Топология дерева mdash только листья узлы (корень) и связывающие их ветви (топология не зависит от способа изображения дерева)

A

B

C

D

E A BC D E

Два изображения одной и той же топологии

Bacterium 1

Bacterium 3

Bacterium 2

Eukaryote 1

Eukaryote 4

Eukaryote 3

Eukaryote 2

Bacterium 1

Bacterium 3Bacterium 2

Eukaryote 1

Eukaryote 4Eukaryote 3

Eukaryote 2

Филограммы ndash длины ветвей

пропорциональны

эволюционному расстоянию

Кладограммы и филограммы

Кладограммы ndash только

топологя Длины ветвей не

учитываются

6

31

2

46

24

53

Как можно нарисовать построенное дерево

Какие on-line программы строят деревья

ClustalW ldquoTree typerdquo ndash nj phylip строит только методом NJ но результат ndash в разных форматах no bootstraps

Phylip (Felsenstein 1993) ndash пакет программ для построения филогенетических деревьев (stand-alone)On-line (partly) например

httpbiowebpasteurfrseqanalphylogenyphylip-ukhtml PAUP (Phylogenetic Analysis Using Parsimony)

MEGA филогенетический анализ последовательностей

httpwwwmegasoftwarenet

Эволюция ndash исторический процесс

Из 8200794532637891559375 деревьев для 20 OTUs 1

является верным и 8200794532637891559374

неверны

Truth is one falsehoods are many

Какое из 8200794532637891559375

деревьев истинно

Мы не знаем Можно применить иные критетии

Например ldquoпохожесть=родствоraquo

GCGbull Строковый поиск простой текстовый

поиск по локальной базе данных

bull Поиск в определениях или в аннотациях

bull Определения содержат минимальное количество информации для каждой статьи доступ имя организма имя гена длина последовательности дата

  • Bestfit Output
  • SP1 at swissprot
  • EGR1 at swissprot
  • Вывод
  • Bl2Seq at NCBI
  • Bl2seq results
  • Bl2seq оценка
  • Оптимизация времени вычислений при парном выравнивании
  • Slide 9
  • Алгоритм BLAST (шаг 1)
  • Slide 11
  • Blast
  • Поиск гомологов
  • ДНК или белок
  • ДНК
  • Slide 16
  • Slide 17
  • Двойная спираль
  • ДНК дальнейшая упаковка
  • Slide 20
  • Репликация ДНК
  • Slide 22
  • Slide 23
  • Slide 24
  • Slide 25
  • Множественное выравнивание последовательностей (MSA)
  • Slide 27
  • Основные предположения
  • Например
  • Почему множественное выравнивание
  • Slide 31
  • Подходы в MSA
  • MSA algorithm
  • Multiple Alignment - алгоритм
  • Комментарии
  • GCG
  • Slide 37
  • GCG
  • Slide 39
  • Slide 40
  • Slide 41
  • ClustalW
  • Slide 43
  • Slide 44
  • ClustalW на EMBL
  • ClustalW на EMBL - результат
  • ClustalW at EMBL - Jalview
  • Consensus Sequence
  • Профиль (Profile)
  • Profile vs Consensus
  • Slide 51
  • Slide 52
  • Psi Blast (NCBI)
  • PSI-Blast
  • Psi-Blast вывод
  • Slide 56
  • Филогенез
  • Slide 58
  • Slide 59
  • Slide 60
  • Slide 61
  • Древо видов и генов
  • Ортологи и паралоги
  • Шаги реконструирования филогенетического древа
  • Филогенетическое дерево
  • Зачем нужны филогенетические деревья
  • Терминология
  • Slide 68
  • Какие бывают деревья
  • Slide 70
  • Slide 71
  • Slide 72
  • 4 OTUs 3 неукорененных филогенетических деревьев
  • Slide 74
  • Slide 75
  • Slide 76
  • Slide 77
  • Рутинная процедура или как строят деревья
  • Slide 79
  • Slide 80
  • Slide 81
  • Slide 82
  • Slide 83
  • Slide 84
  • Slide 85
  • Slide 86
  • Slide 87
  • Slide 88
  • Slide 89
  • Как выбирать последовательности для дерева
  • Самое главное ndash хорошее выравнивание
  • Основные алгоритмы построения филогенетических деревьев
  • Пример матрицы расстояний
  • Slide 94
  • Гипотеза laquoмолекулярных часовraquo (EZuckerkandl LPauling 1962)
  • UPGMA Unweighted Pair Group Method with Arithmetic Mean
  • Недостатки UPGMA
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Метод Neighbor-joining
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Slide 101
  • Как изобразить дерево Топология дерева
  • Slide 103
  • Какие on-line программы строят деревья
  • MEGA филогенетический анализ последовательностей
  • Slide 106
  • Slide 107
  • Slide 108
Page 43: Bestfit Output

ClustalW

bull tofasta list

gtIPNS_STRJU P18286

MPILMPSAEVPTIDISPLSGDDAKAKQRVAQEINKAARGSGFFYASNHGVDVQLLQDVVN

EFHRNMSDQEKHDLAINAYNKDNPHVRNGYYKAIKGKKAVESFCYLNPSFSDDHPMIKSE

TPMHEVNLWPDEEKHPRFRPFCEDYYRQLLRLSTVIMRGYALALGRREDFFDEALAEADT

LSSVSLIRYPYLEEYPPVKTGADGTKLSFEDHLDVSMITVLYQTEVQNLQVETVDGWQDI

PRSDEDFLVNCGTYMGHITHDYFPAPNHRVKFINAERLSLPFFLNAGHNSVIEPFVPEGA

AGTVKNPTTSYGEYLQHGLRALIVKNGQT

gtIPNS_STRCL P10621

MPVLMPSAHVPTIDISPLFGTDAAAKKRVAEEIHGACRGSGFFYATNHGVDVQQLQDVVN

EFHGAMTDQEKHDLAIHAYNPDNPHVRNGYYKAVPGRKAVESFCYLNPDFGEDHPMIAAG

TPMHEVNLWPDEERHPRFRPFCEGYYRQMLKLSTVLMRGLALALGRPEHFFDAALAEQDS

LSSVSLIRYPYLEEYPPVKTGPDGQLLSFEDHLDVSMITVLFQTQVQNLQVETVDGWRDI

PTSENDFLVNCGTYMAHVTNDYFPAPNHRVKFVNAERLSLPFFLNGGHEAVIEPFVPEGA

SEEVRNEALSYGDYLQHGLRALIVKNGQT

input fileMulti-fasta

Making the file in unix

ClustalWCLUSTAL W (17) multiple sequence alignment

IPNS_STRJU -MPILMPSAEVPTIDISPLSGDDAKAKQRVAQEINKAARGSGFFYASNHGVDVQLLQDVVIPNS_STRGR -MPIPMLPAHVPTIDISPLSGGDADDKKRVAQEINKACRESGFFYASHHGIDVQLLKDVVIPNS_FLASS ----MNRHADVPVIDISGLSGNDMDVKKDIAARIDRACRGSGFFYAANHGVDLAALQKFTIPNS_PENCH --MASTPKANVPKIDVSPLFGDNMEEKMKVARAIDAASRDTGFFYAVNHGVDVKRLSNKTIPNS_CEPAC MGSVPVPVANVPRIDVSPLFGDDKEKKLEVARAIDAASRDTGFFYAVNHGVDLPWLSRET

IPNS_STRJU NEFHRNMSDQEKHDLAINAYNKDNP-HVRNGYYKAIKGKKAVESFCYLNPSFSDDHPMIKIPNS_STRGR NEFHRTMTDEEKYDLAINAYNKNNP-RTRNGYYMAVKGKKAVESWCYLNPSFSEDHPQIRIPNS_FLASS TDWHMAMSAEEKWELAIRAYNPANP-RNRNGYYMAVEGKKANESFCYLNPSFDADHATIKIPNS_PENCH REFHFSITDEEKWDLAIRAYNKEHQDQIRAGYYLSIPEKKAVESFCYLNPNFKPDHPLIQIPNS_CEPAC NKFHMSITDEEKWQLAIRAYNKEHESQIRAGYYLPIPGKKAVESFCYLNPSFSPDHPRIK

Выходной файл aln format

httpwwwebiacukhelpformatshtml

форматы

ClustalW на EMBL

ClustalW на EMBL - результат

ClustalW at EMBL - Jalview

Conservation

Consensus Sequence

Мы можем вывести consensus sequence из результатов MSA The consensus sequence содержит наиболее часто встречающийся символ в кажной колонке выравнивания

A T C T T G T

A A C T T G T

A A C T T C T

A A C T T G T

Ещё пара терминовhelliphellip

Профиль (Profile)

Также возможно вывести статистическую модель описывающую MSA Профиль содержит информацию о символах в каждом столбце выравнивания

A T C T T G T

A A C T T G T

A A C T T C T

1 2 3 4 5 6

A 1 067 0 0

T 0 033 1 1

C 0 0 0 0

G 0 0 0 0

Profile vs Consensus

Consensus каждая позиция отражает наиболее часто встречающийся символ

Profile каждая позиция отражает частоту символа в данной позиции

Profile vs Consensus

Данный MSA будет иметь одинаковый consensus

A A C T T G C

A A G T C G T

C A C T T C T

A A C T T G T

A A C T T G T

A A C T T C T

A A C T T G T

Profile vs Consensus

Но разный профиль

A A C T T G C

A A G T C G T

C A C T T C T

A A C T T G T

A A C T T G T

A A C T T C T

1 2 3 4 5 6

A 066 1 0 0

T 0 0 0 1

C 033 0 066 0

G 0 0 033 0

1 2 3 4 5 6

A 1 1 0 0

T 0 0 0 1

C 0 0 1 0

G 0 0 0 0

Psi Blast (NCBI)

Position Specific Iterated ndash автоматизированный поиск по профилю

Regular blast

Construct profile from blast results

Blast profile search

Final results

PSI-Blast

Psi-Blast вывод

Проблема формулировки выводов при использовании МSA

1 Сайт выглядит общим (фиксированным) из-за того что это ndash близкородственные последовательности

2 Сайт выглядит общим из-за того что это ndash исключительно жизненно важный сайт

ФилогенезЭволюция ndash случайный процесс с неслучайным результатом

Цели филогенетического исследования

bull Реконструкция корректных генеалогических связей

между биологическими объектами

bull Оценка времени расхождения организмов

bull Определение порядка эволюционных событий в процессе

эволюции

Формат Newick

((A(BC))(DE))

Типы данных

Molecular (DNA RNA proteins)

Morphological (soft tissue hard tissue extant extinct)

Преимущества молекулярных данных

bull Наследуемость

bull Недвусмысленность в описании молекулярных характеристик

bull Поддаются количественному анализу

bull Оценка гомологии легче чем морфологические исследования

bull Данных много

Древо видов и геновbull Древо видов ndash эволюционные взаимосвязи

между видами (видообразование)bull Древо генов

Page RDM and Cotton JC (2000) GeneTree a tool for exploring gene family evolution In D Sankoff and J Nadeau (eds) Comparative Genomics Empirical and Analytical Approaches to Gene Order Dynamics Map Alignment and the Evolution of Gene Families Kluwer Academic Publishers Dordrecht pp 525-536

Figure 2 (a) Incongruent gene and species trees This incongruence can be explained by hypothesizing a gene duplication (h) at the base of the gene tree (b)The presence of only a single gene (a-d) extant in each of the present-day species(1-4) requires postulating three gene losses (c) The corresponding reconciled tree

Ортологи и паралоги

bull Гены-паралоги ndash событие дупликация (and

bull Гены-ортологи ndash событие видообразования (in the two species and in the two species

Duplication

Speciation

Species a Species b

Шаги реконструирования филогенетического

древа

1 Выбор последовательностей и поиск гомологов

2 MSA3 Матрица белков4 Филогенетическое дерево

Филогенетическое дерево

Филогения - раздел биологии изучающий родственные взаимоотношения разных групп живых организмов Филогению отображается обычно в виде эволюционных древ или систематических названий

Зачем нужны филогенетические деревья

Биологические задачи

сравнение 3-х и более объектов (кто на кого более похож )

реконструкция эволюции (кто от кого как и когда произошелhellip)

ТерминологияУзел (node) mdash точка разделения предковой последовательности(вида популяции) на две независимо эволюционирующиеСоответствует внутренней вершине графа изображающего эволюциюЛист (leaf OTU ndash оперативная таксономическая единица) mdash реальный (современный) объект внешняя вершина графаВетвь (branch) mdash связь между узлами или между узлом и листом ребро графаКорень (root) mdash общий предокКлада (clade) - группа двух или более таксонов или последователь-ностей ДНК которая включает как своего общего предка так и всех его потомков

OTU

HTU (hypotetical taxonomic unit)

Какие бывают деревья

Бинарное (разрешённое)(в один момент времени может

произойти только одно событие )

Небинарное (неразрешённое) (может ли в один момент времени

произойти два события )

Время

Какие бывают деревья

Укорененное дерево (rooted tree)отражает направление эволюции

Неукорененное (бескорневое) дерево(unrooted tree) показывает только связи между узлами

Время

Если число листьев равно n существует (2n-3)разных бинарных укоренных деревьевПо определению (2n-3) = 1middot3 middot middot(2n-3)

Существует (2n-5) разных бескорневых деревьев с n листьями

Rooting

A C B B C AA B C

3 OTUs 3 OTUs 1 н 1 неукорененное деревоеукорененное дерево 33 укорененных деревьев укорененных деревьев

A

B

C

D

C

A

B

4 OTUs 4 OTUs 3 3 неукорененных филогенетических неукорененных филогенетических деревьевдеревьев

D

B

A

C C

B

A

D

4 OTUs

15 укорененных

деревьев

Количество Количество Количество

OTU укорененных неукорененных

2 1 13 3 14 15 35 105 156 954 1057 103959548 135135 103959 2027025 13513510 34459425 202702511 654729075 3445942512 13749310575 654729075

Количество возможных деревьев

Рутинная процедура или как строят деревья

Составление выборки последовательностей

Множественное выравнивание

Построение дерева фрагмент записи в виде скобочной формулы

Визуализация и редактура дерева

(((((con1013851018(f539692826973((f67220839851max42750591)492893con923019677)1362315)953075)2583145

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Множественное выравнивание

Matches

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Multiple Alignment

Matches

Mismatches

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Multiple Alignment

Matches

Mismatches

Gaps

Seq 1 A G C G A GSeq 1 A G C G A GSeq 2 G C G G A CSeq 2 G C G G A C

Шаг 3 Перевод количества расхождений в индексы замен

Distance Matrix

Units количество замен нуклеотидов на 1000

Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86

Rice 00 118 122 122

Mosquito 00 55 51

Monkey 00 3

Human 00

Шаг 4 построение филогенетического дерева

Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86

Rice 00 118 122 122

Mosquito 00 55 51

Monkey 00 3

Human 00

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Дистанция между человеком и обезьяной минимальна Эти группы объединяются в Monkey-Human а все остальные дистанции пересчитываются

Dist[Spinach MonHum] = (Dist[Spinach Monkey] +

Dist[Spinach Human])2 = (91 + 86)2 = 885

Spinach Rice Mosquito Mon-HumSpinach 00 9 106 885

Rice 00 118 122

Mosquito 00 53

Mon-Hum 00

Редуцированная матрица дистанций

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Spi-Ric

HumanMosquito

Mon-Hum

MonkeySpinachRice

Mos-Mon-Hum

Spi-Ric

Mos-Mon-Hum-Spi-Ric

Как выбирать последовательности для дерева

Кроме случаев очень близких последовательностей проще работать с белками (а не с ДНК)

Придерживайтесь небольшой выборки (lt 50 последовательностей)

Избегайтеndash фрагментовndash Ксенологов (горизонтальный перенос генов)ndash рекомбинантных последовательностейndash многодоменных белков и повторов

Используйте outgroup (последовательность ответвившаяся от общего предка заведомо (но минимально) раньше разделения интересующих групп-клад)

Самое главное ndash хорошее выравнивание

Максимальный вклад в финальное дерево нельзя построить хорошее дерево по плохому выравниванию

Блоки содержащие много гэпов плохо выровненные N- и C- концы можно просто вырезать

Основные алгоритмы построения филогенетических деревьев

Методы основанные на оценке

расстояний (матричные методы)

bull UPGMA (кластеризация)

bull Neighbor-joining

bull Минимальная эволюция

Наибольшего правдоподобия Maximal likelihood ML Используется модель эволюции и строится дерево которое наиболее правдоподобно при данной модели

Максимальной экономии (бережливости)

maximal parsimony MP Выбирается дерево с минимальным количеством

мутаций необходимых для объяснения данных

Пример матрицы расстояний

1 2 3 4 5 6 7 8 000 1053 977 1278 1203 1654 1353 2500 HUMAN 1

000 902 1203 977 1579 902 2727 HORSE 2 000 977 902 1654 1203 2424 RABIT 3

000 226 1729 1053 2576 MOUSE 4 000 1579 827 2576 RAT 5

000 1053 2955 BOVIN 6 000 2500 PIG 7

000 CHICK 8

Расстояние (уровень дивергенции) между соответствующими последовательностями из геномов мыши и свиньи

Как понимать расстояние между объектами

bull Как время в течение которого они эволюционировалиbull Как число laquoэволюционных событийraquo (мутаций)

В первом случае объекты образуют ультраметрическое пространство(если все объекты наблюдаются в одно время что как правило верно)

Но время непосредственно измерить невозможно

Гипотеза laquoмолекулярных часовraquo(EZuckerkandl LPauling 1962)

За равное время во всех ветвях эволюции данного генабелка накапливается равное число мутацийЕсли гипотеза молекулярных часов

принимается число различий между выровненными последовательностями можно считать примерно пропорциональным времени Отклонения от ультраметричности можно считать случайными Эволюция реконструируется в виде ультраметрического дерева

Укоренённое дерево называется ультраметрическим если расстояние от корня до любого из листьев одинаково

UPGMAUnweighted Pair Group Method with Arithmetic Mean

разновидность кластерного метода

Расстояние между кластерами вычисляется как среднее арифметическое всевозможных расстояний между последовательностями из кластеров

Недостатки UPGMA

Алгоритм строит ультраметрическое дерево ndash скорость эволюции предполагается одинаковой для всех ветвей дерева Использовать этот алгоритм имеет смысл только в случае ультраметрических данных (справедливости laquoмолекулярных часовraquo)

Реальное дерево UPGMA

Метод ближайших соседей (Neighbor-joining NJ)

Строит неукоренённое дерево

Может работать с большим количеством данных

Достаточно быстрый

Если есть недвусмысленное с точки зрения эксперта дерево то оно будет построено

Метод Neighbor-joining

Рисуем laquoзвездноеraquo дерево и будем laquoотщипыватьraquo от него по паре листьев

Пусть ui = Σk Mik(n-2) mdash среднее расстояние от листа i до других

листьев

1 Рассмотрим все возможные пары листьев Выберем 2 листа i и j с минимальным значением величины

Mij ndash ui ndashuj

те выбираем 2 узла которые близки друг к другу но далеки ото всех остальных

Метод ближайших соседей (Neighbor-joining NJ)

2 Кластер (i j) ndash новый узел дерева

Расстояние от i или от j до узла (ij) D(i (ij)) = 05middot(Mij + ui ndash uj) D(j (ij)) = 05middot (Mij + uj ndash ui) те длина ветви зависит от среднего расстояния до других вершин

3 Вычисляем расстояние от нового кластера до всех других

M(ij)k = Mik+Mjk ndash Mij 2

5 В матрице М убираем i и j и добавляем (i j) Повторяем пока не останутся 3 узла

Input MSA для n последовательностей одна последовательность для каждого вида

AAAAATC

AAAAAAG

CCCCCCG

AAAAATCAAAAAAG

CCCCCCG

Длинная ветвь ndash непохоже на правду

Длинная ветвь -Похоже на правду

Методы основанные на последовательностях Maximum Likelihood (ML) Maximum Parsimony (MP)

Как изобразить дерево Топология дерева

Топология дерева mdash только листья узлы (корень) и связывающие их ветви (топология не зависит от способа изображения дерева)

A

B

C

D

E A BC D E

Два изображения одной и той же топологии

Bacterium 1

Bacterium 3

Bacterium 2

Eukaryote 1

Eukaryote 4

Eukaryote 3

Eukaryote 2

Bacterium 1

Bacterium 3Bacterium 2

Eukaryote 1

Eukaryote 4Eukaryote 3

Eukaryote 2

Филограммы ndash длины ветвей

пропорциональны

эволюционному расстоянию

Кладограммы и филограммы

Кладограммы ndash только

топологя Длины ветвей не

учитываются

6

31

2

46

24

53

Как можно нарисовать построенное дерево

Какие on-line программы строят деревья

ClustalW ldquoTree typerdquo ndash nj phylip строит только методом NJ но результат ndash в разных форматах no bootstraps

Phylip (Felsenstein 1993) ndash пакет программ для построения филогенетических деревьев (stand-alone)On-line (partly) например

httpbiowebpasteurfrseqanalphylogenyphylip-ukhtml PAUP (Phylogenetic Analysis Using Parsimony)

MEGA филогенетический анализ последовательностей

httpwwwmegasoftwarenet

Эволюция ndash исторический процесс

Из 8200794532637891559375 деревьев для 20 OTUs 1

является верным и 8200794532637891559374

неверны

Truth is one falsehoods are many

Какое из 8200794532637891559375

деревьев истинно

Мы не знаем Можно применить иные критетии

Например ldquoпохожесть=родствоraquo

GCGbull Строковый поиск простой текстовый

поиск по локальной базе данных

bull Поиск в определениях или в аннотациях

bull Определения содержат минимальное количество информации для каждой статьи доступ имя организма имя гена длина последовательности дата

  • Bestfit Output
  • SP1 at swissprot
  • EGR1 at swissprot
  • Вывод
  • Bl2Seq at NCBI
  • Bl2seq results
  • Bl2seq оценка
  • Оптимизация времени вычислений при парном выравнивании
  • Slide 9
  • Алгоритм BLAST (шаг 1)
  • Slide 11
  • Blast
  • Поиск гомологов
  • ДНК или белок
  • ДНК
  • Slide 16
  • Slide 17
  • Двойная спираль
  • ДНК дальнейшая упаковка
  • Slide 20
  • Репликация ДНК
  • Slide 22
  • Slide 23
  • Slide 24
  • Slide 25
  • Множественное выравнивание последовательностей (MSA)
  • Slide 27
  • Основные предположения
  • Например
  • Почему множественное выравнивание
  • Slide 31
  • Подходы в MSA
  • MSA algorithm
  • Multiple Alignment - алгоритм
  • Комментарии
  • GCG
  • Slide 37
  • GCG
  • Slide 39
  • Slide 40
  • Slide 41
  • ClustalW
  • Slide 43
  • Slide 44
  • ClustalW на EMBL
  • ClustalW на EMBL - результат
  • ClustalW at EMBL - Jalview
  • Consensus Sequence
  • Профиль (Profile)
  • Profile vs Consensus
  • Slide 51
  • Slide 52
  • Psi Blast (NCBI)
  • PSI-Blast
  • Psi-Blast вывод
  • Slide 56
  • Филогенез
  • Slide 58
  • Slide 59
  • Slide 60
  • Slide 61
  • Древо видов и генов
  • Ортологи и паралоги
  • Шаги реконструирования филогенетического древа
  • Филогенетическое дерево
  • Зачем нужны филогенетические деревья
  • Терминология
  • Slide 68
  • Какие бывают деревья
  • Slide 70
  • Slide 71
  • Slide 72
  • 4 OTUs 3 неукорененных филогенетических деревьев
  • Slide 74
  • Slide 75
  • Slide 76
  • Slide 77
  • Рутинная процедура или как строят деревья
  • Slide 79
  • Slide 80
  • Slide 81
  • Slide 82
  • Slide 83
  • Slide 84
  • Slide 85
  • Slide 86
  • Slide 87
  • Slide 88
  • Slide 89
  • Как выбирать последовательности для дерева
  • Самое главное ndash хорошее выравнивание
  • Основные алгоритмы построения филогенетических деревьев
  • Пример матрицы расстояний
  • Slide 94
  • Гипотеза laquoмолекулярных часовraquo (EZuckerkandl LPauling 1962)
  • UPGMA Unweighted Pair Group Method with Arithmetic Mean
  • Недостатки UPGMA
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Метод Neighbor-joining
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Slide 101
  • Как изобразить дерево Топология дерева
  • Slide 103
  • Какие on-line программы строят деревья
  • MEGA филогенетический анализ последовательностей
  • Slide 106
  • Slide 107
  • Slide 108
Page 44: Bestfit Output

ClustalWCLUSTAL W (17) multiple sequence alignment

IPNS_STRJU -MPILMPSAEVPTIDISPLSGDDAKAKQRVAQEINKAARGSGFFYASNHGVDVQLLQDVVIPNS_STRGR -MPIPMLPAHVPTIDISPLSGGDADDKKRVAQEINKACRESGFFYASHHGIDVQLLKDVVIPNS_FLASS ----MNRHADVPVIDISGLSGNDMDVKKDIAARIDRACRGSGFFYAANHGVDLAALQKFTIPNS_PENCH --MASTPKANVPKIDVSPLFGDNMEEKMKVARAIDAASRDTGFFYAVNHGVDVKRLSNKTIPNS_CEPAC MGSVPVPVANVPRIDVSPLFGDDKEKKLEVARAIDAASRDTGFFYAVNHGVDLPWLSRET

IPNS_STRJU NEFHRNMSDQEKHDLAINAYNKDNP-HVRNGYYKAIKGKKAVESFCYLNPSFSDDHPMIKIPNS_STRGR NEFHRTMTDEEKYDLAINAYNKNNP-RTRNGYYMAVKGKKAVESWCYLNPSFSEDHPQIRIPNS_FLASS TDWHMAMSAEEKWELAIRAYNPANP-RNRNGYYMAVEGKKANESFCYLNPSFDADHATIKIPNS_PENCH REFHFSITDEEKWDLAIRAYNKEHQDQIRAGYYLSIPEKKAVESFCYLNPNFKPDHPLIQIPNS_CEPAC NKFHMSITDEEKWQLAIRAYNKEHESQIRAGYYLPIPGKKAVESFCYLNPSFSPDHPRIK

Выходной файл aln format

httpwwwebiacukhelpformatshtml

форматы

ClustalW на EMBL

ClustalW на EMBL - результат

ClustalW at EMBL - Jalview

Conservation

Consensus Sequence

Мы можем вывести consensus sequence из результатов MSA The consensus sequence содержит наиболее часто встречающийся символ в кажной колонке выравнивания

A T C T T G T

A A C T T G T

A A C T T C T

A A C T T G T

Ещё пара терминовhelliphellip

Профиль (Profile)

Также возможно вывести статистическую модель описывающую MSA Профиль содержит информацию о символах в каждом столбце выравнивания

A T C T T G T

A A C T T G T

A A C T T C T

1 2 3 4 5 6

A 1 067 0 0

T 0 033 1 1

C 0 0 0 0

G 0 0 0 0

Profile vs Consensus

Consensus каждая позиция отражает наиболее часто встречающийся символ

Profile каждая позиция отражает частоту символа в данной позиции

Profile vs Consensus

Данный MSA будет иметь одинаковый consensus

A A C T T G C

A A G T C G T

C A C T T C T

A A C T T G T

A A C T T G T

A A C T T C T

A A C T T G T

Profile vs Consensus

Но разный профиль

A A C T T G C

A A G T C G T

C A C T T C T

A A C T T G T

A A C T T G T

A A C T T C T

1 2 3 4 5 6

A 066 1 0 0

T 0 0 0 1

C 033 0 066 0

G 0 0 033 0

1 2 3 4 5 6

A 1 1 0 0

T 0 0 0 1

C 0 0 1 0

G 0 0 0 0

Psi Blast (NCBI)

Position Specific Iterated ndash автоматизированный поиск по профилю

Regular blast

Construct profile from blast results

Blast profile search

Final results

PSI-Blast

Psi-Blast вывод

Проблема формулировки выводов при использовании МSA

1 Сайт выглядит общим (фиксированным) из-за того что это ndash близкородственные последовательности

2 Сайт выглядит общим из-за того что это ndash исключительно жизненно важный сайт

ФилогенезЭволюция ndash случайный процесс с неслучайным результатом

Цели филогенетического исследования

bull Реконструкция корректных генеалогических связей

между биологическими объектами

bull Оценка времени расхождения организмов

bull Определение порядка эволюционных событий в процессе

эволюции

Формат Newick

((A(BC))(DE))

Типы данных

Molecular (DNA RNA proteins)

Morphological (soft tissue hard tissue extant extinct)

Преимущества молекулярных данных

bull Наследуемость

bull Недвусмысленность в описании молекулярных характеристик

bull Поддаются количественному анализу

bull Оценка гомологии легче чем морфологические исследования

bull Данных много

Древо видов и геновbull Древо видов ndash эволюционные взаимосвязи

между видами (видообразование)bull Древо генов

Page RDM and Cotton JC (2000) GeneTree a tool for exploring gene family evolution In D Sankoff and J Nadeau (eds) Comparative Genomics Empirical and Analytical Approaches to Gene Order Dynamics Map Alignment and the Evolution of Gene Families Kluwer Academic Publishers Dordrecht pp 525-536

Figure 2 (a) Incongruent gene and species trees This incongruence can be explained by hypothesizing a gene duplication (h) at the base of the gene tree (b)The presence of only a single gene (a-d) extant in each of the present-day species(1-4) requires postulating three gene losses (c) The corresponding reconciled tree

Ортологи и паралоги

bull Гены-паралоги ndash событие дупликация (and

bull Гены-ортологи ndash событие видообразования (in the two species and in the two species

Duplication

Speciation

Species a Species b

Шаги реконструирования филогенетического

древа

1 Выбор последовательностей и поиск гомологов

2 MSA3 Матрица белков4 Филогенетическое дерево

Филогенетическое дерево

Филогения - раздел биологии изучающий родственные взаимоотношения разных групп живых организмов Филогению отображается обычно в виде эволюционных древ или систематических названий

Зачем нужны филогенетические деревья

Биологические задачи

сравнение 3-х и более объектов (кто на кого более похож )

реконструкция эволюции (кто от кого как и когда произошелhellip)

ТерминологияУзел (node) mdash точка разделения предковой последовательности(вида популяции) на две независимо эволюционирующиеСоответствует внутренней вершине графа изображающего эволюциюЛист (leaf OTU ndash оперативная таксономическая единица) mdash реальный (современный) объект внешняя вершина графаВетвь (branch) mdash связь между узлами или между узлом и листом ребро графаКорень (root) mdash общий предокКлада (clade) - группа двух или более таксонов или последователь-ностей ДНК которая включает как своего общего предка так и всех его потомков

OTU

HTU (hypotetical taxonomic unit)

Какие бывают деревья

Бинарное (разрешённое)(в один момент времени может

произойти только одно событие )

Небинарное (неразрешённое) (может ли в один момент времени

произойти два события )

Время

Какие бывают деревья

Укорененное дерево (rooted tree)отражает направление эволюции

Неукорененное (бескорневое) дерево(unrooted tree) показывает только связи между узлами

Время

Если число листьев равно n существует (2n-3)разных бинарных укоренных деревьевПо определению (2n-3) = 1middot3 middot middot(2n-3)

Существует (2n-5) разных бескорневых деревьев с n листьями

Rooting

A C B B C AA B C

3 OTUs 3 OTUs 1 н 1 неукорененное деревоеукорененное дерево 33 укорененных деревьев укорененных деревьев

A

B

C

D

C

A

B

4 OTUs 4 OTUs 3 3 неукорененных филогенетических неукорененных филогенетических деревьевдеревьев

D

B

A

C C

B

A

D

4 OTUs

15 укорененных

деревьев

Количество Количество Количество

OTU укорененных неукорененных

2 1 13 3 14 15 35 105 156 954 1057 103959548 135135 103959 2027025 13513510 34459425 202702511 654729075 3445942512 13749310575 654729075

Количество возможных деревьев

Рутинная процедура или как строят деревья

Составление выборки последовательностей

Множественное выравнивание

Построение дерева фрагмент записи в виде скобочной формулы

Визуализация и редактура дерева

(((((con1013851018(f539692826973((f67220839851max42750591)492893con923019677)1362315)953075)2583145

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Множественное выравнивание

Matches

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Multiple Alignment

Matches

Mismatches

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Multiple Alignment

Matches

Mismatches

Gaps

Seq 1 A G C G A GSeq 1 A G C G A GSeq 2 G C G G A CSeq 2 G C G G A C

Шаг 3 Перевод количества расхождений в индексы замен

Distance Matrix

Units количество замен нуклеотидов на 1000

Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86

Rice 00 118 122 122

Mosquito 00 55 51

Monkey 00 3

Human 00

Шаг 4 построение филогенетического дерева

Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86

Rice 00 118 122 122

Mosquito 00 55 51

Monkey 00 3

Human 00

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Дистанция между человеком и обезьяной минимальна Эти группы объединяются в Monkey-Human а все остальные дистанции пересчитываются

Dist[Spinach MonHum] = (Dist[Spinach Monkey] +

Dist[Spinach Human])2 = (91 + 86)2 = 885

Spinach Rice Mosquito Mon-HumSpinach 00 9 106 885

Rice 00 118 122

Mosquito 00 53

Mon-Hum 00

Редуцированная матрица дистанций

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Spi-Ric

HumanMosquito

Mon-Hum

MonkeySpinachRice

Mos-Mon-Hum

Spi-Ric

Mos-Mon-Hum-Spi-Ric

Как выбирать последовательности для дерева

Кроме случаев очень близких последовательностей проще работать с белками (а не с ДНК)

Придерживайтесь небольшой выборки (lt 50 последовательностей)

Избегайтеndash фрагментовndash Ксенологов (горизонтальный перенос генов)ndash рекомбинантных последовательностейndash многодоменных белков и повторов

Используйте outgroup (последовательность ответвившаяся от общего предка заведомо (но минимально) раньше разделения интересующих групп-клад)

Самое главное ndash хорошее выравнивание

Максимальный вклад в финальное дерево нельзя построить хорошее дерево по плохому выравниванию

Блоки содержащие много гэпов плохо выровненные N- и C- концы можно просто вырезать

Основные алгоритмы построения филогенетических деревьев

Методы основанные на оценке

расстояний (матричные методы)

bull UPGMA (кластеризация)

bull Neighbor-joining

bull Минимальная эволюция

Наибольшего правдоподобия Maximal likelihood ML Используется модель эволюции и строится дерево которое наиболее правдоподобно при данной модели

Максимальной экономии (бережливости)

maximal parsimony MP Выбирается дерево с минимальным количеством

мутаций необходимых для объяснения данных

Пример матрицы расстояний

1 2 3 4 5 6 7 8 000 1053 977 1278 1203 1654 1353 2500 HUMAN 1

000 902 1203 977 1579 902 2727 HORSE 2 000 977 902 1654 1203 2424 RABIT 3

000 226 1729 1053 2576 MOUSE 4 000 1579 827 2576 RAT 5

000 1053 2955 BOVIN 6 000 2500 PIG 7

000 CHICK 8

Расстояние (уровень дивергенции) между соответствующими последовательностями из геномов мыши и свиньи

Как понимать расстояние между объектами

bull Как время в течение которого они эволюционировалиbull Как число laquoэволюционных событийraquo (мутаций)

В первом случае объекты образуют ультраметрическое пространство(если все объекты наблюдаются в одно время что как правило верно)

Но время непосредственно измерить невозможно

Гипотеза laquoмолекулярных часовraquo(EZuckerkandl LPauling 1962)

За равное время во всех ветвях эволюции данного генабелка накапливается равное число мутацийЕсли гипотеза молекулярных часов

принимается число различий между выровненными последовательностями можно считать примерно пропорциональным времени Отклонения от ультраметричности можно считать случайными Эволюция реконструируется в виде ультраметрического дерева

Укоренённое дерево называется ультраметрическим если расстояние от корня до любого из листьев одинаково

UPGMAUnweighted Pair Group Method with Arithmetic Mean

разновидность кластерного метода

Расстояние между кластерами вычисляется как среднее арифметическое всевозможных расстояний между последовательностями из кластеров

Недостатки UPGMA

Алгоритм строит ультраметрическое дерево ndash скорость эволюции предполагается одинаковой для всех ветвей дерева Использовать этот алгоритм имеет смысл только в случае ультраметрических данных (справедливости laquoмолекулярных часовraquo)

Реальное дерево UPGMA

Метод ближайших соседей (Neighbor-joining NJ)

Строит неукоренённое дерево

Может работать с большим количеством данных

Достаточно быстрый

Если есть недвусмысленное с точки зрения эксперта дерево то оно будет построено

Метод Neighbor-joining

Рисуем laquoзвездноеraquo дерево и будем laquoотщипыватьraquo от него по паре листьев

Пусть ui = Σk Mik(n-2) mdash среднее расстояние от листа i до других

листьев

1 Рассмотрим все возможные пары листьев Выберем 2 листа i и j с минимальным значением величины

Mij ndash ui ndashuj

те выбираем 2 узла которые близки друг к другу но далеки ото всех остальных

Метод ближайших соседей (Neighbor-joining NJ)

2 Кластер (i j) ndash новый узел дерева

Расстояние от i или от j до узла (ij) D(i (ij)) = 05middot(Mij + ui ndash uj) D(j (ij)) = 05middot (Mij + uj ndash ui) те длина ветви зависит от среднего расстояния до других вершин

3 Вычисляем расстояние от нового кластера до всех других

M(ij)k = Mik+Mjk ndash Mij 2

5 В матрице М убираем i и j и добавляем (i j) Повторяем пока не останутся 3 узла

Input MSA для n последовательностей одна последовательность для каждого вида

AAAAATC

AAAAAAG

CCCCCCG

AAAAATCAAAAAAG

CCCCCCG

Длинная ветвь ndash непохоже на правду

Длинная ветвь -Похоже на правду

Методы основанные на последовательностях Maximum Likelihood (ML) Maximum Parsimony (MP)

Как изобразить дерево Топология дерева

Топология дерева mdash только листья узлы (корень) и связывающие их ветви (топология не зависит от способа изображения дерева)

A

B

C

D

E A BC D E

Два изображения одной и той же топологии

Bacterium 1

Bacterium 3

Bacterium 2

Eukaryote 1

Eukaryote 4

Eukaryote 3

Eukaryote 2

Bacterium 1

Bacterium 3Bacterium 2

Eukaryote 1

Eukaryote 4Eukaryote 3

Eukaryote 2

Филограммы ndash длины ветвей

пропорциональны

эволюционному расстоянию

Кладограммы и филограммы

Кладограммы ndash только

топологя Длины ветвей не

учитываются

6

31

2

46

24

53

Как можно нарисовать построенное дерево

Какие on-line программы строят деревья

ClustalW ldquoTree typerdquo ndash nj phylip строит только методом NJ но результат ndash в разных форматах no bootstraps

Phylip (Felsenstein 1993) ndash пакет программ для построения филогенетических деревьев (stand-alone)On-line (partly) например

httpbiowebpasteurfrseqanalphylogenyphylip-ukhtml PAUP (Phylogenetic Analysis Using Parsimony)

MEGA филогенетический анализ последовательностей

httpwwwmegasoftwarenet

Эволюция ndash исторический процесс

Из 8200794532637891559375 деревьев для 20 OTUs 1

является верным и 8200794532637891559374

неверны

Truth is one falsehoods are many

Какое из 8200794532637891559375

деревьев истинно

Мы не знаем Можно применить иные критетии

Например ldquoпохожесть=родствоraquo

GCGbull Строковый поиск простой текстовый

поиск по локальной базе данных

bull Поиск в определениях или в аннотациях

bull Определения содержат минимальное количество информации для каждой статьи доступ имя организма имя гена длина последовательности дата

  • Bestfit Output
  • SP1 at swissprot
  • EGR1 at swissprot
  • Вывод
  • Bl2Seq at NCBI
  • Bl2seq results
  • Bl2seq оценка
  • Оптимизация времени вычислений при парном выравнивании
  • Slide 9
  • Алгоритм BLAST (шаг 1)
  • Slide 11
  • Blast
  • Поиск гомологов
  • ДНК или белок
  • ДНК
  • Slide 16
  • Slide 17
  • Двойная спираль
  • ДНК дальнейшая упаковка
  • Slide 20
  • Репликация ДНК
  • Slide 22
  • Slide 23
  • Slide 24
  • Slide 25
  • Множественное выравнивание последовательностей (MSA)
  • Slide 27
  • Основные предположения
  • Например
  • Почему множественное выравнивание
  • Slide 31
  • Подходы в MSA
  • MSA algorithm
  • Multiple Alignment - алгоритм
  • Комментарии
  • GCG
  • Slide 37
  • GCG
  • Slide 39
  • Slide 40
  • Slide 41
  • ClustalW
  • Slide 43
  • Slide 44
  • ClustalW на EMBL
  • ClustalW на EMBL - результат
  • ClustalW at EMBL - Jalview
  • Consensus Sequence
  • Профиль (Profile)
  • Profile vs Consensus
  • Slide 51
  • Slide 52
  • Psi Blast (NCBI)
  • PSI-Blast
  • Psi-Blast вывод
  • Slide 56
  • Филогенез
  • Slide 58
  • Slide 59
  • Slide 60
  • Slide 61
  • Древо видов и генов
  • Ортологи и паралоги
  • Шаги реконструирования филогенетического древа
  • Филогенетическое дерево
  • Зачем нужны филогенетические деревья
  • Терминология
  • Slide 68
  • Какие бывают деревья
  • Slide 70
  • Slide 71
  • Slide 72
  • 4 OTUs 3 неукорененных филогенетических деревьев
  • Slide 74
  • Slide 75
  • Slide 76
  • Slide 77
  • Рутинная процедура или как строят деревья
  • Slide 79
  • Slide 80
  • Slide 81
  • Slide 82
  • Slide 83
  • Slide 84
  • Slide 85
  • Slide 86
  • Slide 87
  • Slide 88
  • Slide 89
  • Как выбирать последовательности для дерева
  • Самое главное ndash хорошее выравнивание
  • Основные алгоритмы построения филогенетических деревьев
  • Пример матрицы расстояний
  • Slide 94
  • Гипотеза laquoмолекулярных часовraquo (EZuckerkandl LPauling 1962)
  • UPGMA Unweighted Pair Group Method with Arithmetic Mean
  • Недостатки UPGMA
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Метод Neighbor-joining
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Slide 101
  • Как изобразить дерево Топология дерева
  • Slide 103
  • Какие on-line программы строят деревья
  • MEGA филогенетический анализ последовательностей
  • Slide 106
  • Slide 107
  • Slide 108
Page 45: Bestfit Output

ClustalW на EMBL

ClustalW на EMBL - результат

ClustalW at EMBL - Jalview

Conservation

Consensus Sequence

Мы можем вывести consensus sequence из результатов MSA The consensus sequence содержит наиболее часто встречающийся символ в кажной колонке выравнивания

A T C T T G T

A A C T T G T

A A C T T C T

A A C T T G T

Ещё пара терминовhelliphellip

Профиль (Profile)

Также возможно вывести статистическую модель описывающую MSA Профиль содержит информацию о символах в каждом столбце выравнивания

A T C T T G T

A A C T T G T

A A C T T C T

1 2 3 4 5 6

A 1 067 0 0

T 0 033 1 1

C 0 0 0 0

G 0 0 0 0

Profile vs Consensus

Consensus каждая позиция отражает наиболее часто встречающийся символ

Profile каждая позиция отражает частоту символа в данной позиции

Profile vs Consensus

Данный MSA будет иметь одинаковый consensus

A A C T T G C

A A G T C G T

C A C T T C T

A A C T T G T

A A C T T G T

A A C T T C T

A A C T T G T

Profile vs Consensus

Но разный профиль

A A C T T G C

A A G T C G T

C A C T T C T

A A C T T G T

A A C T T G T

A A C T T C T

1 2 3 4 5 6

A 066 1 0 0

T 0 0 0 1

C 033 0 066 0

G 0 0 033 0

1 2 3 4 5 6

A 1 1 0 0

T 0 0 0 1

C 0 0 1 0

G 0 0 0 0

Psi Blast (NCBI)

Position Specific Iterated ndash автоматизированный поиск по профилю

Regular blast

Construct profile from blast results

Blast profile search

Final results

PSI-Blast

Psi-Blast вывод

Проблема формулировки выводов при использовании МSA

1 Сайт выглядит общим (фиксированным) из-за того что это ndash близкородственные последовательности

2 Сайт выглядит общим из-за того что это ndash исключительно жизненно важный сайт

ФилогенезЭволюция ndash случайный процесс с неслучайным результатом

Цели филогенетического исследования

bull Реконструкция корректных генеалогических связей

между биологическими объектами

bull Оценка времени расхождения организмов

bull Определение порядка эволюционных событий в процессе

эволюции

Формат Newick

((A(BC))(DE))

Типы данных

Molecular (DNA RNA proteins)

Morphological (soft tissue hard tissue extant extinct)

Преимущества молекулярных данных

bull Наследуемость

bull Недвусмысленность в описании молекулярных характеристик

bull Поддаются количественному анализу

bull Оценка гомологии легче чем морфологические исследования

bull Данных много

Древо видов и геновbull Древо видов ndash эволюционные взаимосвязи

между видами (видообразование)bull Древо генов

Page RDM and Cotton JC (2000) GeneTree a tool for exploring gene family evolution In D Sankoff and J Nadeau (eds) Comparative Genomics Empirical and Analytical Approaches to Gene Order Dynamics Map Alignment and the Evolution of Gene Families Kluwer Academic Publishers Dordrecht pp 525-536

Figure 2 (a) Incongruent gene and species trees This incongruence can be explained by hypothesizing a gene duplication (h) at the base of the gene tree (b)The presence of only a single gene (a-d) extant in each of the present-day species(1-4) requires postulating three gene losses (c) The corresponding reconciled tree

Ортологи и паралоги

bull Гены-паралоги ndash событие дупликация (and

bull Гены-ортологи ndash событие видообразования (in the two species and in the two species

Duplication

Speciation

Species a Species b

Шаги реконструирования филогенетического

древа

1 Выбор последовательностей и поиск гомологов

2 MSA3 Матрица белков4 Филогенетическое дерево

Филогенетическое дерево

Филогения - раздел биологии изучающий родственные взаимоотношения разных групп живых организмов Филогению отображается обычно в виде эволюционных древ или систематических названий

Зачем нужны филогенетические деревья

Биологические задачи

сравнение 3-х и более объектов (кто на кого более похож )

реконструкция эволюции (кто от кого как и когда произошелhellip)

ТерминологияУзел (node) mdash точка разделения предковой последовательности(вида популяции) на две независимо эволюционирующиеСоответствует внутренней вершине графа изображающего эволюциюЛист (leaf OTU ndash оперативная таксономическая единица) mdash реальный (современный) объект внешняя вершина графаВетвь (branch) mdash связь между узлами или между узлом и листом ребро графаКорень (root) mdash общий предокКлада (clade) - группа двух или более таксонов или последователь-ностей ДНК которая включает как своего общего предка так и всех его потомков

OTU

HTU (hypotetical taxonomic unit)

Какие бывают деревья

Бинарное (разрешённое)(в один момент времени может

произойти только одно событие )

Небинарное (неразрешённое) (может ли в один момент времени

произойти два события )

Время

Какие бывают деревья

Укорененное дерево (rooted tree)отражает направление эволюции

Неукорененное (бескорневое) дерево(unrooted tree) показывает только связи между узлами

Время

Если число листьев равно n существует (2n-3)разных бинарных укоренных деревьевПо определению (2n-3) = 1middot3 middot middot(2n-3)

Существует (2n-5) разных бескорневых деревьев с n листьями

Rooting

A C B B C AA B C

3 OTUs 3 OTUs 1 н 1 неукорененное деревоеукорененное дерево 33 укорененных деревьев укорененных деревьев

A

B

C

D

C

A

B

4 OTUs 4 OTUs 3 3 неукорененных филогенетических неукорененных филогенетических деревьевдеревьев

D

B

A

C C

B

A

D

4 OTUs

15 укорененных

деревьев

Количество Количество Количество

OTU укорененных неукорененных

2 1 13 3 14 15 35 105 156 954 1057 103959548 135135 103959 2027025 13513510 34459425 202702511 654729075 3445942512 13749310575 654729075

Количество возможных деревьев

Рутинная процедура или как строят деревья

Составление выборки последовательностей

Множественное выравнивание

Построение дерева фрагмент записи в виде скобочной формулы

Визуализация и редактура дерева

(((((con1013851018(f539692826973((f67220839851max42750591)492893con923019677)1362315)953075)2583145

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Множественное выравнивание

Matches

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Multiple Alignment

Matches

Mismatches

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Multiple Alignment

Matches

Mismatches

Gaps

Seq 1 A G C G A GSeq 1 A G C G A GSeq 2 G C G G A CSeq 2 G C G G A C

Шаг 3 Перевод количества расхождений в индексы замен

Distance Matrix

Units количество замен нуклеотидов на 1000

Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86

Rice 00 118 122 122

Mosquito 00 55 51

Monkey 00 3

Human 00

Шаг 4 построение филогенетического дерева

Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86

Rice 00 118 122 122

Mosquito 00 55 51

Monkey 00 3

Human 00

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Дистанция между человеком и обезьяной минимальна Эти группы объединяются в Monkey-Human а все остальные дистанции пересчитываются

Dist[Spinach MonHum] = (Dist[Spinach Monkey] +

Dist[Spinach Human])2 = (91 + 86)2 = 885

Spinach Rice Mosquito Mon-HumSpinach 00 9 106 885

Rice 00 118 122

Mosquito 00 53

Mon-Hum 00

Редуцированная матрица дистанций

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Spi-Ric

HumanMosquito

Mon-Hum

MonkeySpinachRice

Mos-Mon-Hum

Spi-Ric

Mos-Mon-Hum-Spi-Ric

Как выбирать последовательности для дерева

Кроме случаев очень близких последовательностей проще работать с белками (а не с ДНК)

Придерживайтесь небольшой выборки (lt 50 последовательностей)

Избегайтеndash фрагментовndash Ксенологов (горизонтальный перенос генов)ndash рекомбинантных последовательностейndash многодоменных белков и повторов

Используйте outgroup (последовательность ответвившаяся от общего предка заведомо (но минимально) раньше разделения интересующих групп-клад)

Самое главное ndash хорошее выравнивание

Максимальный вклад в финальное дерево нельзя построить хорошее дерево по плохому выравниванию

Блоки содержащие много гэпов плохо выровненные N- и C- концы можно просто вырезать

Основные алгоритмы построения филогенетических деревьев

Методы основанные на оценке

расстояний (матричные методы)

bull UPGMA (кластеризация)

bull Neighbor-joining

bull Минимальная эволюция

Наибольшего правдоподобия Maximal likelihood ML Используется модель эволюции и строится дерево которое наиболее правдоподобно при данной модели

Максимальной экономии (бережливости)

maximal parsimony MP Выбирается дерево с минимальным количеством

мутаций необходимых для объяснения данных

Пример матрицы расстояний

1 2 3 4 5 6 7 8 000 1053 977 1278 1203 1654 1353 2500 HUMAN 1

000 902 1203 977 1579 902 2727 HORSE 2 000 977 902 1654 1203 2424 RABIT 3

000 226 1729 1053 2576 MOUSE 4 000 1579 827 2576 RAT 5

000 1053 2955 BOVIN 6 000 2500 PIG 7

000 CHICK 8

Расстояние (уровень дивергенции) между соответствующими последовательностями из геномов мыши и свиньи

Как понимать расстояние между объектами

bull Как время в течение которого они эволюционировалиbull Как число laquoэволюционных событийraquo (мутаций)

В первом случае объекты образуют ультраметрическое пространство(если все объекты наблюдаются в одно время что как правило верно)

Но время непосредственно измерить невозможно

Гипотеза laquoмолекулярных часовraquo(EZuckerkandl LPauling 1962)

За равное время во всех ветвях эволюции данного генабелка накапливается равное число мутацийЕсли гипотеза молекулярных часов

принимается число различий между выровненными последовательностями можно считать примерно пропорциональным времени Отклонения от ультраметричности можно считать случайными Эволюция реконструируется в виде ультраметрического дерева

Укоренённое дерево называется ультраметрическим если расстояние от корня до любого из листьев одинаково

UPGMAUnweighted Pair Group Method with Arithmetic Mean

разновидность кластерного метода

Расстояние между кластерами вычисляется как среднее арифметическое всевозможных расстояний между последовательностями из кластеров

Недостатки UPGMA

Алгоритм строит ультраметрическое дерево ndash скорость эволюции предполагается одинаковой для всех ветвей дерева Использовать этот алгоритм имеет смысл только в случае ультраметрических данных (справедливости laquoмолекулярных часовraquo)

Реальное дерево UPGMA

Метод ближайших соседей (Neighbor-joining NJ)

Строит неукоренённое дерево

Может работать с большим количеством данных

Достаточно быстрый

Если есть недвусмысленное с точки зрения эксперта дерево то оно будет построено

Метод Neighbor-joining

Рисуем laquoзвездноеraquo дерево и будем laquoотщипыватьraquo от него по паре листьев

Пусть ui = Σk Mik(n-2) mdash среднее расстояние от листа i до других

листьев

1 Рассмотрим все возможные пары листьев Выберем 2 листа i и j с минимальным значением величины

Mij ndash ui ndashuj

те выбираем 2 узла которые близки друг к другу но далеки ото всех остальных

Метод ближайших соседей (Neighbor-joining NJ)

2 Кластер (i j) ndash новый узел дерева

Расстояние от i или от j до узла (ij) D(i (ij)) = 05middot(Mij + ui ndash uj) D(j (ij)) = 05middot (Mij + uj ndash ui) те длина ветви зависит от среднего расстояния до других вершин

3 Вычисляем расстояние от нового кластера до всех других

M(ij)k = Mik+Mjk ndash Mij 2

5 В матрице М убираем i и j и добавляем (i j) Повторяем пока не останутся 3 узла

Input MSA для n последовательностей одна последовательность для каждого вида

AAAAATC

AAAAAAG

CCCCCCG

AAAAATCAAAAAAG

CCCCCCG

Длинная ветвь ndash непохоже на правду

Длинная ветвь -Похоже на правду

Методы основанные на последовательностях Maximum Likelihood (ML) Maximum Parsimony (MP)

Как изобразить дерево Топология дерева

Топология дерева mdash только листья узлы (корень) и связывающие их ветви (топология не зависит от способа изображения дерева)

A

B

C

D

E A BC D E

Два изображения одной и той же топологии

Bacterium 1

Bacterium 3

Bacterium 2

Eukaryote 1

Eukaryote 4

Eukaryote 3

Eukaryote 2

Bacterium 1

Bacterium 3Bacterium 2

Eukaryote 1

Eukaryote 4Eukaryote 3

Eukaryote 2

Филограммы ndash длины ветвей

пропорциональны

эволюционному расстоянию

Кладограммы и филограммы

Кладограммы ndash только

топологя Длины ветвей не

учитываются

6

31

2

46

24

53

Как можно нарисовать построенное дерево

Какие on-line программы строят деревья

ClustalW ldquoTree typerdquo ndash nj phylip строит только методом NJ но результат ndash в разных форматах no bootstraps

Phylip (Felsenstein 1993) ndash пакет программ для построения филогенетических деревьев (stand-alone)On-line (partly) например

httpbiowebpasteurfrseqanalphylogenyphylip-ukhtml PAUP (Phylogenetic Analysis Using Parsimony)

MEGA филогенетический анализ последовательностей

httpwwwmegasoftwarenet

Эволюция ndash исторический процесс

Из 8200794532637891559375 деревьев для 20 OTUs 1

является верным и 8200794532637891559374

неверны

Truth is one falsehoods are many

Какое из 8200794532637891559375

деревьев истинно

Мы не знаем Можно применить иные критетии

Например ldquoпохожесть=родствоraquo

GCGbull Строковый поиск простой текстовый

поиск по локальной базе данных

bull Поиск в определениях или в аннотациях

bull Определения содержат минимальное количество информации для каждой статьи доступ имя организма имя гена длина последовательности дата

  • Bestfit Output
  • SP1 at swissprot
  • EGR1 at swissprot
  • Вывод
  • Bl2Seq at NCBI
  • Bl2seq results
  • Bl2seq оценка
  • Оптимизация времени вычислений при парном выравнивании
  • Slide 9
  • Алгоритм BLAST (шаг 1)
  • Slide 11
  • Blast
  • Поиск гомологов
  • ДНК или белок
  • ДНК
  • Slide 16
  • Slide 17
  • Двойная спираль
  • ДНК дальнейшая упаковка
  • Slide 20
  • Репликация ДНК
  • Slide 22
  • Slide 23
  • Slide 24
  • Slide 25
  • Множественное выравнивание последовательностей (MSA)
  • Slide 27
  • Основные предположения
  • Например
  • Почему множественное выравнивание
  • Slide 31
  • Подходы в MSA
  • MSA algorithm
  • Multiple Alignment - алгоритм
  • Комментарии
  • GCG
  • Slide 37
  • GCG
  • Slide 39
  • Slide 40
  • Slide 41
  • ClustalW
  • Slide 43
  • Slide 44
  • ClustalW на EMBL
  • ClustalW на EMBL - результат
  • ClustalW at EMBL - Jalview
  • Consensus Sequence
  • Профиль (Profile)
  • Profile vs Consensus
  • Slide 51
  • Slide 52
  • Psi Blast (NCBI)
  • PSI-Blast
  • Psi-Blast вывод
  • Slide 56
  • Филогенез
  • Slide 58
  • Slide 59
  • Slide 60
  • Slide 61
  • Древо видов и генов
  • Ортологи и паралоги
  • Шаги реконструирования филогенетического древа
  • Филогенетическое дерево
  • Зачем нужны филогенетические деревья
  • Терминология
  • Slide 68
  • Какие бывают деревья
  • Slide 70
  • Slide 71
  • Slide 72
  • 4 OTUs 3 неукорененных филогенетических деревьев
  • Slide 74
  • Slide 75
  • Slide 76
  • Slide 77
  • Рутинная процедура или как строят деревья
  • Slide 79
  • Slide 80
  • Slide 81
  • Slide 82
  • Slide 83
  • Slide 84
  • Slide 85
  • Slide 86
  • Slide 87
  • Slide 88
  • Slide 89
  • Как выбирать последовательности для дерева
  • Самое главное ndash хорошее выравнивание
  • Основные алгоритмы построения филогенетических деревьев
  • Пример матрицы расстояний
  • Slide 94
  • Гипотеза laquoмолекулярных часовraquo (EZuckerkandl LPauling 1962)
  • UPGMA Unweighted Pair Group Method with Arithmetic Mean
  • Недостатки UPGMA
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Метод Neighbor-joining
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Slide 101
  • Как изобразить дерево Топология дерева
  • Slide 103
  • Какие on-line программы строят деревья
  • MEGA филогенетический анализ последовательностей
  • Slide 106
  • Slide 107
  • Slide 108
Page 46: Bestfit Output

ClustalW на EMBL - результат

ClustalW at EMBL - Jalview

Conservation

Consensus Sequence

Мы можем вывести consensus sequence из результатов MSA The consensus sequence содержит наиболее часто встречающийся символ в кажной колонке выравнивания

A T C T T G T

A A C T T G T

A A C T T C T

A A C T T G T

Ещё пара терминовhelliphellip

Профиль (Profile)

Также возможно вывести статистическую модель описывающую MSA Профиль содержит информацию о символах в каждом столбце выравнивания

A T C T T G T

A A C T T G T

A A C T T C T

1 2 3 4 5 6

A 1 067 0 0

T 0 033 1 1

C 0 0 0 0

G 0 0 0 0

Profile vs Consensus

Consensus каждая позиция отражает наиболее часто встречающийся символ

Profile каждая позиция отражает частоту символа в данной позиции

Profile vs Consensus

Данный MSA будет иметь одинаковый consensus

A A C T T G C

A A G T C G T

C A C T T C T

A A C T T G T

A A C T T G T

A A C T T C T

A A C T T G T

Profile vs Consensus

Но разный профиль

A A C T T G C

A A G T C G T

C A C T T C T

A A C T T G T

A A C T T G T

A A C T T C T

1 2 3 4 5 6

A 066 1 0 0

T 0 0 0 1

C 033 0 066 0

G 0 0 033 0

1 2 3 4 5 6

A 1 1 0 0

T 0 0 0 1

C 0 0 1 0

G 0 0 0 0

Psi Blast (NCBI)

Position Specific Iterated ndash автоматизированный поиск по профилю

Regular blast

Construct profile from blast results

Blast profile search

Final results

PSI-Blast

Psi-Blast вывод

Проблема формулировки выводов при использовании МSA

1 Сайт выглядит общим (фиксированным) из-за того что это ndash близкородственные последовательности

2 Сайт выглядит общим из-за того что это ndash исключительно жизненно важный сайт

ФилогенезЭволюция ndash случайный процесс с неслучайным результатом

Цели филогенетического исследования

bull Реконструкция корректных генеалогических связей

между биологическими объектами

bull Оценка времени расхождения организмов

bull Определение порядка эволюционных событий в процессе

эволюции

Формат Newick

((A(BC))(DE))

Типы данных

Molecular (DNA RNA proteins)

Morphological (soft tissue hard tissue extant extinct)

Преимущества молекулярных данных

bull Наследуемость

bull Недвусмысленность в описании молекулярных характеристик

bull Поддаются количественному анализу

bull Оценка гомологии легче чем морфологические исследования

bull Данных много

Древо видов и геновbull Древо видов ndash эволюционные взаимосвязи

между видами (видообразование)bull Древо генов

Page RDM and Cotton JC (2000) GeneTree a tool for exploring gene family evolution In D Sankoff and J Nadeau (eds) Comparative Genomics Empirical and Analytical Approaches to Gene Order Dynamics Map Alignment and the Evolution of Gene Families Kluwer Academic Publishers Dordrecht pp 525-536

Figure 2 (a) Incongruent gene and species trees This incongruence can be explained by hypothesizing a gene duplication (h) at the base of the gene tree (b)The presence of only a single gene (a-d) extant in each of the present-day species(1-4) requires postulating three gene losses (c) The corresponding reconciled tree

Ортологи и паралоги

bull Гены-паралоги ndash событие дупликация (and

bull Гены-ортологи ndash событие видообразования (in the two species and in the two species

Duplication

Speciation

Species a Species b

Шаги реконструирования филогенетического

древа

1 Выбор последовательностей и поиск гомологов

2 MSA3 Матрица белков4 Филогенетическое дерево

Филогенетическое дерево

Филогения - раздел биологии изучающий родственные взаимоотношения разных групп живых организмов Филогению отображается обычно в виде эволюционных древ или систематических названий

Зачем нужны филогенетические деревья

Биологические задачи

сравнение 3-х и более объектов (кто на кого более похож )

реконструкция эволюции (кто от кого как и когда произошелhellip)

ТерминологияУзел (node) mdash точка разделения предковой последовательности(вида популяции) на две независимо эволюционирующиеСоответствует внутренней вершине графа изображающего эволюциюЛист (leaf OTU ndash оперативная таксономическая единица) mdash реальный (современный) объект внешняя вершина графаВетвь (branch) mdash связь между узлами или между узлом и листом ребро графаКорень (root) mdash общий предокКлада (clade) - группа двух или более таксонов или последователь-ностей ДНК которая включает как своего общего предка так и всех его потомков

OTU

HTU (hypotetical taxonomic unit)

Какие бывают деревья

Бинарное (разрешённое)(в один момент времени может

произойти только одно событие )

Небинарное (неразрешённое) (может ли в один момент времени

произойти два события )

Время

Какие бывают деревья

Укорененное дерево (rooted tree)отражает направление эволюции

Неукорененное (бескорневое) дерево(unrooted tree) показывает только связи между узлами

Время

Если число листьев равно n существует (2n-3)разных бинарных укоренных деревьевПо определению (2n-3) = 1middot3 middot middot(2n-3)

Существует (2n-5) разных бескорневых деревьев с n листьями

Rooting

A C B B C AA B C

3 OTUs 3 OTUs 1 н 1 неукорененное деревоеукорененное дерево 33 укорененных деревьев укорененных деревьев

A

B

C

D

C

A

B

4 OTUs 4 OTUs 3 3 неукорененных филогенетических неукорененных филогенетических деревьевдеревьев

D

B

A

C C

B

A

D

4 OTUs

15 укорененных

деревьев

Количество Количество Количество

OTU укорененных неукорененных

2 1 13 3 14 15 35 105 156 954 1057 103959548 135135 103959 2027025 13513510 34459425 202702511 654729075 3445942512 13749310575 654729075

Количество возможных деревьев

Рутинная процедура или как строят деревья

Составление выборки последовательностей

Множественное выравнивание

Построение дерева фрагмент записи в виде скобочной формулы

Визуализация и редактура дерева

(((((con1013851018(f539692826973((f67220839851max42750591)492893con923019677)1362315)953075)2583145

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Множественное выравнивание

Matches

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Multiple Alignment

Matches

Mismatches

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Multiple Alignment

Matches

Mismatches

Gaps

Seq 1 A G C G A GSeq 1 A G C G A GSeq 2 G C G G A CSeq 2 G C G G A C

Шаг 3 Перевод количества расхождений в индексы замен

Distance Matrix

Units количество замен нуклеотидов на 1000

Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86

Rice 00 118 122 122

Mosquito 00 55 51

Monkey 00 3

Human 00

Шаг 4 построение филогенетического дерева

Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86

Rice 00 118 122 122

Mosquito 00 55 51

Monkey 00 3

Human 00

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Дистанция между человеком и обезьяной минимальна Эти группы объединяются в Monkey-Human а все остальные дистанции пересчитываются

Dist[Spinach MonHum] = (Dist[Spinach Monkey] +

Dist[Spinach Human])2 = (91 + 86)2 = 885

Spinach Rice Mosquito Mon-HumSpinach 00 9 106 885

Rice 00 118 122

Mosquito 00 53

Mon-Hum 00

Редуцированная матрица дистанций

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Spi-Ric

HumanMosquito

Mon-Hum

MonkeySpinachRice

Mos-Mon-Hum

Spi-Ric

Mos-Mon-Hum-Spi-Ric

Как выбирать последовательности для дерева

Кроме случаев очень близких последовательностей проще работать с белками (а не с ДНК)

Придерживайтесь небольшой выборки (lt 50 последовательностей)

Избегайтеndash фрагментовndash Ксенологов (горизонтальный перенос генов)ndash рекомбинантных последовательностейndash многодоменных белков и повторов

Используйте outgroup (последовательность ответвившаяся от общего предка заведомо (но минимально) раньше разделения интересующих групп-клад)

Самое главное ndash хорошее выравнивание

Максимальный вклад в финальное дерево нельзя построить хорошее дерево по плохому выравниванию

Блоки содержащие много гэпов плохо выровненные N- и C- концы можно просто вырезать

Основные алгоритмы построения филогенетических деревьев

Методы основанные на оценке

расстояний (матричные методы)

bull UPGMA (кластеризация)

bull Neighbor-joining

bull Минимальная эволюция

Наибольшего правдоподобия Maximal likelihood ML Используется модель эволюции и строится дерево которое наиболее правдоподобно при данной модели

Максимальной экономии (бережливости)

maximal parsimony MP Выбирается дерево с минимальным количеством

мутаций необходимых для объяснения данных

Пример матрицы расстояний

1 2 3 4 5 6 7 8 000 1053 977 1278 1203 1654 1353 2500 HUMAN 1

000 902 1203 977 1579 902 2727 HORSE 2 000 977 902 1654 1203 2424 RABIT 3

000 226 1729 1053 2576 MOUSE 4 000 1579 827 2576 RAT 5

000 1053 2955 BOVIN 6 000 2500 PIG 7

000 CHICK 8

Расстояние (уровень дивергенции) между соответствующими последовательностями из геномов мыши и свиньи

Как понимать расстояние между объектами

bull Как время в течение которого они эволюционировалиbull Как число laquoэволюционных событийraquo (мутаций)

В первом случае объекты образуют ультраметрическое пространство(если все объекты наблюдаются в одно время что как правило верно)

Но время непосредственно измерить невозможно

Гипотеза laquoмолекулярных часовraquo(EZuckerkandl LPauling 1962)

За равное время во всех ветвях эволюции данного генабелка накапливается равное число мутацийЕсли гипотеза молекулярных часов

принимается число различий между выровненными последовательностями можно считать примерно пропорциональным времени Отклонения от ультраметричности можно считать случайными Эволюция реконструируется в виде ультраметрического дерева

Укоренённое дерево называется ультраметрическим если расстояние от корня до любого из листьев одинаково

UPGMAUnweighted Pair Group Method with Arithmetic Mean

разновидность кластерного метода

Расстояние между кластерами вычисляется как среднее арифметическое всевозможных расстояний между последовательностями из кластеров

Недостатки UPGMA

Алгоритм строит ультраметрическое дерево ndash скорость эволюции предполагается одинаковой для всех ветвей дерева Использовать этот алгоритм имеет смысл только в случае ультраметрических данных (справедливости laquoмолекулярных часовraquo)

Реальное дерево UPGMA

Метод ближайших соседей (Neighbor-joining NJ)

Строит неукоренённое дерево

Может работать с большим количеством данных

Достаточно быстрый

Если есть недвусмысленное с точки зрения эксперта дерево то оно будет построено

Метод Neighbor-joining

Рисуем laquoзвездноеraquo дерево и будем laquoотщипыватьraquo от него по паре листьев

Пусть ui = Σk Mik(n-2) mdash среднее расстояние от листа i до других

листьев

1 Рассмотрим все возможные пары листьев Выберем 2 листа i и j с минимальным значением величины

Mij ndash ui ndashuj

те выбираем 2 узла которые близки друг к другу но далеки ото всех остальных

Метод ближайших соседей (Neighbor-joining NJ)

2 Кластер (i j) ndash новый узел дерева

Расстояние от i или от j до узла (ij) D(i (ij)) = 05middot(Mij + ui ndash uj) D(j (ij)) = 05middot (Mij + uj ndash ui) те длина ветви зависит от среднего расстояния до других вершин

3 Вычисляем расстояние от нового кластера до всех других

M(ij)k = Mik+Mjk ndash Mij 2

5 В матрице М убираем i и j и добавляем (i j) Повторяем пока не останутся 3 узла

Input MSA для n последовательностей одна последовательность для каждого вида

AAAAATC

AAAAAAG

CCCCCCG

AAAAATCAAAAAAG

CCCCCCG

Длинная ветвь ndash непохоже на правду

Длинная ветвь -Похоже на правду

Методы основанные на последовательностях Maximum Likelihood (ML) Maximum Parsimony (MP)

Как изобразить дерево Топология дерева

Топология дерева mdash только листья узлы (корень) и связывающие их ветви (топология не зависит от способа изображения дерева)

A

B

C

D

E A BC D E

Два изображения одной и той же топологии

Bacterium 1

Bacterium 3

Bacterium 2

Eukaryote 1

Eukaryote 4

Eukaryote 3

Eukaryote 2

Bacterium 1

Bacterium 3Bacterium 2

Eukaryote 1

Eukaryote 4Eukaryote 3

Eukaryote 2

Филограммы ndash длины ветвей

пропорциональны

эволюционному расстоянию

Кладограммы и филограммы

Кладограммы ndash только

топологя Длины ветвей не

учитываются

6

31

2

46

24

53

Как можно нарисовать построенное дерево

Какие on-line программы строят деревья

ClustalW ldquoTree typerdquo ndash nj phylip строит только методом NJ но результат ndash в разных форматах no bootstraps

Phylip (Felsenstein 1993) ndash пакет программ для построения филогенетических деревьев (stand-alone)On-line (partly) например

httpbiowebpasteurfrseqanalphylogenyphylip-ukhtml PAUP (Phylogenetic Analysis Using Parsimony)

MEGA филогенетический анализ последовательностей

httpwwwmegasoftwarenet

Эволюция ndash исторический процесс

Из 8200794532637891559375 деревьев для 20 OTUs 1

является верным и 8200794532637891559374

неверны

Truth is one falsehoods are many

Какое из 8200794532637891559375

деревьев истинно

Мы не знаем Можно применить иные критетии

Например ldquoпохожесть=родствоraquo

GCGbull Строковый поиск простой текстовый

поиск по локальной базе данных

bull Поиск в определениях или в аннотациях

bull Определения содержат минимальное количество информации для каждой статьи доступ имя организма имя гена длина последовательности дата

  • Bestfit Output
  • SP1 at swissprot
  • EGR1 at swissprot
  • Вывод
  • Bl2Seq at NCBI
  • Bl2seq results
  • Bl2seq оценка
  • Оптимизация времени вычислений при парном выравнивании
  • Slide 9
  • Алгоритм BLAST (шаг 1)
  • Slide 11
  • Blast
  • Поиск гомологов
  • ДНК или белок
  • ДНК
  • Slide 16
  • Slide 17
  • Двойная спираль
  • ДНК дальнейшая упаковка
  • Slide 20
  • Репликация ДНК
  • Slide 22
  • Slide 23
  • Slide 24
  • Slide 25
  • Множественное выравнивание последовательностей (MSA)
  • Slide 27
  • Основные предположения
  • Например
  • Почему множественное выравнивание
  • Slide 31
  • Подходы в MSA
  • MSA algorithm
  • Multiple Alignment - алгоритм
  • Комментарии
  • GCG
  • Slide 37
  • GCG
  • Slide 39
  • Slide 40
  • Slide 41
  • ClustalW
  • Slide 43
  • Slide 44
  • ClustalW на EMBL
  • ClustalW на EMBL - результат
  • ClustalW at EMBL - Jalview
  • Consensus Sequence
  • Профиль (Profile)
  • Profile vs Consensus
  • Slide 51
  • Slide 52
  • Psi Blast (NCBI)
  • PSI-Blast
  • Psi-Blast вывод
  • Slide 56
  • Филогенез
  • Slide 58
  • Slide 59
  • Slide 60
  • Slide 61
  • Древо видов и генов
  • Ортологи и паралоги
  • Шаги реконструирования филогенетического древа
  • Филогенетическое дерево
  • Зачем нужны филогенетические деревья
  • Терминология
  • Slide 68
  • Какие бывают деревья
  • Slide 70
  • Slide 71
  • Slide 72
  • 4 OTUs 3 неукорененных филогенетических деревьев
  • Slide 74
  • Slide 75
  • Slide 76
  • Slide 77
  • Рутинная процедура или как строят деревья
  • Slide 79
  • Slide 80
  • Slide 81
  • Slide 82
  • Slide 83
  • Slide 84
  • Slide 85
  • Slide 86
  • Slide 87
  • Slide 88
  • Slide 89
  • Как выбирать последовательности для дерева
  • Самое главное ndash хорошее выравнивание
  • Основные алгоритмы построения филогенетических деревьев
  • Пример матрицы расстояний
  • Slide 94
  • Гипотеза laquoмолекулярных часовraquo (EZuckerkandl LPauling 1962)
  • UPGMA Unweighted Pair Group Method with Arithmetic Mean
  • Недостатки UPGMA
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Метод Neighbor-joining
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Slide 101
  • Как изобразить дерево Топология дерева
  • Slide 103
  • Какие on-line программы строят деревья
  • MEGA филогенетический анализ последовательностей
  • Slide 106
  • Slide 107
  • Slide 108
Page 47: Bestfit Output

ClustalW at EMBL - Jalview

Conservation

Consensus Sequence

Мы можем вывести consensus sequence из результатов MSA The consensus sequence содержит наиболее часто встречающийся символ в кажной колонке выравнивания

A T C T T G T

A A C T T G T

A A C T T C T

A A C T T G T

Ещё пара терминовhelliphellip

Профиль (Profile)

Также возможно вывести статистическую модель описывающую MSA Профиль содержит информацию о символах в каждом столбце выравнивания

A T C T T G T

A A C T T G T

A A C T T C T

1 2 3 4 5 6

A 1 067 0 0

T 0 033 1 1

C 0 0 0 0

G 0 0 0 0

Profile vs Consensus

Consensus каждая позиция отражает наиболее часто встречающийся символ

Profile каждая позиция отражает частоту символа в данной позиции

Profile vs Consensus

Данный MSA будет иметь одинаковый consensus

A A C T T G C

A A G T C G T

C A C T T C T

A A C T T G T

A A C T T G T

A A C T T C T

A A C T T G T

Profile vs Consensus

Но разный профиль

A A C T T G C

A A G T C G T

C A C T T C T

A A C T T G T

A A C T T G T

A A C T T C T

1 2 3 4 5 6

A 066 1 0 0

T 0 0 0 1

C 033 0 066 0

G 0 0 033 0

1 2 3 4 5 6

A 1 1 0 0

T 0 0 0 1

C 0 0 1 0

G 0 0 0 0

Psi Blast (NCBI)

Position Specific Iterated ndash автоматизированный поиск по профилю

Regular blast

Construct profile from blast results

Blast profile search

Final results

PSI-Blast

Psi-Blast вывод

Проблема формулировки выводов при использовании МSA

1 Сайт выглядит общим (фиксированным) из-за того что это ndash близкородственные последовательности

2 Сайт выглядит общим из-за того что это ndash исключительно жизненно важный сайт

ФилогенезЭволюция ndash случайный процесс с неслучайным результатом

Цели филогенетического исследования

bull Реконструкция корректных генеалогических связей

между биологическими объектами

bull Оценка времени расхождения организмов

bull Определение порядка эволюционных событий в процессе

эволюции

Формат Newick

((A(BC))(DE))

Типы данных

Molecular (DNA RNA proteins)

Morphological (soft tissue hard tissue extant extinct)

Преимущества молекулярных данных

bull Наследуемость

bull Недвусмысленность в описании молекулярных характеристик

bull Поддаются количественному анализу

bull Оценка гомологии легче чем морфологические исследования

bull Данных много

Древо видов и геновbull Древо видов ndash эволюционные взаимосвязи

между видами (видообразование)bull Древо генов

Page RDM and Cotton JC (2000) GeneTree a tool for exploring gene family evolution In D Sankoff and J Nadeau (eds) Comparative Genomics Empirical and Analytical Approaches to Gene Order Dynamics Map Alignment and the Evolution of Gene Families Kluwer Academic Publishers Dordrecht pp 525-536

Figure 2 (a) Incongruent gene and species trees This incongruence can be explained by hypothesizing a gene duplication (h) at the base of the gene tree (b)The presence of only a single gene (a-d) extant in each of the present-day species(1-4) requires postulating three gene losses (c) The corresponding reconciled tree

Ортологи и паралоги

bull Гены-паралоги ndash событие дупликация (and

bull Гены-ортологи ndash событие видообразования (in the two species and in the two species

Duplication

Speciation

Species a Species b

Шаги реконструирования филогенетического

древа

1 Выбор последовательностей и поиск гомологов

2 MSA3 Матрица белков4 Филогенетическое дерево

Филогенетическое дерево

Филогения - раздел биологии изучающий родственные взаимоотношения разных групп живых организмов Филогению отображается обычно в виде эволюционных древ или систематических названий

Зачем нужны филогенетические деревья

Биологические задачи

сравнение 3-х и более объектов (кто на кого более похож )

реконструкция эволюции (кто от кого как и когда произошелhellip)

ТерминологияУзел (node) mdash точка разделения предковой последовательности(вида популяции) на две независимо эволюционирующиеСоответствует внутренней вершине графа изображающего эволюциюЛист (leaf OTU ndash оперативная таксономическая единица) mdash реальный (современный) объект внешняя вершина графаВетвь (branch) mdash связь между узлами или между узлом и листом ребро графаКорень (root) mdash общий предокКлада (clade) - группа двух или более таксонов или последователь-ностей ДНК которая включает как своего общего предка так и всех его потомков

OTU

HTU (hypotetical taxonomic unit)

Какие бывают деревья

Бинарное (разрешённое)(в один момент времени может

произойти только одно событие )

Небинарное (неразрешённое) (может ли в один момент времени

произойти два события )

Время

Какие бывают деревья

Укорененное дерево (rooted tree)отражает направление эволюции

Неукорененное (бескорневое) дерево(unrooted tree) показывает только связи между узлами

Время

Если число листьев равно n существует (2n-3)разных бинарных укоренных деревьевПо определению (2n-3) = 1middot3 middot middot(2n-3)

Существует (2n-5) разных бескорневых деревьев с n листьями

Rooting

A C B B C AA B C

3 OTUs 3 OTUs 1 н 1 неукорененное деревоеукорененное дерево 33 укорененных деревьев укорененных деревьев

A

B

C

D

C

A

B

4 OTUs 4 OTUs 3 3 неукорененных филогенетических неукорененных филогенетических деревьевдеревьев

D

B

A

C C

B

A

D

4 OTUs

15 укорененных

деревьев

Количество Количество Количество

OTU укорененных неукорененных

2 1 13 3 14 15 35 105 156 954 1057 103959548 135135 103959 2027025 13513510 34459425 202702511 654729075 3445942512 13749310575 654729075

Количество возможных деревьев

Рутинная процедура или как строят деревья

Составление выборки последовательностей

Множественное выравнивание

Построение дерева фрагмент записи в виде скобочной формулы

Визуализация и редактура дерева

(((((con1013851018(f539692826973((f67220839851max42750591)492893con923019677)1362315)953075)2583145

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Множественное выравнивание

Matches

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Multiple Alignment

Matches

Mismatches

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Multiple Alignment

Matches

Mismatches

Gaps

Seq 1 A G C G A GSeq 1 A G C G A GSeq 2 G C G G A CSeq 2 G C G G A C

Шаг 3 Перевод количества расхождений в индексы замен

Distance Matrix

Units количество замен нуклеотидов на 1000

Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86

Rice 00 118 122 122

Mosquito 00 55 51

Monkey 00 3

Human 00

Шаг 4 построение филогенетического дерева

Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86

Rice 00 118 122 122

Mosquito 00 55 51

Monkey 00 3

Human 00

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Дистанция между человеком и обезьяной минимальна Эти группы объединяются в Monkey-Human а все остальные дистанции пересчитываются

Dist[Spinach MonHum] = (Dist[Spinach Monkey] +

Dist[Spinach Human])2 = (91 + 86)2 = 885

Spinach Rice Mosquito Mon-HumSpinach 00 9 106 885

Rice 00 118 122

Mosquito 00 53

Mon-Hum 00

Редуцированная матрица дистанций

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Spi-Ric

HumanMosquito

Mon-Hum

MonkeySpinachRice

Mos-Mon-Hum

Spi-Ric

Mos-Mon-Hum-Spi-Ric

Как выбирать последовательности для дерева

Кроме случаев очень близких последовательностей проще работать с белками (а не с ДНК)

Придерживайтесь небольшой выборки (lt 50 последовательностей)

Избегайтеndash фрагментовndash Ксенологов (горизонтальный перенос генов)ndash рекомбинантных последовательностейndash многодоменных белков и повторов

Используйте outgroup (последовательность ответвившаяся от общего предка заведомо (но минимально) раньше разделения интересующих групп-клад)

Самое главное ndash хорошее выравнивание

Максимальный вклад в финальное дерево нельзя построить хорошее дерево по плохому выравниванию

Блоки содержащие много гэпов плохо выровненные N- и C- концы можно просто вырезать

Основные алгоритмы построения филогенетических деревьев

Методы основанные на оценке

расстояний (матричные методы)

bull UPGMA (кластеризация)

bull Neighbor-joining

bull Минимальная эволюция

Наибольшего правдоподобия Maximal likelihood ML Используется модель эволюции и строится дерево которое наиболее правдоподобно при данной модели

Максимальной экономии (бережливости)

maximal parsimony MP Выбирается дерево с минимальным количеством

мутаций необходимых для объяснения данных

Пример матрицы расстояний

1 2 3 4 5 6 7 8 000 1053 977 1278 1203 1654 1353 2500 HUMAN 1

000 902 1203 977 1579 902 2727 HORSE 2 000 977 902 1654 1203 2424 RABIT 3

000 226 1729 1053 2576 MOUSE 4 000 1579 827 2576 RAT 5

000 1053 2955 BOVIN 6 000 2500 PIG 7

000 CHICK 8

Расстояние (уровень дивергенции) между соответствующими последовательностями из геномов мыши и свиньи

Как понимать расстояние между объектами

bull Как время в течение которого они эволюционировалиbull Как число laquoэволюционных событийraquo (мутаций)

В первом случае объекты образуют ультраметрическое пространство(если все объекты наблюдаются в одно время что как правило верно)

Но время непосредственно измерить невозможно

Гипотеза laquoмолекулярных часовraquo(EZuckerkandl LPauling 1962)

За равное время во всех ветвях эволюции данного генабелка накапливается равное число мутацийЕсли гипотеза молекулярных часов

принимается число различий между выровненными последовательностями можно считать примерно пропорциональным времени Отклонения от ультраметричности можно считать случайными Эволюция реконструируется в виде ультраметрического дерева

Укоренённое дерево называется ультраметрическим если расстояние от корня до любого из листьев одинаково

UPGMAUnweighted Pair Group Method with Arithmetic Mean

разновидность кластерного метода

Расстояние между кластерами вычисляется как среднее арифметическое всевозможных расстояний между последовательностями из кластеров

Недостатки UPGMA

Алгоритм строит ультраметрическое дерево ndash скорость эволюции предполагается одинаковой для всех ветвей дерева Использовать этот алгоритм имеет смысл только в случае ультраметрических данных (справедливости laquoмолекулярных часовraquo)

Реальное дерево UPGMA

Метод ближайших соседей (Neighbor-joining NJ)

Строит неукоренённое дерево

Может работать с большим количеством данных

Достаточно быстрый

Если есть недвусмысленное с точки зрения эксперта дерево то оно будет построено

Метод Neighbor-joining

Рисуем laquoзвездноеraquo дерево и будем laquoотщипыватьraquo от него по паре листьев

Пусть ui = Σk Mik(n-2) mdash среднее расстояние от листа i до других

листьев

1 Рассмотрим все возможные пары листьев Выберем 2 листа i и j с минимальным значением величины

Mij ndash ui ndashuj

те выбираем 2 узла которые близки друг к другу но далеки ото всех остальных

Метод ближайших соседей (Neighbor-joining NJ)

2 Кластер (i j) ndash новый узел дерева

Расстояние от i или от j до узла (ij) D(i (ij)) = 05middot(Mij + ui ndash uj) D(j (ij)) = 05middot (Mij + uj ndash ui) те длина ветви зависит от среднего расстояния до других вершин

3 Вычисляем расстояние от нового кластера до всех других

M(ij)k = Mik+Mjk ndash Mij 2

5 В матрице М убираем i и j и добавляем (i j) Повторяем пока не останутся 3 узла

Input MSA для n последовательностей одна последовательность для каждого вида

AAAAATC

AAAAAAG

CCCCCCG

AAAAATCAAAAAAG

CCCCCCG

Длинная ветвь ndash непохоже на правду

Длинная ветвь -Похоже на правду

Методы основанные на последовательностях Maximum Likelihood (ML) Maximum Parsimony (MP)

Как изобразить дерево Топология дерева

Топология дерева mdash только листья узлы (корень) и связывающие их ветви (топология не зависит от способа изображения дерева)

A

B

C

D

E A BC D E

Два изображения одной и той же топологии

Bacterium 1

Bacterium 3

Bacterium 2

Eukaryote 1

Eukaryote 4

Eukaryote 3

Eukaryote 2

Bacterium 1

Bacterium 3Bacterium 2

Eukaryote 1

Eukaryote 4Eukaryote 3

Eukaryote 2

Филограммы ndash длины ветвей

пропорциональны

эволюционному расстоянию

Кладограммы и филограммы

Кладограммы ndash только

топологя Длины ветвей не

учитываются

6

31

2

46

24

53

Как можно нарисовать построенное дерево

Какие on-line программы строят деревья

ClustalW ldquoTree typerdquo ndash nj phylip строит только методом NJ но результат ndash в разных форматах no bootstraps

Phylip (Felsenstein 1993) ndash пакет программ для построения филогенетических деревьев (stand-alone)On-line (partly) например

httpbiowebpasteurfrseqanalphylogenyphylip-ukhtml PAUP (Phylogenetic Analysis Using Parsimony)

MEGA филогенетический анализ последовательностей

httpwwwmegasoftwarenet

Эволюция ndash исторический процесс

Из 8200794532637891559375 деревьев для 20 OTUs 1

является верным и 8200794532637891559374

неверны

Truth is one falsehoods are many

Какое из 8200794532637891559375

деревьев истинно

Мы не знаем Можно применить иные критетии

Например ldquoпохожесть=родствоraquo

GCGbull Строковый поиск простой текстовый

поиск по локальной базе данных

bull Поиск в определениях или в аннотациях

bull Определения содержат минимальное количество информации для каждой статьи доступ имя организма имя гена длина последовательности дата

  • Bestfit Output
  • SP1 at swissprot
  • EGR1 at swissprot
  • Вывод
  • Bl2Seq at NCBI
  • Bl2seq results
  • Bl2seq оценка
  • Оптимизация времени вычислений при парном выравнивании
  • Slide 9
  • Алгоритм BLAST (шаг 1)
  • Slide 11
  • Blast
  • Поиск гомологов
  • ДНК или белок
  • ДНК
  • Slide 16
  • Slide 17
  • Двойная спираль
  • ДНК дальнейшая упаковка
  • Slide 20
  • Репликация ДНК
  • Slide 22
  • Slide 23
  • Slide 24
  • Slide 25
  • Множественное выравнивание последовательностей (MSA)
  • Slide 27
  • Основные предположения
  • Например
  • Почему множественное выравнивание
  • Slide 31
  • Подходы в MSA
  • MSA algorithm
  • Multiple Alignment - алгоритм
  • Комментарии
  • GCG
  • Slide 37
  • GCG
  • Slide 39
  • Slide 40
  • Slide 41
  • ClustalW
  • Slide 43
  • Slide 44
  • ClustalW на EMBL
  • ClustalW на EMBL - результат
  • ClustalW at EMBL - Jalview
  • Consensus Sequence
  • Профиль (Profile)
  • Profile vs Consensus
  • Slide 51
  • Slide 52
  • Psi Blast (NCBI)
  • PSI-Blast
  • Psi-Blast вывод
  • Slide 56
  • Филогенез
  • Slide 58
  • Slide 59
  • Slide 60
  • Slide 61
  • Древо видов и генов
  • Ортологи и паралоги
  • Шаги реконструирования филогенетического древа
  • Филогенетическое дерево
  • Зачем нужны филогенетические деревья
  • Терминология
  • Slide 68
  • Какие бывают деревья
  • Slide 70
  • Slide 71
  • Slide 72
  • 4 OTUs 3 неукорененных филогенетических деревьев
  • Slide 74
  • Slide 75
  • Slide 76
  • Slide 77
  • Рутинная процедура или как строят деревья
  • Slide 79
  • Slide 80
  • Slide 81
  • Slide 82
  • Slide 83
  • Slide 84
  • Slide 85
  • Slide 86
  • Slide 87
  • Slide 88
  • Slide 89
  • Как выбирать последовательности для дерева
  • Самое главное ndash хорошее выравнивание
  • Основные алгоритмы построения филогенетических деревьев
  • Пример матрицы расстояний
  • Slide 94
  • Гипотеза laquoмолекулярных часовraquo (EZuckerkandl LPauling 1962)
  • UPGMA Unweighted Pair Group Method with Arithmetic Mean
  • Недостатки UPGMA
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Метод Neighbor-joining
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Slide 101
  • Как изобразить дерево Топология дерева
  • Slide 103
  • Какие on-line программы строят деревья
  • MEGA филогенетический анализ последовательностей
  • Slide 106
  • Slide 107
  • Slide 108
Page 48: Bestfit Output

Consensus Sequence

Мы можем вывести consensus sequence из результатов MSA The consensus sequence содержит наиболее часто встречающийся символ в кажной колонке выравнивания

A T C T T G T

A A C T T G T

A A C T T C T

A A C T T G T

Ещё пара терминовhelliphellip

Профиль (Profile)

Также возможно вывести статистическую модель описывающую MSA Профиль содержит информацию о символах в каждом столбце выравнивания

A T C T T G T

A A C T T G T

A A C T T C T

1 2 3 4 5 6

A 1 067 0 0

T 0 033 1 1

C 0 0 0 0

G 0 0 0 0

Profile vs Consensus

Consensus каждая позиция отражает наиболее часто встречающийся символ

Profile каждая позиция отражает частоту символа в данной позиции

Profile vs Consensus

Данный MSA будет иметь одинаковый consensus

A A C T T G C

A A G T C G T

C A C T T C T

A A C T T G T

A A C T T G T

A A C T T C T

A A C T T G T

Profile vs Consensus

Но разный профиль

A A C T T G C

A A G T C G T

C A C T T C T

A A C T T G T

A A C T T G T

A A C T T C T

1 2 3 4 5 6

A 066 1 0 0

T 0 0 0 1

C 033 0 066 0

G 0 0 033 0

1 2 3 4 5 6

A 1 1 0 0

T 0 0 0 1

C 0 0 1 0

G 0 0 0 0

Psi Blast (NCBI)

Position Specific Iterated ndash автоматизированный поиск по профилю

Regular blast

Construct profile from blast results

Blast profile search

Final results

PSI-Blast

Psi-Blast вывод

Проблема формулировки выводов при использовании МSA

1 Сайт выглядит общим (фиксированным) из-за того что это ndash близкородственные последовательности

2 Сайт выглядит общим из-за того что это ndash исключительно жизненно важный сайт

ФилогенезЭволюция ndash случайный процесс с неслучайным результатом

Цели филогенетического исследования

bull Реконструкция корректных генеалогических связей

между биологическими объектами

bull Оценка времени расхождения организмов

bull Определение порядка эволюционных событий в процессе

эволюции

Формат Newick

((A(BC))(DE))

Типы данных

Molecular (DNA RNA proteins)

Morphological (soft tissue hard tissue extant extinct)

Преимущества молекулярных данных

bull Наследуемость

bull Недвусмысленность в описании молекулярных характеристик

bull Поддаются количественному анализу

bull Оценка гомологии легче чем морфологические исследования

bull Данных много

Древо видов и геновbull Древо видов ndash эволюционные взаимосвязи

между видами (видообразование)bull Древо генов

Page RDM and Cotton JC (2000) GeneTree a tool for exploring gene family evolution In D Sankoff and J Nadeau (eds) Comparative Genomics Empirical and Analytical Approaches to Gene Order Dynamics Map Alignment and the Evolution of Gene Families Kluwer Academic Publishers Dordrecht pp 525-536

Figure 2 (a) Incongruent gene and species trees This incongruence can be explained by hypothesizing a gene duplication (h) at the base of the gene tree (b)The presence of only a single gene (a-d) extant in each of the present-day species(1-4) requires postulating three gene losses (c) The corresponding reconciled tree

Ортологи и паралоги

bull Гены-паралоги ndash событие дупликация (and

bull Гены-ортологи ndash событие видообразования (in the two species and in the two species

Duplication

Speciation

Species a Species b

Шаги реконструирования филогенетического

древа

1 Выбор последовательностей и поиск гомологов

2 MSA3 Матрица белков4 Филогенетическое дерево

Филогенетическое дерево

Филогения - раздел биологии изучающий родственные взаимоотношения разных групп живых организмов Филогению отображается обычно в виде эволюционных древ или систематических названий

Зачем нужны филогенетические деревья

Биологические задачи

сравнение 3-х и более объектов (кто на кого более похож )

реконструкция эволюции (кто от кого как и когда произошелhellip)

ТерминологияУзел (node) mdash точка разделения предковой последовательности(вида популяции) на две независимо эволюционирующиеСоответствует внутренней вершине графа изображающего эволюциюЛист (leaf OTU ndash оперативная таксономическая единица) mdash реальный (современный) объект внешняя вершина графаВетвь (branch) mdash связь между узлами или между узлом и листом ребро графаКорень (root) mdash общий предокКлада (clade) - группа двух или более таксонов или последователь-ностей ДНК которая включает как своего общего предка так и всех его потомков

OTU

HTU (hypotetical taxonomic unit)

Какие бывают деревья

Бинарное (разрешённое)(в один момент времени может

произойти только одно событие )

Небинарное (неразрешённое) (может ли в один момент времени

произойти два события )

Время

Какие бывают деревья

Укорененное дерево (rooted tree)отражает направление эволюции

Неукорененное (бескорневое) дерево(unrooted tree) показывает только связи между узлами

Время

Если число листьев равно n существует (2n-3)разных бинарных укоренных деревьевПо определению (2n-3) = 1middot3 middot middot(2n-3)

Существует (2n-5) разных бескорневых деревьев с n листьями

Rooting

A C B B C AA B C

3 OTUs 3 OTUs 1 н 1 неукорененное деревоеукорененное дерево 33 укорененных деревьев укорененных деревьев

A

B

C

D

C

A

B

4 OTUs 4 OTUs 3 3 неукорененных филогенетических неукорененных филогенетических деревьевдеревьев

D

B

A

C C

B

A

D

4 OTUs

15 укорененных

деревьев

Количество Количество Количество

OTU укорененных неукорененных

2 1 13 3 14 15 35 105 156 954 1057 103959548 135135 103959 2027025 13513510 34459425 202702511 654729075 3445942512 13749310575 654729075

Количество возможных деревьев

Рутинная процедура или как строят деревья

Составление выборки последовательностей

Множественное выравнивание

Построение дерева фрагмент записи в виде скобочной формулы

Визуализация и редактура дерева

(((((con1013851018(f539692826973((f67220839851max42750591)492893con923019677)1362315)953075)2583145

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Множественное выравнивание

Matches

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Multiple Alignment

Matches

Mismatches

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Multiple Alignment

Matches

Mismatches

Gaps

Seq 1 A G C G A GSeq 1 A G C G A GSeq 2 G C G G A CSeq 2 G C G G A C

Шаг 3 Перевод количества расхождений в индексы замен

Distance Matrix

Units количество замен нуклеотидов на 1000

Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86

Rice 00 118 122 122

Mosquito 00 55 51

Monkey 00 3

Human 00

Шаг 4 построение филогенетического дерева

Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86

Rice 00 118 122 122

Mosquito 00 55 51

Monkey 00 3

Human 00

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Дистанция между человеком и обезьяной минимальна Эти группы объединяются в Monkey-Human а все остальные дистанции пересчитываются

Dist[Spinach MonHum] = (Dist[Spinach Monkey] +

Dist[Spinach Human])2 = (91 + 86)2 = 885

Spinach Rice Mosquito Mon-HumSpinach 00 9 106 885

Rice 00 118 122

Mosquito 00 53

Mon-Hum 00

Редуцированная матрица дистанций

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Spi-Ric

HumanMosquito

Mon-Hum

MonkeySpinachRice

Mos-Mon-Hum

Spi-Ric

Mos-Mon-Hum-Spi-Ric

Как выбирать последовательности для дерева

Кроме случаев очень близких последовательностей проще работать с белками (а не с ДНК)

Придерживайтесь небольшой выборки (lt 50 последовательностей)

Избегайтеndash фрагментовndash Ксенологов (горизонтальный перенос генов)ndash рекомбинантных последовательностейndash многодоменных белков и повторов

Используйте outgroup (последовательность ответвившаяся от общего предка заведомо (но минимально) раньше разделения интересующих групп-клад)

Самое главное ndash хорошее выравнивание

Максимальный вклад в финальное дерево нельзя построить хорошее дерево по плохому выравниванию

Блоки содержащие много гэпов плохо выровненные N- и C- концы можно просто вырезать

Основные алгоритмы построения филогенетических деревьев

Методы основанные на оценке

расстояний (матричные методы)

bull UPGMA (кластеризация)

bull Neighbor-joining

bull Минимальная эволюция

Наибольшего правдоподобия Maximal likelihood ML Используется модель эволюции и строится дерево которое наиболее правдоподобно при данной модели

Максимальной экономии (бережливости)

maximal parsimony MP Выбирается дерево с минимальным количеством

мутаций необходимых для объяснения данных

Пример матрицы расстояний

1 2 3 4 5 6 7 8 000 1053 977 1278 1203 1654 1353 2500 HUMAN 1

000 902 1203 977 1579 902 2727 HORSE 2 000 977 902 1654 1203 2424 RABIT 3

000 226 1729 1053 2576 MOUSE 4 000 1579 827 2576 RAT 5

000 1053 2955 BOVIN 6 000 2500 PIG 7

000 CHICK 8

Расстояние (уровень дивергенции) между соответствующими последовательностями из геномов мыши и свиньи

Как понимать расстояние между объектами

bull Как время в течение которого они эволюционировалиbull Как число laquoэволюционных событийraquo (мутаций)

В первом случае объекты образуют ультраметрическое пространство(если все объекты наблюдаются в одно время что как правило верно)

Но время непосредственно измерить невозможно

Гипотеза laquoмолекулярных часовraquo(EZuckerkandl LPauling 1962)

За равное время во всех ветвях эволюции данного генабелка накапливается равное число мутацийЕсли гипотеза молекулярных часов

принимается число различий между выровненными последовательностями можно считать примерно пропорциональным времени Отклонения от ультраметричности можно считать случайными Эволюция реконструируется в виде ультраметрического дерева

Укоренённое дерево называется ультраметрическим если расстояние от корня до любого из листьев одинаково

UPGMAUnweighted Pair Group Method with Arithmetic Mean

разновидность кластерного метода

Расстояние между кластерами вычисляется как среднее арифметическое всевозможных расстояний между последовательностями из кластеров

Недостатки UPGMA

Алгоритм строит ультраметрическое дерево ndash скорость эволюции предполагается одинаковой для всех ветвей дерева Использовать этот алгоритм имеет смысл только в случае ультраметрических данных (справедливости laquoмолекулярных часовraquo)

Реальное дерево UPGMA

Метод ближайших соседей (Neighbor-joining NJ)

Строит неукоренённое дерево

Может работать с большим количеством данных

Достаточно быстрый

Если есть недвусмысленное с точки зрения эксперта дерево то оно будет построено

Метод Neighbor-joining

Рисуем laquoзвездноеraquo дерево и будем laquoотщипыватьraquo от него по паре листьев

Пусть ui = Σk Mik(n-2) mdash среднее расстояние от листа i до других

листьев

1 Рассмотрим все возможные пары листьев Выберем 2 листа i и j с минимальным значением величины

Mij ndash ui ndashuj

те выбираем 2 узла которые близки друг к другу но далеки ото всех остальных

Метод ближайших соседей (Neighbor-joining NJ)

2 Кластер (i j) ndash новый узел дерева

Расстояние от i или от j до узла (ij) D(i (ij)) = 05middot(Mij + ui ndash uj) D(j (ij)) = 05middot (Mij + uj ndash ui) те длина ветви зависит от среднего расстояния до других вершин

3 Вычисляем расстояние от нового кластера до всех других

M(ij)k = Mik+Mjk ndash Mij 2

5 В матрице М убираем i и j и добавляем (i j) Повторяем пока не останутся 3 узла

Input MSA для n последовательностей одна последовательность для каждого вида

AAAAATC

AAAAAAG

CCCCCCG

AAAAATCAAAAAAG

CCCCCCG

Длинная ветвь ndash непохоже на правду

Длинная ветвь -Похоже на правду

Методы основанные на последовательностях Maximum Likelihood (ML) Maximum Parsimony (MP)

Как изобразить дерево Топология дерева

Топология дерева mdash только листья узлы (корень) и связывающие их ветви (топология не зависит от способа изображения дерева)

A

B

C

D

E A BC D E

Два изображения одной и той же топологии

Bacterium 1

Bacterium 3

Bacterium 2

Eukaryote 1

Eukaryote 4

Eukaryote 3

Eukaryote 2

Bacterium 1

Bacterium 3Bacterium 2

Eukaryote 1

Eukaryote 4Eukaryote 3

Eukaryote 2

Филограммы ndash длины ветвей

пропорциональны

эволюционному расстоянию

Кладограммы и филограммы

Кладограммы ndash только

топологя Длины ветвей не

учитываются

6

31

2

46

24

53

Как можно нарисовать построенное дерево

Какие on-line программы строят деревья

ClustalW ldquoTree typerdquo ndash nj phylip строит только методом NJ но результат ndash в разных форматах no bootstraps

Phylip (Felsenstein 1993) ndash пакет программ для построения филогенетических деревьев (stand-alone)On-line (partly) например

httpbiowebpasteurfrseqanalphylogenyphylip-ukhtml PAUP (Phylogenetic Analysis Using Parsimony)

MEGA филогенетический анализ последовательностей

httpwwwmegasoftwarenet

Эволюция ndash исторический процесс

Из 8200794532637891559375 деревьев для 20 OTUs 1

является верным и 8200794532637891559374

неверны

Truth is one falsehoods are many

Какое из 8200794532637891559375

деревьев истинно

Мы не знаем Можно применить иные критетии

Например ldquoпохожесть=родствоraquo

GCGbull Строковый поиск простой текстовый

поиск по локальной базе данных

bull Поиск в определениях или в аннотациях

bull Определения содержат минимальное количество информации для каждой статьи доступ имя организма имя гена длина последовательности дата

  • Bestfit Output
  • SP1 at swissprot
  • EGR1 at swissprot
  • Вывод
  • Bl2Seq at NCBI
  • Bl2seq results
  • Bl2seq оценка
  • Оптимизация времени вычислений при парном выравнивании
  • Slide 9
  • Алгоритм BLAST (шаг 1)
  • Slide 11
  • Blast
  • Поиск гомологов
  • ДНК или белок
  • ДНК
  • Slide 16
  • Slide 17
  • Двойная спираль
  • ДНК дальнейшая упаковка
  • Slide 20
  • Репликация ДНК
  • Slide 22
  • Slide 23
  • Slide 24
  • Slide 25
  • Множественное выравнивание последовательностей (MSA)
  • Slide 27
  • Основные предположения
  • Например
  • Почему множественное выравнивание
  • Slide 31
  • Подходы в MSA
  • MSA algorithm
  • Multiple Alignment - алгоритм
  • Комментарии
  • GCG
  • Slide 37
  • GCG
  • Slide 39
  • Slide 40
  • Slide 41
  • ClustalW
  • Slide 43
  • Slide 44
  • ClustalW на EMBL
  • ClustalW на EMBL - результат
  • ClustalW at EMBL - Jalview
  • Consensus Sequence
  • Профиль (Profile)
  • Profile vs Consensus
  • Slide 51
  • Slide 52
  • Psi Blast (NCBI)
  • PSI-Blast
  • Psi-Blast вывод
  • Slide 56
  • Филогенез
  • Slide 58
  • Slide 59
  • Slide 60
  • Slide 61
  • Древо видов и генов
  • Ортологи и паралоги
  • Шаги реконструирования филогенетического древа
  • Филогенетическое дерево
  • Зачем нужны филогенетические деревья
  • Терминология
  • Slide 68
  • Какие бывают деревья
  • Slide 70
  • Slide 71
  • Slide 72
  • 4 OTUs 3 неукорененных филогенетических деревьев
  • Slide 74
  • Slide 75
  • Slide 76
  • Slide 77
  • Рутинная процедура или как строят деревья
  • Slide 79
  • Slide 80
  • Slide 81
  • Slide 82
  • Slide 83
  • Slide 84
  • Slide 85
  • Slide 86
  • Slide 87
  • Slide 88
  • Slide 89
  • Как выбирать последовательности для дерева
  • Самое главное ndash хорошее выравнивание
  • Основные алгоритмы построения филогенетических деревьев
  • Пример матрицы расстояний
  • Slide 94
  • Гипотеза laquoмолекулярных часовraquo (EZuckerkandl LPauling 1962)
  • UPGMA Unweighted Pair Group Method with Arithmetic Mean
  • Недостатки UPGMA
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Метод Neighbor-joining
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Slide 101
  • Как изобразить дерево Топология дерева
  • Slide 103
  • Какие on-line программы строят деревья
  • MEGA филогенетический анализ последовательностей
  • Slide 106
  • Slide 107
  • Slide 108
Page 49: Bestfit Output

Профиль (Profile)

Также возможно вывести статистическую модель описывающую MSA Профиль содержит информацию о символах в каждом столбце выравнивания

A T C T T G T

A A C T T G T

A A C T T C T

1 2 3 4 5 6

A 1 067 0 0

T 0 033 1 1

C 0 0 0 0

G 0 0 0 0

Profile vs Consensus

Consensus каждая позиция отражает наиболее часто встречающийся символ

Profile каждая позиция отражает частоту символа в данной позиции

Profile vs Consensus

Данный MSA будет иметь одинаковый consensus

A A C T T G C

A A G T C G T

C A C T T C T

A A C T T G T

A A C T T G T

A A C T T C T

A A C T T G T

Profile vs Consensus

Но разный профиль

A A C T T G C

A A G T C G T

C A C T T C T

A A C T T G T

A A C T T G T

A A C T T C T

1 2 3 4 5 6

A 066 1 0 0

T 0 0 0 1

C 033 0 066 0

G 0 0 033 0

1 2 3 4 5 6

A 1 1 0 0

T 0 0 0 1

C 0 0 1 0

G 0 0 0 0

Psi Blast (NCBI)

Position Specific Iterated ndash автоматизированный поиск по профилю

Regular blast

Construct profile from blast results

Blast profile search

Final results

PSI-Blast

Psi-Blast вывод

Проблема формулировки выводов при использовании МSA

1 Сайт выглядит общим (фиксированным) из-за того что это ndash близкородственные последовательности

2 Сайт выглядит общим из-за того что это ndash исключительно жизненно важный сайт

ФилогенезЭволюция ndash случайный процесс с неслучайным результатом

Цели филогенетического исследования

bull Реконструкция корректных генеалогических связей

между биологическими объектами

bull Оценка времени расхождения организмов

bull Определение порядка эволюционных событий в процессе

эволюции

Формат Newick

((A(BC))(DE))

Типы данных

Molecular (DNA RNA proteins)

Morphological (soft tissue hard tissue extant extinct)

Преимущества молекулярных данных

bull Наследуемость

bull Недвусмысленность в описании молекулярных характеристик

bull Поддаются количественному анализу

bull Оценка гомологии легче чем морфологические исследования

bull Данных много

Древо видов и геновbull Древо видов ndash эволюционные взаимосвязи

между видами (видообразование)bull Древо генов

Page RDM and Cotton JC (2000) GeneTree a tool for exploring gene family evolution In D Sankoff and J Nadeau (eds) Comparative Genomics Empirical and Analytical Approaches to Gene Order Dynamics Map Alignment and the Evolution of Gene Families Kluwer Academic Publishers Dordrecht pp 525-536

Figure 2 (a) Incongruent gene and species trees This incongruence can be explained by hypothesizing a gene duplication (h) at the base of the gene tree (b)The presence of only a single gene (a-d) extant in each of the present-day species(1-4) requires postulating three gene losses (c) The corresponding reconciled tree

Ортологи и паралоги

bull Гены-паралоги ndash событие дупликация (and

bull Гены-ортологи ndash событие видообразования (in the two species and in the two species

Duplication

Speciation

Species a Species b

Шаги реконструирования филогенетического

древа

1 Выбор последовательностей и поиск гомологов

2 MSA3 Матрица белков4 Филогенетическое дерево

Филогенетическое дерево

Филогения - раздел биологии изучающий родственные взаимоотношения разных групп живых организмов Филогению отображается обычно в виде эволюционных древ или систематических названий

Зачем нужны филогенетические деревья

Биологические задачи

сравнение 3-х и более объектов (кто на кого более похож )

реконструкция эволюции (кто от кого как и когда произошелhellip)

ТерминологияУзел (node) mdash точка разделения предковой последовательности(вида популяции) на две независимо эволюционирующиеСоответствует внутренней вершине графа изображающего эволюциюЛист (leaf OTU ndash оперативная таксономическая единица) mdash реальный (современный) объект внешняя вершина графаВетвь (branch) mdash связь между узлами или между узлом и листом ребро графаКорень (root) mdash общий предокКлада (clade) - группа двух или более таксонов или последователь-ностей ДНК которая включает как своего общего предка так и всех его потомков

OTU

HTU (hypotetical taxonomic unit)

Какие бывают деревья

Бинарное (разрешённое)(в один момент времени может

произойти только одно событие )

Небинарное (неразрешённое) (может ли в один момент времени

произойти два события )

Время

Какие бывают деревья

Укорененное дерево (rooted tree)отражает направление эволюции

Неукорененное (бескорневое) дерево(unrooted tree) показывает только связи между узлами

Время

Если число листьев равно n существует (2n-3)разных бинарных укоренных деревьевПо определению (2n-3) = 1middot3 middot middot(2n-3)

Существует (2n-5) разных бескорневых деревьев с n листьями

Rooting

A C B B C AA B C

3 OTUs 3 OTUs 1 н 1 неукорененное деревоеукорененное дерево 33 укорененных деревьев укорененных деревьев

A

B

C

D

C

A

B

4 OTUs 4 OTUs 3 3 неукорененных филогенетических неукорененных филогенетических деревьевдеревьев

D

B

A

C C

B

A

D

4 OTUs

15 укорененных

деревьев

Количество Количество Количество

OTU укорененных неукорененных

2 1 13 3 14 15 35 105 156 954 1057 103959548 135135 103959 2027025 13513510 34459425 202702511 654729075 3445942512 13749310575 654729075

Количество возможных деревьев

Рутинная процедура или как строят деревья

Составление выборки последовательностей

Множественное выравнивание

Построение дерева фрагмент записи в виде скобочной формулы

Визуализация и редактура дерева

(((((con1013851018(f539692826973((f67220839851max42750591)492893con923019677)1362315)953075)2583145

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Множественное выравнивание

Matches

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Multiple Alignment

Matches

Mismatches

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Multiple Alignment

Matches

Mismatches

Gaps

Seq 1 A G C G A GSeq 1 A G C G A GSeq 2 G C G G A CSeq 2 G C G G A C

Шаг 3 Перевод количества расхождений в индексы замен

Distance Matrix

Units количество замен нуклеотидов на 1000

Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86

Rice 00 118 122 122

Mosquito 00 55 51

Monkey 00 3

Human 00

Шаг 4 построение филогенетического дерева

Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86

Rice 00 118 122 122

Mosquito 00 55 51

Monkey 00 3

Human 00

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Дистанция между человеком и обезьяной минимальна Эти группы объединяются в Monkey-Human а все остальные дистанции пересчитываются

Dist[Spinach MonHum] = (Dist[Spinach Monkey] +

Dist[Spinach Human])2 = (91 + 86)2 = 885

Spinach Rice Mosquito Mon-HumSpinach 00 9 106 885

Rice 00 118 122

Mosquito 00 53

Mon-Hum 00

Редуцированная матрица дистанций

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Spi-Ric

HumanMosquito

Mon-Hum

MonkeySpinachRice

Mos-Mon-Hum

Spi-Ric

Mos-Mon-Hum-Spi-Ric

Как выбирать последовательности для дерева

Кроме случаев очень близких последовательностей проще работать с белками (а не с ДНК)

Придерживайтесь небольшой выборки (lt 50 последовательностей)

Избегайтеndash фрагментовndash Ксенологов (горизонтальный перенос генов)ndash рекомбинантных последовательностейndash многодоменных белков и повторов

Используйте outgroup (последовательность ответвившаяся от общего предка заведомо (но минимально) раньше разделения интересующих групп-клад)

Самое главное ndash хорошее выравнивание

Максимальный вклад в финальное дерево нельзя построить хорошее дерево по плохому выравниванию

Блоки содержащие много гэпов плохо выровненные N- и C- концы можно просто вырезать

Основные алгоритмы построения филогенетических деревьев

Методы основанные на оценке

расстояний (матричные методы)

bull UPGMA (кластеризация)

bull Neighbor-joining

bull Минимальная эволюция

Наибольшего правдоподобия Maximal likelihood ML Используется модель эволюции и строится дерево которое наиболее правдоподобно при данной модели

Максимальной экономии (бережливости)

maximal parsimony MP Выбирается дерево с минимальным количеством

мутаций необходимых для объяснения данных

Пример матрицы расстояний

1 2 3 4 5 6 7 8 000 1053 977 1278 1203 1654 1353 2500 HUMAN 1

000 902 1203 977 1579 902 2727 HORSE 2 000 977 902 1654 1203 2424 RABIT 3

000 226 1729 1053 2576 MOUSE 4 000 1579 827 2576 RAT 5

000 1053 2955 BOVIN 6 000 2500 PIG 7

000 CHICK 8

Расстояние (уровень дивергенции) между соответствующими последовательностями из геномов мыши и свиньи

Как понимать расстояние между объектами

bull Как время в течение которого они эволюционировалиbull Как число laquoэволюционных событийraquo (мутаций)

В первом случае объекты образуют ультраметрическое пространство(если все объекты наблюдаются в одно время что как правило верно)

Но время непосредственно измерить невозможно

Гипотеза laquoмолекулярных часовraquo(EZuckerkandl LPauling 1962)

За равное время во всех ветвях эволюции данного генабелка накапливается равное число мутацийЕсли гипотеза молекулярных часов

принимается число различий между выровненными последовательностями можно считать примерно пропорциональным времени Отклонения от ультраметричности можно считать случайными Эволюция реконструируется в виде ультраметрического дерева

Укоренённое дерево называется ультраметрическим если расстояние от корня до любого из листьев одинаково

UPGMAUnweighted Pair Group Method with Arithmetic Mean

разновидность кластерного метода

Расстояние между кластерами вычисляется как среднее арифметическое всевозможных расстояний между последовательностями из кластеров

Недостатки UPGMA

Алгоритм строит ультраметрическое дерево ndash скорость эволюции предполагается одинаковой для всех ветвей дерева Использовать этот алгоритм имеет смысл только в случае ультраметрических данных (справедливости laquoмолекулярных часовraquo)

Реальное дерево UPGMA

Метод ближайших соседей (Neighbor-joining NJ)

Строит неукоренённое дерево

Может работать с большим количеством данных

Достаточно быстрый

Если есть недвусмысленное с точки зрения эксперта дерево то оно будет построено

Метод Neighbor-joining

Рисуем laquoзвездноеraquo дерево и будем laquoотщипыватьraquo от него по паре листьев

Пусть ui = Σk Mik(n-2) mdash среднее расстояние от листа i до других

листьев

1 Рассмотрим все возможные пары листьев Выберем 2 листа i и j с минимальным значением величины

Mij ndash ui ndashuj

те выбираем 2 узла которые близки друг к другу но далеки ото всех остальных

Метод ближайших соседей (Neighbor-joining NJ)

2 Кластер (i j) ndash новый узел дерева

Расстояние от i или от j до узла (ij) D(i (ij)) = 05middot(Mij + ui ndash uj) D(j (ij)) = 05middot (Mij + uj ndash ui) те длина ветви зависит от среднего расстояния до других вершин

3 Вычисляем расстояние от нового кластера до всех других

M(ij)k = Mik+Mjk ndash Mij 2

5 В матрице М убираем i и j и добавляем (i j) Повторяем пока не останутся 3 узла

Input MSA для n последовательностей одна последовательность для каждого вида

AAAAATC

AAAAAAG

CCCCCCG

AAAAATCAAAAAAG

CCCCCCG

Длинная ветвь ndash непохоже на правду

Длинная ветвь -Похоже на правду

Методы основанные на последовательностях Maximum Likelihood (ML) Maximum Parsimony (MP)

Как изобразить дерево Топология дерева

Топология дерева mdash только листья узлы (корень) и связывающие их ветви (топология не зависит от способа изображения дерева)

A

B

C

D

E A BC D E

Два изображения одной и той же топологии

Bacterium 1

Bacterium 3

Bacterium 2

Eukaryote 1

Eukaryote 4

Eukaryote 3

Eukaryote 2

Bacterium 1

Bacterium 3Bacterium 2

Eukaryote 1

Eukaryote 4Eukaryote 3

Eukaryote 2

Филограммы ndash длины ветвей

пропорциональны

эволюционному расстоянию

Кладограммы и филограммы

Кладограммы ndash только

топологя Длины ветвей не

учитываются

6

31

2

46

24

53

Как можно нарисовать построенное дерево

Какие on-line программы строят деревья

ClustalW ldquoTree typerdquo ndash nj phylip строит только методом NJ но результат ndash в разных форматах no bootstraps

Phylip (Felsenstein 1993) ndash пакет программ для построения филогенетических деревьев (stand-alone)On-line (partly) например

httpbiowebpasteurfrseqanalphylogenyphylip-ukhtml PAUP (Phylogenetic Analysis Using Parsimony)

MEGA филогенетический анализ последовательностей

httpwwwmegasoftwarenet

Эволюция ndash исторический процесс

Из 8200794532637891559375 деревьев для 20 OTUs 1

является верным и 8200794532637891559374

неверны

Truth is one falsehoods are many

Какое из 8200794532637891559375

деревьев истинно

Мы не знаем Можно применить иные критетии

Например ldquoпохожесть=родствоraquo

GCGbull Строковый поиск простой текстовый

поиск по локальной базе данных

bull Поиск в определениях или в аннотациях

bull Определения содержат минимальное количество информации для каждой статьи доступ имя организма имя гена длина последовательности дата

  • Bestfit Output
  • SP1 at swissprot
  • EGR1 at swissprot
  • Вывод
  • Bl2Seq at NCBI
  • Bl2seq results
  • Bl2seq оценка
  • Оптимизация времени вычислений при парном выравнивании
  • Slide 9
  • Алгоритм BLAST (шаг 1)
  • Slide 11
  • Blast
  • Поиск гомологов
  • ДНК или белок
  • ДНК
  • Slide 16
  • Slide 17
  • Двойная спираль
  • ДНК дальнейшая упаковка
  • Slide 20
  • Репликация ДНК
  • Slide 22
  • Slide 23
  • Slide 24
  • Slide 25
  • Множественное выравнивание последовательностей (MSA)
  • Slide 27
  • Основные предположения
  • Например
  • Почему множественное выравнивание
  • Slide 31
  • Подходы в MSA
  • MSA algorithm
  • Multiple Alignment - алгоритм
  • Комментарии
  • GCG
  • Slide 37
  • GCG
  • Slide 39
  • Slide 40
  • Slide 41
  • ClustalW
  • Slide 43
  • Slide 44
  • ClustalW на EMBL
  • ClustalW на EMBL - результат
  • ClustalW at EMBL - Jalview
  • Consensus Sequence
  • Профиль (Profile)
  • Profile vs Consensus
  • Slide 51
  • Slide 52
  • Psi Blast (NCBI)
  • PSI-Blast
  • Psi-Blast вывод
  • Slide 56
  • Филогенез
  • Slide 58
  • Slide 59
  • Slide 60
  • Slide 61
  • Древо видов и генов
  • Ортологи и паралоги
  • Шаги реконструирования филогенетического древа
  • Филогенетическое дерево
  • Зачем нужны филогенетические деревья
  • Терминология
  • Slide 68
  • Какие бывают деревья
  • Slide 70
  • Slide 71
  • Slide 72
  • 4 OTUs 3 неукорененных филогенетических деревьев
  • Slide 74
  • Slide 75
  • Slide 76
  • Slide 77
  • Рутинная процедура или как строят деревья
  • Slide 79
  • Slide 80
  • Slide 81
  • Slide 82
  • Slide 83
  • Slide 84
  • Slide 85
  • Slide 86
  • Slide 87
  • Slide 88
  • Slide 89
  • Как выбирать последовательности для дерева
  • Самое главное ndash хорошее выравнивание
  • Основные алгоритмы построения филогенетических деревьев
  • Пример матрицы расстояний
  • Slide 94
  • Гипотеза laquoмолекулярных часовraquo (EZuckerkandl LPauling 1962)
  • UPGMA Unweighted Pair Group Method with Arithmetic Mean
  • Недостатки UPGMA
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Метод Neighbor-joining
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Slide 101
  • Как изобразить дерево Топология дерева
  • Slide 103
  • Какие on-line программы строят деревья
  • MEGA филогенетический анализ последовательностей
  • Slide 106
  • Slide 107
  • Slide 108
Page 50: Bestfit Output

Profile vs Consensus

Consensus каждая позиция отражает наиболее часто встречающийся символ

Profile каждая позиция отражает частоту символа в данной позиции

Profile vs Consensus

Данный MSA будет иметь одинаковый consensus

A A C T T G C

A A G T C G T

C A C T T C T

A A C T T G T

A A C T T G T

A A C T T C T

A A C T T G T

Profile vs Consensus

Но разный профиль

A A C T T G C

A A G T C G T

C A C T T C T

A A C T T G T

A A C T T G T

A A C T T C T

1 2 3 4 5 6

A 066 1 0 0

T 0 0 0 1

C 033 0 066 0

G 0 0 033 0

1 2 3 4 5 6

A 1 1 0 0

T 0 0 0 1

C 0 0 1 0

G 0 0 0 0

Psi Blast (NCBI)

Position Specific Iterated ndash автоматизированный поиск по профилю

Regular blast

Construct profile from blast results

Blast profile search

Final results

PSI-Blast

Psi-Blast вывод

Проблема формулировки выводов при использовании МSA

1 Сайт выглядит общим (фиксированным) из-за того что это ndash близкородственные последовательности

2 Сайт выглядит общим из-за того что это ndash исключительно жизненно важный сайт

ФилогенезЭволюция ndash случайный процесс с неслучайным результатом

Цели филогенетического исследования

bull Реконструкция корректных генеалогических связей

между биологическими объектами

bull Оценка времени расхождения организмов

bull Определение порядка эволюционных событий в процессе

эволюции

Формат Newick

((A(BC))(DE))

Типы данных

Molecular (DNA RNA proteins)

Morphological (soft tissue hard tissue extant extinct)

Преимущества молекулярных данных

bull Наследуемость

bull Недвусмысленность в описании молекулярных характеристик

bull Поддаются количественному анализу

bull Оценка гомологии легче чем морфологические исследования

bull Данных много

Древо видов и геновbull Древо видов ndash эволюционные взаимосвязи

между видами (видообразование)bull Древо генов

Page RDM and Cotton JC (2000) GeneTree a tool for exploring gene family evolution In D Sankoff and J Nadeau (eds) Comparative Genomics Empirical and Analytical Approaches to Gene Order Dynamics Map Alignment and the Evolution of Gene Families Kluwer Academic Publishers Dordrecht pp 525-536

Figure 2 (a) Incongruent gene and species trees This incongruence can be explained by hypothesizing a gene duplication (h) at the base of the gene tree (b)The presence of only a single gene (a-d) extant in each of the present-day species(1-4) requires postulating three gene losses (c) The corresponding reconciled tree

Ортологи и паралоги

bull Гены-паралоги ndash событие дупликация (and

bull Гены-ортологи ndash событие видообразования (in the two species and in the two species

Duplication

Speciation

Species a Species b

Шаги реконструирования филогенетического

древа

1 Выбор последовательностей и поиск гомологов

2 MSA3 Матрица белков4 Филогенетическое дерево

Филогенетическое дерево

Филогения - раздел биологии изучающий родственные взаимоотношения разных групп живых организмов Филогению отображается обычно в виде эволюционных древ или систематических названий

Зачем нужны филогенетические деревья

Биологические задачи

сравнение 3-х и более объектов (кто на кого более похож )

реконструкция эволюции (кто от кого как и когда произошелhellip)

ТерминологияУзел (node) mdash точка разделения предковой последовательности(вида популяции) на две независимо эволюционирующиеСоответствует внутренней вершине графа изображающего эволюциюЛист (leaf OTU ndash оперативная таксономическая единица) mdash реальный (современный) объект внешняя вершина графаВетвь (branch) mdash связь между узлами или между узлом и листом ребро графаКорень (root) mdash общий предокКлада (clade) - группа двух или более таксонов или последователь-ностей ДНК которая включает как своего общего предка так и всех его потомков

OTU

HTU (hypotetical taxonomic unit)

Какие бывают деревья

Бинарное (разрешённое)(в один момент времени может

произойти только одно событие )

Небинарное (неразрешённое) (может ли в один момент времени

произойти два события )

Время

Какие бывают деревья

Укорененное дерево (rooted tree)отражает направление эволюции

Неукорененное (бескорневое) дерево(unrooted tree) показывает только связи между узлами

Время

Если число листьев равно n существует (2n-3)разных бинарных укоренных деревьевПо определению (2n-3) = 1middot3 middot middot(2n-3)

Существует (2n-5) разных бескорневых деревьев с n листьями

Rooting

A C B B C AA B C

3 OTUs 3 OTUs 1 н 1 неукорененное деревоеукорененное дерево 33 укорененных деревьев укорененных деревьев

A

B

C

D

C

A

B

4 OTUs 4 OTUs 3 3 неукорененных филогенетических неукорененных филогенетических деревьевдеревьев

D

B

A

C C

B

A

D

4 OTUs

15 укорененных

деревьев

Количество Количество Количество

OTU укорененных неукорененных

2 1 13 3 14 15 35 105 156 954 1057 103959548 135135 103959 2027025 13513510 34459425 202702511 654729075 3445942512 13749310575 654729075

Количество возможных деревьев

Рутинная процедура или как строят деревья

Составление выборки последовательностей

Множественное выравнивание

Построение дерева фрагмент записи в виде скобочной формулы

Визуализация и редактура дерева

(((((con1013851018(f539692826973((f67220839851max42750591)492893con923019677)1362315)953075)2583145

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Множественное выравнивание

Matches

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Multiple Alignment

Matches

Mismatches

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Multiple Alignment

Matches

Mismatches

Gaps

Seq 1 A G C G A GSeq 1 A G C G A GSeq 2 G C G G A CSeq 2 G C G G A C

Шаг 3 Перевод количества расхождений в индексы замен

Distance Matrix

Units количество замен нуклеотидов на 1000

Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86

Rice 00 118 122 122

Mosquito 00 55 51

Monkey 00 3

Human 00

Шаг 4 построение филогенетического дерева

Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86

Rice 00 118 122 122

Mosquito 00 55 51

Monkey 00 3

Human 00

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Дистанция между человеком и обезьяной минимальна Эти группы объединяются в Monkey-Human а все остальные дистанции пересчитываются

Dist[Spinach MonHum] = (Dist[Spinach Monkey] +

Dist[Spinach Human])2 = (91 + 86)2 = 885

Spinach Rice Mosquito Mon-HumSpinach 00 9 106 885

Rice 00 118 122

Mosquito 00 53

Mon-Hum 00

Редуцированная матрица дистанций

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Spi-Ric

HumanMosquito

Mon-Hum

MonkeySpinachRice

Mos-Mon-Hum

Spi-Ric

Mos-Mon-Hum-Spi-Ric

Как выбирать последовательности для дерева

Кроме случаев очень близких последовательностей проще работать с белками (а не с ДНК)

Придерживайтесь небольшой выборки (lt 50 последовательностей)

Избегайтеndash фрагментовndash Ксенологов (горизонтальный перенос генов)ndash рекомбинантных последовательностейndash многодоменных белков и повторов

Используйте outgroup (последовательность ответвившаяся от общего предка заведомо (но минимально) раньше разделения интересующих групп-клад)

Самое главное ndash хорошее выравнивание

Максимальный вклад в финальное дерево нельзя построить хорошее дерево по плохому выравниванию

Блоки содержащие много гэпов плохо выровненные N- и C- концы можно просто вырезать

Основные алгоритмы построения филогенетических деревьев

Методы основанные на оценке

расстояний (матричные методы)

bull UPGMA (кластеризация)

bull Neighbor-joining

bull Минимальная эволюция

Наибольшего правдоподобия Maximal likelihood ML Используется модель эволюции и строится дерево которое наиболее правдоподобно при данной модели

Максимальной экономии (бережливости)

maximal parsimony MP Выбирается дерево с минимальным количеством

мутаций необходимых для объяснения данных

Пример матрицы расстояний

1 2 3 4 5 6 7 8 000 1053 977 1278 1203 1654 1353 2500 HUMAN 1

000 902 1203 977 1579 902 2727 HORSE 2 000 977 902 1654 1203 2424 RABIT 3

000 226 1729 1053 2576 MOUSE 4 000 1579 827 2576 RAT 5

000 1053 2955 BOVIN 6 000 2500 PIG 7

000 CHICK 8

Расстояние (уровень дивергенции) между соответствующими последовательностями из геномов мыши и свиньи

Как понимать расстояние между объектами

bull Как время в течение которого они эволюционировалиbull Как число laquoэволюционных событийraquo (мутаций)

В первом случае объекты образуют ультраметрическое пространство(если все объекты наблюдаются в одно время что как правило верно)

Но время непосредственно измерить невозможно

Гипотеза laquoмолекулярных часовraquo(EZuckerkandl LPauling 1962)

За равное время во всех ветвях эволюции данного генабелка накапливается равное число мутацийЕсли гипотеза молекулярных часов

принимается число различий между выровненными последовательностями можно считать примерно пропорциональным времени Отклонения от ультраметричности можно считать случайными Эволюция реконструируется в виде ультраметрического дерева

Укоренённое дерево называется ультраметрическим если расстояние от корня до любого из листьев одинаково

UPGMAUnweighted Pair Group Method with Arithmetic Mean

разновидность кластерного метода

Расстояние между кластерами вычисляется как среднее арифметическое всевозможных расстояний между последовательностями из кластеров

Недостатки UPGMA

Алгоритм строит ультраметрическое дерево ndash скорость эволюции предполагается одинаковой для всех ветвей дерева Использовать этот алгоритм имеет смысл только в случае ультраметрических данных (справедливости laquoмолекулярных часовraquo)

Реальное дерево UPGMA

Метод ближайших соседей (Neighbor-joining NJ)

Строит неукоренённое дерево

Может работать с большим количеством данных

Достаточно быстрый

Если есть недвусмысленное с точки зрения эксперта дерево то оно будет построено

Метод Neighbor-joining

Рисуем laquoзвездноеraquo дерево и будем laquoотщипыватьraquo от него по паре листьев

Пусть ui = Σk Mik(n-2) mdash среднее расстояние от листа i до других

листьев

1 Рассмотрим все возможные пары листьев Выберем 2 листа i и j с минимальным значением величины

Mij ndash ui ndashuj

те выбираем 2 узла которые близки друг к другу но далеки ото всех остальных

Метод ближайших соседей (Neighbor-joining NJ)

2 Кластер (i j) ndash новый узел дерева

Расстояние от i или от j до узла (ij) D(i (ij)) = 05middot(Mij + ui ndash uj) D(j (ij)) = 05middot (Mij + uj ndash ui) те длина ветви зависит от среднего расстояния до других вершин

3 Вычисляем расстояние от нового кластера до всех других

M(ij)k = Mik+Mjk ndash Mij 2

5 В матрице М убираем i и j и добавляем (i j) Повторяем пока не останутся 3 узла

Input MSA для n последовательностей одна последовательность для каждого вида

AAAAATC

AAAAAAG

CCCCCCG

AAAAATCAAAAAAG

CCCCCCG

Длинная ветвь ndash непохоже на правду

Длинная ветвь -Похоже на правду

Методы основанные на последовательностях Maximum Likelihood (ML) Maximum Parsimony (MP)

Как изобразить дерево Топология дерева

Топология дерева mdash только листья узлы (корень) и связывающие их ветви (топология не зависит от способа изображения дерева)

A

B

C

D

E A BC D E

Два изображения одной и той же топологии

Bacterium 1

Bacterium 3

Bacterium 2

Eukaryote 1

Eukaryote 4

Eukaryote 3

Eukaryote 2

Bacterium 1

Bacterium 3Bacterium 2

Eukaryote 1

Eukaryote 4Eukaryote 3

Eukaryote 2

Филограммы ndash длины ветвей

пропорциональны

эволюционному расстоянию

Кладограммы и филограммы

Кладограммы ndash только

топологя Длины ветвей не

учитываются

6

31

2

46

24

53

Как можно нарисовать построенное дерево

Какие on-line программы строят деревья

ClustalW ldquoTree typerdquo ndash nj phylip строит только методом NJ но результат ndash в разных форматах no bootstraps

Phylip (Felsenstein 1993) ndash пакет программ для построения филогенетических деревьев (stand-alone)On-line (partly) например

httpbiowebpasteurfrseqanalphylogenyphylip-ukhtml PAUP (Phylogenetic Analysis Using Parsimony)

MEGA филогенетический анализ последовательностей

httpwwwmegasoftwarenet

Эволюция ndash исторический процесс

Из 8200794532637891559375 деревьев для 20 OTUs 1

является верным и 8200794532637891559374

неверны

Truth is one falsehoods are many

Какое из 8200794532637891559375

деревьев истинно

Мы не знаем Можно применить иные критетии

Например ldquoпохожесть=родствоraquo

GCGbull Строковый поиск простой текстовый

поиск по локальной базе данных

bull Поиск в определениях или в аннотациях

bull Определения содержат минимальное количество информации для каждой статьи доступ имя организма имя гена длина последовательности дата

  • Bestfit Output
  • SP1 at swissprot
  • EGR1 at swissprot
  • Вывод
  • Bl2Seq at NCBI
  • Bl2seq results
  • Bl2seq оценка
  • Оптимизация времени вычислений при парном выравнивании
  • Slide 9
  • Алгоритм BLAST (шаг 1)
  • Slide 11
  • Blast
  • Поиск гомологов
  • ДНК или белок
  • ДНК
  • Slide 16
  • Slide 17
  • Двойная спираль
  • ДНК дальнейшая упаковка
  • Slide 20
  • Репликация ДНК
  • Slide 22
  • Slide 23
  • Slide 24
  • Slide 25
  • Множественное выравнивание последовательностей (MSA)
  • Slide 27
  • Основные предположения
  • Например
  • Почему множественное выравнивание
  • Slide 31
  • Подходы в MSA
  • MSA algorithm
  • Multiple Alignment - алгоритм
  • Комментарии
  • GCG
  • Slide 37
  • GCG
  • Slide 39
  • Slide 40
  • Slide 41
  • ClustalW
  • Slide 43
  • Slide 44
  • ClustalW на EMBL
  • ClustalW на EMBL - результат
  • ClustalW at EMBL - Jalview
  • Consensus Sequence
  • Профиль (Profile)
  • Profile vs Consensus
  • Slide 51
  • Slide 52
  • Psi Blast (NCBI)
  • PSI-Blast
  • Psi-Blast вывод
  • Slide 56
  • Филогенез
  • Slide 58
  • Slide 59
  • Slide 60
  • Slide 61
  • Древо видов и генов
  • Ортологи и паралоги
  • Шаги реконструирования филогенетического древа
  • Филогенетическое дерево
  • Зачем нужны филогенетические деревья
  • Терминология
  • Slide 68
  • Какие бывают деревья
  • Slide 70
  • Slide 71
  • Slide 72
  • 4 OTUs 3 неукорененных филогенетических деревьев
  • Slide 74
  • Slide 75
  • Slide 76
  • Slide 77
  • Рутинная процедура или как строят деревья
  • Slide 79
  • Slide 80
  • Slide 81
  • Slide 82
  • Slide 83
  • Slide 84
  • Slide 85
  • Slide 86
  • Slide 87
  • Slide 88
  • Slide 89
  • Как выбирать последовательности для дерева
  • Самое главное ndash хорошее выравнивание
  • Основные алгоритмы построения филогенетических деревьев
  • Пример матрицы расстояний
  • Slide 94
  • Гипотеза laquoмолекулярных часовraquo (EZuckerkandl LPauling 1962)
  • UPGMA Unweighted Pair Group Method with Arithmetic Mean
  • Недостатки UPGMA
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Метод Neighbor-joining
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Slide 101
  • Как изобразить дерево Топология дерева
  • Slide 103
  • Какие on-line программы строят деревья
  • MEGA филогенетический анализ последовательностей
  • Slide 106
  • Slide 107
  • Slide 108
Page 51: Bestfit Output

Profile vs Consensus

Данный MSA будет иметь одинаковый consensus

A A C T T G C

A A G T C G T

C A C T T C T

A A C T T G T

A A C T T G T

A A C T T C T

A A C T T G T

Profile vs Consensus

Но разный профиль

A A C T T G C

A A G T C G T

C A C T T C T

A A C T T G T

A A C T T G T

A A C T T C T

1 2 3 4 5 6

A 066 1 0 0

T 0 0 0 1

C 033 0 066 0

G 0 0 033 0

1 2 3 4 5 6

A 1 1 0 0

T 0 0 0 1

C 0 0 1 0

G 0 0 0 0

Psi Blast (NCBI)

Position Specific Iterated ndash автоматизированный поиск по профилю

Regular blast

Construct profile from blast results

Blast profile search

Final results

PSI-Blast

Psi-Blast вывод

Проблема формулировки выводов при использовании МSA

1 Сайт выглядит общим (фиксированным) из-за того что это ndash близкородственные последовательности

2 Сайт выглядит общим из-за того что это ndash исключительно жизненно важный сайт

ФилогенезЭволюция ndash случайный процесс с неслучайным результатом

Цели филогенетического исследования

bull Реконструкция корректных генеалогических связей

между биологическими объектами

bull Оценка времени расхождения организмов

bull Определение порядка эволюционных событий в процессе

эволюции

Формат Newick

((A(BC))(DE))

Типы данных

Molecular (DNA RNA proteins)

Morphological (soft tissue hard tissue extant extinct)

Преимущества молекулярных данных

bull Наследуемость

bull Недвусмысленность в описании молекулярных характеристик

bull Поддаются количественному анализу

bull Оценка гомологии легче чем морфологические исследования

bull Данных много

Древо видов и геновbull Древо видов ndash эволюционные взаимосвязи

между видами (видообразование)bull Древо генов

Page RDM and Cotton JC (2000) GeneTree a tool for exploring gene family evolution In D Sankoff and J Nadeau (eds) Comparative Genomics Empirical and Analytical Approaches to Gene Order Dynamics Map Alignment and the Evolution of Gene Families Kluwer Academic Publishers Dordrecht pp 525-536

Figure 2 (a) Incongruent gene and species trees This incongruence can be explained by hypothesizing a gene duplication (h) at the base of the gene tree (b)The presence of only a single gene (a-d) extant in each of the present-day species(1-4) requires postulating three gene losses (c) The corresponding reconciled tree

Ортологи и паралоги

bull Гены-паралоги ndash событие дупликация (and

bull Гены-ортологи ndash событие видообразования (in the two species and in the two species

Duplication

Speciation

Species a Species b

Шаги реконструирования филогенетического

древа

1 Выбор последовательностей и поиск гомологов

2 MSA3 Матрица белков4 Филогенетическое дерево

Филогенетическое дерево

Филогения - раздел биологии изучающий родственные взаимоотношения разных групп живых организмов Филогению отображается обычно в виде эволюционных древ или систематических названий

Зачем нужны филогенетические деревья

Биологические задачи

сравнение 3-х и более объектов (кто на кого более похож )

реконструкция эволюции (кто от кого как и когда произошелhellip)

ТерминологияУзел (node) mdash точка разделения предковой последовательности(вида популяции) на две независимо эволюционирующиеСоответствует внутренней вершине графа изображающего эволюциюЛист (leaf OTU ndash оперативная таксономическая единица) mdash реальный (современный) объект внешняя вершина графаВетвь (branch) mdash связь между узлами или между узлом и листом ребро графаКорень (root) mdash общий предокКлада (clade) - группа двух или более таксонов или последователь-ностей ДНК которая включает как своего общего предка так и всех его потомков

OTU

HTU (hypotetical taxonomic unit)

Какие бывают деревья

Бинарное (разрешённое)(в один момент времени может

произойти только одно событие )

Небинарное (неразрешённое) (может ли в один момент времени

произойти два события )

Время

Какие бывают деревья

Укорененное дерево (rooted tree)отражает направление эволюции

Неукорененное (бескорневое) дерево(unrooted tree) показывает только связи между узлами

Время

Если число листьев равно n существует (2n-3)разных бинарных укоренных деревьевПо определению (2n-3) = 1middot3 middot middot(2n-3)

Существует (2n-5) разных бескорневых деревьев с n листьями

Rooting

A C B B C AA B C

3 OTUs 3 OTUs 1 н 1 неукорененное деревоеукорененное дерево 33 укорененных деревьев укорененных деревьев

A

B

C

D

C

A

B

4 OTUs 4 OTUs 3 3 неукорененных филогенетических неукорененных филогенетических деревьевдеревьев

D

B

A

C C

B

A

D

4 OTUs

15 укорененных

деревьев

Количество Количество Количество

OTU укорененных неукорененных

2 1 13 3 14 15 35 105 156 954 1057 103959548 135135 103959 2027025 13513510 34459425 202702511 654729075 3445942512 13749310575 654729075

Количество возможных деревьев

Рутинная процедура или как строят деревья

Составление выборки последовательностей

Множественное выравнивание

Построение дерева фрагмент записи в виде скобочной формулы

Визуализация и редактура дерева

(((((con1013851018(f539692826973((f67220839851max42750591)492893con923019677)1362315)953075)2583145

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Множественное выравнивание

Matches

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Multiple Alignment

Matches

Mismatches

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Multiple Alignment

Matches

Mismatches

Gaps

Seq 1 A G C G A GSeq 1 A G C G A GSeq 2 G C G G A CSeq 2 G C G G A C

Шаг 3 Перевод количества расхождений в индексы замен

Distance Matrix

Units количество замен нуклеотидов на 1000

Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86

Rice 00 118 122 122

Mosquito 00 55 51

Monkey 00 3

Human 00

Шаг 4 построение филогенетического дерева

Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86

Rice 00 118 122 122

Mosquito 00 55 51

Monkey 00 3

Human 00

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Дистанция между человеком и обезьяной минимальна Эти группы объединяются в Monkey-Human а все остальные дистанции пересчитываются

Dist[Spinach MonHum] = (Dist[Spinach Monkey] +

Dist[Spinach Human])2 = (91 + 86)2 = 885

Spinach Rice Mosquito Mon-HumSpinach 00 9 106 885

Rice 00 118 122

Mosquito 00 53

Mon-Hum 00

Редуцированная матрица дистанций

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Spi-Ric

HumanMosquito

Mon-Hum

MonkeySpinachRice

Mos-Mon-Hum

Spi-Ric

Mos-Mon-Hum-Spi-Ric

Как выбирать последовательности для дерева

Кроме случаев очень близких последовательностей проще работать с белками (а не с ДНК)

Придерживайтесь небольшой выборки (lt 50 последовательностей)

Избегайтеndash фрагментовndash Ксенологов (горизонтальный перенос генов)ndash рекомбинантных последовательностейndash многодоменных белков и повторов

Используйте outgroup (последовательность ответвившаяся от общего предка заведомо (но минимально) раньше разделения интересующих групп-клад)

Самое главное ndash хорошее выравнивание

Максимальный вклад в финальное дерево нельзя построить хорошее дерево по плохому выравниванию

Блоки содержащие много гэпов плохо выровненные N- и C- концы можно просто вырезать

Основные алгоритмы построения филогенетических деревьев

Методы основанные на оценке

расстояний (матричные методы)

bull UPGMA (кластеризация)

bull Neighbor-joining

bull Минимальная эволюция

Наибольшего правдоподобия Maximal likelihood ML Используется модель эволюции и строится дерево которое наиболее правдоподобно при данной модели

Максимальной экономии (бережливости)

maximal parsimony MP Выбирается дерево с минимальным количеством

мутаций необходимых для объяснения данных

Пример матрицы расстояний

1 2 3 4 5 6 7 8 000 1053 977 1278 1203 1654 1353 2500 HUMAN 1

000 902 1203 977 1579 902 2727 HORSE 2 000 977 902 1654 1203 2424 RABIT 3

000 226 1729 1053 2576 MOUSE 4 000 1579 827 2576 RAT 5

000 1053 2955 BOVIN 6 000 2500 PIG 7

000 CHICK 8

Расстояние (уровень дивергенции) между соответствующими последовательностями из геномов мыши и свиньи

Как понимать расстояние между объектами

bull Как время в течение которого они эволюционировалиbull Как число laquoэволюционных событийraquo (мутаций)

В первом случае объекты образуют ультраметрическое пространство(если все объекты наблюдаются в одно время что как правило верно)

Но время непосредственно измерить невозможно

Гипотеза laquoмолекулярных часовraquo(EZuckerkandl LPauling 1962)

За равное время во всех ветвях эволюции данного генабелка накапливается равное число мутацийЕсли гипотеза молекулярных часов

принимается число различий между выровненными последовательностями можно считать примерно пропорциональным времени Отклонения от ультраметричности можно считать случайными Эволюция реконструируется в виде ультраметрического дерева

Укоренённое дерево называется ультраметрическим если расстояние от корня до любого из листьев одинаково

UPGMAUnweighted Pair Group Method with Arithmetic Mean

разновидность кластерного метода

Расстояние между кластерами вычисляется как среднее арифметическое всевозможных расстояний между последовательностями из кластеров

Недостатки UPGMA

Алгоритм строит ультраметрическое дерево ndash скорость эволюции предполагается одинаковой для всех ветвей дерева Использовать этот алгоритм имеет смысл только в случае ультраметрических данных (справедливости laquoмолекулярных часовraquo)

Реальное дерево UPGMA

Метод ближайших соседей (Neighbor-joining NJ)

Строит неукоренённое дерево

Может работать с большим количеством данных

Достаточно быстрый

Если есть недвусмысленное с точки зрения эксперта дерево то оно будет построено

Метод Neighbor-joining

Рисуем laquoзвездноеraquo дерево и будем laquoотщипыватьraquo от него по паре листьев

Пусть ui = Σk Mik(n-2) mdash среднее расстояние от листа i до других

листьев

1 Рассмотрим все возможные пары листьев Выберем 2 листа i и j с минимальным значением величины

Mij ndash ui ndashuj

те выбираем 2 узла которые близки друг к другу но далеки ото всех остальных

Метод ближайших соседей (Neighbor-joining NJ)

2 Кластер (i j) ndash новый узел дерева

Расстояние от i или от j до узла (ij) D(i (ij)) = 05middot(Mij + ui ndash uj) D(j (ij)) = 05middot (Mij + uj ndash ui) те длина ветви зависит от среднего расстояния до других вершин

3 Вычисляем расстояние от нового кластера до всех других

M(ij)k = Mik+Mjk ndash Mij 2

5 В матрице М убираем i и j и добавляем (i j) Повторяем пока не останутся 3 узла

Input MSA для n последовательностей одна последовательность для каждого вида

AAAAATC

AAAAAAG

CCCCCCG

AAAAATCAAAAAAG

CCCCCCG

Длинная ветвь ndash непохоже на правду

Длинная ветвь -Похоже на правду

Методы основанные на последовательностях Maximum Likelihood (ML) Maximum Parsimony (MP)

Как изобразить дерево Топология дерева

Топология дерева mdash только листья узлы (корень) и связывающие их ветви (топология не зависит от способа изображения дерева)

A

B

C

D

E A BC D E

Два изображения одной и той же топологии

Bacterium 1

Bacterium 3

Bacterium 2

Eukaryote 1

Eukaryote 4

Eukaryote 3

Eukaryote 2

Bacterium 1

Bacterium 3Bacterium 2

Eukaryote 1

Eukaryote 4Eukaryote 3

Eukaryote 2

Филограммы ndash длины ветвей

пропорциональны

эволюционному расстоянию

Кладограммы и филограммы

Кладограммы ndash только

топологя Длины ветвей не

учитываются

6

31

2

46

24

53

Как можно нарисовать построенное дерево

Какие on-line программы строят деревья

ClustalW ldquoTree typerdquo ndash nj phylip строит только методом NJ но результат ndash в разных форматах no bootstraps

Phylip (Felsenstein 1993) ndash пакет программ для построения филогенетических деревьев (stand-alone)On-line (partly) например

httpbiowebpasteurfrseqanalphylogenyphylip-ukhtml PAUP (Phylogenetic Analysis Using Parsimony)

MEGA филогенетический анализ последовательностей

httpwwwmegasoftwarenet

Эволюция ndash исторический процесс

Из 8200794532637891559375 деревьев для 20 OTUs 1

является верным и 8200794532637891559374

неверны

Truth is one falsehoods are many

Какое из 8200794532637891559375

деревьев истинно

Мы не знаем Можно применить иные критетии

Например ldquoпохожесть=родствоraquo

GCGbull Строковый поиск простой текстовый

поиск по локальной базе данных

bull Поиск в определениях или в аннотациях

bull Определения содержат минимальное количество информации для каждой статьи доступ имя организма имя гена длина последовательности дата

  • Bestfit Output
  • SP1 at swissprot
  • EGR1 at swissprot
  • Вывод
  • Bl2Seq at NCBI
  • Bl2seq results
  • Bl2seq оценка
  • Оптимизация времени вычислений при парном выравнивании
  • Slide 9
  • Алгоритм BLAST (шаг 1)
  • Slide 11
  • Blast
  • Поиск гомологов
  • ДНК или белок
  • ДНК
  • Slide 16
  • Slide 17
  • Двойная спираль
  • ДНК дальнейшая упаковка
  • Slide 20
  • Репликация ДНК
  • Slide 22
  • Slide 23
  • Slide 24
  • Slide 25
  • Множественное выравнивание последовательностей (MSA)
  • Slide 27
  • Основные предположения
  • Например
  • Почему множественное выравнивание
  • Slide 31
  • Подходы в MSA
  • MSA algorithm
  • Multiple Alignment - алгоритм
  • Комментарии
  • GCG
  • Slide 37
  • GCG
  • Slide 39
  • Slide 40
  • Slide 41
  • ClustalW
  • Slide 43
  • Slide 44
  • ClustalW на EMBL
  • ClustalW на EMBL - результат
  • ClustalW at EMBL - Jalview
  • Consensus Sequence
  • Профиль (Profile)
  • Profile vs Consensus
  • Slide 51
  • Slide 52
  • Psi Blast (NCBI)
  • PSI-Blast
  • Psi-Blast вывод
  • Slide 56
  • Филогенез
  • Slide 58
  • Slide 59
  • Slide 60
  • Slide 61
  • Древо видов и генов
  • Ортологи и паралоги
  • Шаги реконструирования филогенетического древа
  • Филогенетическое дерево
  • Зачем нужны филогенетические деревья
  • Терминология
  • Slide 68
  • Какие бывают деревья
  • Slide 70
  • Slide 71
  • Slide 72
  • 4 OTUs 3 неукорененных филогенетических деревьев
  • Slide 74
  • Slide 75
  • Slide 76
  • Slide 77
  • Рутинная процедура или как строят деревья
  • Slide 79
  • Slide 80
  • Slide 81
  • Slide 82
  • Slide 83
  • Slide 84
  • Slide 85
  • Slide 86
  • Slide 87
  • Slide 88
  • Slide 89
  • Как выбирать последовательности для дерева
  • Самое главное ndash хорошее выравнивание
  • Основные алгоритмы построения филогенетических деревьев
  • Пример матрицы расстояний
  • Slide 94
  • Гипотеза laquoмолекулярных часовraquo (EZuckerkandl LPauling 1962)
  • UPGMA Unweighted Pair Group Method with Arithmetic Mean
  • Недостатки UPGMA
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Метод Neighbor-joining
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Slide 101
  • Как изобразить дерево Топология дерева
  • Slide 103
  • Какие on-line программы строят деревья
  • MEGA филогенетический анализ последовательностей
  • Slide 106
  • Slide 107
  • Slide 108
Page 52: Bestfit Output

Profile vs Consensus

Но разный профиль

A A C T T G C

A A G T C G T

C A C T T C T

A A C T T G T

A A C T T G T

A A C T T C T

1 2 3 4 5 6

A 066 1 0 0

T 0 0 0 1

C 033 0 066 0

G 0 0 033 0

1 2 3 4 5 6

A 1 1 0 0

T 0 0 0 1

C 0 0 1 0

G 0 0 0 0

Psi Blast (NCBI)

Position Specific Iterated ndash автоматизированный поиск по профилю

Regular blast

Construct profile from blast results

Blast profile search

Final results

PSI-Blast

Psi-Blast вывод

Проблема формулировки выводов при использовании МSA

1 Сайт выглядит общим (фиксированным) из-за того что это ndash близкородственные последовательности

2 Сайт выглядит общим из-за того что это ndash исключительно жизненно важный сайт

ФилогенезЭволюция ndash случайный процесс с неслучайным результатом

Цели филогенетического исследования

bull Реконструкция корректных генеалогических связей

между биологическими объектами

bull Оценка времени расхождения организмов

bull Определение порядка эволюционных событий в процессе

эволюции

Формат Newick

((A(BC))(DE))

Типы данных

Molecular (DNA RNA proteins)

Morphological (soft tissue hard tissue extant extinct)

Преимущества молекулярных данных

bull Наследуемость

bull Недвусмысленность в описании молекулярных характеристик

bull Поддаются количественному анализу

bull Оценка гомологии легче чем морфологические исследования

bull Данных много

Древо видов и геновbull Древо видов ndash эволюционные взаимосвязи

между видами (видообразование)bull Древо генов

Page RDM and Cotton JC (2000) GeneTree a tool for exploring gene family evolution In D Sankoff and J Nadeau (eds) Comparative Genomics Empirical and Analytical Approaches to Gene Order Dynamics Map Alignment and the Evolution of Gene Families Kluwer Academic Publishers Dordrecht pp 525-536

Figure 2 (a) Incongruent gene and species trees This incongruence can be explained by hypothesizing a gene duplication (h) at the base of the gene tree (b)The presence of only a single gene (a-d) extant in each of the present-day species(1-4) requires postulating three gene losses (c) The corresponding reconciled tree

Ортологи и паралоги

bull Гены-паралоги ndash событие дупликация (and

bull Гены-ортологи ndash событие видообразования (in the two species and in the two species

Duplication

Speciation

Species a Species b

Шаги реконструирования филогенетического

древа

1 Выбор последовательностей и поиск гомологов

2 MSA3 Матрица белков4 Филогенетическое дерево

Филогенетическое дерево

Филогения - раздел биологии изучающий родственные взаимоотношения разных групп живых организмов Филогению отображается обычно в виде эволюционных древ или систематических названий

Зачем нужны филогенетические деревья

Биологические задачи

сравнение 3-х и более объектов (кто на кого более похож )

реконструкция эволюции (кто от кого как и когда произошелhellip)

ТерминологияУзел (node) mdash точка разделения предковой последовательности(вида популяции) на две независимо эволюционирующиеСоответствует внутренней вершине графа изображающего эволюциюЛист (leaf OTU ndash оперативная таксономическая единица) mdash реальный (современный) объект внешняя вершина графаВетвь (branch) mdash связь между узлами или между узлом и листом ребро графаКорень (root) mdash общий предокКлада (clade) - группа двух или более таксонов или последователь-ностей ДНК которая включает как своего общего предка так и всех его потомков

OTU

HTU (hypotetical taxonomic unit)

Какие бывают деревья

Бинарное (разрешённое)(в один момент времени может

произойти только одно событие )

Небинарное (неразрешённое) (может ли в один момент времени

произойти два события )

Время

Какие бывают деревья

Укорененное дерево (rooted tree)отражает направление эволюции

Неукорененное (бескорневое) дерево(unrooted tree) показывает только связи между узлами

Время

Если число листьев равно n существует (2n-3)разных бинарных укоренных деревьевПо определению (2n-3) = 1middot3 middot middot(2n-3)

Существует (2n-5) разных бескорневых деревьев с n листьями

Rooting

A C B B C AA B C

3 OTUs 3 OTUs 1 н 1 неукорененное деревоеукорененное дерево 33 укорененных деревьев укорененных деревьев

A

B

C

D

C

A

B

4 OTUs 4 OTUs 3 3 неукорененных филогенетических неукорененных филогенетических деревьевдеревьев

D

B

A

C C

B

A

D

4 OTUs

15 укорененных

деревьев

Количество Количество Количество

OTU укорененных неукорененных

2 1 13 3 14 15 35 105 156 954 1057 103959548 135135 103959 2027025 13513510 34459425 202702511 654729075 3445942512 13749310575 654729075

Количество возможных деревьев

Рутинная процедура или как строят деревья

Составление выборки последовательностей

Множественное выравнивание

Построение дерева фрагмент записи в виде скобочной формулы

Визуализация и редактура дерева

(((((con1013851018(f539692826973((f67220839851max42750591)492893con923019677)1362315)953075)2583145

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Множественное выравнивание

Matches

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Multiple Alignment

Matches

Mismatches

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Multiple Alignment

Matches

Mismatches

Gaps

Seq 1 A G C G A GSeq 1 A G C G A GSeq 2 G C G G A CSeq 2 G C G G A C

Шаг 3 Перевод количества расхождений в индексы замен

Distance Matrix

Units количество замен нуклеотидов на 1000

Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86

Rice 00 118 122 122

Mosquito 00 55 51

Monkey 00 3

Human 00

Шаг 4 построение филогенетического дерева

Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86

Rice 00 118 122 122

Mosquito 00 55 51

Monkey 00 3

Human 00

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Дистанция между человеком и обезьяной минимальна Эти группы объединяются в Monkey-Human а все остальные дистанции пересчитываются

Dist[Spinach MonHum] = (Dist[Spinach Monkey] +

Dist[Spinach Human])2 = (91 + 86)2 = 885

Spinach Rice Mosquito Mon-HumSpinach 00 9 106 885

Rice 00 118 122

Mosquito 00 53

Mon-Hum 00

Редуцированная матрица дистанций

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Spi-Ric

HumanMosquito

Mon-Hum

MonkeySpinachRice

Mos-Mon-Hum

Spi-Ric

Mos-Mon-Hum-Spi-Ric

Как выбирать последовательности для дерева

Кроме случаев очень близких последовательностей проще работать с белками (а не с ДНК)

Придерживайтесь небольшой выборки (lt 50 последовательностей)

Избегайтеndash фрагментовndash Ксенологов (горизонтальный перенос генов)ndash рекомбинантных последовательностейndash многодоменных белков и повторов

Используйте outgroup (последовательность ответвившаяся от общего предка заведомо (но минимально) раньше разделения интересующих групп-клад)

Самое главное ndash хорошее выравнивание

Максимальный вклад в финальное дерево нельзя построить хорошее дерево по плохому выравниванию

Блоки содержащие много гэпов плохо выровненные N- и C- концы можно просто вырезать

Основные алгоритмы построения филогенетических деревьев

Методы основанные на оценке

расстояний (матричные методы)

bull UPGMA (кластеризация)

bull Neighbor-joining

bull Минимальная эволюция

Наибольшего правдоподобия Maximal likelihood ML Используется модель эволюции и строится дерево которое наиболее правдоподобно при данной модели

Максимальной экономии (бережливости)

maximal parsimony MP Выбирается дерево с минимальным количеством

мутаций необходимых для объяснения данных

Пример матрицы расстояний

1 2 3 4 5 6 7 8 000 1053 977 1278 1203 1654 1353 2500 HUMAN 1

000 902 1203 977 1579 902 2727 HORSE 2 000 977 902 1654 1203 2424 RABIT 3

000 226 1729 1053 2576 MOUSE 4 000 1579 827 2576 RAT 5

000 1053 2955 BOVIN 6 000 2500 PIG 7

000 CHICK 8

Расстояние (уровень дивергенции) между соответствующими последовательностями из геномов мыши и свиньи

Как понимать расстояние между объектами

bull Как время в течение которого они эволюционировалиbull Как число laquoэволюционных событийraquo (мутаций)

В первом случае объекты образуют ультраметрическое пространство(если все объекты наблюдаются в одно время что как правило верно)

Но время непосредственно измерить невозможно

Гипотеза laquoмолекулярных часовraquo(EZuckerkandl LPauling 1962)

За равное время во всех ветвях эволюции данного генабелка накапливается равное число мутацийЕсли гипотеза молекулярных часов

принимается число различий между выровненными последовательностями можно считать примерно пропорциональным времени Отклонения от ультраметричности можно считать случайными Эволюция реконструируется в виде ультраметрического дерева

Укоренённое дерево называется ультраметрическим если расстояние от корня до любого из листьев одинаково

UPGMAUnweighted Pair Group Method with Arithmetic Mean

разновидность кластерного метода

Расстояние между кластерами вычисляется как среднее арифметическое всевозможных расстояний между последовательностями из кластеров

Недостатки UPGMA

Алгоритм строит ультраметрическое дерево ndash скорость эволюции предполагается одинаковой для всех ветвей дерева Использовать этот алгоритм имеет смысл только в случае ультраметрических данных (справедливости laquoмолекулярных часовraquo)

Реальное дерево UPGMA

Метод ближайших соседей (Neighbor-joining NJ)

Строит неукоренённое дерево

Может работать с большим количеством данных

Достаточно быстрый

Если есть недвусмысленное с точки зрения эксперта дерево то оно будет построено

Метод Neighbor-joining

Рисуем laquoзвездноеraquo дерево и будем laquoотщипыватьraquo от него по паре листьев

Пусть ui = Σk Mik(n-2) mdash среднее расстояние от листа i до других

листьев

1 Рассмотрим все возможные пары листьев Выберем 2 листа i и j с минимальным значением величины

Mij ndash ui ndashuj

те выбираем 2 узла которые близки друг к другу но далеки ото всех остальных

Метод ближайших соседей (Neighbor-joining NJ)

2 Кластер (i j) ndash новый узел дерева

Расстояние от i или от j до узла (ij) D(i (ij)) = 05middot(Mij + ui ndash uj) D(j (ij)) = 05middot (Mij + uj ndash ui) те длина ветви зависит от среднего расстояния до других вершин

3 Вычисляем расстояние от нового кластера до всех других

M(ij)k = Mik+Mjk ndash Mij 2

5 В матрице М убираем i и j и добавляем (i j) Повторяем пока не останутся 3 узла

Input MSA для n последовательностей одна последовательность для каждого вида

AAAAATC

AAAAAAG

CCCCCCG

AAAAATCAAAAAAG

CCCCCCG

Длинная ветвь ndash непохоже на правду

Длинная ветвь -Похоже на правду

Методы основанные на последовательностях Maximum Likelihood (ML) Maximum Parsimony (MP)

Как изобразить дерево Топология дерева

Топология дерева mdash только листья узлы (корень) и связывающие их ветви (топология не зависит от способа изображения дерева)

A

B

C

D

E A BC D E

Два изображения одной и той же топологии

Bacterium 1

Bacterium 3

Bacterium 2

Eukaryote 1

Eukaryote 4

Eukaryote 3

Eukaryote 2

Bacterium 1

Bacterium 3Bacterium 2

Eukaryote 1

Eukaryote 4Eukaryote 3

Eukaryote 2

Филограммы ndash длины ветвей

пропорциональны

эволюционному расстоянию

Кладограммы и филограммы

Кладограммы ndash только

топологя Длины ветвей не

учитываются

6

31

2

46

24

53

Как можно нарисовать построенное дерево

Какие on-line программы строят деревья

ClustalW ldquoTree typerdquo ndash nj phylip строит только методом NJ но результат ndash в разных форматах no bootstraps

Phylip (Felsenstein 1993) ndash пакет программ для построения филогенетических деревьев (stand-alone)On-line (partly) например

httpbiowebpasteurfrseqanalphylogenyphylip-ukhtml PAUP (Phylogenetic Analysis Using Parsimony)

MEGA филогенетический анализ последовательностей

httpwwwmegasoftwarenet

Эволюция ndash исторический процесс

Из 8200794532637891559375 деревьев для 20 OTUs 1

является верным и 8200794532637891559374

неверны

Truth is one falsehoods are many

Какое из 8200794532637891559375

деревьев истинно

Мы не знаем Можно применить иные критетии

Например ldquoпохожесть=родствоraquo

GCGbull Строковый поиск простой текстовый

поиск по локальной базе данных

bull Поиск в определениях или в аннотациях

bull Определения содержат минимальное количество информации для каждой статьи доступ имя организма имя гена длина последовательности дата

  • Bestfit Output
  • SP1 at swissprot
  • EGR1 at swissprot
  • Вывод
  • Bl2Seq at NCBI
  • Bl2seq results
  • Bl2seq оценка
  • Оптимизация времени вычислений при парном выравнивании
  • Slide 9
  • Алгоритм BLAST (шаг 1)
  • Slide 11
  • Blast
  • Поиск гомологов
  • ДНК или белок
  • ДНК
  • Slide 16
  • Slide 17
  • Двойная спираль
  • ДНК дальнейшая упаковка
  • Slide 20
  • Репликация ДНК
  • Slide 22
  • Slide 23
  • Slide 24
  • Slide 25
  • Множественное выравнивание последовательностей (MSA)
  • Slide 27
  • Основные предположения
  • Например
  • Почему множественное выравнивание
  • Slide 31
  • Подходы в MSA
  • MSA algorithm
  • Multiple Alignment - алгоритм
  • Комментарии
  • GCG
  • Slide 37
  • GCG
  • Slide 39
  • Slide 40
  • Slide 41
  • ClustalW
  • Slide 43
  • Slide 44
  • ClustalW на EMBL
  • ClustalW на EMBL - результат
  • ClustalW at EMBL - Jalview
  • Consensus Sequence
  • Профиль (Profile)
  • Profile vs Consensus
  • Slide 51
  • Slide 52
  • Psi Blast (NCBI)
  • PSI-Blast
  • Psi-Blast вывод
  • Slide 56
  • Филогенез
  • Slide 58
  • Slide 59
  • Slide 60
  • Slide 61
  • Древо видов и генов
  • Ортологи и паралоги
  • Шаги реконструирования филогенетического древа
  • Филогенетическое дерево
  • Зачем нужны филогенетические деревья
  • Терминология
  • Slide 68
  • Какие бывают деревья
  • Slide 70
  • Slide 71
  • Slide 72
  • 4 OTUs 3 неукорененных филогенетических деревьев
  • Slide 74
  • Slide 75
  • Slide 76
  • Slide 77
  • Рутинная процедура или как строят деревья
  • Slide 79
  • Slide 80
  • Slide 81
  • Slide 82
  • Slide 83
  • Slide 84
  • Slide 85
  • Slide 86
  • Slide 87
  • Slide 88
  • Slide 89
  • Как выбирать последовательности для дерева
  • Самое главное ndash хорошее выравнивание
  • Основные алгоритмы построения филогенетических деревьев
  • Пример матрицы расстояний
  • Slide 94
  • Гипотеза laquoмолекулярных часовraquo (EZuckerkandl LPauling 1962)
  • UPGMA Unweighted Pair Group Method with Arithmetic Mean
  • Недостатки UPGMA
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Метод Neighbor-joining
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Slide 101
  • Как изобразить дерево Топология дерева
  • Slide 103
  • Какие on-line программы строят деревья
  • MEGA филогенетический анализ последовательностей
  • Slide 106
  • Slide 107
  • Slide 108
Page 53: Bestfit Output

Psi Blast (NCBI)

Position Specific Iterated ndash автоматизированный поиск по профилю

Regular blast

Construct profile from blast results

Blast profile search

Final results

PSI-Blast

Psi-Blast вывод

Проблема формулировки выводов при использовании МSA

1 Сайт выглядит общим (фиксированным) из-за того что это ndash близкородственные последовательности

2 Сайт выглядит общим из-за того что это ndash исключительно жизненно важный сайт

ФилогенезЭволюция ndash случайный процесс с неслучайным результатом

Цели филогенетического исследования

bull Реконструкция корректных генеалогических связей

между биологическими объектами

bull Оценка времени расхождения организмов

bull Определение порядка эволюционных событий в процессе

эволюции

Формат Newick

((A(BC))(DE))

Типы данных

Molecular (DNA RNA proteins)

Morphological (soft tissue hard tissue extant extinct)

Преимущества молекулярных данных

bull Наследуемость

bull Недвусмысленность в описании молекулярных характеристик

bull Поддаются количественному анализу

bull Оценка гомологии легче чем морфологические исследования

bull Данных много

Древо видов и геновbull Древо видов ndash эволюционные взаимосвязи

между видами (видообразование)bull Древо генов

Page RDM and Cotton JC (2000) GeneTree a tool for exploring gene family evolution In D Sankoff and J Nadeau (eds) Comparative Genomics Empirical and Analytical Approaches to Gene Order Dynamics Map Alignment and the Evolution of Gene Families Kluwer Academic Publishers Dordrecht pp 525-536

Figure 2 (a) Incongruent gene and species trees This incongruence can be explained by hypothesizing a gene duplication (h) at the base of the gene tree (b)The presence of only a single gene (a-d) extant in each of the present-day species(1-4) requires postulating three gene losses (c) The corresponding reconciled tree

Ортологи и паралоги

bull Гены-паралоги ndash событие дупликация (and

bull Гены-ортологи ndash событие видообразования (in the two species and in the two species

Duplication

Speciation

Species a Species b

Шаги реконструирования филогенетического

древа

1 Выбор последовательностей и поиск гомологов

2 MSA3 Матрица белков4 Филогенетическое дерево

Филогенетическое дерево

Филогения - раздел биологии изучающий родственные взаимоотношения разных групп живых организмов Филогению отображается обычно в виде эволюционных древ или систематических названий

Зачем нужны филогенетические деревья

Биологические задачи

сравнение 3-х и более объектов (кто на кого более похож )

реконструкция эволюции (кто от кого как и когда произошелhellip)

ТерминологияУзел (node) mdash точка разделения предковой последовательности(вида популяции) на две независимо эволюционирующиеСоответствует внутренней вершине графа изображающего эволюциюЛист (leaf OTU ndash оперативная таксономическая единица) mdash реальный (современный) объект внешняя вершина графаВетвь (branch) mdash связь между узлами или между узлом и листом ребро графаКорень (root) mdash общий предокКлада (clade) - группа двух или более таксонов или последователь-ностей ДНК которая включает как своего общего предка так и всех его потомков

OTU

HTU (hypotetical taxonomic unit)

Какие бывают деревья

Бинарное (разрешённое)(в один момент времени может

произойти только одно событие )

Небинарное (неразрешённое) (может ли в один момент времени

произойти два события )

Время

Какие бывают деревья

Укорененное дерево (rooted tree)отражает направление эволюции

Неукорененное (бескорневое) дерево(unrooted tree) показывает только связи между узлами

Время

Если число листьев равно n существует (2n-3)разных бинарных укоренных деревьевПо определению (2n-3) = 1middot3 middot middot(2n-3)

Существует (2n-5) разных бескорневых деревьев с n листьями

Rooting

A C B B C AA B C

3 OTUs 3 OTUs 1 н 1 неукорененное деревоеукорененное дерево 33 укорененных деревьев укорененных деревьев

A

B

C

D

C

A

B

4 OTUs 4 OTUs 3 3 неукорененных филогенетических неукорененных филогенетических деревьевдеревьев

D

B

A

C C

B

A

D

4 OTUs

15 укорененных

деревьев

Количество Количество Количество

OTU укорененных неукорененных

2 1 13 3 14 15 35 105 156 954 1057 103959548 135135 103959 2027025 13513510 34459425 202702511 654729075 3445942512 13749310575 654729075

Количество возможных деревьев

Рутинная процедура или как строят деревья

Составление выборки последовательностей

Множественное выравнивание

Построение дерева фрагмент записи в виде скобочной формулы

Визуализация и редактура дерева

(((((con1013851018(f539692826973((f67220839851max42750591)492893con923019677)1362315)953075)2583145

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Множественное выравнивание

Matches

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Multiple Alignment

Matches

Mismatches

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Multiple Alignment

Matches

Mismatches

Gaps

Seq 1 A G C G A GSeq 1 A G C G A GSeq 2 G C G G A CSeq 2 G C G G A C

Шаг 3 Перевод количества расхождений в индексы замен

Distance Matrix

Units количество замен нуклеотидов на 1000

Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86

Rice 00 118 122 122

Mosquito 00 55 51

Monkey 00 3

Human 00

Шаг 4 построение филогенетического дерева

Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86

Rice 00 118 122 122

Mosquito 00 55 51

Monkey 00 3

Human 00

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Дистанция между человеком и обезьяной минимальна Эти группы объединяются в Monkey-Human а все остальные дистанции пересчитываются

Dist[Spinach MonHum] = (Dist[Spinach Monkey] +

Dist[Spinach Human])2 = (91 + 86)2 = 885

Spinach Rice Mosquito Mon-HumSpinach 00 9 106 885

Rice 00 118 122

Mosquito 00 53

Mon-Hum 00

Редуцированная матрица дистанций

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Spi-Ric

HumanMosquito

Mon-Hum

MonkeySpinachRice

Mos-Mon-Hum

Spi-Ric

Mos-Mon-Hum-Spi-Ric

Как выбирать последовательности для дерева

Кроме случаев очень близких последовательностей проще работать с белками (а не с ДНК)

Придерживайтесь небольшой выборки (lt 50 последовательностей)

Избегайтеndash фрагментовndash Ксенологов (горизонтальный перенос генов)ndash рекомбинантных последовательностейndash многодоменных белков и повторов

Используйте outgroup (последовательность ответвившаяся от общего предка заведомо (но минимально) раньше разделения интересующих групп-клад)

Самое главное ndash хорошее выравнивание

Максимальный вклад в финальное дерево нельзя построить хорошее дерево по плохому выравниванию

Блоки содержащие много гэпов плохо выровненные N- и C- концы можно просто вырезать

Основные алгоритмы построения филогенетических деревьев

Методы основанные на оценке

расстояний (матричные методы)

bull UPGMA (кластеризация)

bull Neighbor-joining

bull Минимальная эволюция

Наибольшего правдоподобия Maximal likelihood ML Используется модель эволюции и строится дерево которое наиболее правдоподобно при данной модели

Максимальной экономии (бережливости)

maximal parsimony MP Выбирается дерево с минимальным количеством

мутаций необходимых для объяснения данных

Пример матрицы расстояний

1 2 3 4 5 6 7 8 000 1053 977 1278 1203 1654 1353 2500 HUMAN 1

000 902 1203 977 1579 902 2727 HORSE 2 000 977 902 1654 1203 2424 RABIT 3

000 226 1729 1053 2576 MOUSE 4 000 1579 827 2576 RAT 5

000 1053 2955 BOVIN 6 000 2500 PIG 7

000 CHICK 8

Расстояние (уровень дивергенции) между соответствующими последовательностями из геномов мыши и свиньи

Как понимать расстояние между объектами

bull Как время в течение которого они эволюционировалиbull Как число laquoэволюционных событийraquo (мутаций)

В первом случае объекты образуют ультраметрическое пространство(если все объекты наблюдаются в одно время что как правило верно)

Но время непосредственно измерить невозможно

Гипотеза laquoмолекулярных часовraquo(EZuckerkandl LPauling 1962)

За равное время во всех ветвях эволюции данного генабелка накапливается равное число мутацийЕсли гипотеза молекулярных часов

принимается число различий между выровненными последовательностями можно считать примерно пропорциональным времени Отклонения от ультраметричности можно считать случайными Эволюция реконструируется в виде ультраметрического дерева

Укоренённое дерево называется ультраметрическим если расстояние от корня до любого из листьев одинаково

UPGMAUnweighted Pair Group Method with Arithmetic Mean

разновидность кластерного метода

Расстояние между кластерами вычисляется как среднее арифметическое всевозможных расстояний между последовательностями из кластеров

Недостатки UPGMA

Алгоритм строит ультраметрическое дерево ndash скорость эволюции предполагается одинаковой для всех ветвей дерева Использовать этот алгоритм имеет смысл только в случае ультраметрических данных (справедливости laquoмолекулярных часовraquo)

Реальное дерево UPGMA

Метод ближайших соседей (Neighbor-joining NJ)

Строит неукоренённое дерево

Может работать с большим количеством данных

Достаточно быстрый

Если есть недвусмысленное с точки зрения эксперта дерево то оно будет построено

Метод Neighbor-joining

Рисуем laquoзвездноеraquo дерево и будем laquoотщипыватьraquo от него по паре листьев

Пусть ui = Σk Mik(n-2) mdash среднее расстояние от листа i до других

листьев

1 Рассмотрим все возможные пары листьев Выберем 2 листа i и j с минимальным значением величины

Mij ndash ui ndashuj

те выбираем 2 узла которые близки друг к другу но далеки ото всех остальных

Метод ближайших соседей (Neighbor-joining NJ)

2 Кластер (i j) ndash новый узел дерева

Расстояние от i или от j до узла (ij) D(i (ij)) = 05middot(Mij + ui ndash uj) D(j (ij)) = 05middot (Mij + uj ndash ui) те длина ветви зависит от среднего расстояния до других вершин

3 Вычисляем расстояние от нового кластера до всех других

M(ij)k = Mik+Mjk ndash Mij 2

5 В матрице М убираем i и j и добавляем (i j) Повторяем пока не останутся 3 узла

Input MSA для n последовательностей одна последовательность для каждого вида

AAAAATC

AAAAAAG

CCCCCCG

AAAAATCAAAAAAG

CCCCCCG

Длинная ветвь ndash непохоже на правду

Длинная ветвь -Похоже на правду

Методы основанные на последовательностях Maximum Likelihood (ML) Maximum Parsimony (MP)

Как изобразить дерево Топология дерева

Топология дерева mdash только листья узлы (корень) и связывающие их ветви (топология не зависит от способа изображения дерева)

A

B

C

D

E A BC D E

Два изображения одной и той же топологии

Bacterium 1

Bacterium 3

Bacterium 2

Eukaryote 1

Eukaryote 4

Eukaryote 3

Eukaryote 2

Bacterium 1

Bacterium 3Bacterium 2

Eukaryote 1

Eukaryote 4Eukaryote 3

Eukaryote 2

Филограммы ndash длины ветвей

пропорциональны

эволюционному расстоянию

Кладограммы и филограммы

Кладограммы ndash только

топологя Длины ветвей не

учитываются

6

31

2

46

24

53

Как можно нарисовать построенное дерево

Какие on-line программы строят деревья

ClustalW ldquoTree typerdquo ndash nj phylip строит только методом NJ но результат ndash в разных форматах no bootstraps

Phylip (Felsenstein 1993) ndash пакет программ для построения филогенетических деревьев (stand-alone)On-line (partly) например

httpbiowebpasteurfrseqanalphylogenyphylip-ukhtml PAUP (Phylogenetic Analysis Using Parsimony)

MEGA филогенетический анализ последовательностей

httpwwwmegasoftwarenet

Эволюция ndash исторический процесс

Из 8200794532637891559375 деревьев для 20 OTUs 1

является верным и 8200794532637891559374

неверны

Truth is one falsehoods are many

Какое из 8200794532637891559375

деревьев истинно

Мы не знаем Можно применить иные критетии

Например ldquoпохожесть=родствоraquo

GCGbull Строковый поиск простой текстовый

поиск по локальной базе данных

bull Поиск в определениях или в аннотациях

bull Определения содержат минимальное количество информации для каждой статьи доступ имя организма имя гена длина последовательности дата

  • Bestfit Output
  • SP1 at swissprot
  • EGR1 at swissprot
  • Вывод
  • Bl2Seq at NCBI
  • Bl2seq results
  • Bl2seq оценка
  • Оптимизация времени вычислений при парном выравнивании
  • Slide 9
  • Алгоритм BLAST (шаг 1)
  • Slide 11
  • Blast
  • Поиск гомологов
  • ДНК или белок
  • ДНК
  • Slide 16
  • Slide 17
  • Двойная спираль
  • ДНК дальнейшая упаковка
  • Slide 20
  • Репликация ДНК
  • Slide 22
  • Slide 23
  • Slide 24
  • Slide 25
  • Множественное выравнивание последовательностей (MSA)
  • Slide 27
  • Основные предположения
  • Например
  • Почему множественное выравнивание
  • Slide 31
  • Подходы в MSA
  • MSA algorithm
  • Multiple Alignment - алгоритм
  • Комментарии
  • GCG
  • Slide 37
  • GCG
  • Slide 39
  • Slide 40
  • Slide 41
  • ClustalW
  • Slide 43
  • Slide 44
  • ClustalW на EMBL
  • ClustalW на EMBL - результат
  • ClustalW at EMBL - Jalview
  • Consensus Sequence
  • Профиль (Profile)
  • Profile vs Consensus
  • Slide 51
  • Slide 52
  • Psi Blast (NCBI)
  • PSI-Blast
  • Psi-Blast вывод
  • Slide 56
  • Филогенез
  • Slide 58
  • Slide 59
  • Slide 60
  • Slide 61
  • Древо видов и генов
  • Ортологи и паралоги
  • Шаги реконструирования филогенетического древа
  • Филогенетическое дерево
  • Зачем нужны филогенетические деревья
  • Терминология
  • Slide 68
  • Какие бывают деревья
  • Slide 70
  • Slide 71
  • Slide 72
  • 4 OTUs 3 неукорененных филогенетических деревьев
  • Slide 74
  • Slide 75
  • Slide 76
  • Slide 77
  • Рутинная процедура или как строят деревья
  • Slide 79
  • Slide 80
  • Slide 81
  • Slide 82
  • Slide 83
  • Slide 84
  • Slide 85
  • Slide 86
  • Slide 87
  • Slide 88
  • Slide 89
  • Как выбирать последовательности для дерева
  • Самое главное ndash хорошее выравнивание
  • Основные алгоритмы построения филогенетических деревьев
  • Пример матрицы расстояний
  • Slide 94
  • Гипотеза laquoмолекулярных часовraquo (EZuckerkandl LPauling 1962)
  • UPGMA Unweighted Pair Group Method with Arithmetic Mean
  • Недостатки UPGMA
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Метод Neighbor-joining
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Slide 101
  • Как изобразить дерево Топология дерева
  • Slide 103
  • Какие on-line программы строят деревья
  • MEGA филогенетический анализ последовательностей
  • Slide 106
  • Slide 107
  • Slide 108
Page 54: Bestfit Output

PSI-Blast

Psi-Blast вывод

Проблема формулировки выводов при использовании МSA

1 Сайт выглядит общим (фиксированным) из-за того что это ndash близкородственные последовательности

2 Сайт выглядит общим из-за того что это ndash исключительно жизненно важный сайт

ФилогенезЭволюция ndash случайный процесс с неслучайным результатом

Цели филогенетического исследования

bull Реконструкция корректных генеалогических связей

между биологическими объектами

bull Оценка времени расхождения организмов

bull Определение порядка эволюционных событий в процессе

эволюции

Формат Newick

((A(BC))(DE))

Типы данных

Molecular (DNA RNA proteins)

Morphological (soft tissue hard tissue extant extinct)

Преимущества молекулярных данных

bull Наследуемость

bull Недвусмысленность в описании молекулярных характеристик

bull Поддаются количественному анализу

bull Оценка гомологии легче чем морфологические исследования

bull Данных много

Древо видов и геновbull Древо видов ndash эволюционные взаимосвязи

между видами (видообразование)bull Древо генов

Page RDM and Cotton JC (2000) GeneTree a tool for exploring gene family evolution In D Sankoff and J Nadeau (eds) Comparative Genomics Empirical and Analytical Approaches to Gene Order Dynamics Map Alignment and the Evolution of Gene Families Kluwer Academic Publishers Dordrecht pp 525-536

Figure 2 (a) Incongruent gene and species trees This incongruence can be explained by hypothesizing a gene duplication (h) at the base of the gene tree (b)The presence of only a single gene (a-d) extant in each of the present-day species(1-4) requires postulating three gene losses (c) The corresponding reconciled tree

Ортологи и паралоги

bull Гены-паралоги ndash событие дупликация (and

bull Гены-ортологи ndash событие видообразования (in the two species and in the two species

Duplication

Speciation

Species a Species b

Шаги реконструирования филогенетического

древа

1 Выбор последовательностей и поиск гомологов

2 MSA3 Матрица белков4 Филогенетическое дерево

Филогенетическое дерево

Филогения - раздел биологии изучающий родственные взаимоотношения разных групп живых организмов Филогению отображается обычно в виде эволюционных древ или систематических названий

Зачем нужны филогенетические деревья

Биологические задачи

сравнение 3-х и более объектов (кто на кого более похож )

реконструкция эволюции (кто от кого как и когда произошелhellip)

ТерминологияУзел (node) mdash точка разделения предковой последовательности(вида популяции) на две независимо эволюционирующиеСоответствует внутренней вершине графа изображающего эволюциюЛист (leaf OTU ndash оперативная таксономическая единица) mdash реальный (современный) объект внешняя вершина графаВетвь (branch) mdash связь между узлами или между узлом и листом ребро графаКорень (root) mdash общий предокКлада (clade) - группа двух или более таксонов или последователь-ностей ДНК которая включает как своего общего предка так и всех его потомков

OTU

HTU (hypotetical taxonomic unit)

Какие бывают деревья

Бинарное (разрешённое)(в один момент времени может

произойти только одно событие )

Небинарное (неразрешённое) (может ли в один момент времени

произойти два события )

Время

Какие бывают деревья

Укорененное дерево (rooted tree)отражает направление эволюции

Неукорененное (бескорневое) дерево(unrooted tree) показывает только связи между узлами

Время

Если число листьев равно n существует (2n-3)разных бинарных укоренных деревьевПо определению (2n-3) = 1middot3 middot middot(2n-3)

Существует (2n-5) разных бескорневых деревьев с n листьями

Rooting

A C B B C AA B C

3 OTUs 3 OTUs 1 н 1 неукорененное деревоеукорененное дерево 33 укорененных деревьев укорененных деревьев

A

B

C

D

C

A

B

4 OTUs 4 OTUs 3 3 неукорененных филогенетических неукорененных филогенетических деревьевдеревьев

D

B

A

C C

B

A

D

4 OTUs

15 укорененных

деревьев

Количество Количество Количество

OTU укорененных неукорененных

2 1 13 3 14 15 35 105 156 954 1057 103959548 135135 103959 2027025 13513510 34459425 202702511 654729075 3445942512 13749310575 654729075

Количество возможных деревьев

Рутинная процедура или как строят деревья

Составление выборки последовательностей

Множественное выравнивание

Построение дерева фрагмент записи в виде скобочной формулы

Визуализация и редактура дерева

(((((con1013851018(f539692826973((f67220839851max42750591)492893con923019677)1362315)953075)2583145

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Множественное выравнивание

Matches

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Multiple Alignment

Matches

Mismatches

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Multiple Alignment

Matches

Mismatches

Gaps

Seq 1 A G C G A GSeq 1 A G C G A GSeq 2 G C G G A CSeq 2 G C G G A C

Шаг 3 Перевод количества расхождений в индексы замен

Distance Matrix

Units количество замен нуклеотидов на 1000

Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86

Rice 00 118 122 122

Mosquito 00 55 51

Monkey 00 3

Human 00

Шаг 4 построение филогенетического дерева

Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86

Rice 00 118 122 122

Mosquito 00 55 51

Monkey 00 3

Human 00

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Дистанция между человеком и обезьяной минимальна Эти группы объединяются в Monkey-Human а все остальные дистанции пересчитываются

Dist[Spinach MonHum] = (Dist[Spinach Monkey] +

Dist[Spinach Human])2 = (91 + 86)2 = 885

Spinach Rice Mosquito Mon-HumSpinach 00 9 106 885

Rice 00 118 122

Mosquito 00 53

Mon-Hum 00

Редуцированная матрица дистанций

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Spi-Ric

HumanMosquito

Mon-Hum

MonkeySpinachRice

Mos-Mon-Hum

Spi-Ric

Mos-Mon-Hum-Spi-Ric

Как выбирать последовательности для дерева

Кроме случаев очень близких последовательностей проще работать с белками (а не с ДНК)

Придерживайтесь небольшой выборки (lt 50 последовательностей)

Избегайтеndash фрагментовndash Ксенологов (горизонтальный перенос генов)ndash рекомбинантных последовательностейndash многодоменных белков и повторов

Используйте outgroup (последовательность ответвившаяся от общего предка заведомо (но минимально) раньше разделения интересующих групп-клад)

Самое главное ndash хорошее выравнивание

Максимальный вклад в финальное дерево нельзя построить хорошее дерево по плохому выравниванию

Блоки содержащие много гэпов плохо выровненные N- и C- концы можно просто вырезать

Основные алгоритмы построения филогенетических деревьев

Методы основанные на оценке

расстояний (матричные методы)

bull UPGMA (кластеризация)

bull Neighbor-joining

bull Минимальная эволюция

Наибольшего правдоподобия Maximal likelihood ML Используется модель эволюции и строится дерево которое наиболее правдоподобно при данной модели

Максимальной экономии (бережливости)

maximal parsimony MP Выбирается дерево с минимальным количеством

мутаций необходимых для объяснения данных

Пример матрицы расстояний

1 2 3 4 5 6 7 8 000 1053 977 1278 1203 1654 1353 2500 HUMAN 1

000 902 1203 977 1579 902 2727 HORSE 2 000 977 902 1654 1203 2424 RABIT 3

000 226 1729 1053 2576 MOUSE 4 000 1579 827 2576 RAT 5

000 1053 2955 BOVIN 6 000 2500 PIG 7

000 CHICK 8

Расстояние (уровень дивергенции) между соответствующими последовательностями из геномов мыши и свиньи

Как понимать расстояние между объектами

bull Как время в течение которого они эволюционировалиbull Как число laquoэволюционных событийraquo (мутаций)

В первом случае объекты образуют ультраметрическое пространство(если все объекты наблюдаются в одно время что как правило верно)

Но время непосредственно измерить невозможно

Гипотеза laquoмолекулярных часовraquo(EZuckerkandl LPauling 1962)

За равное время во всех ветвях эволюции данного генабелка накапливается равное число мутацийЕсли гипотеза молекулярных часов

принимается число различий между выровненными последовательностями можно считать примерно пропорциональным времени Отклонения от ультраметричности можно считать случайными Эволюция реконструируется в виде ультраметрического дерева

Укоренённое дерево называется ультраметрическим если расстояние от корня до любого из листьев одинаково

UPGMAUnweighted Pair Group Method with Arithmetic Mean

разновидность кластерного метода

Расстояние между кластерами вычисляется как среднее арифметическое всевозможных расстояний между последовательностями из кластеров

Недостатки UPGMA

Алгоритм строит ультраметрическое дерево ndash скорость эволюции предполагается одинаковой для всех ветвей дерева Использовать этот алгоритм имеет смысл только в случае ультраметрических данных (справедливости laquoмолекулярных часовraquo)

Реальное дерево UPGMA

Метод ближайших соседей (Neighbor-joining NJ)

Строит неукоренённое дерево

Может работать с большим количеством данных

Достаточно быстрый

Если есть недвусмысленное с точки зрения эксперта дерево то оно будет построено

Метод Neighbor-joining

Рисуем laquoзвездноеraquo дерево и будем laquoотщипыватьraquo от него по паре листьев

Пусть ui = Σk Mik(n-2) mdash среднее расстояние от листа i до других

листьев

1 Рассмотрим все возможные пары листьев Выберем 2 листа i и j с минимальным значением величины

Mij ndash ui ndashuj

те выбираем 2 узла которые близки друг к другу но далеки ото всех остальных

Метод ближайших соседей (Neighbor-joining NJ)

2 Кластер (i j) ndash новый узел дерева

Расстояние от i или от j до узла (ij) D(i (ij)) = 05middot(Mij + ui ndash uj) D(j (ij)) = 05middot (Mij + uj ndash ui) те длина ветви зависит от среднего расстояния до других вершин

3 Вычисляем расстояние от нового кластера до всех других

M(ij)k = Mik+Mjk ndash Mij 2

5 В матрице М убираем i и j и добавляем (i j) Повторяем пока не останутся 3 узла

Input MSA для n последовательностей одна последовательность для каждого вида

AAAAATC

AAAAAAG

CCCCCCG

AAAAATCAAAAAAG

CCCCCCG

Длинная ветвь ndash непохоже на правду

Длинная ветвь -Похоже на правду

Методы основанные на последовательностях Maximum Likelihood (ML) Maximum Parsimony (MP)

Как изобразить дерево Топология дерева

Топология дерева mdash только листья узлы (корень) и связывающие их ветви (топология не зависит от способа изображения дерева)

A

B

C

D

E A BC D E

Два изображения одной и той же топологии

Bacterium 1

Bacterium 3

Bacterium 2

Eukaryote 1

Eukaryote 4

Eukaryote 3

Eukaryote 2

Bacterium 1

Bacterium 3Bacterium 2

Eukaryote 1

Eukaryote 4Eukaryote 3

Eukaryote 2

Филограммы ndash длины ветвей

пропорциональны

эволюционному расстоянию

Кладограммы и филограммы

Кладограммы ndash только

топологя Длины ветвей не

учитываются

6

31

2

46

24

53

Как можно нарисовать построенное дерево

Какие on-line программы строят деревья

ClustalW ldquoTree typerdquo ndash nj phylip строит только методом NJ но результат ndash в разных форматах no bootstraps

Phylip (Felsenstein 1993) ndash пакет программ для построения филогенетических деревьев (stand-alone)On-line (partly) например

httpbiowebpasteurfrseqanalphylogenyphylip-ukhtml PAUP (Phylogenetic Analysis Using Parsimony)

MEGA филогенетический анализ последовательностей

httpwwwmegasoftwarenet

Эволюция ndash исторический процесс

Из 8200794532637891559375 деревьев для 20 OTUs 1

является верным и 8200794532637891559374

неверны

Truth is one falsehoods are many

Какое из 8200794532637891559375

деревьев истинно

Мы не знаем Можно применить иные критетии

Например ldquoпохожесть=родствоraquo

GCGbull Строковый поиск простой текстовый

поиск по локальной базе данных

bull Поиск в определениях или в аннотациях

bull Определения содержат минимальное количество информации для каждой статьи доступ имя организма имя гена длина последовательности дата

  • Bestfit Output
  • SP1 at swissprot
  • EGR1 at swissprot
  • Вывод
  • Bl2Seq at NCBI
  • Bl2seq results
  • Bl2seq оценка
  • Оптимизация времени вычислений при парном выравнивании
  • Slide 9
  • Алгоритм BLAST (шаг 1)
  • Slide 11
  • Blast
  • Поиск гомологов
  • ДНК или белок
  • ДНК
  • Slide 16
  • Slide 17
  • Двойная спираль
  • ДНК дальнейшая упаковка
  • Slide 20
  • Репликация ДНК
  • Slide 22
  • Slide 23
  • Slide 24
  • Slide 25
  • Множественное выравнивание последовательностей (MSA)
  • Slide 27
  • Основные предположения
  • Например
  • Почему множественное выравнивание
  • Slide 31
  • Подходы в MSA
  • MSA algorithm
  • Multiple Alignment - алгоритм
  • Комментарии
  • GCG
  • Slide 37
  • GCG
  • Slide 39
  • Slide 40
  • Slide 41
  • ClustalW
  • Slide 43
  • Slide 44
  • ClustalW на EMBL
  • ClustalW на EMBL - результат
  • ClustalW at EMBL - Jalview
  • Consensus Sequence
  • Профиль (Profile)
  • Profile vs Consensus
  • Slide 51
  • Slide 52
  • Psi Blast (NCBI)
  • PSI-Blast
  • Psi-Blast вывод
  • Slide 56
  • Филогенез
  • Slide 58
  • Slide 59
  • Slide 60
  • Slide 61
  • Древо видов и генов
  • Ортологи и паралоги
  • Шаги реконструирования филогенетического древа
  • Филогенетическое дерево
  • Зачем нужны филогенетические деревья
  • Терминология
  • Slide 68
  • Какие бывают деревья
  • Slide 70
  • Slide 71
  • Slide 72
  • 4 OTUs 3 неукорененных филогенетических деревьев
  • Slide 74
  • Slide 75
  • Slide 76
  • Slide 77
  • Рутинная процедура или как строят деревья
  • Slide 79
  • Slide 80
  • Slide 81
  • Slide 82
  • Slide 83
  • Slide 84
  • Slide 85
  • Slide 86
  • Slide 87
  • Slide 88
  • Slide 89
  • Как выбирать последовательности для дерева
  • Самое главное ndash хорошее выравнивание
  • Основные алгоритмы построения филогенетических деревьев
  • Пример матрицы расстояний
  • Slide 94
  • Гипотеза laquoмолекулярных часовraquo (EZuckerkandl LPauling 1962)
  • UPGMA Unweighted Pair Group Method with Arithmetic Mean
  • Недостатки UPGMA
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Метод Neighbor-joining
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Slide 101
  • Как изобразить дерево Топология дерева
  • Slide 103
  • Какие on-line программы строят деревья
  • MEGA филогенетический анализ последовательностей
  • Slide 106
  • Slide 107
  • Slide 108
Page 55: Bestfit Output

Psi-Blast вывод

Проблема формулировки выводов при использовании МSA

1 Сайт выглядит общим (фиксированным) из-за того что это ndash близкородственные последовательности

2 Сайт выглядит общим из-за того что это ndash исключительно жизненно важный сайт

ФилогенезЭволюция ndash случайный процесс с неслучайным результатом

Цели филогенетического исследования

bull Реконструкция корректных генеалогических связей

между биологическими объектами

bull Оценка времени расхождения организмов

bull Определение порядка эволюционных событий в процессе

эволюции

Формат Newick

((A(BC))(DE))

Типы данных

Molecular (DNA RNA proteins)

Morphological (soft tissue hard tissue extant extinct)

Преимущества молекулярных данных

bull Наследуемость

bull Недвусмысленность в описании молекулярных характеристик

bull Поддаются количественному анализу

bull Оценка гомологии легче чем морфологические исследования

bull Данных много

Древо видов и геновbull Древо видов ndash эволюционные взаимосвязи

между видами (видообразование)bull Древо генов

Page RDM and Cotton JC (2000) GeneTree a tool for exploring gene family evolution In D Sankoff and J Nadeau (eds) Comparative Genomics Empirical and Analytical Approaches to Gene Order Dynamics Map Alignment and the Evolution of Gene Families Kluwer Academic Publishers Dordrecht pp 525-536

Figure 2 (a) Incongruent gene and species trees This incongruence can be explained by hypothesizing a gene duplication (h) at the base of the gene tree (b)The presence of only a single gene (a-d) extant in each of the present-day species(1-4) requires postulating three gene losses (c) The corresponding reconciled tree

Ортологи и паралоги

bull Гены-паралоги ndash событие дупликация (and

bull Гены-ортологи ndash событие видообразования (in the two species and in the two species

Duplication

Speciation

Species a Species b

Шаги реконструирования филогенетического

древа

1 Выбор последовательностей и поиск гомологов

2 MSA3 Матрица белков4 Филогенетическое дерево

Филогенетическое дерево

Филогения - раздел биологии изучающий родственные взаимоотношения разных групп живых организмов Филогению отображается обычно в виде эволюционных древ или систематических названий

Зачем нужны филогенетические деревья

Биологические задачи

сравнение 3-х и более объектов (кто на кого более похож )

реконструкция эволюции (кто от кого как и когда произошелhellip)

ТерминологияУзел (node) mdash точка разделения предковой последовательности(вида популяции) на две независимо эволюционирующиеСоответствует внутренней вершине графа изображающего эволюциюЛист (leaf OTU ndash оперативная таксономическая единица) mdash реальный (современный) объект внешняя вершина графаВетвь (branch) mdash связь между узлами или между узлом и листом ребро графаКорень (root) mdash общий предокКлада (clade) - группа двух или более таксонов или последователь-ностей ДНК которая включает как своего общего предка так и всех его потомков

OTU

HTU (hypotetical taxonomic unit)

Какие бывают деревья

Бинарное (разрешённое)(в один момент времени может

произойти только одно событие )

Небинарное (неразрешённое) (может ли в один момент времени

произойти два события )

Время

Какие бывают деревья

Укорененное дерево (rooted tree)отражает направление эволюции

Неукорененное (бескорневое) дерево(unrooted tree) показывает только связи между узлами

Время

Если число листьев равно n существует (2n-3)разных бинарных укоренных деревьевПо определению (2n-3) = 1middot3 middot middot(2n-3)

Существует (2n-5) разных бескорневых деревьев с n листьями

Rooting

A C B B C AA B C

3 OTUs 3 OTUs 1 н 1 неукорененное деревоеукорененное дерево 33 укорененных деревьев укорененных деревьев

A

B

C

D

C

A

B

4 OTUs 4 OTUs 3 3 неукорененных филогенетических неукорененных филогенетических деревьевдеревьев

D

B

A

C C

B

A

D

4 OTUs

15 укорененных

деревьев

Количество Количество Количество

OTU укорененных неукорененных

2 1 13 3 14 15 35 105 156 954 1057 103959548 135135 103959 2027025 13513510 34459425 202702511 654729075 3445942512 13749310575 654729075

Количество возможных деревьев

Рутинная процедура или как строят деревья

Составление выборки последовательностей

Множественное выравнивание

Построение дерева фрагмент записи в виде скобочной формулы

Визуализация и редактура дерева

(((((con1013851018(f539692826973((f67220839851max42750591)492893con923019677)1362315)953075)2583145

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Множественное выравнивание

Matches

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Multiple Alignment

Matches

Mismatches

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Multiple Alignment

Matches

Mismatches

Gaps

Seq 1 A G C G A GSeq 1 A G C G A GSeq 2 G C G G A CSeq 2 G C G G A C

Шаг 3 Перевод количества расхождений в индексы замен

Distance Matrix

Units количество замен нуклеотидов на 1000

Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86

Rice 00 118 122 122

Mosquito 00 55 51

Monkey 00 3

Human 00

Шаг 4 построение филогенетического дерева

Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86

Rice 00 118 122 122

Mosquito 00 55 51

Monkey 00 3

Human 00

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Дистанция между человеком и обезьяной минимальна Эти группы объединяются в Monkey-Human а все остальные дистанции пересчитываются

Dist[Spinach MonHum] = (Dist[Spinach Monkey] +

Dist[Spinach Human])2 = (91 + 86)2 = 885

Spinach Rice Mosquito Mon-HumSpinach 00 9 106 885

Rice 00 118 122

Mosquito 00 53

Mon-Hum 00

Редуцированная матрица дистанций

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Spi-Ric

HumanMosquito

Mon-Hum

MonkeySpinachRice

Mos-Mon-Hum

Spi-Ric

Mos-Mon-Hum-Spi-Ric

Как выбирать последовательности для дерева

Кроме случаев очень близких последовательностей проще работать с белками (а не с ДНК)

Придерживайтесь небольшой выборки (lt 50 последовательностей)

Избегайтеndash фрагментовndash Ксенологов (горизонтальный перенос генов)ndash рекомбинантных последовательностейndash многодоменных белков и повторов

Используйте outgroup (последовательность ответвившаяся от общего предка заведомо (но минимально) раньше разделения интересующих групп-клад)

Самое главное ndash хорошее выравнивание

Максимальный вклад в финальное дерево нельзя построить хорошее дерево по плохому выравниванию

Блоки содержащие много гэпов плохо выровненные N- и C- концы можно просто вырезать

Основные алгоритмы построения филогенетических деревьев

Методы основанные на оценке

расстояний (матричные методы)

bull UPGMA (кластеризация)

bull Neighbor-joining

bull Минимальная эволюция

Наибольшего правдоподобия Maximal likelihood ML Используется модель эволюции и строится дерево которое наиболее правдоподобно при данной модели

Максимальной экономии (бережливости)

maximal parsimony MP Выбирается дерево с минимальным количеством

мутаций необходимых для объяснения данных

Пример матрицы расстояний

1 2 3 4 5 6 7 8 000 1053 977 1278 1203 1654 1353 2500 HUMAN 1

000 902 1203 977 1579 902 2727 HORSE 2 000 977 902 1654 1203 2424 RABIT 3

000 226 1729 1053 2576 MOUSE 4 000 1579 827 2576 RAT 5

000 1053 2955 BOVIN 6 000 2500 PIG 7

000 CHICK 8

Расстояние (уровень дивергенции) между соответствующими последовательностями из геномов мыши и свиньи

Как понимать расстояние между объектами

bull Как время в течение которого они эволюционировалиbull Как число laquoэволюционных событийraquo (мутаций)

В первом случае объекты образуют ультраметрическое пространство(если все объекты наблюдаются в одно время что как правило верно)

Но время непосредственно измерить невозможно

Гипотеза laquoмолекулярных часовraquo(EZuckerkandl LPauling 1962)

За равное время во всех ветвях эволюции данного генабелка накапливается равное число мутацийЕсли гипотеза молекулярных часов

принимается число различий между выровненными последовательностями можно считать примерно пропорциональным времени Отклонения от ультраметричности можно считать случайными Эволюция реконструируется в виде ультраметрического дерева

Укоренённое дерево называется ультраметрическим если расстояние от корня до любого из листьев одинаково

UPGMAUnweighted Pair Group Method with Arithmetic Mean

разновидность кластерного метода

Расстояние между кластерами вычисляется как среднее арифметическое всевозможных расстояний между последовательностями из кластеров

Недостатки UPGMA

Алгоритм строит ультраметрическое дерево ndash скорость эволюции предполагается одинаковой для всех ветвей дерева Использовать этот алгоритм имеет смысл только в случае ультраметрических данных (справедливости laquoмолекулярных часовraquo)

Реальное дерево UPGMA

Метод ближайших соседей (Neighbor-joining NJ)

Строит неукоренённое дерево

Может работать с большим количеством данных

Достаточно быстрый

Если есть недвусмысленное с точки зрения эксперта дерево то оно будет построено

Метод Neighbor-joining

Рисуем laquoзвездноеraquo дерево и будем laquoотщипыватьraquo от него по паре листьев

Пусть ui = Σk Mik(n-2) mdash среднее расстояние от листа i до других

листьев

1 Рассмотрим все возможные пары листьев Выберем 2 листа i и j с минимальным значением величины

Mij ndash ui ndashuj

те выбираем 2 узла которые близки друг к другу но далеки ото всех остальных

Метод ближайших соседей (Neighbor-joining NJ)

2 Кластер (i j) ndash новый узел дерева

Расстояние от i или от j до узла (ij) D(i (ij)) = 05middot(Mij + ui ndash uj) D(j (ij)) = 05middot (Mij + uj ndash ui) те длина ветви зависит от среднего расстояния до других вершин

3 Вычисляем расстояние от нового кластера до всех других

M(ij)k = Mik+Mjk ndash Mij 2

5 В матрице М убираем i и j и добавляем (i j) Повторяем пока не останутся 3 узла

Input MSA для n последовательностей одна последовательность для каждого вида

AAAAATC

AAAAAAG

CCCCCCG

AAAAATCAAAAAAG

CCCCCCG

Длинная ветвь ndash непохоже на правду

Длинная ветвь -Похоже на правду

Методы основанные на последовательностях Maximum Likelihood (ML) Maximum Parsimony (MP)

Как изобразить дерево Топология дерева

Топология дерева mdash только листья узлы (корень) и связывающие их ветви (топология не зависит от способа изображения дерева)

A

B

C

D

E A BC D E

Два изображения одной и той же топологии

Bacterium 1

Bacterium 3

Bacterium 2

Eukaryote 1

Eukaryote 4

Eukaryote 3

Eukaryote 2

Bacterium 1

Bacterium 3Bacterium 2

Eukaryote 1

Eukaryote 4Eukaryote 3

Eukaryote 2

Филограммы ndash длины ветвей

пропорциональны

эволюционному расстоянию

Кладограммы и филограммы

Кладограммы ndash только

топологя Длины ветвей не

учитываются

6

31

2

46

24

53

Как можно нарисовать построенное дерево

Какие on-line программы строят деревья

ClustalW ldquoTree typerdquo ndash nj phylip строит только методом NJ но результат ndash в разных форматах no bootstraps

Phylip (Felsenstein 1993) ndash пакет программ для построения филогенетических деревьев (stand-alone)On-line (partly) например

httpbiowebpasteurfrseqanalphylogenyphylip-ukhtml PAUP (Phylogenetic Analysis Using Parsimony)

MEGA филогенетический анализ последовательностей

httpwwwmegasoftwarenet

Эволюция ndash исторический процесс

Из 8200794532637891559375 деревьев для 20 OTUs 1

является верным и 8200794532637891559374

неверны

Truth is one falsehoods are many

Какое из 8200794532637891559375

деревьев истинно

Мы не знаем Можно применить иные критетии

Например ldquoпохожесть=родствоraquo

GCGbull Строковый поиск простой текстовый

поиск по локальной базе данных

bull Поиск в определениях или в аннотациях

bull Определения содержат минимальное количество информации для каждой статьи доступ имя организма имя гена длина последовательности дата

  • Bestfit Output
  • SP1 at swissprot
  • EGR1 at swissprot
  • Вывод
  • Bl2Seq at NCBI
  • Bl2seq results
  • Bl2seq оценка
  • Оптимизация времени вычислений при парном выравнивании
  • Slide 9
  • Алгоритм BLAST (шаг 1)
  • Slide 11
  • Blast
  • Поиск гомологов
  • ДНК или белок
  • ДНК
  • Slide 16
  • Slide 17
  • Двойная спираль
  • ДНК дальнейшая упаковка
  • Slide 20
  • Репликация ДНК
  • Slide 22
  • Slide 23
  • Slide 24
  • Slide 25
  • Множественное выравнивание последовательностей (MSA)
  • Slide 27
  • Основные предположения
  • Например
  • Почему множественное выравнивание
  • Slide 31
  • Подходы в MSA
  • MSA algorithm
  • Multiple Alignment - алгоритм
  • Комментарии
  • GCG
  • Slide 37
  • GCG
  • Slide 39
  • Slide 40
  • Slide 41
  • ClustalW
  • Slide 43
  • Slide 44
  • ClustalW на EMBL
  • ClustalW на EMBL - результат
  • ClustalW at EMBL - Jalview
  • Consensus Sequence
  • Профиль (Profile)
  • Profile vs Consensus
  • Slide 51
  • Slide 52
  • Psi Blast (NCBI)
  • PSI-Blast
  • Psi-Blast вывод
  • Slide 56
  • Филогенез
  • Slide 58
  • Slide 59
  • Slide 60
  • Slide 61
  • Древо видов и генов
  • Ортологи и паралоги
  • Шаги реконструирования филогенетического древа
  • Филогенетическое дерево
  • Зачем нужны филогенетические деревья
  • Терминология
  • Slide 68
  • Какие бывают деревья
  • Slide 70
  • Slide 71
  • Slide 72
  • 4 OTUs 3 неукорененных филогенетических деревьев
  • Slide 74
  • Slide 75
  • Slide 76
  • Slide 77
  • Рутинная процедура или как строят деревья
  • Slide 79
  • Slide 80
  • Slide 81
  • Slide 82
  • Slide 83
  • Slide 84
  • Slide 85
  • Slide 86
  • Slide 87
  • Slide 88
  • Slide 89
  • Как выбирать последовательности для дерева
  • Самое главное ndash хорошее выравнивание
  • Основные алгоритмы построения филогенетических деревьев
  • Пример матрицы расстояний
  • Slide 94
  • Гипотеза laquoмолекулярных часовraquo (EZuckerkandl LPauling 1962)
  • UPGMA Unweighted Pair Group Method with Arithmetic Mean
  • Недостатки UPGMA
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Метод Neighbor-joining
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Slide 101
  • Как изобразить дерево Топология дерева
  • Slide 103
  • Какие on-line программы строят деревья
  • MEGA филогенетический анализ последовательностей
  • Slide 106
  • Slide 107
  • Slide 108
Page 56: Bestfit Output

Проблема формулировки выводов при использовании МSA

1 Сайт выглядит общим (фиксированным) из-за того что это ndash близкородственные последовательности

2 Сайт выглядит общим из-за того что это ndash исключительно жизненно важный сайт

ФилогенезЭволюция ndash случайный процесс с неслучайным результатом

Цели филогенетического исследования

bull Реконструкция корректных генеалогических связей

между биологическими объектами

bull Оценка времени расхождения организмов

bull Определение порядка эволюционных событий в процессе

эволюции

Формат Newick

((A(BC))(DE))

Типы данных

Molecular (DNA RNA proteins)

Morphological (soft tissue hard tissue extant extinct)

Преимущества молекулярных данных

bull Наследуемость

bull Недвусмысленность в описании молекулярных характеристик

bull Поддаются количественному анализу

bull Оценка гомологии легче чем морфологические исследования

bull Данных много

Древо видов и геновbull Древо видов ndash эволюционные взаимосвязи

между видами (видообразование)bull Древо генов

Page RDM and Cotton JC (2000) GeneTree a tool for exploring gene family evolution In D Sankoff and J Nadeau (eds) Comparative Genomics Empirical and Analytical Approaches to Gene Order Dynamics Map Alignment and the Evolution of Gene Families Kluwer Academic Publishers Dordrecht pp 525-536

Figure 2 (a) Incongruent gene and species trees This incongruence can be explained by hypothesizing a gene duplication (h) at the base of the gene tree (b)The presence of only a single gene (a-d) extant in each of the present-day species(1-4) requires postulating three gene losses (c) The corresponding reconciled tree

Ортологи и паралоги

bull Гены-паралоги ndash событие дупликация (and

bull Гены-ортологи ndash событие видообразования (in the two species and in the two species

Duplication

Speciation

Species a Species b

Шаги реконструирования филогенетического

древа

1 Выбор последовательностей и поиск гомологов

2 MSA3 Матрица белков4 Филогенетическое дерево

Филогенетическое дерево

Филогения - раздел биологии изучающий родственные взаимоотношения разных групп живых организмов Филогению отображается обычно в виде эволюционных древ или систематических названий

Зачем нужны филогенетические деревья

Биологические задачи

сравнение 3-х и более объектов (кто на кого более похож )

реконструкция эволюции (кто от кого как и когда произошелhellip)

ТерминологияУзел (node) mdash точка разделения предковой последовательности(вида популяции) на две независимо эволюционирующиеСоответствует внутренней вершине графа изображающего эволюциюЛист (leaf OTU ndash оперативная таксономическая единица) mdash реальный (современный) объект внешняя вершина графаВетвь (branch) mdash связь между узлами или между узлом и листом ребро графаКорень (root) mdash общий предокКлада (clade) - группа двух или более таксонов или последователь-ностей ДНК которая включает как своего общего предка так и всех его потомков

OTU

HTU (hypotetical taxonomic unit)

Какие бывают деревья

Бинарное (разрешённое)(в один момент времени может

произойти только одно событие )

Небинарное (неразрешённое) (может ли в один момент времени

произойти два события )

Время

Какие бывают деревья

Укорененное дерево (rooted tree)отражает направление эволюции

Неукорененное (бескорневое) дерево(unrooted tree) показывает только связи между узлами

Время

Если число листьев равно n существует (2n-3)разных бинарных укоренных деревьевПо определению (2n-3) = 1middot3 middot middot(2n-3)

Существует (2n-5) разных бескорневых деревьев с n листьями

Rooting

A C B B C AA B C

3 OTUs 3 OTUs 1 н 1 неукорененное деревоеукорененное дерево 33 укорененных деревьев укорененных деревьев

A

B

C

D

C

A

B

4 OTUs 4 OTUs 3 3 неукорененных филогенетических неукорененных филогенетических деревьевдеревьев

D

B

A

C C

B

A

D

4 OTUs

15 укорененных

деревьев

Количество Количество Количество

OTU укорененных неукорененных

2 1 13 3 14 15 35 105 156 954 1057 103959548 135135 103959 2027025 13513510 34459425 202702511 654729075 3445942512 13749310575 654729075

Количество возможных деревьев

Рутинная процедура или как строят деревья

Составление выборки последовательностей

Множественное выравнивание

Построение дерева фрагмент записи в виде скобочной формулы

Визуализация и редактура дерева

(((((con1013851018(f539692826973((f67220839851max42750591)492893con923019677)1362315)953075)2583145

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Множественное выравнивание

Matches

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Multiple Alignment

Matches

Mismatches

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Multiple Alignment

Matches

Mismatches

Gaps

Seq 1 A G C G A GSeq 1 A G C G A GSeq 2 G C G G A CSeq 2 G C G G A C

Шаг 3 Перевод количества расхождений в индексы замен

Distance Matrix

Units количество замен нуклеотидов на 1000

Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86

Rice 00 118 122 122

Mosquito 00 55 51

Monkey 00 3

Human 00

Шаг 4 построение филогенетического дерева

Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86

Rice 00 118 122 122

Mosquito 00 55 51

Monkey 00 3

Human 00

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Дистанция между человеком и обезьяной минимальна Эти группы объединяются в Monkey-Human а все остальные дистанции пересчитываются

Dist[Spinach MonHum] = (Dist[Spinach Monkey] +

Dist[Spinach Human])2 = (91 + 86)2 = 885

Spinach Rice Mosquito Mon-HumSpinach 00 9 106 885

Rice 00 118 122

Mosquito 00 53

Mon-Hum 00

Редуцированная матрица дистанций

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Spi-Ric

HumanMosquito

Mon-Hum

MonkeySpinachRice

Mos-Mon-Hum

Spi-Ric

Mos-Mon-Hum-Spi-Ric

Как выбирать последовательности для дерева

Кроме случаев очень близких последовательностей проще работать с белками (а не с ДНК)

Придерживайтесь небольшой выборки (lt 50 последовательностей)

Избегайтеndash фрагментовndash Ксенологов (горизонтальный перенос генов)ndash рекомбинантных последовательностейndash многодоменных белков и повторов

Используйте outgroup (последовательность ответвившаяся от общего предка заведомо (но минимально) раньше разделения интересующих групп-клад)

Самое главное ndash хорошее выравнивание

Максимальный вклад в финальное дерево нельзя построить хорошее дерево по плохому выравниванию

Блоки содержащие много гэпов плохо выровненные N- и C- концы можно просто вырезать

Основные алгоритмы построения филогенетических деревьев

Методы основанные на оценке

расстояний (матричные методы)

bull UPGMA (кластеризация)

bull Neighbor-joining

bull Минимальная эволюция

Наибольшего правдоподобия Maximal likelihood ML Используется модель эволюции и строится дерево которое наиболее правдоподобно при данной модели

Максимальной экономии (бережливости)

maximal parsimony MP Выбирается дерево с минимальным количеством

мутаций необходимых для объяснения данных

Пример матрицы расстояний

1 2 3 4 5 6 7 8 000 1053 977 1278 1203 1654 1353 2500 HUMAN 1

000 902 1203 977 1579 902 2727 HORSE 2 000 977 902 1654 1203 2424 RABIT 3

000 226 1729 1053 2576 MOUSE 4 000 1579 827 2576 RAT 5

000 1053 2955 BOVIN 6 000 2500 PIG 7

000 CHICK 8

Расстояние (уровень дивергенции) между соответствующими последовательностями из геномов мыши и свиньи

Как понимать расстояние между объектами

bull Как время в течение которого они эволюционировалиbull Как число laquoэволюционных событийraquo (мутаций)

В первом случае объекты образуют ультраметрическое пространство(если все объекты наблюдаются в одно время что как правило верно)

Но время непосредственно измерить невозможно

Гипотеза laquoмолекулярных часовraquo(EZuckerkandl LPauling 1962)

За равное время во всех ветвях эволюции данного генабелка накапливается равное число мутацийЕсли гипотеза молекулярных часов

принимается число различий между выровненными последовательностями можно считать примерно пропорциональным времени Отклонения от ультраметричности можно считать случайными Эволюция реконструируется в виде ультраметрического дерева

Укоренённое дерево называется ультраметрическим если расстояние от корня до любого из листьев одинаково

UPGMAUnweighted Pair Group Method with Arithmetic Mean

разновидность кластерного метода

Расстояние между кластерами вычисляется как среднее арифметическое всевозможных расстояний между последовательностями из кластеров

Недостатки UPGMA

Алгоритм строит ультраметрическое дерево ndash скорость эволюции предполагается одинаковой для всех ветвей дерева Использовать этот алгоритм имеет смысл только в случае ультраметрических данных (справедливости laquoмолекулярных часовraquo)

Реальное дерево UPGMA

Метод ближайших соседей (Neighbor-joining NJ)

Строит неукоренённое дерево

Может работать с большим количеством данных

Достаточно быстрый

Если есть недвусмысленное с точки зрения эксперта дерево то оно будет построено

Метод Neighbor-joining

Рисуем laquoзвездноеraquo дерево и будем laquoотщипыватьraquo от него по паре листьев

Пусть ui = Σk Mik(n-2) mdash среднее расстояние от листа i до других

листьев

1 Рассмотрим все возможные пары листьев Выберем 2 листа i и j с минимальным значением величины

Mij ndash ui ndashuj

те выбираем 2 узла которые близки друг к другу но далеки ото всех остальных

Метод ближайших соседей (Neighbor-joining NJ)

2 Кластер (i j) ndash новый узел дерева

Расстояние от i или от j до узла (ij) D(i (ij)) = 05middot(Mij + ui ndash uj) D(j (ij)) = 05middot (Mij + uj ndash ui) те длина ветви зависит от среднего расстояния до других вершин

3 Вычисляем расстояние от нового кластера до всех других

M(ij)k = Mik+Mjk ndash Mij 2

5 В матрице М убираем i и j и добавляем (i j) Повторяем пока не останутся 3 узла

Input MSA для n последовательностей одна последовательность для каждого вида

AAAAATC

AAAAAAG

CCCCCCG

AAAAATCAAAAAAG

CCCCCCG

Длинная ветвь ndash непохоже на правду

Длинная ветвь -Похоже на правду

Методы основанные на последовательностях Maximum Likelihood (ML) Maximum Parsimony (MP)

Как изобразить дерево Топология дерева

Топология дерева mdash только листья узлы (корень) и связывающие их ветви (топология не зависит от способа изображения дерева)

A

B

C

D

E A BC D E

Два изображения одной и той же топологии

Bacterium 1

Bacterium 3

Bacterium 2

Eukaryote 1

Eukaryote 4

Eukaryote 3

Eukaryote 2

Bacterium 1

Bacterium 3Bacterium 2

Eukaryote 1

Eukaryote 4Eukaryote 3

Eukaryote 2

Филограммы ndash длины ветвей

пропорциональны

эволюционному расстоянию

Кладограммы и филограммы

Кладограммы ndash только

топологя Длины ветвей не

учитываются

6

31

2

46

24

53

Как можно нарисовать построенное дерево

Какие on-line программы строят деревья

ClustalW ldquoTree typerdquo ndash nj phylip строит только методом NJ но результат ndash в разных форматах no bootstraps

Phylip (Felsenstein 1993) ndash пакет программ для построения филогенетических деревьев (stand-alone)On-line (partly) например

httpbiowebpasteurfrseqanalphylogenyphylip-ukhtml PAUP (Phylogenetic Analysis Using Parsimony)

MEGA филогенетический анализ последовательностей

httpwwwmegasoftwarenet

Эволюция ndash исторический процесс

Из 8200794532637891559375 деревьев для 20 OTUs 1

является верным и 8200794532637891559374

неверны

Truth is one falsehoods are many

Какое из 8200794532637891559375

деревьев истинно

Мы не знаем Можно применить иные критетии

Например ldquoпохожесть=родствоraquo

GCGbull Строковый поиск простой текстовый

поиск по локальной базе данных

bull Поиск в определениях или в аннотациях

bull Определения содержат минимальное количество информации для каждой статьи доступ имя организма имя гена длина последовательности дата

  • Bestfit Output
  • SP1 at swissprot
  • EGR1 at swissprot
  • Вывод
  • Bl2Seq at NCBI
  • Bl2seq results
  • Bl2seq оценка
  • Оптимизация времени вычислений при парном выравнивании
  • Slide 9
  • Алгоритм BLAST (шаг 1)
  • Slide 11
  • Blast
  • Поиск гомологов
  • ДНК или белок
  • ДНК
  • Slide 16
  • Slide 17
  • Двойная спираль
  • ДНК дальнейшая упаковка
  • Slide 20
  • Репликация ДНК
  • Slide 22
  • Slide 23
  • Slide 24
  • Slide 25
  • Множественное выравнивание последовательностей (MSA)
  • Slide 27
  • Основные предположения
  • Например
  • Почему множественное выравнивание
  • Slide 31
  • Подходы в MSA
  • MSA algorithm
  • Multiple Alignment - алгоритм
  • Комментарии
  • GCG
  • Slide 37
  • GCG
  • Slide 39
  • Slide 40
  • Slide 41
  • ClustalW
  • Slide 43
  • Slide 44
  • ClustalW на EMBL
  • ClustalW на EMBL - результат
  • ClustalW at EMBL - Jalview
  • Consensus Sequence
  • Профиль (Profile)
  • Profile vs Consensus
  • Slide 51
  • Slide 52
  • Psi Blast (NCBI)
  • PSI-Blast
  • Psi-Blast вывод
  • Slide 56
  • Филогенез
  • Slide 58
  • Slide 59
  • Slide 60
  • Slide 61
  • Древо видов и генов
  • Ортологи и паралоги
  • Шаги реконструирования филогенетического древа
  • Филогенетическое дерево
  • Зачем нужны филогенетические деревья
  • Терминология
  • Slide 68
  • Какие бывают деревья
  • Slide 70
  • Slide 71
  • Slide 72
  • 4 OTUs 3 неукорененных филогенетических деревьев
  • Slide 74
  • Slide 75
  • Slide 76
  • Slide 77
  • Рутинная процедура или как строят деревья
  • Slide 79
  • Slide 80
  • Slide 81
  • Slide 82
  • Slide 83
  • Slide 84
  • Slide 85
  • Slide 86
  • Slide 87
  • Slide 88
  • Slide 89
  • Как выбирать последовательности для дерева
  • Самое главное ndash хорошее выравнивание
  • Основные алгоритмы построения филогенетических деревьев
  • Пример матрицы расстояний
  • Slide 94
  • Гипотеза laquoмолекулярных часовraquo (EZuckerkandl LPauling 1962)
  • UPGMA Unweighted Pair Group Method with Arithmetic Mean
  • Недостатки UPGMA
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Метод Neighbor-joining
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Slide 101
  • Как изобразить дерево Топология дерева
  • Slide 103
  • Какие on-line программы строят деревья
  • MEGA филогенетический анализ последовательностей
  • Slide 106
  • Slide 107
  • Slide 108
Page 57: Bestfit Output

ФилогенезЭволюция ndash случайный процесс с неслучайным результатом

Цели филогенетического исследования

bull Реконструкция корректных генеалогических связей

между биологическими объектами

bull Оценка времени расхождения организмов

bull Определение порядка эволюционных событий в процессе

эволюции

Формат Newick

((A(BC))(DE))

Типы данных

Molecular (DNA RNA proteins)

Morphological (soft tissue hard tissue extant extinct)

Преимущества молекулярных данных

bull Наследуемость

bull Недвусмысленность в описании молекулярных характеристик

bull Поддаются количественному анализу

bull Оценка гомологии легче чем морфологические исследования

bull Данных много

Древо видов и геновbull Древо видов ndash эволюционные взаимосвязи

между видами (видообразование)bull Древо генов

Page RDM and Cotton JC (2000) GeneTree a tool for exploring gene family evolution In D Sankoff and J Nadeau (eds) Comparative Genomics Empirical and Analytical Approaches to Gene Order Dynamics Map Alignment and the Evolution of Gene Families Kluwer Academic Publishers Dordrecht pp 525-536

Figure 2 (a) Incongruent gene and species trees This incongruence can be explained by hypothesizing a gene duplication (h) at the base of the gene tree (b)The presence of only a single gene (a-d) extant in each of the present-day species(1-4) requires postulating three gene losses (c) The corresponding reconciled tree

Ортологи и паралоги

bull Гены-паралоги ndash событие дупликация (and

bull Гены-ортологи ndash событие видообразования (in the two species and in the two species

Duplication

Speciation

Species a Species b

Шаги реконструирования филогенетического

древа

1 Выбор последовательностей и поиск гомологов

2 MSA3 Матрица белков4 Филогенетическое дерево

Филогенетическое дерево

Филогения - раздел биологии изучающий родственные взаимоотношения разных групп живых организмов Филогению отображается обычно в виде эволюционных древ или систематических названий

Зачем нужны филогенетические деревья

Биологические задачи

сравнение 3-х и более объектов (кто на кого более похож )

реконструкция эволюции (кто от кого как и когда произошелhellip)

ТерминологияУзел (node) mdash точка разделения предковой последовательности(вида популяции) на две независимо эволюционирующиеСоответствует внутренней вершине графа изображающего эволюциюЛист (leaf OTU ndash оперативная таксономическая единица) mdash реальный (современный) объект внешняя вершина графаВетвь (branch) mdash связь между узлами или между узлом и листом ребро графаКорень (root) mdash общий предокКлада (clade) - группа двух или более таксонов или последователь-ностей ДНК которая включает как своего общего предка так и всех его потомков

OTU

HTU (hypotetical taxonomic unit)

Какие бывают деревья

Бинарное (разрешённое)(в один момент времени может

произойти только одно событие )

Небинарное (неразрешённое) (может ли в один момент времени

произойти два события )

Время

Какие бывают деревья

Укорененное дерево (rooted tree)отражает направление эволюции

Неукорененное (бескорневое) дерево(unrooted tree) показывает только связи между узлами

Время

Если число листьев равно n существует (2n-3)разных бинарных укоренных деревьевПо определению (2n-3) = 1middot3 middot middot(2n-3)

Существует (2n-5) разных бескорневых деревьев с n листьями

Rooting

A C B B C AA B C

3 OTUs 3 OTUs 1 н 1 неукорененное деревоеукорененное дерево 33 укорененных деревьев укорененных деревьев

A

B

C

D

C

A

B

4 OTUs 4 OTUs 3 3 неукорененных филогенетических неукорененных филогенетических деревьевдеревьев

D

B

A

C C

B

A

D

4 OTUs

15 укорененных

деревьев

Количество Количество Количество

OTU укорененных неукорененных

2 1 13 3 14 15 35 105 156 954 1057 103959548 135135 103959 2027025 13513510 34459425 202702511 654729075 3445942512 13749310575 654729075

Количество возможных деревьев

Рутинная процедура или как строят деревья

Составление выборки последовательностей

Множественное выравнивание

Построение дерева фрагмент записи в виде скобочной формулы

Визуализация и редактура дерева

(((((con1013851018(f539692826973((f67220839851max42750591)492893con923019677)1362315)953075)2583145

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Множественное выравнивание

Matches

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Multiple Alignment

Matches

Mismatches

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Multiple Alignment

Matches

Mismatches

Gaps

Seq 1 A G C G A GSeq 1 A G C G A GSeq 2 G C G G A CSeq 2 G C G G A C

Шаг 3 Перевод количества расхождений в индексы замен

Distance Matrix

Units количество замен нуклеотидов на 1000

Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86

Rice 00 118 122 122

Mosquito 00 55 51

Monkey 00 3

Human 00

Шаг 4 построение филогенетического дерева

Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86

Rice 00 118 122 122

Mosquito 00 55 51

Monkey 00 3

Human 00

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Дистанция между человеком и обезьяной минимальна Эти группы объединяются в Monkey-Human а все остальные дистанции пересчитываются

Dist[Spinach MonHum] = (Dist[Spinach Monkey] +

Dist[Spinach Human])2 = (91 + 86)2 = 885

Spinach Rice Mosquito Mon-HumSpinach 00 9 106 885

Rice 00 118 122

Mosquito 00 53

Mon-Hum 00

Редуцированная матрица дистанций

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Spi-Ric

HumanMosquito

Mon-Hum

MonkeySpinachRice

Mos-Mon-Hum

Spi-Ric

Mos-Mon-Hum-Spi-Ric

Как выбирать последовательности для дерева

Кроме случаев очень близких последовательностей проще работать с белками (а не с ДНК)

Придерживайтесь небольшой выборки (lt 50 последовательностей)

Избегайтеndash фрагментовndash Ксенологов (горизонтальный перенос генов)ndash рекомбинантных последовательностейndash многодоменных белков и повторов

Используйте outgroup (последовательность ответвившаяся от общего предка заведомо (но минимально) раньше разделения интересующих групп-клад)

Самое главное ndash хорошее выравнивание

Максимальный вклад в финальное дерево нельзя построить хорошее дерево по плохому выравниванию

Блоки содержащие много гэпов плохо выровненные N- и C- концы можно просто вырезать

Основные алгоритмы построения филогенетических деревьев

Методы основанные на оценке

расстояний (матричные методы)

bull UPGMA (кластеризация)

bull Neighbor-joining

bull Минимальная эволюция

Наибольшего правдоподобия Maximal likelihood ML Используется модель эволюции и строится дерево которое наиболее правдоподобно при данной модели

Максимальной экономии (бережливости)

maximal parsimony MP Выбирается дерево с минимальным количеством

мутаций необходимых для объяснения данных

Пример матрицы расстояний

1 2 3 4 5 6 7 8 000 1053 977 1278 1203 1654 1353 2500 HUMAN 1

000 902 1203 977 1579 902 2727 HORSE 2 000 977 902 1654 1203 2424 RABIT 3

000 226 1729 1053 2576 MOUSE 4 000 1579 827 2576 RAT 5

000 1053 2955 BOVIN 6 000 2500 PIG 7

000 CHICK 8

Расстояние (уровень дивергенции) между соответствующими последовательностями из геномов мыши и свиньи

Как понимать расстояние между объектами

bull Как время в течение которого они эволюционировалиbull Как число laquoэволюционных событийraquo (мутаций)

В первом случае объекты образуют ультраметрическое пространство(если все объекты наблюдаются в одно время что как правило верно)

Но время непосредственно измерить невозможно

Гипотеза laquoмолекулярных часовraquo(EZuckerkandl LPauling 1962)

За равное время во всех ветвях эволюции данного генабелка накапливается равное число мутацийЕсли гипотеза молекулярных часов

принимается число различий между выровненными последовательностями можно считать примерно пропорциональным времени Отклонения от ультраметричности можно считать случайными Эволюция реконструируется в виде ультраметрического дерева

Укоренённое дерево называется ультраметрическим если расстояние от корня до любого из листьев одинаково

UPGMAUnweighted Pair Group Method with Arithmetic Mean

разновидность кластерного метода

Расстояние между кластерами вычисляется как среднее арифметическое всевозможных расстояний между последовательностями из кластеров

Недостатки UPGMA

Алгоритм строит ультраметрическое дерево ndash скорость эволюции предполагается одинаковой для всех ветвей дерева Использовать этот алгоритм имеет смысл только в случае ультраметрических данных (справедливости laquoмолекулярных часовraquo)

Реальное дерево UPGMA

Метод ближайших соседей (Neighbor-joining NJ)

Строит неукоренённое дерево

Может работать с большим количеством данных

Достаточно быстрый

Если есть недвусмысленное с точки зрения эксперта дерево то оно будет построено

Метод Neighbor-joining

Рисуем laquoзвездноеraquo дерево и будем laquoотщипыватьraquo от него по паре листьев

Пусть ui = Σk Mik(n-2) mdash среднее расстояние от листа i до других

листьев

1 Рассмотрим все возможные пары листьев Выберем 2 листа i и j с минимальным значением величины

Mij ndash ui ndashuj

те выбираем 2 узла которые близки друг к другу но далеки ото всех остальных

Метод ближайших соседей (Neighbor-joining NJ)

2 Кластер (i j) ndash новый узел дерева

Расстояние от i или от j до узла (ij) D(i (ij)) = 05middot(Mij + ui ndash uj) D(j (ij)) = 05middot (Mij + uj ndash ui) те длина ветви зависит от среднего расстояния до других вершин

3 Вычисляем расстояние от нового кластера до всех других

M(ij)k = Mik+Mjk ndash Mij 2

5 В матрице М убираем i и j и добавляем (i j) Повторяем пока не останутся 3 узла

Input MSA для n последовательностей одна последовательность для каждого вида

AAAAATC

AAAAAAG

CCCCCCG

AAAAATCAAAAAAG

CCCCCCG

Длинная ветвь ndash непохоже на правду

Длинная ветвь -Похоже на правду

Методы основанные на последовательностях Maximum Likelihood (ML) Maximum Parsimony (MP)

Как изобразить дерево Топология дерева

Топология дерева mdash только листья узлы (корень) и связывающие их ветви (топология не зависит от способа изображения дерева)

A

B

C

D

E A BC D E

Два изображения одной и той же топологии

Bacterium 1

Bacterium 3

Bacterium 2

Eukaryote 1

Eukaryote 4

Eukaryote 3

Eukaryote 2

Bacterium 1

Bacterium 3Bacterium 2

Eukaryote 1

Eukaryote 4Eukaryote 3

Eukaryote 2

Филограммы ndash длины ветвей

пропорциональны

эволюционному расстоянию

Кладограммы и филограммы

Кладограммы ndash только

топологя Длины ветвей не

учитываются

6

31

2

46

24

53

Как можно нарисовать построенное дерево

Какие on-line программы строят деревья

ClustalW ldquoTree typerdquo ndash nj phylip строит только методом NJ но результат ndash в разных форматах no bootstraps

Phylip (Felsenstein 1993) ndash пакет программ для построения филогенетических деревьев (stand-alone)On-line (partly) например

httpbiowebpasteurfrseqanalphylogenyphylip-ukhtml PAUP (Phylogenetic Analysis Using Parsimony)

MEGA филогенетический анализ последовательностей

httpwwwmegasoftwarenet

Эволюция ndash исторический процесс

Из 8200794532637891559375 деревьев для 20 OTUs 1

является верным и 8200794532637891559374

неверны

Truth is one falsehoods are many

Какое из 8200794532637891559375

деревьев истинно

Мы не знаем Можно применить иные критетии

Например ldquoпохожесть=родствоraquo

GCGbull Строковый поиск простой текстовый

поиск по локальной базе данных

bull Поиск в определениях или в аннотациях

bull Определения содержат минимальное количество информации для каждой статьи доступ имя организма имя гена длина последовательности дата

  • Bestfit Output
  • SP1 at swissprot
  • EGR1 at swissprot
  • Вывод
  • Bl2Seq at NCBI
  • Bl2seq results
  • Bl2seq оценка
  • Оптимизация времени вычислений при парном выравнивании
  • Slide 9
  • Алгоритм BLAST (шаг 1)
  • Slide 11
  • Blast
  • Поиск гомологов
  • ДНК или белок
  • ДНК
  • Slide 16
  • Slide 17
  • Двойная спираль
  • ДНК дальнейшая упаковка
  • Slide 20
  • Репликация ДНК
  • Slide 22
  • Slide 23
  • Slide 24
  • Slide 25
  • Множественное выравнивание последовательностей (MSA)
  • Slide 27
  • Основные предположения
  • Например
  • Почему множественное выравнивание
  • Slide 31
  • Подходы в MSA
  • MSA algorithm
  • Multiple Alignment - алгоритм
  • Комментарии
  • GCG
  • Slide 37
  • GCG
  • Slide 39
  • Slide 40
  • Slide 41
  • ClustalW
  • Slide 43
  • Slide 44
  • ClustalW на EMBL
  • ClustalW на EMBL - результат
  • ClustalW at EMBL - Jalview
  • Consensus Sequence
  • Профиль (Profile)
  • Profile vs Consensus
  • Slide 51
  • Slide 52
  • Psi Blast (NCBI)
  • PSI-Blast
  • Psi-Blast вывод
  • Slide 56
  • Филогенез
  • Slide 58
  • Slide 59
  • Slide 60
  • Slide 61
  • Древо видов и генов
  • Ортологи и паралоги
  • Шаги реконструирования филогенетического древа
  • Филогенетическое дерево
  • Зачем нужны филогенетические деревья
  • Терминология
  • Slide 68
  • Какие бывают деревья
  • Slide 70
  • Slide 71
  • Slide 72
  • 4 OTUs 3 неукорененных филогенетических деревьев
  • Slide 74
  • Slide 75
  • Slide 76
  • Slide 77
  • Рутинная процедура или как строят деревья
  • Slide 79
  • Slide 80
  • Slide 81
  • Slide 82
  • Slide 83
  • Slide 84
  • Slide 85
  • Slide 86
  • Slide 87
  • Slide 88
  • Slide 89
  • Как выбирать последовательности для дерева
  • Самое главное ndash хорошее выравнивание
  • Основные алгоритмы построения филогенетических деревьев
  • Пример матрицы расстояний
  • Slide 94
  • Гипотеза laquoмолекулярных часовraquo (EZuckerkandl LPauling 1962)
  • UPGMA Unweighted Pair Group Method with Arithmetic Mean
  • Недостатки UPGMA
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Метод Neighbor-joining
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Slide 101
  • Как изобразить дерево Топология дерева
  • Slide 103
  • Какие on-line программы строят деревья
  • MEGA филогенетический анализ последовательностей
  • Slide 106
  • Slide 107
  • Slide 108
Page 58: Bestfit Output

Цели филогенетического исследования

bull Реконструкция корректных генеалогических связей

между биологическими объектами

bull Оценка времени расхождения организмов

bull Определение порядка эволюционных событий в процессе

эволюции

Формат Newick

((A(BC))(DE))

Типы данных

Molecular (DNA RNA proteins)

Morphological (soft tissue hard tissue extant extinct)

Преимущества молекулярных данных

bull Наследуемость

bull Недвусмысленность в описании молекулярных характеристик

bull Поддаются количественному анализу

bull Оценка гомологии легче чем морфологические исследования

bull Данных много

Древо видов и геновbull Древо видов ndash эволюционные взаимосвязи

между видами (видообразование)bull Древо генов

Page RDM and Cotton JC (2000) GeneTree a tool for exploring gene family evolution In D Sankoff and J Nadeau (eds) Comparative Genomics Empirical and Analytical Approaches to Gene Order Dynamics Map Alignment and the Evolution of Gene Families Kluwer Academic Publishers Dordrecht pp 525-536

Figure 2 (a) Incongruent gene and species trees This incongruence can be explained by hypothesizing a gene duplication (h) at the base of the gene tree (b)The presence of only a single gene (a-d) extant in each of the present-day species(1-4) requires postulating three gene losses (c) The corresponding reconciled tree

Ортологи и паралоги

bull Гены-паралоги ndash событие дупликация (and

bull Гены-ортологи ndash событие видообразования (in the two species and in the two species

Duplication

Speciation

Species a Species b

Шаги реконструирования филогенетического

древа

1 Выбор последовательностей и поиск гомологов

2 MSA3 Матрица белков4 Филогенетическое дерево

Филогенетическое дерево

Филогения - раздел биологии изучающий родственные взаимоотношения разных групп живых организмов Филогению отображается обычно в виде эволюционных древ или систематических названий

Зачем нужны филогенетические деревья

Биологические задачи

сравнение 3-х и более объектов (кто на кого более похож )

реконструкция эволюции (кто от кого как и когда произошелhellip)

ТерминологияУзел (node) mdash точка разделения предковой последовательности(вида популяции) на две независимо эволюционирующиеСоответствует внутренней вершине графа изображающего эволюциюЛист (leaf OTU ndash оперативная таксономическая единица) mdash реальный (современный) объект внешняя вершина графаВетвь (branch) mdash связь между узлами или между узлом и листом ребро графаКорень (root) mdash общий предокКлада (clade) - группа двух или более таксонов или последователь-ностей ДНК которая включает как своего общего предка так и всех его потомков

OTU

HTU (hypotetical taxonomic unit)

Какие бывают деревья

Бинарное (разрешённое)(в один момент времени может

произойти только одно событие )

Небинарное (неразрешённое) (может ли в один момент времени

произойти два события )

Время

Какие бывают деревья

Укорененное дерево (rooted tree)отражает направление эволюции

Неукорененное (бескорневое) дерево(unrooted tree) показывает только связи между узлами

Время

Если число листьев равно n существует (2n-3)разных бинарных укоренных деревьевПо определению (2n-3) = 1middot3 middot middot(2n-3)

Существует (2n-5) разных бескорневых деревьев с n листьями

Rooting

A C B B C AA B C

3 OTUs 3 OTUs 1 н 1 неукорененное деревоеукорененное дерево 33 укорененных деревьев укорененных деревьев

A

B

C

D

C

A

B

4 OTUs 4 OTUs 3 3 неукорененных филогенетических неукорененных филогенетических деревьевдеревьев

D

B

A

C C

B

A

D

4 OTUs

15 укорененных

деревьев

Количество Количество Количество

OTU укорененных неукорененных

2 1 13 3 14 15 35 105 156 954 1057 103959548 135135 103959 2027025 13513510 34459425 202702511 654729075 3445942512 13749310575 654729075

Количество возможных деревьев

Рутинная процедура или как строят деревья

Составление выборки последовательностей

Множественное выравнивание

Построение дерева фрагмент записи в виде скобочной формулы

Визуализация и редактура дерева

(((((con1013851018(f539692826973((f67220839851max42750591)492893con923019677)1362315)953075)2583145

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Множественное выравнивание

Matches

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Multiple Alignment

Matches

Mismatches

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Multiple Alignment

Matches

Mismatches

Gaps

Seq 1 A G C G A GSeq 1 A G C G A GSeq 2 G C G G A CSeq 2 G C G G A C

Шаг 3 Перевод количества расхождений в индексы замен

Distance Matrix

Units количество замен нуклеотидов на 1000

Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86

Rice 00 118 122 122

Mosquito 00 55 51

Monkey 00 3

Human 00

Шаг 4 построение филогенетического дерева

Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86

Rice 00 118 122 122

Mosquito 00 55 51

Monkey 00 3

Human 00

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Дистанция между человеком и обезьяной минимальна Эти группы объединяются в Monkey-Human а все остальные дистанции пересчитываются

Dist[Spinach MonHum] = (Dist[Spinach Monkey] +

Dist[Spinach Human])2 = (91 + 86)2 = 885

Spinach Rice Mosquito Mon-HumSpinach 00 9 106 885

Rice 00 118 122

Mosquito 00 53

Mon-Hum 00

Редуцированная матрица дистанций

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Spi-Ric

HumanMosquito

Mon-Hum

MonkeySpinachRice

Mos-Mon-Hum

Spi-Ric

Mos-Mon-Hum-Spi-Ric

Как выбирать последовательности для дерева

Кроме случаев очень близких последовательностей проще работать с белками (а не с ДНК)

Придерживайтесь небольшой выборки (lt 50 последовательностей)

Избегайтеndash фрагментовndash Ксенологов (горизонтальный перенос генов)ndash рекомбинантных последовательностейndash многодоменных белков и повторов

Используйте outgroup (последовательность ответвившаяся от общего предка заведомо (но минимально) раньше разделения интересующих групп-клад)

Самое главное ndash хорошее выравнивание

Максимальный вклад в финальное дерево нельзя построить хорошее дерево по плохому выравниванию

Блоки содержащие много гэпов плохо выровненные N- и C- концы можно просто вырезать

Основные алгоритмы построения филогенетических деревьев

Методы основанные на оценке

расстояний (матричные методы)

bull UPGMA (кластеризация)

bull Neighbor-joining

bull Минимальная эволюция

Наибольшего правдоподобия Maximal likelihood ML Используется модель эволюции и строится дерево которое наиболее правдоподобно при данной модели

Максимальной экономии (бережливости)

maximal parsimony MP Выбирается дерево с минимальным количеством

мутаций необходимых для объяснения данных

Пример матрицы расстояний

1 2 3 4 5 6 7 8 000 1053 977 1278 1203 1654 1353 2500 HUMAN 1

000 902 1203 977 1579 902 2727 HORSE 2 000 977 902 1654 1203 2424 RABIT 3

000 226 1729 1053 2576 MOUSE 4 000 1579 827 2576 RAT 5

000 1053 2955 BOVIN 6 000 2500 PIG 7

000 CHICK 8

Расстояние (уровень дивергенции) между соответствующими последовательностями из геномов мыши и свиньи

Как понимать расстояние между объектами

bull Как время в течение которого они эволюционировалиbull Как число laquoэволюционных событийraquo (мутаций)

В первом случае объекты образуют ультраметрическое пространство(если все объекты наблюдаются в одно время что как правило верно)

Но время непосредственно измерить невозможно

Гипотеза laquoмолекулярных часовraquo(EZuckerkandl LPauling 1962)

За равное время во всех ветвях эволюции данного генабелка накапливается равное число мутацийЕсли гипотеза молекулярных часов

принимается число различий между выровненными последовательностями можно считать примерно пропорциональным времени Отклонения от ультраметричности можно считать случайными Эволюция реконструируется в виде ультраметрического дерева

Укоренённое дерево называется ультраметрическим если расстояние от корня до любого из листьев одинаково

UPGMAUnweighted Pair Group Method with Arithmetic Mean

разновидность кластерного метода

Расстояние между кластерами вычисляется как среднее арифметическое всевозможных расстояний между последовательностями из кластеров

Недостатки UPGMA

Алгоритм строит ультраметрическое дерево ndash скорость эволюции предполагается одинаковой для всех ветвей дерева Использовать этот алгоритм имеет смысл только в случае ультраметрических данных (справедливости laquoмолекулярных часовraquo)

Реальное дерево UPGMA

Метод ближайших соседей (Neighbor-joining NJ)

Строит неукоренённое дерево

Может работать с большим количеством данных

Достаточно быстрый

Если есть недвусмысленное с точки зрения эксперта дерево то оно будет построено

Метод Neighbor-joining

Рисуем laquoзвездноеraquo дерево и будем laquoотщипыватьraquo от него по паре листьев

Пусть ui = Σk Mik(n-2) mdash среднее расстояние от листа i до других

листьев

1 Рассмотрим все возможные пары листьев Выберем 2 листа i и j с минимальным значением величины

Mij ndash ui ndashuj

те выбираем 2 узла которые близки друг к другу но далеки ото всех остальных

Метод ближайших соседей (Neighbor-joining NJ)

2 Кластер (i j) ndash новый узел дерева

Расстояние от i или от j до узла (ij) D(i (ij)) = 05middot(Mij + ui ndash uj) D(j (ij)) = 05middot (Mij + uj ndash ui) те длина ветви зависит от среднего расстояния до других вершин

3 Вычисляем расстояние от нового кластера до всех других

M(ij)k = Mik+Mjk ndash Mij 2

5 В матрице М убираем i и j и добавляем (i j) Повторяем пока не останутся 3 узла

Input MSA для n последовательностей одна последовательность для каждого вида

AAAAATC

AAAAAAG

CCCCCCG

AAAAATCAAAAAAG

CCCCCCG

Длинная ветвь ndash непохоже на правду

Длинная ветвь -Похоже на правду

Методы основанные на последовательностях Maximum Likelihood (ML) Maximum Parsimony (MP)

Как изобразить дерево Топология дерева

Топология дерева mdash только листья узлы (корень) и связывающие их ветви (топология не зависит от способа изображения дерева)

A

B

C

D

E A BC D E

Два изображения одной и той же топологии

Bacterium 1

Bacterium 3

Bacterium 2

Eukaryote 1

Eukaryote 4

Eukaryote 3

Eukaryote 2

Bacterium 1

Bacterium 3Bacterium 2

Eukaryote 1

Eukaryote 4Eukaryote 3

Eukaryote 2

Филограммы ndash длины ветвей

пропорциональны

эволюционному расстоянию

Кладограммы и филограммы

Кладограммы ndash только

топологя Длины ветвей не

учитываются

6

31

2

46

24

53

Как можно нарисовать построенное дерево

Какие on-line программы строят деревья

ClustalW ldquoTree typerdquo ndash nj phylip строит только методом NJ но результат ndash в разных форматах no bootstraps

Phylip (Felsenstein 1993) ndash пакет программ для построения филогенетических деревьев (stand-alone)On-line (partly) например

httpbiowebpasteurfrseqanalphylogenyphylip-ukhtml PAUP (Phylogenetic Analysis Using Parsimony)

MEGA филогенетический анализ последовательностей

httpwwwmegasoftwarenet

Эволюция ndash исторический процесс

Из 8200794532637891559375 деревьев для 20 OTUs 1

является верным и 8200794532637891559374

неверны

Truth is one falsehoods are many

Какое из 8200794532637891559375

деревьев истинно

Мы не знаем Можно применить иные критетии

Например ldquoпохожесть=родствоraquo

GCGbull Строковый поиск простой текстовый

поиск по локальной базе данных

bull Поиск в определениях или в аннотациях

bull Определения содержат минимальное количество информации для каждой статьи доступ имя организма имя гена длина последовательности дата

  • Bestfit Output
  • SP1 at swissprot
  • EGR1 at swissprot
  • Вывод
  • Bl2Seq at NCBI
  • Bl2seq results
  • Bl2seq оценка
  • Оптимизация времени вычислений при парном выравнивании
  • Slide 9
  • Алгоритм BLAST (шаг 1)
  • Slide 11
  • Blast
  • Поиск гомологов
  • ДНК или белок
  • ДНК
  • Slide 16
  • Slide 17
  • Двойная спираль
  • ДНК дальнейшая упаковка
  • Slide 20
  • Репликация ДНК
  • Slide 22
  • Slide 23
  • Slide 24
  • Slide 25
  • Множественное выравнивание последовательностей (MSA)
  • Slide 27
  • Основные предположения
  • Например
  • Почему множественное выравнивание
  • Slide 31
  • Подходы в MSA
  • MSA algorithm
  • Multiple Alignment - алгоритм
  • Комментарии
  • GCG
  • Slide 37
  • GCG
  • Slide 39
  • Slide 40
  • Slide 41
  • ClustalW
  • Slide 43
  • Slide 44
  • ClustalW на EMBL
  • ClustalW на EMBL - результат
  • ClustalW at EMBL - Jalview
  • Consensus Sequence
  • Профиль (Profile)
  • Profile vs Consensus
  • Slide 51
  • Slide 52
  • Psi Blast (NCBI)
  • PSI-Blast
  • Psi-Blast вывод
  • Slide 56
  • Филогенез
  • Slide 58
  • Slide 59
  • Slide 60
  • Slide 61
  • Древо видов и генов
  • Ортологи и паралоги
  • Шаги реконструирования филогенетического древа
  • Филогенетическое дерево
  • Зачем нужны филогенетические деревья
  • Терминология
  • Slide 68
  • Какие бывают деревья
  • Slide 70
  • Slide 71
  • Slide 72
  • 4 OTUs 3 неукорененных филогенетических деревьев
  • Slide 74
  • Slide 75
  • Slide 76
  • Slide 77
  • Рутинная процедура или как строят деревья
  • Slide 79
  • Slide 80
  • Slide 81
  • Slide 82
  • Slide 83
  • Slide 84
  • Slide 85
  • Slide 86
  • Slide 87
  • Slide 88
  • Slide 89
  • Как выбирать последовательности для дерева
  • Самое главное ndash хорошее выравнивание
  • Основные алгоритмы построения филогенетических деревьев
  • Пример матрицы расстояний
  • Slide 94
  • Гипотеза laquoмолекулярных часовraquo (EZuckerkandl LPauling 1962)
  • UPGMA Unweighted Pair Group Method with Arithmetic Mean
  • Недостатки UPGMA
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Метод Neighbor-joining
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Slide 101
  • Как изобразить дерево Топология дерева
  • Slide 103
  • Какие on-line программы строят деревья
  • MEGA филогенетический анализ последовательностей
  • Slide 106
  • Slide 107
  • Slide 108
Page 59: Bestfit Output

Формат Newick

((A(BC))(DE))

Типы данных

Molecular (DNA RNA proteins)

Morphological (soft tissue hard tissue extant extinct)

Преимущества молекулярных данных

bull Наследуемость

bull Недвусмысленность в описании молекулярных характеристик

bull Поддаются количественному анализу

bull Оценка гомологии легче чем морфологические исследования

bull Данных много

Древо видов и геновbull Древо видов ndash эволюционные взаимосвязи

между видами (видообразование)bull Древо генов

Page RDM and Cotton JC (2000) GeneTree a tool for exploring gene family evolution In D Sankoff and J Nadeau (eds) Comparative Genomics Empirical and Analytical Approaches to Gene Order Dynamics Map Alignment and the Evolution of Gene Families Kluwer Academic Publishers Dordrecht pp 525-536

Figure 2 (a) Incongruent gene and species trees This incongruence can be explained by hypothesizing a gene duplication (h) at the base of the gene tree (b)The presence of only a single gene (a-d) extant in each of the present-day species(1-4) requires postulating three gene losses (c) The corresponding reconciled tree

Ортологи и паралоги

bull Гены-паралоги ndash событие дупликация (and

bull Гены-ортологи ndash событие видообразования (in the two species and in the two species

Duplication

Speciation

Species a Species b

Шаги реконструирования филогенетического

древа

1 Выбор последовательностей и поиск гомологов

2 MSA3 Матрица белков4 Филогенетическое дерево

Филогенетическое дерево

Филогения - раздел биологии изучающий родственные взаимоотношения разных групп живых организмов Филогению отображается обычно в виде эволюционных древ или систематических названий

Зачем нужны филогенетические деревья

Биологические задачи

сравнение 3-х и более объектов (кто на кого более похож )

реконструкция эволюции (кто от кого как и когда произошелhellip)

ТерминологияУзел (node) mdash точка разделения предковой последовательности(вида популяции) на две независимо эволюционирующиеСоответствует внутренней вершине графа изображающего эволюциюЛист (leaf OTU ndash оперативная таксономическая единица) mdash реальный (современный) объект внешняя вершина графаВетвь (branch) mdash связь между узлами или между узлом и листом ребро графаКорень (root) mdash общий предокКлада (clade) - группа двух или более таксонов или последователь-ностей ДНК которая включает как своего общего предка так и всех его потомков

OTU

HTU (hypotetical taxonomic unit)

Какие бывают деревья

Бинарное (разрешённое)(в один момент времени может

произойти только одно событие )

Небинарное (неразрешённое) (может ли в один момент времени

произойти два события )

Время

Какие бывают деревья

Укорененное дерево (rooted tree)отражает направление эволюции

Неукорененное (бескорневое) дерево(unrooted tree) показывает только связи между узлами

Время

Если число листьев равно n существует (2n-3)разных бинарных укоренных деревьевПо определению (2n-3) = 1middot3 middot middot(2n-3)

Существует (2n-5) разных бескорневых деревьев с n листьями

Rooting

A C B B C AA B C

3 OTUs 3 OTUs 1 н 1 неукорененное деревоеукорененное дерево 33 укорененных деревьев укорененных деревьев

A

B

C

D

C

A

B

4 OTUs 4 OTUs 3 3 неукорененных филогенетических неукорененных филогенетических деревьевдеревьев

D

B

A

C C

B

A

D

4 OTUs

15 укорененных

деревьев

Количество Количество Количество

OTU укорененных неукорененных

2 1 13 3 14 15 35 105 156 954 1057 103959548 135135 103959 2027025 13513510 34459425 202702511 654729075 3445942512 13749310575 654729075

Количество возможных деревьев

Рутинная процедура или как строят деревья

Составление выборки последовательностей

Множественное выравнивание

Построение дерева фрагмент записи в виде скобочной формулы

Визуализация и редактура дерева

(((((con1013851018(f539692826973((f67220839851max42750591)492893con923019677)1362315)953075)2583145

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Множественное выравнивание

Matches

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Multiple Alignment

Matches

Mismatches

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Multiple Alignment

Matches

Mismatches

Gaps

Seq 1 A G C G A GSeq 1 A G C G A GSeq 2 G C G G A CSeq 2 G C G G A C

Шаг 3 Перевод количества расхождений в индексы замен

Distance Matrix

Units количество замен нуклеотидов на 1000

Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86

Rice 00 118 122 122

Mosquito 00 55 51

Monkey 00 3

Human 00

Шаг 4 построение филогенетического дерева

Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86

Rice 00 118 122 122

Mosquito 00 55 51

Monkey 00 3

Human 00

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Дистанция между человеком и обезьяной минимальна Эти группы объединяются в Monkey-Human а все остальные дистанции пересчитываются

Dist[Spinach MonHum] = (Dist[Spinach Monkey] +

Dist[Spinach Human])2 = (91 + 86)2 = 885

Spinach Rice Mosquito Mon-HumSpinach 00 9 106 885

Rice 00 118 122

Mosquito 00 53

Mon-Hum 00

Редуцированная матрица дистанций

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Spi-Ric

HumanMosquito

Mon-Hum

MonkeySpinachRice

Mos-Mon-Hum

Spi-Ric

Mos-Mon-Hum-Spi-Ric

Как выбирать последовательности для дерева

Кроме случаев очень близких последовательностей проще работать с белками (а не с ДНК)

Придерживайтесь небольшой выборки (lt 50 последовательностей)

Избегайтеndash фрагментовndash Ксенологов (горизонтальный перенос генов)ndash рекомбинантных последовательностейndash многодоменных белков и повторов

Используйте outgroup (последовательность ответвившаяся от общего предка заведомо (но минимально) раньше разделения интересующих групп-клад)

Самое главное ndash хорошее выравнивание

Максимальный вклад в финальное дерево нельзя построить хорошее дерево по плохому выравниванию

Блоки содержащие много гэпов плохо выровненные N- и C- концы можно просто вырезать

Основные алгоритмы построения филогенетических деревьев

Методы основанные на оценке

расстояний (матричные методы)

bull UPGMA (кластеризация)

bull Neighbor-joining

bull Минимальная эволюция

Наибольшего правдоподобия Maximal likelihood ML Используется модель эволюции и строится дерево которое наиболее правдоподобно при данной модели

Максимальной экономии (бережливости)

maximal parsimony MP Выбирается дерево с минимальным количеством

мутаций необходимых для объяснения данных

Пример матрицы расстояний

1 2 3 4 5 6 7 8 000 1053 977 1278 1203 1654 1353 2500 HUMAN 1

000 902 1203 977 1579 902 2727 HORSE 2 000 977 902 1654 1203 2424 RABIT 3

000 226 1729 1053 2576 MOUSE 4 000 1579 827 2576 RAT 5

000 1053 2955 BOVIN 6 000 2500 PIG 7

000 CHICK 8

Расстояние (уровень дивергенции) между соответствующими последовательностями из геномов мыши и свиньи

Как понимать расстояние между объектами

bull Как время в течение которого они эволюционировалиbull Как число laquoэволюционных событийraquo (мутаций)

В первом случае объекты образуют ультраметрическое пространство(если все объекты наблюдаются в одно время что как правило верно)

Но время непосредственно измерить невозможно

Гипотеза laquoмолекулярных часовraquo(EZuckerkandl LPauling 1962)

За равное время во всех ветвях эволюции данного генабелка накапливается равное число мутацийЕсли гипотеза молекулярных часов

принимается число различий между выровненными последовательностями можно считать примерно пропорциональным времени Отклонения от ультраметричности можно считать случайными Эволюция реконструируется в виде ультраметрического дерева

Укоренённое дерево называется ультраметрическим если расстояние от корня до любого из листьев одинаково

UPGMAUnweighted Pair Group Method with Arithmetic Mean

разновидность кластерного метода

Расстояние между кластерами вычисляется как среднее арифметическое всевозможных расстояний между последовательностями из кластеров

Недостатки UPGMA

Алгоритм строит ультраметрическое дерево ndash скорость эволюции предполагается одинаковой для всех ветвей дерева Использовать этот алгоритм имеет смысл только в случае ультраметрических данных (справедливости laquoмолекулярных часовraquo)

Реальное дерево UPGMA

Метод ближайших соседей (Neighbor-joining NJ)

Строит неукоренённое дерево

Может работать с большим количеством данных

Достаточно быстрый

Если есть недвусмысленное с точки зрения эксперта дерево то оно будет построено

Метод Neighbor-joining

Рисуем laquoзвездноеraquo дерево и будем laquoотщипыватьraquo от него по паре листьев

Пусть ui = Σk Mik(n-2) mdash среднее расстояние от листа i до других

листьев

1 Рассмотрим все возможные пары листьев Выберем 2 листа i и j с минимальным значением величины

Mij ndash ui ndashuj

те выбираем 2 узла которые близки друг к другу но далеки ото всех остальных

Метод ближайших соседей (Neighbor-joining NJ)

2 Кластер (i j) ndash новый узел дерева

Расстояние от i или от j до узла (ij) D(i (ij)) = 05middot(Mij + ui ndash uj) D(j (ij)) = 05middot (Mij + uj ndash ui) те длина ветви зависит от среднего расстояния до других вершин

3 Вычисляем расстояние от нового кластера до всех других

M(ij)k = Mik+Mjk ndash Mij 2

5 В матрице М убираем i и j и добавляем (i j) Повторяем пока не останутся 3 узла

Input MSA для n последовательностей одна последовательность для каждого вида

AAAAATC

AAAAAAG

CCCCCCG

AAAAATCAAAAAAG

CCCCCCG

Длинная ветвь ndash непохоже на правду

Длинная ветвь -Похоже на правду

Методы основанные на последовательностях Maximum Likelihood (ML) Maximum Parsimony (MP)

Как изобразить дерево Топология дерева

Топология дерева mdash только листья узлы (корень) и связывающие их ветви (топология не зависит от способа изображения дерева)

A

B

C

D

E A BC D E

Два изображения одной и той же топологии

Bacterium 1

Bacterium 3

Bacterium 2

Eukaryote 1

Eukaryote 4

Eukaryote 3

Eukaryote 2

Bacterium 1

Bacterium 3Bacterium 2

Eukaryote 1

Eukaryote 4Eukaryote 3

Eukaryote 2

Филограммы ndash длины ветвей

пропорциональны

эволюционному расстоянию

Кладограммы и филограммы

Кладограммы ndash только

топологя Длины ветвей не

учитываются

6

31

2

46

24

53

Как можно нарисовать построенное дерево

Какие on-line программы строят деревья

ClustalW ldquoTree typerdquo ndash nj phylip строит только методом NJ но результат ndash в разных форматах no bootstraps

Phylip (Felsenstein 1993) ndash пакет программ для построения филогенетических деревьев (stand-alone)On-line (partly) например

httpbiowebpasteurfrseqanalphylogenyphylip-ukhtml PAUP (Phylogenetic Analysis Using Parsimony)

MEGA филогенетический анализ последовательностей

httpwwwmegasoftwarenet

Эволюция ndash исторический процесс

Из 8200794532637891559375 деревьев для 20 OTUs 1

является верным и 8200794532637891559374

неверны

Truth is one falsehoods are many

Какое из 8200794532637891559375

деревьев истинно

Мы не знаем Можно применить иные критетии

Например ldquoпохожесть=родствоraquo

GCGbull Строковый поиск простой текстовый

поиск по локальной базе данных

bull Поиск в определениях или в аннотациях

bull Определения содержат минимальное количество информации для каждой статьи доступ имя организма имя гена длина последовательности дата

  • Bestfit Output
  • SP1 at swissprot
  • EGR1 at swissprot
  • Вывод
  • Bl2Seq at NCBI
  • Bl2seq results
  • Bl2seq оценка
  • Оптимизация времени вычислений при парном выравнивании
  • Slide 9
  • Алгоритм BLAST (шаг 1)
  • Slide 11
  • Blast
  • Поиск гомологов
  • ДНК или белок
  • ДНК
  • Slide 16
  • Slide 17
  • Двойная спираль
  • ДНК дальнейшая упаковка
  • Slide 20
  • Репликация ДНК
  • Slide 22
  • Slide 23
  • Slide 24
  • Slide 25
  • Множественное выравнивание последовательностей (MSA)
  • Slide 27
  • Основные предположения
  • Например
  • Почему множественное выравнивание
  • Slide 31
  • Подходы в MSA
  • MSA algorithm
  • Multiple Alignment - алгоритм
  • Комментарии
  • GCG
  • Slide 37
  • GCG
  • Slide 39
  • Slide 40
  • Slide 41
  • ClustalW
  • Slide 43
  • Slide 44
  • ClustalW на EMBL
  • ClustalW на EMBL - результат
  • ClustalW at EMBL - Jalview
  • Consensus Sequence
  • Профиль (Profile)
  • Profile vs Consensus
  • Slide 51
  • Slide 52
  • Psi Blast (NCBI)
  • PSI-Blast
  • Psi-Blast вывод
  • Slide 56
  • Филогенез
  • Slide 58
  • Slide 59
  • Slide 60
  • Slide 61
  • Древо видов и генов
  • Ортологи и паралоги
  • Шаги реконструирования филогенетического древа
  • Филогенетическое дерево
  • Зачем нужны филогенетические деревья
  • Терминология
  • Slide 68
  • Какие бывают деревья
  • Slide 70
  • Slide 71
  • Slide 72
  • 4 OTUs 3 неукорененных филогенетических деревьев
  • Slide 74
  • Slide 75
  • Slide 76
  • Slide 77
  • Рутинная процедура или как строят деревья
  • Slide 79
  • Slide 80
  • Slide 81
  • Slide 82
  • Slide 83
  • Slide 84
  • Slide 85
  • Slide 86
  • Slide 87
  • Slide 88
  • Slide 89
  • Как выбирать последовательности для дерева
  • Самое главное ndash хорошее выравнивание
  • Основные алгоритмы построения филогенетических деревьев
  • Пример матрицы расстояний
  • Slide 94
  • Гипотеза laquoмолекулярных часовraquo (EZuckerkandl LPauling 1962)
  • UPGMA Unweighted Pair Group Method with Arithmetic Mean
  • Недостатки UPGMA
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Метод Neighbor-joining
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Slide 101
  • Как изобразить дерево Топология дерева
  • Slide 103
  • Какие on-line программы строят деревья
  • MEGA филогенетический анализ последовательностей
  • Slide 106
  • Slide 107
  • Slide 108
Page 60: Bestfit Output

Типы данных

Molecular (DNA RNA proteins)

Morphological (soft tissue hard tissue extant extinct)

Преимущества молекулярных данных

bull Наследуемость

bull Недвусмысленность в описании молекулярных характеристик

bull Поддаются количественному анализу

bull Оценка гомологии легче чем морфологические исследования

bull Данных много

Древо видов и геновbull Древо видов ndash эволюционные взаимосвязи

между видами (видообразование)bull Древо генов

Page RDM and Cotton JC (2000) GeneTree a tool for exploring gene family evolution In D Sankoff and J Nadeau (eds) Comparative Genomics Empirical and Analytical Approaches to Gene Order Dynamics Map Alignment and the Evolution of Gene Families Kluwer Academic Publishers Dordrecht pp 525-536

Figure 2 (a) Incongruent gene and species trees This incongruence can be explained by hypothesizing a gene duplication (h) at the base of the gene tree (b)The presence of only a single gene (a-d) extant in each of the present-day species(1-4) requires postulating three gene losses (c) The corresponding reconciled tree

Ортологи и паралоги

bull Гены-паралоги ndash событие дупликация (and

bull Гены-ортологи ndash событие видообразования (in the two species and in the two species

Duplication

Speciation

Species a Species b

Шаги реконструирования филогенетического

древа

1 Выбор последовательностей и поиск гомологов

2 MSA3 Матрица белков4 Филогенетическое дерево

Филогенетическое дерево

Филогения - раздел биологии изучающий родственные взаимоотношения разных групп живых организмов Филогению отображается обычно в виде эволюционных древ или систематических названий

Зачем нужны филогенетические деревья

Биологические задачи

сравнение 3-х и более объектов (кто на кого более похож )

реконструкция эволюции (кто от кого как и когда произошелhellip)

ТерминологияУзел (node) mdash точка разделения предковой последовательности(вида популяции) на две независимо эволюционирующиеСоответствует внутренней вершине графа изображающего эволюциюЛист (leaf OTU ndash оперативная таксономическая единица) mdash реальный (современный) объект внешняя вершина графаВетвь (branch) mdash связь между узлами или между узлом и листом ребро графаКорень (root) mdash общий предокКлада (clade) - группа двух или более таксонов или последователь-ностей ДНК которая включает как своего общего предка так и всех его потомков

OTU

HTU (hypotetical taxonomic unit)

Какие бывают деревья

Бинарное (разрешённое)(в один момент времени может

произойти только одно событие )

Небинарное (неразрешённое) (может ли в один момент времени

произойти два события )

Время

Какие бывают деревья

Укорененное дерево (rooted tree)отражает направление эволюции

Неукорененное (бескорневое) дерево(unrooted tree) показывает только связи между узлами

Время

Если число листьев равно n существует (2n-3)разных бинарных укоренных деревьевПо определению (2n-3) = 1middot3 middot middot(2n-3)

Существует (2n-5) разных бескорневых деревьев с n листьями

Rooting

A C B B C AA B C

3 OTUs 3 OTUs 1 н 1 неукорененное деревоеукорененное дерево 33 укорененных деревьев укорененных деревьев

A

B

C

D

C

A

B

4 OTUs 4 OTUs 3 3 неукорененных филогенетических неукорененных филогенетических деревьевдеревьев

D

B

A

C C

B

A

D

4 OTUs

15 укорененных

деревьев

Количество Количество Количество

OTU укорененных неукорененных

2 1 13 3 14 15 35 105 156 954 1057 103959548 135135 103959 2027025 13513510 34459425 202702511 654729075 3445942512 13749310575 654729075

Количество возможных деревьев

Рутинная процедура или как строят деревья

Составление выборки последовательностей

Множественное выравнивание

Построение дерева фрагмент записи в виде скобочной формулы

Визуализация и редактура дерева

(((((con1013851018(f539692826973((f67220839851max42750591)492893con923019677)1362315)953075)2583145

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Множественное выравнивание

Matches

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Multiple Alignment

Matches

Mismatches

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Multiple Alignment

Matches

Mismatches

Gaps

Seq 1 A G C G A GSeq 1 A G C G A GSeq 2 G C G G A CSeq 2 G C G G A C

Шаг 3 Перевод количества расхождений в индексы замен

Distance Matrix

Units количество замен нуклеотидов на 1000

Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86

Rice 00 118 122 122

Mosquito 00 55 51

Monkey 00 3

Human 00

Шаг 4 построение филогенетического дерева

Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86

Rice 00 118 122 122

Mosquito 00 55 51

Monkey 00 3

Human 00

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Дистанция между человеком и обезьяной минимальна Эти группы объединяются в Monkey-Human а все остальные дистанции пересчитываются

Dist[Spinach MonHum] = (Dist[Spinach Monkey] +

Dist[Spinach Human])2 = (91 + 86)2 = 885

Spinach Rice Mosquito Mon-HumSpinach 00 9 106 885

Rice 00 118 122

Mosquito 00 53

Mon-Hum 00

Редуцированная матрица дистанций

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Spi-Ric

HumanMosquito

Mon-Hum

MonkeySpinachRice

Mos-Mon-Hum

Spi-Ric

Mos-Mon-Hum-Spi-Ric

Как выбирать последовательности для дерева

Кроме случаев очень близких последовательностей проще работать с белками (а не с ДНК)

Придерживайтесь небольшой выборки (lt 50 последовательностей)

Избегайтеndash фрагментовndash Ксенологов (горизонтальный перенос генов)ndash рекомбинантных последовательностейndash многодоменных белков и повторов

Используйте outgroup (последовательность ответвившаяся от общего предка заведомо (но минимально) раньше разделения интересующих групп-клад)

Самое главное ndash хорошее выравнивание

Максимальный вклад в финальное дерево нельзя построить хорошее дерево по плохому выравниванию

Блоки содержащие много гэпов плохо выровненные N- и C- концы можно просто вырезать

Основные алгоритмы построения филогенетических деревьев

Методы основанные на оценке

расстояний (матричные методы)

bull UPGMA (кластеризация)

bull Neighbor-joining

bull Минимальная эволюция

Наибольшего правдоподобия Maximal likelihood ML Используется модель эволюции и строится дерево которое наиболее правдоподобно при данной модели

Максимальной экономии (бережливости)

maximal parsimony MP Выбирается дерево с минимальным количеством

мутаций необходимых для объяснения данных

Пример матрицы расстояний

1 2 3 4 5 6 7 8 000 1053 977 1278 1203 1654 1353 2500 HUMAN 1

000 902 1203 977 1579 902 2727 HORSE 2 000 977 902 1654 1203 2424 RABIT 3

000 226 1729 1053 2576 MOUSE 4 000 1579 827 2576 RAT 5

000 1053 2955 BOVIN 6 000 2500 PIG 7

000 CHICK 8

Расстояние (уровень дивергенции) между соответствующими последовательностями из геномов мыши и свиньи

Как понимать расстояние между объектами

bull Как время в течение которого они эволюционировалиbull Как число laquoэволюционных событийraquo (мутаций)

В первом случае объекты образуют ультраметрическое пространство(если все объекты наблюдаются в одно время что как правило верно)

Но время непосредственно измерить невозможно

Гипотеза laquoмолекулярных часовraquo(EZuckerkandl LPauling 1962)

За равное время во всех ветвях эволюции данного генабелка накапливается равное число мутацийЕсли гипотеза молекулярных часов

принимается число различий между выровненными последовательностями можно считать примерно пропорциональным времени Отклонения от ультраметричности можно считать случайными Эволюция реконструируется в виде ультраметрического дерева

Укоренённое дерево называется ультраметрическим если расстояние от корня до любого из листьев одинаково

UPGMAUnweighted Pair Group Method with Arithmetic Mean

разновидность кластерного метода

Расстояние между кластерами вычисляется как среднее арифметическое всевозможных расстояний между последовательностями из кластеров

Недостатки UPGMA

Алгоритм строит ультраметрическое дерево ndash скорость эволюции предполагается одинаковой для всех ветвей дерева Использовать этот алгоритм имеет смысл только в случае ультраметрических данных (справедливости laquoмолекулярных часовraquo)

Реальное дерево UPGMA

Метод ближайших соседей (Neighbor-joining NJ)

Строит неукоренённое дерево

Может работать с большим количеством данных

Достаточно быстрый

Если есть недвусмысленное с точки зрения эксперта дерево то оно будет построено

Метод Neighbor-joining

Рисуем laquoзвездноеraquo дерево и будем laquoотщипыватьraquo от него по паре листьев

Пусть ui = Σk Mik(n-2) mdash среднее расстояние от листа i до других

листьев

1 Рассмотрим все возможные пары листьев Выберем 2 листа i и j с минимальным значением величины

Mij ndash ui ndashuj

те выбираем 2 узла которые близки друг к другу но далеки ото всех остальных

Метод ближайших соседей (Neighbor-joining NJ)

2 Кластер (i j) ndash новый узел дерева

Расстояние от i или от j до узла (ij) D(i (ij)) = 05middot(Mij + ui ndash uj) D(j (ij)) = 05middot (Mij + uj ndash ui) те длина ветви зависит от среднего расстояния до других вершин

3 Вычисляем расстояние от нового кластера до всех других

M(ij)k = Mik+Mjk ndash Mij 2

5 В матрице М убираем i и j и добавляем (i j) Повторяем пока не останутся 3 узла

Input MSA для n последовательностей одна последовательность для каждого вида

AAAAATC

AAAAAAG

CCCCCCG

AAAAATCAAAAAAG

CCCCCCG

Длинная ветвь ndash непохоже на правду

Длинная ветвь -Похоже на правду

Методы основанные на последовательностях Maximum Likelihood (ML) Maximum Parsimony (MP)

Как изобразить дерево Топология дерева

Топология дерева mdash только листья узлы (корень) и связывающие их ветви (топология не зависит от способа изображения дерева)

A

B

C

D

E A BC D E

Два изображения одной и той же топологии

Bacterium 1

Bacterium 3

Bacterium 2

Eukaryote 1

Eukaryote 4

Eukaryote 3

Eukaryote 2

Bacterium 1

Bacterium 3Bacterium 2

Eukaryote 1

Eukaryote 4Eukaryote 3

Eukaryote 2

Филограммы ndash длины ветвей

пропорциональны

эволюционному расстоянию

Кладограммы и филограммы

Кладограммы ndash только

топологя Длины ветвей не

учитываются

6

31

2

46

24

53

Как можно нарисовать построенное дерево

Какие on-line программы строят деревья

ClustalW ldquoTree typerdquo ndash nj phylip строит только методом NJ но результат ndash в разных форматах no bootstraps

Phylip (Felsenstein 1993) ndash пакет программ для построения филогенетических деревьев (stand-alone)On-line (partly) например

httpbiowebpasteurfrseqanalphylogenyphylip-ukhtml PAUP (Phylogenetic Analysis Using Parsimony)

MEGA филогенетический анализ последовательностей

httpwwwmegasoftwarenet

Эволюция ndash исторический процесс

Из 8200794532637891559375 деревьев для 20 OTUs 1

является верным и 8200794532637891559374

неверны

Truth is one falsehoods are many

Какое из 8200794532637891559375

деревьев истинно

Мы не знаем Можно применить иные критетии

Например ldquoпохожесть=родствоraquo

GCGbull Строковый поиск простой текстовый

поиск по локальной базе данных

bull Поиск в определениях или в аннотациях

bull Определения содержат минимальное количество информации для каждой статьи доступ имя организма имя гена длина последовательности дата

  • Bestfit Output
  • SP1 at swissprot
  • EGR1 at swissprot
  • Вывод
  • Bl2Seq at NCBI
  • Bl2seq results
  • Bl2seq оценка
  • Оптимизация времени вычислений при парном выравнивании
  • Slide 9
  • Алгоритм BLAST (шаг 1)
  • Slide 11
  • Blast
  • Поиск гомологов
  • ДНК или белок
  • ДНК
  • Slide 16
  • Slide 17
  • Двойная спираль
  • ДНК дальнейшая упаковка
  • Slide 20
  • Репликация ДНК
  • Slide 22
  • Slide 23
  • Slide 24
  • Slide 25
  • Множественное выравнивание последовательностей (MSA)
  • Slide 27
  • Основные предположения
  • Например
  • Почему множественное выравнивание
  • Slide 31
  • Подходы в MSA
  • MSA algorithm
  • Multiple Alignment - алгоритм
  • Комментарии
  • GCG
  • Slide 37
  • GCG
  • Slide 39
  • Slide 40
  • Slide 41
  • ClustalW
  • Slide 43
  • Slide 44
  • ClustalW на EMBL
  • ClustalW на EMBL - результат
  • ClustalW at EMBL - Jalview
  • Consensus Sequence
  • Профиль (Profile)
  • Profile vs Consensus
  • Slide 51
  • Slide 52
  • Psi Blast (NCBI)
  • PSI-Blast
  • Psi-Blast вывод
  • Slide 56
  • Филогенез
  • Slide 58
  • Slide 59
  • Slide 60
  • Slide 61
  • Древо видов и генов
  • Ортологи и паралоги
  • Шаги реконструирования филогенетического древа
  • Филогенетическое дерево
  • Зачем нужны филогенетические деревья
  • Терминология
  • Slide 68
  • Какие бывают деревья
  • Slide 70
  • Slide 71
  • Slide 72
  • 4 OTUs 3 неукорененных филогенетических деревьев
  • Slide 74
  • Slide 75
  • Slide 76
  • Slide 77
  • Рутинная процедура или как строят деревья
  • Slide 79
  • Slide 80
  • Slide 81
  • Slide 82
  • Slide 83
  • Slide 84
  • Slide 85
  • Slide 86
  • Slide 87
  • Slide 88
  • Slide 89
  • Как выбирать последовательности для дерева
  • Самое главное ndash хорошее выравнивание
  • Основные алгоритмы построения филогенетических деревьев
  • Пример матрицы расстояний
  • Slide 94
  • Гипотеза laquoмолекулярных часовraquo (EZuckerkandl LPauling 1962)
  • UPGMA Unweighted Pair Group Method with Arithmetic Mean
  • Недостатки UPGMA
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Метод Neighbor-joining
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Slide 101
  • Как изобразить дерево Топология дерева
  • Slide 103
  • Какие on-line программы строят деревья
  • MEGA филогенетический анализ последовательностей
  • Slide 106
  • Slide 107
  • Slide 108
Page 61: Bestfit Output

Преимущества молекулярных данных

bull Наследуемость

bull Недвусмысленность в описании молекулярных характеристик

bull Поддаются количественному анализу

bull Оценка гомологии легче чем морфологические исследования

bull Данных много

Древо видов и геновbull Древо видов ndash эволюционные взаимосвязи

между видами (видообразование)bull Древо генов

Page RDM and Cotton JC (2000) GeneTree a tool for exploring gene family evolution In D Sankoff and J Nadeau (eds) Comparative Genomics Empirical and Analytical Approaches to Gene Order Dynamics Map Alignment and the Evolution of Gene Families Kluwer Academic Publishers Dordrecht pp 525-536

Figure 2 (a) Incongruent gene and species trees This incongruence can be explained by hypothesizing a gene duplication (h) at the base of the gene tree (b)The presence of only a single gene (a-d) extant in each of the present-day species(1-4) requires postulating three gene losses (c) The corresponding reconciled tree

Ортологи и паралоги

bull Гены-паралоги ndash событие дупликация (and

bull Гены-ортологи ndash событие видообразования (in the two species and in the two species

Duplication

Speciation

Species a Species b

Шаги реконструирования филогенетического

древа

1 Выбор последовательностей и поиск гомологов

2 MSA3 Матрица белков4 Филогенетическое дерево

Филогенетическое дерево

Филогения - раздел биологии изучающий родственные взаимоотношения разных групп живых организмов Филогению отображается обычно в виде эволюционных древ или систематических названий

Зачем нужны филогенетические деревья

Биологические задачи

сравнение 3-х и более объектов (кто на кого более похож )

реконструкция эволюции (кто от кого как и когда произошелhellip)

ТерминологияУзел (node) mdash точка разделения предковой последовательности(вида популяции) на две независимо эволюционирующиеСоответствует внутренней вершине графа изображающего эволюциюЛист (leaf OTU ndash оперативная таксономическая единица) mdash реальный (современный) объект внешняя вершина графаВетвь (branch) mdash связь между узлами или между узлом и листом ребро графаКорень (root) mdash общий предокКлада (clade) - группа двух или более таксонов или последователь-ностей ДНК которая включает как своего общего предка так и всех его потомков

OTU

HTU (hypotetical taxonomic unit)

Какие бывают деревья

Бинарное (разрешённое)(в один момент времени может

произойти только одно событие )

Небинарное (неразрешённое) (может ли в один момент времени

произойти два события )

Время

Какие бывают деревья

Укорененное дерево (rooted tree)отражает направление эволюции

Неукорененное (бескорневое) дерево(unrooted tree) показывает только связи между узлами

Время

Если число листьев равно n существует (2n-3)разных бинарных укоренных деревьевПо определению (2n-3) = 1middot3 middot middot(2n-3)

Существует (2n-5) разных бескорневых деревьев с n листьями

Rooting

A C B B C AA B C

3 OTUs 3 OTUs 1 н 1 неукорененное деревоеукорененное дерево 33 укорененных деревьев укорененных деревьев

A

B

C

D

C

A

B

4 OTUs 4 OTUs 3 3 неукорененных филогенетических неукорененных филогенетических деревьевдеревьев

D

B

A

C C

B

A

D

4 OTUs

15 укорененных

деревьев

Количество Количество Количество

OTU укорененных неукорененных

2 1 13 3 14 15 35 105 156 954 1057 103959548 135135 103959 2027025 13513510 34459425 202702511 654729075 3445942512 13749310575 654729075

Количество возможных деревьев

Рутинная процедура или как строят деревья

Составление выборки последовательностей

Множественное выравнивание

Построение дерева фрагмент записи в виде скобочной формулы

Визуализация и редактура дерева

(((((con1013851018(f539692826973((f67220839851max42750591)492893con923019677)1362315)953075)2583145

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Множественное выравнивание

Matches

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Multiple Alignment

Matches

Mismatches

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Multiple Alignment

Matches

Mismatches

Gaps

Seq 1 A G C G A GSeq 1 A G C G A GSeq 2 G C G G A CSeq 2 G C G G A C

Шаг 3 Перевод количества расхождений в индексы замен

Distance Matrix

Units количество замен нуклеотидов на 1000

Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86

Rice 00 118 122 122

Mosquito 00 55 51

Monkey 00 3

Human 00

Шаг 4 построение филогенетического дерева

Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86

Rice 00 118 122 122

Mosquito 00 55 51

Monkey 00 3

Human 00

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Дистанция между человеком и обезьяной минимальна Эти группы объединяются в Monkey-Human а все остальные дистанции пересчитываются

Dist[Spinach MonHum] = (Dist[Spinach Monkey] +

Dist[Spinach Human])2 = (91 + 86)2 = 885

Spinach Rice Mosquito Mon-HumSpinach 00 9 106 885

Rice 00 118 122

Mosquito 00 53

Mon-Hum 00

Редуцированная матрица дистанций

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Spi-Ric

HumanMosquito

Mon-Hum

MonkeySpinachRice

Mos-Mon-Hum

Spi-Ric

Mos-Mon-Hum-Spi-Ric

Как выбирать последовательности для дерева

Кроме случаев очень близких последовательностей проще работать с белками (а не с ДНК)

Придерживайтесь небольшой выборки (lt 50 последовательностей)

Избегайтеndash фрагментовndash Ксенологов (горизонтальный перенос генов)ndash рекомбинантных последовательностейndash многодоменных белков и повторов

Используйте outgroup (последовательность ответвившаяся от общего предка заведомо (но минимально) раньше разделения интересующих групп-клад)

Самое главное ndash хорошее выравнивание

Максимальный вклад в финальное дерево нельзя построить хорошее дерево по плохому выравниванию

Блоки содержащие много гэпов плохо выровненные N- и C- концы можно просто вырезать

Основные алгоритмы построения филогенетических деревьев

Методы основанные на оценке

расстояний (матричные методы)

bull UPGMA (кластеризация)

bull Neighbor-joining

bull Минимальная эволюция

Наибольшего правдоподобия Maximal likelihood ML Используется модель эволюции и строится дерево которое наиболее правдоподобно при данной модели

Максимальной экономии (бережливости)

maximal parsimony MP Выбирается дерево с минимальным количеством

мутаций необходимых для объяснения данных

Пример матрицы расстояний

1 2 3 4 5 6 7 8 000 1053 977 1278 1203 1654 1353 2500 HUMAN 1

000 902 1203 977 1579 902 2727 HORSE 2 000 977 902 1654 1203 2424 RABIT 3

000 226 1729 1053 2576 MOUSE 4 000 1579 827 2576 RAT 5

000 1053 2955 BOVIN 6 000 2500 PIG 7

000 CHICK 8

Расстояние (уровень дивергенции) между соответствующими последовательностями из геномов мыши и свиньи

Как понимать расстояние между объектами

bull Как время в течение которого они эволюционировалиbull Как число laquoэволюционных событийraquo (мутаций)

В первом случае объекты образуют ультраметрическое пространство(если все объекты наблюдаются в одно время что как правило верно)

Но время непосредственно измерить невозможно

Гипотеза laquoмолекулярных часовraquo(EZuckerkandl LPauling 1962)

За равное время во всех ветвях эволюции данного генабелка накапливается равное число мутацийЕсли гипотеза молекулярных часов

принимается число различий между выровненными последовательностями можно считать примерно пропорциональным времени Отклонения от ультраметричности можно считать случайными Эволюция реконструируется в виде ультраметрического дерева

Укоренённое дерево называется ультраметрическим если расстояние от корня до любого из листьев одинаково

UPGMAUnweighted Pair Group Method with Arithmetic Mean

разновидность кластерного метода

Расстояние между кластерами вычисляется как среднее арифметическое всевозможных расстояний между последовательностями из кластеров

Недостатки UPGMA

Алгоритм строит ультраметрическое дерево ndash скорость эволюции предполагается одинаковой для всех ветвей дерева Использовать этот алгоритм имеет смысл только в случае ультраметрических данных (справедливости laquoмолекулярных часовraquo)

Реальное дерево UPGMA

Метод ближайших соседей (Neighbor-joining NJ)

Строит неукоренённое дерево

Может работать с большим количеством данных

Достаточно быстрый

Если есть недвусмысленное с точки зрения эксперта дерево то оно будет построено

Метод Neighbor-joining

Рисуем laquoзвездноеraquo дерево и будем laquoотщипыватьraquo от него по паре листьев

Пусть ui = Σk Mik(n-2) mdash среднее расстояние от листа i до других

листьев

1 Рассмотрим все возможные пары листьев Выберем 2 листа i и j с минимальным значением величины

Mij ndash ui ndashuj

те выбираем 2 узла которые близки друг к другу но далеки ото всех остальных

Метод ближайших соседей (Neighbor-joining NJ)

2 Кластер (i j) ndash новый узел дерева

Расстояние от i или от j до узла (ij) D(i (ij)) = 05middot(Mij + ui ndash uj) D(j (ij)) = 05middot (Mij + uj ndash ui) те длина ветви зависит от среднего расстояния до других вершин

3 Вычисляем расстояние от нового кластера до всех других

M(ij)k = Mik+Mjk ndash Mij 2

5 В матрице М убираем i и j и добавляем (i j) Повторяем пока не останутся 3 узла

Input MSA для n последовательностей одна последовательность для каждого вида

AAAAATC

AAAAAAG

CCCCCCG

AAAAATCAAAAAAG

CCCCCCG

Длинная ветвь ndash непохоже на правду

Длинная ветвь -Похоже на правду

Методы основанные на последовательностях Maximum Likelihood (ML) Maximum Parsimony (MP)

Как изобразить дерево Топология дерева

Топология дерева mdash только листья узлы (корень) и связывающие их ветви (топология не зависит от способа изображения дерева)

A

B

C

D

E A BC D E

Два изображения одной и той же топологии

Bacterium 1

Bacterium 3

Bacterium 2

Eukaryote 1

Eukaryote 4

Eukaryote 3

Eukaryote 2

Bacterium 1

Bacterium 3Bacterium 2

Eukaryote 1

Eukaryote 4Eukaryote 3

Eukaryote 2

Филограммы ndash длины ветвей

пропорциональны

эволюционному расстоянию

Кладограммы и филограммы

Кладограммы ndash только

топологя Длины ветвей не

учитываются

6

31

2

46

24

53

Как можно нарисовать построенное дерево

Какие on-line программы строят деревья

ClustalW ldquoTree typerdquo ndash nj phylip строит только методом NJ но результат ndash в разных форматах no bootstraps

Phylip (Felsenstein 1993) ndash пакет программ для построения филогенетических деревьев (stand-alone)On-line (partly) например

httpbiowebpasteurfrseqanalphylogenyphylip-ukhtml PAUP (Phylogenetic Analysis Using Parsimony)

MEGA филогенетический анализ последовательностей

httpwwwmegasoftwarenet

Эволюция ndash исторический процесс

Из 8200794532637891559375 деревьев для 20 OTUs 1

является верным и 8200794532637891559374

неверны

Truth is one falsehoods are many

Какое из 8200794532637891559375

деревьев истинно

Мы не знаем Можно применить иные критетии

Например ldquoпохожесть=родствоraquo

GCGbull Строковый поиск простой текстовый

поиск по локальной базе данных

bull Поиск в определениях или в аннотациях

bull Определения содержат минимальное количество информации для каждой статьи доступ имя организма имя гена длина последовательности дата

  • Bestfit Output
  • SP1 at swissprot
  • EGR1 at swissprot
  • Вывод
  • Bl2Seq at NCBI
  • Bl2seq results
  • Bl2seq оценка
  • Оптимизация времени вычислений при парном выравнивании
  • Slide 9
  • Алгоритм BLAST (шаг 1)
  • Slide 11
  • Blast
  • Поиск гомологов
  • ДНК или белок
  • ДНК
  • Slide 16
  • Slide 17
  • Двойная спираль
  • ДНК дальнейшая упаковка
  • Slide 20
  • Репликация ДНК
  • Slide 22
  • Slide 23
  • Slide 24
  • Slide 25
  • Множественное выравнивание последовательностей (MSA)
  • Slide 27
  • Основные предположения
  • Например
  • Почему множественное выравнивание
  • Slide 31
  • Подходы в MSA
  • MSA algorithm
  • Multiple Alignment - алгоритм
  • Комментарии
  • GCG
  • Slide 37
  • GCG
  • Slide 39
  • Slide 40
  • Slide 41
  • ClustalW
  • Slide 43
  • Slide 44
  • ClustalW на EMBL
  • ClustalW на EMBL - результат
  • ClustalW at EMBL - Jalview
  • Consensus Sequence
  • Профиль (Profile)
  • Profile vs Consensus
  • Slide 51
  • Slide 52
  • Psi Blast (NCBI)
  • PSI-Blast
  • Psi-Blast вывод
  • Slide 56
  • Филогенез
  • Slide 58
  • Slide 59
  • Slide 60
  • Slide 61
  • Древо видов и генов
  • Ортологи и паралоги
  • Шаги реконструирования филогенетического древа
  • Филогенетическое дерево
  • Зачем нужны филогенетические деревья
  • Терминология
  • Slide 68
  • Какие бывают деревья
  • Slide 70
  • Slide 71
  • Slide 72
  • 4 OTUs 3 неукорененных филогенетических деревьев
  • Slide 74
  • Slide 75
  • Slide 76
  • Slide 77
  • Рутинная процедура или как строят деревья
  • Slide 79
  • Slide 80
  • Slide 81
  • Slide 82
  • Slide 83
  • Slide 84
  • Slide 85
  • Slide 86
  • Slide 87
  • Slide 88
  • Slide 89
  • Как выбирать последовательности для дерева
  • Самое главное ndash хорошее выравнивание
  • Основные алгоритмы построения филогенетических деревьев
  • Пример матрицы расстояний
  • Slide 94
  • Гипотеза laquoмолекулярных часовraquo (EZuckerkandl LPauling 1962)
  • UPGMA Unweighted Pair Group Method with Arithmetic Mean
  • Недостатки UPGMA
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Метод Neighbor-joining
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Slide 101
  • Как изобразить дерево Топология дерева
  • Slide 103
  • Какие on-line программы строят деревья
  • MEGA филогенетический анализ последовательностей
  • Slide 106
  • Slide 107
  • Slide 108
Page 62: Bestfit Output

Древо видов и геновbull Древо видов ndash эволюционные взаимосвязи

между видами (видообразование)bull Древо генов

Page RDM and Cotton JC (2000) GeneTree a tool for exploring gene family evolution In D Sankoff and J Nadeau (eds) Comparative Genomics Empirical and Analytical Approaches to Gene Order Dynamics Map Alignment and the Evolution of Gene Families Kluwer Academic Publishers Dordrecht pp 525-536

Figure 2 (a) Incongruent gene and species trees This incongruence can be explained by hypothesizing a gene duplication (h) at the base of the gene tree (b)The presence of only a single gene (a-d) extant in each of the present-day species(1-4) requires postulating three gene losses (c) The corresponding reconciled tree

Ортологи и паралоги

bull Гены-паралоги ndash событие дупликация (and

bull Гены-ортологи ndash событие видообразования (in the two species and in the two species

Duplication

Speciation

Species a Species b

Шаги реконструирования филогенетического

древа

1 Выбор последовательностей и поиск гомологов

2 MSA3 Матрица белков4 Филогенетическое дерево

Филогенетическое дерево

Филогения - раздел биологии изучающий родственные взаимоотношения разных групп живых организмов Филогению отображается обычно в виде эволюционных древ или систематических названий

Зачем нужны филогенетические деревья

Биологические задачи

сравнение 3-х и более объектов (кто на кого более похож )

реконструкция эволюции (кто от кого как и когда произошелhellip)

ТерминологияУзел (node) mdash точка разделения предковой последовательности(вида популяции) на две независимо эволюционирующиеСоответствует внутренней вершине графа изображающего эволюциюЛист (leaf OTU ndash оперативная таксономическая единица) mdash реальный (современный) объект внешняя вершина графаВетвь (branch) mdash связь между узлами или между узлом и листом ребро графаКорень (root) mdash общий предокКлада (clade) - группа двух или более таксонов или последователь-ностей ДНК которая включает как своего общего предка так и всех его потомков

OTU

HTU (hypotetical taxonomic unit)

Какие бывают деревья

Бинарное (разрешённое)(в один момент времени может

произойти только одно событие )

Небинарное (неразрешённое) (может ли в один момент времени

произойти два события )

Время

Какие бывают деревья

Укорененное дерево (rooted tree)отражает направление эволюции

Неукорененное (бескорневое) дерево(unrooted tree) показывает только связи между узлами

Время

Если число листьев равно n существует (2n-3)разных бинарных укоренных деревьевПо определению (2n-3) = 1middot3 middot middot(2n-3)

Существует (2n-5) разных бескорневых деревьев с n листьями

Rooting

A C B B C AA B C

3 OTUs 3 OTUs 1 н 1 неукорененное деревоеукорененное дерево 33 укорененных деревьев укорененных деревьев

A

B

C

D

C

A

B

4 OTUs 4 OTUs 3 3 неукорененных филогенетических неукорененных филогенетических деревьевдеревьев

D

B

A

C C

B

A

D

4 OTUs

15 укорененных

деревьев

Количество Количество Количество

OTU укорененных неукорененных

2 1 13 3 14 15 35 105 156 954 1057 103959548 135135 103959 2027025 13513510 34459425 202702511 654729075 3445942512 13749310575 654729075

Количество возможных деревьев

Рутинная процедура или как строят деревья

Составление выборки последовательностей

Множественное выравнивание

Построение дерева фрагмент записи в виде скобочной формулы

Визуализация и редактура дерева

(((((con1013851018(f539692826973((f67220839851max42750591)492893con923019677)1362315)953075)2583145

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Множественное выравнивание

Matches

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Multiple Alignment

Matches

Mismatches

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Multiple Alignment

Matches

Mismatches

Gaps

Seq 1 A G C G A GSeq 1 A G C G A GSeq 2 G C G G A CSeq 2 G C G G A C

Шаг 3 Перевод количества расхождений в индексы замен

Distance Matrix

Units количество замен нуклеотидов на 1000

Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86

Rice 00 118 122 122

Mosquito 00 55 51

Monkey 00 3

Human 00

Шаг 4 построение филогенетического дерева

Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86

Rice 00 118 122 122

Mosquito 00 55 51

Monkey 00 3

Human 00

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Дистанция между человеком и обезьяной минимальна Эти группы объединяются в Monkey-Human а все остальные дистанции пересчитываются

Dist[Spinach MonHum] = (Dist[Spinach Monkey] +

Dist[Spinach Human])2 = (91 + 86)2 = 885

Spinach Rice Mosquito Mon-HumSpinach 00 9 106 885

Rice 00 118 122

Mosquito 00 53

Mon-Hum 00

Редуцированная матрица дистанций

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Spi-Ric

HumanMosquito

Mon-Hum

MonkeySpinachRice

Mos-Mon-Hum

Spi-Ric

Mos-Mon-Hum-Spi-Ric

Как выбирать последовательности для дерева

Кроме случаев очень близких последовательностей проще работать с белками (а не с ДНК)

Придерживайтесь небольшой выборки (lt 50 последовательностей)

Избегайтеndash фрагментовndash Ксенологов (горизонтальный перенос генов)ndash рекомбинантных последовательностейndash многодоменных белков и повторов

Используйте outgroup (последовательность ответвившаяся от общего предка заведомо (но минимально) раньше разделения интересующих групп-клад)

Самое главное ndash хорошее выравнивание

Максимальный вклад в финальное дерево нельзя построить хорошее дерево по плохому выравниванию

Блоки содержащие много гэпов плохо выровненные N- и C- концы можно просто вырезать

Основные алгоритмы построения филогенетических деревьев

Методы основанные на оценке

расстояний (матричные методы)

bull UPGMA (кластеризация)

bull Neighbor-joining

bull Минимальная эволюция

Наибольшего правдоподобия Maximal likelihood ML Используется модель эволюции и строится дерево которое наиболее правдоподобно при данной модели

Максимальной экономии (бережливости)

maximal parsimony MP Выбирается дерево с минимальным количеством

мутаций необходимых для объяснения данных

Пример матрицы расстояний

1 2 3 4 5 6 7 8 000 1053 977 1278 1203 1654 1353 2500 HUMAN 1

000 902 1203 977 1579 902 2727 HORSE 2 000 977 902 1654 1203 2424 RABIT 3

000 226 1729 1053 2576 MOUSE 4 000 1579 827 2576 RAT 5

000 1053 2955 BOVIN 6 000 2500 PIG 7

000 CHICK 8

Расстояние (уровень дивергенции) между соответствующими последовательностями из геномов мыши и свиньи

Как понимать расстояние между объектами

bull Как время в течение которого они эволюционировалиbull Как число laquoэволюционных событийraquo (мутаций)

В первом случае объекты образуют ультраметрическое пространство(если все объекты наблюдаются в одно время что как правило верно)

Но время непосредственно измерить невозможно

Гипотеза laquoмолекулярных часовraquo(EZuckerkandl LPauling 1962)

За равное время во всех ветвях эволюции данного генабелка накапливается равное число мутацийЕсли гипотеза молекулярных часов

принимается число различий между выровненными последовательностями можно считать примерно пропорциональным времени Отклонения от ультраметричности можно считать случайными Эволюция реконструируется в виде ультраметрического дерева

Укоренённое дерево называется ультраметрическим если расстояние от корня до любого из листьев одинаково

UPGMAUnweighted Pair Group Method with Arithmetic Mean

разновидность кластерного метода

Расстояние между кластерами вычисляется как среднее арифметическое всевозможных расстояний между последовательностями из кластеров

Недостатки UPGMA

Алгоритм строит ультраметрическое дерево ndash скорость эволюции предполагается одинаковой для всех ветвей дерева Использовать этот алгоритм имеет смысл только в случае ультраметрических данных (справедливости laquoмолекулярных часовraquo)

Реальное дерево UPGMA

Метод ближайших соседей (Neighbor-joining NJ)

Строит неукоренённое дерево

Может работать с большим количеством данных

Достаточно быстрый

Если есть недвусмысленное с точки зрения эксперта дерево то оно будет построено

Метод Neighbor-joining

Рисуем laquoзвездноеraquo дерево и будем laquoотщипыватьraquo от него по паре листьев

Пусть ui = Σk Mik(n-2) mdash среднее расстояние от листа i до других

листьев

1 Рассмотрим все возможные пары листьев Выберем 2 листа i и j с минимальным значением величины

Mij ndash ui ndashuj

те выбираем 2 узла которые близки друг к другу но далеки ото всех остальных

Метод ближайших соседей (Neighbor-joining NJ)

2 Кластер (i j) ndash новый узел дерева

Расстояние от i или от j до узла (ij) D(i (ij)) = 05middot(Mij + ui ndash uj) D(j (ij)) = 05middot (Mij + uj ndash ui) те длина ветви зависит от среднего расстояния до других вершин

3 Вычисляем расстояние от нового кластера до всех других

M(ij)k = Mik+Mjk ndash Mij 2

5 В матрице М убираем i и j и добавляем (i j) Повторяем пока не останутся 3 узла

Input MSA для n последовательностей одна последовательность для каждого вида

AAAAATC

AAAAAAG

CCCCCCG

AAAAATCAAAAAAG

CCCCCCG

Длинная ветвь ndash непохоже на правду

Длинная ветвь -Похоже на правду

Методы основанные на последовательностях Maximum Likelihood (ML) Maximum Parsimony (MP)

Как изобразить дерево Топология дерева

Топология дерева mdash только листья узлы (корень) и связывающие их ветви (топология не зависит от способа изображения дерева)

A

B

C

D

E A BC D E

Два изображения одной и той же топологии

Bacterium 1

Bacterium 3

Bacterium 2

Eukaryote 1

Eukaryote 4

Eukaryote 3

Eukaryote 2

Bacterium 1

Bacterium 3Bacterium 2

Eukaryote 1

Eukaryote 4Eukaryote 3

Eukaryote 2

Филограммы ndash длины ветвей

пропорциональны

эволюционному расстоянию

Кладограммы и филограммы

Кладограммы ndash только

топологя Длины ветвей не

учитываются

6

31

2

46

24

53

Как можно нарисовать построенное дерево

Какие on-line программы строят деревья

ClustalW ldquoTree typerdquo ndash nj phylip строит только методом NJ но результат ndash в разных форматах no bootstraps

Phylip (Felsenstein 1993) ndash пакет программ для построения филогенетических деревьев (stand-alone)On-line (partly) например

httpbiowebpasteurfrseqanalphylogenyphylip-ukhtml PAUP (Phylogenetic Analysis Using Parsimony)

MEGA филогенетический анализ последовательностей

httpwwwmegasoftwarenet

Эволюция ndash исторический процесс

Из 8200794532637891559375 деревьев для 20 OTUs 1

является верным и 8200794532637891559374

неверны

Truth is one falsehoods are many

Какое из 8200794532637891559375

деревьев истинно

Мы не знаем Можно применить иные критетии

Например ldquoпохожесть=родствоraquo

GCGbull Строковый поиск простой текстовый

поиск по локальной базе данных

bull Поиск в определениях или в аннотациях

bull Определения содержат минимальное количество информации для каждой статьи доступ имя организма имя гена длина последовательности дата

  • Bestfit Output
  • SP1 at swissprot
  • EGR1 at swissprot
  • Вывод
  • Bl2Seq at NCBI
  • Bl2seq results
  • Bl2seq оценка
  • Оптимизация времени вычислений при парном выравнивании
  • Slide 9
  • Алгоритм BLAST (шаг 1)
  • Slide 11
  • Blast
  • Поиск гомологов
  • ДНК или белок
  • ДНК
  • Slide 16
  • Slide 17
  • Двойная спираль
  • ДНК дальнейшая упаковка
  • Slide 20
  • Репликация ДНК
  • Slide 22
  • Slide 23
  • Slide 24
  • Slide 25
  • Множественное выравнивание последовательностей (MSA)
  • Slide 27
  • Основные предположения
  • Например
  • Почему множественное выравнивание
  • Slide 31
  • Подходы в MSA
  • MSA algorithm
  • Multiple Alignment - алгоритм
  • Комментарии
  • GCG
  • Slide 37
  • GCG
  • Slide 39
  • Slide 40
  • Slide 41
  • ClustalW
  • Slide 43
  • Slide 44
  • ClustalW на EMBL
  • ClustalW на EMBL - результат
  • ClustalW at EMBL - Jalview
  • Consensus Sequence
  • Профиль (Profile)
  • Profile vs Consensus
  • Slide 51
  • Slide 52
  • Psi Blast (NCBI)
  • PSI-Blast
  • Psi-Blast вывод
  • Slide 56
  • Филогенез
  • Slide 58
  • Slide 59
  • Slide 60
  • Slide 61
  • Древо видов и генов
  • Ортологи и паралоги
  • Шаги реконструирования филогенетического древа
  • Филогенетическое дерево
  • Зачем нужны филогенетические деревья
  • Терминология
  • Slide 68
  • Какие бывают деревья
  • Slide 70
  • Slide 71
  • Slide 72
  • 4 OTUs 3 неукорененных филогенетических деревьев
  • Slide 74
  • Slide 75
  • Slide 76
  • Slide 77
  • Рутинная процедура или как строят деревья
  • Slide 79
  • Slide 80
  • Slide 81
  • Slide 82
  • Slide 83
  • Slide 84
  • Slide 85
  • Slide 86
  • Slide 87
  • Slide 88
  • Slide 89
  • Как выбирать последовательности для дерева
  • Самое главное ndash хорошее выравнивание
  • Основные алгоритмы построения филогенетических деревьев
  • Пример матрицы расстояний
  • Slide 94
  • Гипотеза laquoмолекулярных часовraquo (EZuckerkandl LPauling 1962)
  • UPGMA Unweighted Pair Group Method with Arithmetic Mean
  • Недостатки UPGMA
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Метод Neighbor-joining
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Slide 101
  • Как изобразить дерево Топология дерева
  • Slide 103
  • Какие on-line программы строят деревья
  • MEGA филогенетический анализ последовательностей
  • Slide 106
  • Slide 107
  • Slide 108
Page 63: Bestfit Output

Ортологи и паралоги

bull Гены-паралоги ndash событие дупликация (and

bull Гены-ортологи ndash событие видообразования (in the two species and in the two species

Duplication

Speciation

Species a Species b

Шаги реконструирования филогенетического

древа

1 Выбор последовательностей и поиск гомологов

2 MSA3 Матрица белков4 Филогенетическое дерево

Филогенетическое дерево

Филогения - раздел биологии изучающий родственные взаимоотношения разных групп живых организмов Филогению отображается обычно в виде эволюционных древ или систематических названий

Зачем нужны филогенетические деревья

Биологические задачи

сравнение 3-х и более объектов (кто на кого более похож )

реконструкция эволюции (кто от кого как и когда произошелhellip)

ТерминологияУзел (node) mdash точка разделения предковой последовательности(вида популяции) на две независимо эволюционирующиеСоответствует внутренней вершине графа изображающего эволюциюЛист (leaf OTU ndash оперативная таксономическая единица) mdash реальный (современный) объект внешняя вершина графаВетвь (branch) mdash связь между узлами или между узлом и листом ребро графаКорень (root) mdash общий предокКлада (clade) - группа двух или более таксонов или последователь-ностей ДНК которая включает как своего общего предка так и всех его потомков

OTU

HTU (hypotetical taxonomic unit)

Какие бывают деревья

Бинарное (разрешённое)(в один момент времени может

произойти только одно событие )

Небинарное (неразрешённое) (может ли в один момент времени

произойти два события )

Время

Какие бывают деревья

Укорененное дерево (rooted tree)отражает направление эволюции

Неукорененное (бескорневое) дерево(unrooted tree) показывает только связи между узлами

Время

Если число листьев равно n существует (2n-3)разных бинарных укоренных деревьевПо определению (2n-3) = 1middot3 middot middot(2n-3)

Существует (2n-5) разных бескорневых деревьев с n листьями

Rooting

A C B B C AA B C

3 OTUs 3 OTUs 1 н 1 неукорененное деревоеукорененное дерево 33 укорененных деревьев укорененных деревьев

A

B

C

D

C

A

B

4 OTUs 4 OTUs 3 3 неукорененных филогенетических неукорененных филогенетических деревьевдеревьев

D

B

A

C C

B

A

D

4 OTUs

15 укорененных

деревьев

Количество Количество Количество

OTU укорененных неукорененных

2 1 13 3 14 15 35 105 156 954 1057 103959548 135135 103959 2027025 13513510 34459425 202702511 654729075 3445942512 13749310575 654729075

Количество возможных деревьев

Рутинная процедура или как строят деревья

Составление выборки последовательностей

Множественное выравнивание

Построение дерева фрагмент записи в виде скобочной формулы

Визуализация и редактура дерева

(((((con1013851018(f539692826973((f67220839851max42750591)492893con923019677)1362315)953075)2583145

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Множественное выравнивание

Matches

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Multiple Alignment

Matches

Mismatches

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Multiple Alignment

Matches

Mismatches

Gaps

Seq 1 A G C G A GSeq 1 A G C G A GSeq 2 G C G G A CSeq 2 G C G G A C

Шаг 3 Перевод количества расхождений в индексы замен

Distance Matrix

Units количество замен нуклеотидов на 1000

Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86

Rice 00 118 122 122

Mosquito 00 55 51

Monkey 00 3

Human 00

Шаг 4 построение филогенетического дерева

Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86

Rice 00 118 122 122

Mosquito 00 55 51

Monkey 00 3

Human 00

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Дистанция между человеком и обезьяной минимальна Эти группы объединяются в Monkey-Human а все остальные дистанции пересчитываются

Dist[Spinach MonHum] = (Dist[Spinach Monkey] +

Dist[Spinach Human])2 = (91 + 86)2 = 885

Spinach Rice Mosquito Mon-HumSpinach 00 9 106 885

Rice 00 118 122

Mosquito 00 53

Mon-Hum 00

Редуцированная матрица дистанций

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Spi-Ric

HumanMosquito

Mon-Hum

MonkeySpinachRice

Mos-Mon-Hum

Spi-Ric

Mos-Mon-Hum-Spi-Ric

Как выбирать последовательности для дерева

Кроме случаев очень близких последовательностей проще работать с белками (а не с ДНК)

Придерживайтесь небольшой выборки (lt 50 последовательностей)

Избегайтеndash фрагментовndash Ксенологов (горизонтальный перенос генов)ndash рекомбинантных последовательностейndash многодоменных белков и повторов

Используйте outgroup (последовательность ответвившаяся от общего предка заведомо (но минимально) раньше разделения интересующих групп-клад)

Самое главное ndash хорошее выравнивание

Максимальный вклад в финальное дерево нельзя построить хорошее дерево по плохому выравниванию

Блоки содержащие много гэпов плохо выровненные N- и C- концы можно просто вырезать

Основные алгоритмы построения филогенетических деревьев

Методы основанные на оценке

расстояний (матричные методы)

bull UPGMA (кластеризация)

bull Neighbor-joining

bull Минимальная эволюция

Наибольшего правдоподобия Maximal likelihood ML Используется модель эволюции и строится дерево которое наиболее правдоподобно при данной модели

Максимальной экономии (бережливости)

maximal parsimony MP Выбирается дерево с минимальным количеством

мутаций необходимых для объяснения данных

Пример матрицы расстояний

1 2 3 4 5 6 7 8 000 1053 977 1278 1203 1654 1353 2500 HUMAN 1

000 902 1203 977 1579 902 2727 HORSE 2 000 977 902 1654 1203 2424 RABIT 3

000 226 1729 1053 2576 MOUSE 4 000 1579 827 2576 RAT 5

000 1053 2955 BOVIN 6 000 2500 PIG 7

000 CHICK 8

Расстояние (уровень дивергенции) между соответствующими последовательностями из геномов мыши и свиньи

Как понимать расстояние между объектами

bull Как время в течение которого они эволюционировалиbull Как число laquoэволюционных событийraquo (мутаций)

В первом случае объекты образуют ультраметрическое пространство(если все объекты наблюдаются в одно время что как правило верно)

Но время непосредственно измерить невозможно

Гипотеза laquoмолекулярных часовraquo(EZuckerkandl LPauling 1962)

За равное время во всех ветвях эволюции данного генабелка накапливается равное число мутацийЕсли гипотеза молекулярных часов

принимается число различий между выровненными последовательностями можно считать примерно пропорциональным времени Отклонения от ультраметричности можно считать случайными Эволюция реконструируется в виде ультраметрического дерева

Укоренённое дерево называется ультраметрическим если расстояние от корня до любого из листьев одинаково

UPGMAUnweighted Pair Group Method with Arithmetic Mean

разновидность кластерного метода

Расстояние между кластерами вычисляется как среднее арифметическое всевозможных расстояний между последовательностями из кластеров

Недостатки UPGMA

Алгоритм строит ультраметрическое дерево ndash скорость эволюции предполагается одинаковой для всех ветвей дерева Использовать этот алгоритм имеет смысл только в случае ультраметрических данных (справедливости laquoмолекулярных часовraquo)

Реальное дерево UPGMA

Метод ближайших соседей (Neighbor-joining NJ)

Строит неукоренённое дерево

Может работать с большим количеством данных

Достаточно быстрый

Если есть недвусмысленное с точки зрения эксперта дерево то оно будет построено

Метод Neighbor-joining

Рисуем laquoзвездноеraquo дерево и будем laquoотщипыватьraquo от него по паре листьев

Пусть ui = Σk Mik(n-2) mdash среднее расстояние от листа i до других

листьев

1 Рассмотрим все возможные пары листьев Выберем 2 листа i и j с минимальным значением величины

Mij ndash ui ndashuj

те выбираем 2 узла которые близки друг к другу но далеки ото всех остальных

Метод ближайших соседей (Neighbor-joining NJ)

2 Кластер (i j) ndash новый узел дерева

Расстояние от i или от j до узла (ij) D(i (ij)) = 05middot(Mij + ui ndash uj) D(j (ij)) = 05middot (Mij + uj ndash ui) те длина ветви зависит от среднего расстояния до других вершин

3 Вычисляем расстояние от нового кластера до всех других

M(ij)k = Mik+Mjk ndash Mij 2

5 В матрице М убираем i и j и добавляем (i j) Повторяем пока не останутся 3 узла

Input MSA для n последовательностей одна последовательность для каждого вида

AAAAATC

AAAAAAG

CCCCCCG

AAAAATCAAAAAAG

CCCCCCG

Длинная ветвь ndash непохоже на правду

Длинная ветвь -Похоже на правду

Методы основанные на последовательностях Maximum Likelihood (ML) Maximum Parsimony (MP)

Как изобразить дерево Топология дерева

Топология дерева mdash только листья узлы (корень) и связывающие их ветви (топология не зависит от способа изображения дерева)

A

B

C

D

E A BC D E

Два изображения одной и той же топологии

Bacterium 1

Bacterium 3

Bacterium 2

Eukaryote 1

Eukaryote 4

Eukaryote 3

Eukaryote 2

Bacterium 1

Bacterium 3Bacterium 2

Eukaryote 1

Eukaryote 4Eukaryote 3

Eukaryote 2

Филограммы ndash длины ветвей

пропорциональны

эволюционному расстоянию

Кладограммы и филограммы

Кладограммы ndash только

топологя Длины ветвей не

учитываются

6

31

2

46

24

53

Как можно нарисовать построенное дерево

Какие on-line программы строят деревья

ClustalW ldquoTree typerdquo ndash nj phylip строит только методом NJ но результат ndash в разных форматах no bootstraps

Phylip (Felsenstein 1993) ndash пакет программ для построения филогенетических деревьев (stand-alone)On-line (partly) например

httpbiowebpasteurfrseqanalphylogenyphylip-ukhtml PAUP (Phylogenetic Analysis Using Parsimony)

MEGA филогенетический анализ последовательностей

httpwwwmegasoftwarenet

Эволюция ndash исторический процесс

Из 8200794532637891559375 деревьев для 20 OTUs 1

является верным и 8200794532637891559374

неверны

Truth is one falsehoods are many

Какое из 8200794532637891559375

деревьев истинно

Мы не знаем Можно применить иные критетии

Например ldquoпохожесть=родствоraquo

GCGbull Строковый поиск простой текстовый

поиск по локальной базе данных

bull Поиск в определениях или в аннотациях

bull Определения содержат минимальное количество информации для каждой статьи доступ имя организма имя гена длина последовательности дата

  • Bestfit Output
  • SP1 at swissprot
  • EGR1 at swissprot
  • Вывод
  • Bl2Seq at NCBI
  • Bl2seq results
  • Bl2seq оценка
  • Оптимизация времени вычислений при парном выравнивании
  • Slide 9
  • Алгоритм BLAST (шаг 1)
  • Slide 11
  • Blast
  • Поиск гомологов
  • ДНК или белок
  • ДНК
  • Slide 16
  • Slide 17
  • Двойная спираль
  • ДНК дальнейшая упаковка
  • Slide 20
  • Репликация ДНК
  • Slide 22
  • Slide 23
  • Slide 24
  • Slide 25
  • Множественное выравнивание последовательностей (MSA)
  • Slide 27
  • Основные предположения
  • Например
  • Почему множественное выравнивание
  • Slide 31
  • Подходы в MSA
  • MSA algorithm
  • Multiple Alignment - алгоритм
  • Комментарии
  • GCG
  • Slide 37
  • GCG
  • Slide 39
  • Slide 40
  • Slide 41
  • ClustalW
  • Slide 43
  • Slide 44
  • ClustalW на EMBL
  • ClustalW на EMBL - результат
  • ClustalW at EMBL - Jalview
  • Consensus Sequence
  • Профиль (Profile)
  • Profile vs Consensus
  • Slide 51
  • Slide 52
  • Psi Blast (NCBI)
  • PSI-Blast
  • Psi-Blast вывод
  • Slide 56
  • Филогенез
  • Slide 58
  • Slide 59
  • Slide 60
  • Slide 61
  • Древо видов и генов
  • Ортологи и паралоги
  • Шаги реконструирования филогенетического древа
  • Филогенетическое дерево
  • Зачем нужны филогенетические деревья
  • Терминология
  • Slide 68
  • Какие бывают деревья
  • Slide 70
  • Slide 71
  • Slide 72
  • 4 OTUs 3 неукорененных филогенетических деревьев
  • Slide 74
  • Slide 75
  • Slide 76
  • Slide 77
  • Рутинная процедура или как строят деревья
  • Slide 79
  • Slide 80
  • Slide 81
  • Slide 82
  • Slide 83
  • Slide 84
  • Slide 85
  • Slide 86
  • Slide 87
  • Slide 88
  • Slide 89
  • Как выбирать последовательности для дерева
  • Самое главное ndash хорошее выравнивание
  • Основные алгоритмы построения филогенетических деревьев
  • Пример матрицы расстояний
  • Slide 94
  • Гипотеза laquoмолекулярных часовraquo (EZuckerkandl LPauling 1962)
  • UPGMA Unweighted Pair Group Method with Arithmetic Mean
  • Недостатки UPGMA
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Метод Neighbor-joining
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Slide 101
  • Как изобразить дерево Топология дерева
  • Slide 103
  • Какие on-line программы строят деревья
  • MEGA филогенетический анализ последовательностей
  • Slide 106
  • Slide 107
  • Slide 108
Page 64: Bestfit Output

Шаги реконструирования филогенетического

древа

1 Выбор последовательностей и поиск гомологов

2 MSA3 Матрица белков4 Филогенетическое дерево

Филогенетическое дерево

Филогения - раздел биологии изучающий родственные взаимоотношения разных групп живых организмов Филогению отображается обычно в виде эволюционных древ или систематических названий

Зачем нужны филогенетические деревья

Биологические задачи

сравнение 3-х и более объектов (кто на кого более похож )

реконструкция эволюции (кто от кого как и когда произошелhellip)

ТерминологияУзел (node) mdash точка разделения предковой последовательности(вида популяции) на две независимо эволюционирующиеСоответствует внутренней вершине графа изображающего эволюциюЛист (leaf OTU ndash оперативная таксономическая единица) mdash реальный (современный) объект внешняя вершина графаВетвь (branch) mdash связь между узлами или между узлом и листом ребро графаКорень (root) mdash общий предокКлада (clade) - группа двух или более таксонов или последователь-ностей ДНК которая включает как своего общего предка так и всех его потомков

OTU

HTU (hypotetical taxonomic unit)

Какие бывают деревья

Бинарное (разрешённое)(в один момент времени может

произойти только одно событие )

Небинарное (неразрешённое) (может ли в один момент времени

произойти два события )

Время

Какие бывают деревья

Укорененное дерево (rooted tree)отражает направление эволюции

Неукорененное (бескорневое) дерево(unrooted tree) показывает только связи между узлами

Время

Если число листьев равно n существует (2n-3)разных бинарных укоренных деревьевПо определению (2n-3) = 1middot3 middot middot(2n-3)

Существует (2n-5) разных бескорневых деревьев с n листьями

Rooting

A C B B C AA B C

3 OTUs 3 OTUs 1 н 1 неукорененное деревоеукорененное дерево 33 укорененных деревьев укорененных деревьев

A

B

C

D

C

A

B

4 OTUs 4 OTUs 3 3 неукорененных филогенетических неукорененных филогенетических деревьевдеревьев

D

B

A

C C

B

A

D

4 OTUs

15 укорененных

деревьев

Количество Количество Количество

OTU укорененных неукорененных

2 1 13 3 14 15 35 105 156 954 1057 103959548 135135 103959 2027025 13513510 34459425 202702511 654729075 3445942512 13749310575 654729075

Количество возможных деревьев

Рутинная процедура или как строят деревья

Составление выборки последовательностей

Множественное выравнивание

Построение дерева фрагмент записи в виде скобочной формулы

Визуализация и редактура дерева

(((((con1013851018(f539692826973((f67220839851max42750591)492893con923019677)1362315)953075)2583145

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Множественное выравнивание

Matches

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Multiple Alignment

Matches

Mismatches

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Multiple Alignment

Matches

Mismatches

Gaps

Seq 1 A G C G A GSeq 1 A G C G A GSeq 2 G C G G A CSeq 2 G C G G A C

Шаг 3 Перевод количества расхождений в индексы замен

Distance Matrix

Units количество замен нуклеотидов на 1000

Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86

Rice 00 118 122 122

Mosquito 00 55 51

Monkey 00 3

Human 00

Шаг 4 построение филогенетического дерева

Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86

Rice 00 118 122 122

Mosquito 00 55 51

Monkey 00 3

Human 00

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Дистанция между человеком и обезьяной минимальна Эти группы объединяются в Monkey-Human а все остальные дистанции пересчитываются

Dist[Spinach MonHum] = (Dist[Spinach Monkey] +

Dist[Spinach Human])2 = (91 + 86)2 = 885

Spinach Rice Mosquito Mon-HumSpinach 00 9 106 885

Rice 00 118 122

Mosquito 00 53

Mon-Hum 00

Редуцированная матрица дистанций

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Spi-Ric

HumanMosquito

Mon-Hum

MonkeySpinachRice

Mos-Mon-Hum

Spi-Ric

Mos-Mon-Hum-Spi-Ric

Как выбирать последовательности для дерева

Кроме случаев очень близких последовательностей проще работать с белками (а не с ДНК)

Придерживайтесь небольшой выборки (lt 50 последовательностей)

Избегайтеndash фрагментовndash Ксенологов (горизонтальный перенос генов)ndash рекомбинантных последовательностейndash многодоменных белков и повторов

Используйте outgroup (последовательность ответвившаяся от общего предка заведомо (но минимально) раньше разделения интересующих групп-клад)

Самое главное ndash хорошее выравнивание

Максимальный вклад в финальное дерево нельзя построить хорошее дерево по плохому выравниванию

Блоки содержащие много гэпов плохо выровненные N- и C- концы можно просто вырезать

Основные алгоритмы построения филогенетических деревьев

Методы основанные на оценке

расстояний (матричные методы)

bull UPGMA (кластеризация)

bull Neighbor-joining

bull Минимальная эволюция

Наибольшего правдоподобия Maximal likelihood ML Используется модель эволюции и строится дерево которое наиболее правдоподобно при данной модели

Максимальной экономии (бережливости)

maximal parsimony MP Выбирается дерево с минимальным количеством

мутаций необходимых для объяснения данных

Пример матрицы расстояний

1 2 3 4 5 6 7 8 000 1053 977 1278 1203 1654 1353 2500 HUMAN 1

000 902 1203 977 1579 902 2727 HORSE 2 000 977 902 1654 1203 2424 RABIT 3

000 226 1729 1053 2576 MOUSE 4 000 1579 827 2576 RAT 5

000 1053 2955 BOVIN 6 000 2500 PIG 7

000 CHICK 8

Расстояние (уровень дивергенции) между соответствующими последовательностями из геномов мыши и свиньи

Как понимать расстояние между объектами

bull Как время в течение которого они эволюционировалиbull Как число laquoэволюционных событийraquo (мутаций)

В первом случае объекты образуют ультраметрическое пространство(если все объекты наблюдаются в одно время что как правило верно)

Но время непосредственно измерить невозможно

Гипотеза laquoмолекулярных часовraquo(EZuckerkandl LPauling 1962)

За равное время во всех ветвях эволюции данного генабелка накапливается равное число мутацийЕсли гипотеза молекулярных часов

принимается число различий между выровненными последовательностями можно считать примерно пропорциональным времени Отклонения от ультраметричности можно считать случайными Эволюция реконструируется в виде ультраметрического дерева

Укоренённое дерево называется ультраметрическим если расстояние от корня до любого из листьев одинаково

UPGMAUnweighted Pair Group Method with Arithmetic Mean

разновидность кластерного метода

Расстояние между кластерами вычисляется как среднее арифметическое всевозможных расстояний между последовательностями из кластеров

Недостатки UPGMA

Алгоритм строит ультраметрическое дерево ndash скорость эволюции предполагается одинаковой для всех ветвей дерева Использовать этот алгоритм имеет смысл только в случае ультраметрических данных (справедливости laquoмолекулярных часовraquo)

Реальное дерево UPGMA

Метод ближайших соседей (Neighbor-joining NJ)

Строит неукоренённое дерево

Может работать с большим количеством данных

Достаточно быстрый

Если есть недвусмысленное с точки зрения эксперта дерево то оно будет построено

Метод Neighbor-joining

Рисуем laquoзвездноеraquo дерево и будем laquoотщипыватьraquo от него по паре листьев

Пусть ui = Σk Mik(n-2) mdash среднее расстояние от листа i до других

листьев

1 Рассмотрим все возможные пары листьев Выберем 2 листа i и j с минимальным значением величины

Mij ndash ui ndashuj

те выбираем 2 узла которые близки друг к другу но далеки ото всех остальных

Метод ближайших соседей (Neighbor-joining NJ)

2 Кластер (i j) ndash новый узел дерева

Расстояние от i или от j до узла (ij) D(i (ij)) = 05middot(Mij + ui ndash uj) D(j (ij)) = 05middot (Mij + uj ndash ui) те длина ветви зависит от среднего расстояния до других вершин

3 Вычисляем расстояние от нового кластера до всех других

M(ij)k = Mik+Mjk ndash Mij 2

5 В матрице М убираем i и j и добавляем (i j) Повторяем пока не останутся 3 узла

Input MSA для n последовательностей одна последовательность для каждого вида

AAAAATC

AAAAAAG

CCCCCCG

AAAAATCAAAAAAG

CCCCCCG

Длинная ветвь ndash непохоже на правду

Длинная ветвь -Похоже на правду

Методы основанные на последовательностях Maximum Likelihood (ML) Maximum Parsimony (MP)

Как изобразить дерево Топология дерева

Топология дерева mdash только листья узлы (корень) и связывающие их ветви (топология не зависит от способа изображения дерева)

A

B

C

D

E A BC D E

Два изображения одной и той же топологии

Bacterium 1

Bacterium 3

Bacterium 2

Eukaryote 1

Eukaryote 4

Eukaryote 3

Eukaryote 2

Bacterium 1

Bacterium 3Bacterium 2

Eukaryote 1

Eukaryote 4Eukaryote 3

Eukaryote 2

Филограммы ndash длины ветвей

пропорциональны

эволюционному расстоянию

Кладограммы и филограммы

Кладограммы ndash только

топологя Длины ветвей не

учитываются

6

31

2

46

24

53

Как можно нарисовать построенное дерево

Какие on-line программы строят деревья

ClustalW ldquoTree typerdquo ndash nj phylip строит только методом NJ но результат ndash в разных форматах no bootstraps

Phylip (Felsenstein 1993) ndash пакет программ для построения филогенетических деревьев (stand-alone)On-line (partly) например

httpbiowebpasteurfrseqanalphylogenyphylip-ukhtml PAUP (Phylogenetic Analysis Using Parsimony)

MEGA филогенетический анализ последовательностей

httpwwwmegasoftwarenet

Эволюция ndash исторический процесс

Из 8200794532637891559375 деревьев для 20 OTUs 1

является верным и 8200794532637891559374

неверны

Truth is one falsehoods are many

Какое из 8200794532637891559375

деревьев истинно

Мы не знаем Можно применить иные критетии

Например ldquoпохожесть=родствоraquo

GCGbull Строковый поиск простой текстовый

поиск по локальной базе данных

bull Поиск в определениях или в аннотациях

bull Определения содержат минимальное количество информации для каждой статьи доступ имя организма имя гена длина последовательности дата

  • Bestfit Output
  • SP1 at swissprot
  • EGR1 at swissprot
  • Вывод
  • Bl2Seq at NCBI
  • Bl2seq results
  • Bl2seq оценка
  • Оптимизация времени вычислений при парном выравнивании
  • Slide 9
  • Алгоритм BLAST (шаг 1)
  • Slide 11
  • Blast
  • Поиск гомологов
  • ДНК или белок
  • ДНК
  • Slide 16
  • Slide 17
  • Двойная спираль
  • ДНК дальнейшая упаковка
  • Slide 20
  • Репликация ДНК
  • Slide 22
  • Slide 23
  • Slide 24
  • Slide 25
  • Множественное выравнивание последовательностей (MSA)
  • Slide 27
  • Основные предположения
  • Например
  • Почему множественное выравнивание
  • Slide 31
  • Подходы в MSA
  • MSA algorithm
  • Multiple Alignment - алгоритм
  • Комментарии
  • GCG
  • Slide 37
  • GCG
  • Slide 39
  • Slide 40
  • Slide 41
  • ClustalW
  • Slide 43
  • Slide 44
  • ClustalW на EMBL
  • ClustalW на EMBL - результат
  • ClustalW at EMBL - Jalview
  • Consensus Sequence
  • Профиль (Profile)
  • Profile vs Consensus
  • Slide 51
  • Slide 52
  • Psi Blast (NCBI)
  • PSI-Blast
  • Psi-Blast вывод
  • Slide 56
  • Филогенез
  • Slide 58
  • Slide 59
  • Slide 60
  • Slide 61
  • Древо видов и генов
  • Ортологи и паралоги
  • Шаги реконструирования филогенетического древа
  • Филогенетическое дерево
  • Зачем нужны филогенетические деревья
  • Терминология
  • Slide 68
  • Какие бывают деревья
  • Slide 70
  • Slide 71
  • Slide 72
  • 4 OTUs 3 неукорененных филогенетических деревьев
  • Slide 74
  • Slide 75
  • Slide 76
  • Slide 77
  • Рутинная процедура или как строят деревья
  • Slide 79
  • Slide 80
  • Slide 81
  • Slide 82
  • Slide 83
  • Slide 84
  • Slide 85
  • Slide 86
  • Slide 87
  • Slide 88
  • Slide 89
  • Как выбирать последовательности для дерева
  • Самое главное ndash хорошее выравнивание
  • Основные алгоритмы построения филогенетических деревьев
  • Пример матрицы расстояний
  • Slide 94
  • Гипотеза laquoмолекулярных часовraquo (EZuckerkandl LPauling 1962)
  • UPGMA Unweighted Pair Group Method with Arithmetic Mean
  • Недостатки UPGMA
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Метод Neighbor-joining
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Slide 101
  • Как изобразить дерево Топология дерева
  • Slide 103
  • Какие on-line программы строят деревья
  • MEGA филогенетический анализ последовательностей
  • Slide 106
  • Slide 107
  • Slide 108
Page 65: Bestfit Output

Филогенетическое дерево

Филогения - раздел биологии изучающий родственные взаимоотношения разных групп живых организмов Филогению отображается обычно в виде эволюционных древ или систематических названий

Зачем нужны филогенетические деревья

Биологические задачи

сравнение 3-х и более объектов (кто на кого более похож )

реконструкция эволюции (кто от кого как и когда произошелhellip)

ТерминологияУзел (node) mdash точка разделения предковой последовательности(вида популяции) на две независимо эволюционирующиеСоответствует внутренней вершине графа изображающего эволюциюЛист (leaf OTU ndash оперативная таксономическая единица) mdash реальный (современный) объект внешняя вершина графаВетвь (branch) mdash связь между узлами или между узлом и листом ребро графаКорень (root) mdash общий предокКлада (clade) - группа двух или более таксонов или последователь-ностей ДНК которая включает как своего общего предка так и всех его потомков

OTU

HTU (hypotetical taxonomic unit)

Какие бывают деревья

Бинарное (разрешённое)(в один момент времени может

произойти только одно событие )

Небинарное (неразрешённое) (может ли в один момент времени

произойти два события )

Время

Какие бывают деревья

Укорененное дерево (rooted tree)отражает направление эволюции

Неукорененное (бескорневое) дерево(unrooted tree) показывает только связи между узлами

Время

Если число листьев равно n существует (2n-3)разных бинарных укоренных деревьевПо определению (2n-3) = 1middot3 middot middot(2n-3)

Существует (2n-5) разных бескорневых деревьев с n листьями

Rooting

A C B B C AA B C

3 OTUs 3 OTUs 1 н 1 неукорененное деревоеукорененное дерево 33 укорененных деревьев укорененных деревьев

A

B

C

D

C

A

B

4 OTUs 4 OTUs 3 3 неукорененных филогенетических неукорененных филогенетических деревьевдеревьев

D

B

A

C C

B

A

D

4 OTUs

15 укорененных

деревьев

Количество Количество Количество

OTU укорененных неукорененных

2 1 13 3 14 15 35 105 156 954 1057 103959548 135135 103959 2027025 13513510 34459425 202702511 654729075 3445942512 13749310575 654729075

Количество возможных деревьев

Рутинная процедура или как строят деревья

Составление выборки последовательностей

Множественное выравнивание

Построение дерева фрагмент записи в виде скобочной формулы

Визуализация и редактура дерева

(((((con1013851018(f539692826973((f67220839851max42750591)492893con923019677)1362315)953075)2583145

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Множественное выравнивание

Matches

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Multiple Alignment

Matches

Mismatches

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Multiple Alignment

Matches

Mismatches

Gaps

Seq 1 A G C G A GSeq 1 A G C G A GSeq 2 G C G G A CSeq 2 G C G G A C

Шаг 3 Перевод количества расхождений в индексы замен

Distance Matrix

Units количество замен нуклеотидов на 1000

Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86

Rice 00 118 122 122

Mosquito 00 55 51

Monkey 00 3

Human 00

Шаг 4 построение филогенетического дерева

Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86

Rice 00 118 122 122

Mosquito 00 55 51

Monkey 00 3

Human 00

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Дистанция между человеком и обезьяной минимальна Эти группы объединяются в Monkey-Human а все остальные дистанции пересчитываются

Dist[Spinach MonHum] = (Dist[Spinach Monkey] +

Dist[Spinach Human])2 = (91 + 86)2 = 885

Spinach Rice Mosquito Mon-HumSpinach 00 9 106 885

Rice 00 118 122

Mosquito 00 53

Mon-Hum 00

Редуцированная матрица дистанций

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Spi-Ric

HumanMosquito

Mon-Hum

MonkeySpinachRice

Mos-Mon-Hum

Spi-Ric

Mos-Mon-Hum-Spi-Ric

Как выбирать последовательности для дерева

Кроме случаев очень близких последовательностей проще работать с белками (а не с ДНК)

Придерживайтесь небольшой выборки (lt 50 последовательностей)

Избегайтеndash фрагментовndash Ксенологов (горизонтальный перенос генов)ndash рекомбинантных последовательностейndash многодоменных белков и повторов

Используйте outgroup (последовательность ответвившаяся от общего предка заведомо (но минимально) раньше разделения интересующих групп-клад)

Самое главное ndash хорошее выравнивание

Максимальный вклад в финальное дерево нельзя построить хорошее дерево по плохому выравниванию

Блоки содержащие много гэпов плохо выровненные N- и C- концы можно просто вырезать

Основные алгоритмы построения филогенетических деревьев

Методы основанные на оценке

расстояний (матричные методы)

bull UPGMA (кластеризация)

bull Neighbor-joining

bull Минимальная эволюция

Наибольшего правдоподобия Maximal likelihood ML Используется модель эволюции и строится дерево которое наиболее правдоподобно при данной модели

Максимальной экономии (бережливости)

maximal parsimony MP Выбирается дерево с минимальным количеством

мутаций необходимых для объяснения данных

Пример матрицы расстояний

1 2 3 4 5 6 7 8 000 1053 977 1278 1203 1654 1353 2500 HUMAN 1

000 902 1203 977 1579 902 2727 HORSE 2 000 977 902 1654 1203 2424 RABIT 3

000 226 1729 1053 2576 MOUSE 4 000 1579 827 2576 RAT 5

000 1053 2955 BOVIN 6 000 2500 PIG 7

000 CHICK 8

Расстояние (уровень дивергенции) между соответствующими последовательностями из геномов мыши и свиньи

Как понимать расстояние между объектами

bull Как время в течение которого они эволюционировалиbull Как число laquoэволюционных событийraquo (мутаций)

В первом случае объекты образуют ультраметрическое пространство(если все объекты наблюдаются в одно время что как правило верно)

Но время непосредственно измерить невозможно

Гипотеза laquoмолекулярных часовraquo(EZuckerkandl LPauling 1962)

За равное время во всех ветвях эволюции данного генабелка накапливается равное число мутацийЕсли гипотеза молекулярных часов

принимается число различий между выровненными последовательностями можно считать примерно пропорциональным времени Отклонения от ультраметричности можно считать случайными Эволюция реконструируется в виде ультраметрического дерева

Укоренённое дерево называется ультраметрическим если расстояние от корня до любого из листьев одинаково

UPGMAUnweighted Pair Group Method with Arithmetic Mean

разновидность кластерного метода

Расстояние между кластерами вычисляется как среднее арифметическое всевозможных расстояний между последовательностями из кластеров

Недостатки UPGMA

Алгоритм строит ультраметрическое дерево ndash скорость эволюции предполагается одинаковой для всех ветвей дерева Использовать этот алгоритм имеет смысл только в случае ультраметрических данных (справедливости laquoмолекулярных часовraquo)

Реальное дерево UPGMA

Метод ближайших соседей (Neighbor-joining NJ)

Строит неукоренённое дерево

Может работать с большим количеством данных

Достаточно быстрый

Если есть недвусмысленное с точки зрения эксперта дерево то оно будет построено

Метод Neighbor-joining

Рисуем laquoзвездноеraquo дерево и будем laquoотщипыватьraquo от него по паре листьев

Пусть ui = Σk Mik(n-2) mdash среднее расстояние от листа i до других

листьев

1 Рассмотрим все возможные пары листьев Выберем 2 листа i и j с минимальным значением величины

Mij ndash ui ndashuj

те выбираем 2 узла которые близки друг к другу но далеки ото всех остальных

Метод ближайших соседей (Neighbor-joining NJ)

2 Кластер (i j) ndash новый узел дерева

Расстояние от i или от j до узла (ij) D(i (ij)) = 05middot(Mij + ui ndash uj) D(j (ij)) = 05middot (Mij + uj ndash ui) те длина ветви зависит от среднего расстояния до других вершин

3 Вычисляем расстояние от нового кластера до всех других

M(ij)k = Mik+Mjk ndash Mij 2

5 В матрице М убираем i и j и добавляем (i j) Повторяем пока не останутся 3 узла

Input MSA для n последовательностей одна последовательность для каждого вида

AAAAATC

AAAAAAG

CCCCCCG

AAAAATCAAAAAAG

CCCCCCG

Длинная ветвь ndash непохоже на правду

Длинная ветвь -Похоже на правду

Методы основанные на последовательностях Maximum Likelihood (ML) Maximum Parsimony (MP)

Как изобразить дерево Топология дерева

Топология дерева mdash только листья узлы (корень) и связывающие их ветви (топология не зависит от способа изображения дерева)

A

B

C

D

E A BC D E

Два изображения одной и той же топологии

Bacterium 1

Bacterium 3

Bacterium 2

Eukaryote 1

Eukaryote 4

Eukaryote 3

Eukaryote 2

Bacterium 1

Bacterium 3Bacterium 2

Eukaryote 1

Eukaryote 4Eukaryote 3

Eukaryote 2

Филограммы ndash длины ветвей

пропорциональны

эволюционному расстоянию

Кладограммы и филограммы

Кладограммы ndash только

топологя Длины ветвей не

учитываются

6

31

2

46

24

53

Как можно нарисовать построенное дерево

Какие on-line программы строят деревья

ClustalW ldquoTree typerdquo ndash nj phylip строит только методом NJ но результат ndash в разных форматах no bootstraps

Phylip (Felsenstein 1993) ndash пакет программ для построения филогенетических деревьев (stand-alone)On-line (partly) например

httpbiowebpasteurfrseqanalphylogenyphylip-ukhtml PAUP (Phylogenetic Analysis Using Parsimony)

MEGA филогенетический анализ последовательностей

httpwwwmegasoftwarenet

Эволюция ndash исторический процесс

Из 8200794532637891559375 деревьев для 20 OTUs 1

является верным и 8200794532637891559374

неверны

Truth is one falsehoods are many

Какое из 8200794532637891559375

деревьев истинно

Мы не знаем Можно применить иные критетии

Например ldquoпохожесть=родствоraquo

GCGbull Строковый поиск простой текстовый

поиск по локальной базе данных

bull Поиск в определениях или в аннотациях

bull Определения содержат минимальное количество информации для каждой статьи доступ имя организма имя гена длина последовательности дата

  • Bestfit Output
  • SP1 at swissprot
  • EGR1 at swissprot
  • Вывод
  • Bl2Seq at NCBI
  • Bl2seq results
  • Bl2seq оценка
  • Оптимизация времени вычислений при парном выравнивании
  • Slide 9
  • Алгоритм BLAST (шаг 1)
  • Slide 11
  • Blast
  • Поиск гомологов
  • ДНК или белок
  • ДНК
  • Slide 16
  • Slide 17
  • Двойная спираль
  • ДНК дальнейшая упаковка
  • Slide 20
  • Репликация ДНК
  • Slide 22
  • Slide 23
  • Slide 24
  • Slide 25
  • Множественное выравнивание последовательностей (MSA)
  • Slide 27
  • Основные предположения
  • Например
  • Почему множественное выравнивание
  • Slide 31
  • Подходы в MSA
  • MSA algorithm
  • Multiple Alignment - алгоритм
  • Комментарии
  • GCG
  • Slide 37
  • GCG
  • Slide 39
  • Slide 40
  • Slide 41
  • ClustalW
  • Slide 43
  • Slide 44
  • ClustalW на EMBL
  • ClustalW на EMBL - результат
  • ClustalW at EMBL - Jalview
  • Consensus Sequence
  • Профиль (Profile)
  • Profile vs Consensus
  • Slide 51
  • Slide 52
  • Psi Blast (NCBI)
  • PSI-Blast
  • Psi-Blast вывод
  • Slide 56
  • Филогенез
  • Slide 58
  • Slide 59
  • Slide 60
  • Slide 61
  • Древо видов и генов
  • Ортологи и паралоги
  • Шаги реконструирования филогенетического древа
  • Филогенетическое дерево
  • Зачем нужны филогенетические деревья
  • Терминология
  • Slide 68
  • Какие бывают деревья
  • Slide 70
  • Slide 71
  • Slide 72
  • 4 OTUs 3 неукорененных филогенетических деревьев
  • Slide 74
  • Slide 75
  • Slide 76
  • Slide 77
  • Рутинная процедура или как строят деревья
  • Slide 79
  • Slide 80
  • Slide 81
  • Slide 82
  • Slide 83
  • Slide 84
  • Slide 85
  • Slide 86
  • Slide 87
  • Slide 88
  • Slide 89
  • Как выбирать последовательности для дерева
  • Самое главное ndash хорошее выравнивание
  • Основные алгоритмы построения филогенетических деревьев
  • Пример матрицы расстояний
  • Slide 94
  • Гипотеза laquoмолекулярных часовraquo (EZuckerkandl LPauling 1962)
  • UPGMA Unweighted Pair Group Method with Arithmetic Mean
  • Недостатки UPGMA
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Метод Neighbor-joining
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Slide 101
  • Как изобразить дерево Топология дерева
  • Slide 103
  • Какие on-line программы строят деревья
  • MEGA филогенетический анализ последовательностей
  • Slide 106
  • Slide 107
  • Slide 108
Page 66: Bestfit Output

Зачем нужны филогенетические деревья

Биологические задачи

сравнение 3-х и более объектов (кто на кого более похож )

реконструкция эволюции (кто от кого как и когда произошелhellip)

ТерминологияУзел (node) mdash точка разделения предковой последовательности(вида популяции) на две независимо эволюционирующиеСоответствует внутренней вершине графа изображающего эволюциюЛист (leaf OTU ndash оперативная таксономическая единица) mdash реальный (современный) объект внешняя вершина графаВетвь (branch) mdash связь между узлами или между узлом и листом ребро графаКорень (root) mdash общий предокКлада (clade) - группа двух или более таксонов или последователь-ностей ДНК которая включает как своего общего предка так и всех его потомков

OTU

HTU (hypotetical taxonomic unit)

Какие бывают деревья

Бинарное (разрешённое)(в один момент времени может

произойти только одно событие )

Небинарное (неразрешённое) (может ли в один момент времени

произойти два события )

Время

Какие бывают деревья

Укорененное дерево (rooted tree)отражает направление эволюции

Неукорененное (бескорневое) дерево(unrooted tree) показывает только связи между узлами

Время

Если число листьев равно n существует (2n-3)разных бинарных укоренных деревьевПо определению (2n-3) = 1middot3 middot middot(2n-3)

Существует (2n-5) разных бескорневых деревьев с n листьями

Rooting

A C B B C AA B C

3 OTUs 3 OTUs 1 н 1 неукорененное деревоеукорененное дерево 33 укорененных деревьев укорененных деревьев

A

B

C

D

C

A

B

4 OTUs 4 OTUs 3 3 неукорененных филогенетических неукорененных филогенетических деревьевдеревьев

D

B

A

C C

B

A

D

4 OTUs

15 укорененных

деревьев

Количество Количество Количество

OTU укорененных неукорененных

2 1 13 3 14 15 35 105 156 954 1057 103959548 135135 103959 2027025 13513510 34459425 202702511 654729075 3445942512 13749310575 654729075

Количество возможных деревьев

Рутинная процедура или как строят деревья

Составление выборки последовательностей

Множественное выравнивание

Построение дерева фрагмент записи в виде скобочной формулы

Визуализация и редактура дерева

(((((con1013851018(f539692826973((f67220839851max42750591)492893con923019677)1362315)953075)2583145

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Множественное выравнивание

Matches

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Multiple Alignment

Matches

Mismatches

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Multiple Alignment

Matches

Mismatches

Gaps

Seq 1 A G C G A GSeq 1 A G C G A GSeq 2 G C G G A CSeq 2 G C G G A C

Шаг 3 Перевод количества расхождений в индексы замен

Distance Matrix

Units количество замен нуклеотидов на 1000

Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86

Rice 00 118 122 122

Mosquito 00 55 51

Monkey 00 3

Human 00

Шаг 4 построение филогенетического дерева

Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86

Rice 00 118 122 122

Mosquito 00 55 51

Monkey 00 3

Human 00

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Дистанция между человеком и обезьяной минимальна Эти группы объединяются в Monkey-Human а все остальные дистанции пересчитываются

Dist[Spinach MonHum] = (Dist[Spinach Monkey] +

Dist[Spinach Human])2 = (91 + 86)2 = 885

Spinach Rice Mosquito Mon-HumSpinach 00 9 106 885

Rice 00 118 122

Mosquito 00 53

Mon-Hum 00

Редуцированная матрица дистанций

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Spi-Ric

HumanMosquito

Mon-Hum

MonkeySpinachRice

Mos-Mon-Hum

Spi-Ric

Mos-Mon-Hum-Spi-Ric

Как выбирать последовательности для дерева

Кроме случаев очень близких последовательностей проще работать с белками (а не с ДНК)

Придерживайтесь небольшой выборки (lt 50 последовательностей)

Избегайтеndash фрагментовndash Ксенологов (горизонтальный перенос генов)ndash рекомбинантных последовательностейndash многодоменных белков и повторов

Используйте outgroup (последовательность ответвившаяся от общего предка заведомо (но минимально) раньше разделения интересующих групп-клад)

Самое главное ndash хорошее выравнивание

Максимальный вклад в финальное дерево нельзя построить хорошее дерево по плохому выравниванию

Блоки содержащие много гэпов плохо выровненные N- и C- концы можно просто вырезать

Основные алгоритмы построения филогенетических деревьев

Методы основанные на оценке

расстояний (матричные методы)

bull UPGMA (кластеризация)

bull Neighbor-joining

bull Минимальная эволюция

Наибольшего правдоподобия Maximal likelihood ML Используется модель эволюции и строится дерево которое наиболее правдоподобно при данной модели

Максимальной экономии (бережливости)

maximal parsimony MP Выбирается дерево с минимальным количеством

мутаций необходимых для объяснения данных

Пример матрицы расстояний

1 2 3 4 5 6 7 8 000 1053 977 1278 1203 1654 1353 2500 HUMAN 1

000 902 1203 977 1579 902 2727 HORSE 2 000 977 902 1654 1203 2424 RABIT 3

000 226 1729 1053 2576 MOUSE 4 000 1579 827 2576 RAT 5

000 1053 2955 BOVIN 6 000 2500 PIG 7

000 CHICK 8

Расстояние (уровень дивергенции) между соответствующими последовательностями из геномов мыши и свиньи

Как понимать расстояние между объектами

bull Как время в течение которого они эволюционировалиbull Как число laquoэволюционных событийraquo (мутаций)

В первом случае объекты образуют ультраметрическое пространство(если все объекты наблюдаются в одно время что как правило верно)

Но время непосредственно измерить невозможно

Гипотеза laquoмолекулярных часовraquo(EZuckerkandl LPauling 1962)

За равное время во всех ветвях эволюции данного генабелка накапливается равное число мутацийЕсли гипотеза молекулярных часов

принимается число различий между выровненными последовательностями можно считать примерно пропорциональным времени Отклонения от ультраметричности можно считать случайными Эволюция реконструируется в виде ультраметрического дерева

Укоренённое дерево называется ультраметрическим если расстояние от корня до любого из листьев одинаково

UPGMAUnweighted Pair Group Method with Arithmetic Mean

разновидность кластерного метода

Расстояние между кластерами вычисляется как среднее арифметическое всевозможных расстояний между последовательностями из кластеров

Недостатки UPGMA

Алгоритм строит ультраметрическое дерево ndash скорость эволюции предполагается одинаковой для всех ветвей дерева Использовать этот алгоритм имеет смысл только в случае ультраметрических данных (справедливости laquoмолекулярных часовraquo)

Реальное дерево UPGMA

Метод ближайших соседей (Neighbor-joining NJ)

Строит неукоренённое дерево

Может работать с большим количеством данных

Достаточно быстрый

Если есть недвусмысленное с точки зрения эксперта дерево то оно будет построено

Метод Neighbor-joining

Рисуем laquoзвездноеraquo дерево и будем laquoотщипыватьraquo от него по паре листьев

Пусть ui = Σk Mik(n-2) mdash среднее расстояние от листа i до других

листьев

1 Рассмотрим все возможные пары листьев Выберем 2 листа i и j с минимальным значением величины

Mij ndash ui ndashuj

те выбираем 2 узла которые близки друг к другу но далеки ото всех остальных

Метод ближайших соседей (Neighbor-joining NJ)

2 Кластер (i j) ndash новый узел дерева

Расстояние от i или от j до узла (ij) D(i (ij)) = 05middot(Mij + ui ndash uj) D(j (ij)) = 05middot (Mij + uj ndash ui) те длина ветви зависит от среднего расстояния до других вершин

3 Вычисляем расстояние от нового кластера до всех других

M(ij)k = Mik+Mjk ndash Mij 2

5 В матрице М убираем i и j и добавляем (i j) Повторяем пока не останутся 3 узла

Input MSA для n последовательностей одна последовательность для каждого вида

AAAAATC

AAAAAAG

CCCCCCG

AAAAATCAAAAAAG

CCCCCCG

Длинная ветвь ndash непохоже на правду

Длинная ветвь -Похоже на правду

Методы основанные на последовательностях Maximum Likelihood (ML) Maximum Parsimony (MP)

Как изобразить дерево Топология дерева

Топология дерева mdash только листья узлы (корень) и связывающие их ветви (топология не зависит от способа изображения дерева)

A

B

C

D

E A BC D E

Два изображения одной и той же топологии

Bacterium 1

Bacterium 3

Bacterium 2

Eukaryote 1

Eukaryote 4

Eukaryote 3

Eukaryote 2

Bacterium 1

Bacterium 3Bacterium 2

Eukaryote 1

Eukaryote 4Eukaryote 3

Eukaryote 2

Филограммы ndash длины ветвей

пропорциональны

эволюционному расстоянию

Кладограммы и филограммы

Кладограммы ndash только

топологя Длины ветвей не

учитываются

6

31

2

46

24

53

Как можно нарисовать построенное дерево

Какие on-line программы строят деревья

ClustalW ldquoTree typerdquo ndash nj phylip строит только методом NJ но результат ndash в разных форматах no bootstraps

Phylip (Felsenstein 1993) ndash пакет программ для построения филогенетических деревьев (stand-alone)On-line (partly) например

httpbiowebpasteurfrseqanalphylogenyphylip-ukhtml PAUP (Phylogenetic Analysis Using Parsimony)

MEGA филогенетический анализ последовательностей

httpwwwmegasoftwarenet

Эволюция ndash исторический процесс

Из 8200794532637891559375 деревьев для 20 OTUs 1

является верным и 8200794532637891559374

неверны

Truth is one falsehoods are many

Какое из 8200794532637891559375

деревьев истинно

Мы не знаем Можно применить иные критетии

Например ldquoпохожесть=родствоraquo

GCGbull Строковый поиск простой текстовый

поиск по локальной базе данных

bull Поиск в определениях или в аннотациях

bull Определения содержат минимальное количество информации для каждой статьи доступ имя организма имя гена длина последовательности дата

  • Bestfit Output
  • SP1 at swissprot
  • EGR1 at swissprot
  • Вывод
  • Bl2Seq at NCBI
  • Bl2seq results
  • Bl2seq оценка
  • Оптимизация времени вычислений при парном выравнивании
  • Slide 9
  • Алгоритм BLAST (шаг 1)
  • Slide 11
  • Blast
  • Поиск гомологов
  • ДНК или белок
  • ДНК
  • Slide 16
  • Slide 17
  • Двойная спираль
  • ДНК дальнейшая упаковка
  • Slide 20
  • Репликация ДНК
  • Slide 22
  • Slide 23
  • Slide 24
  • Slide 25
  • Множественное выравнивание последовательностей (MSA)
  • Slide 27
  • Основные предположения
  • Например
  • Почему множественное выравнивание
  • Slide 31
  • Подходы в MSA
  • MSA algorithm
  • Multiple Alignment - алгоритм
  • Комментарии
  • GCG
  • Slide 37
  • GCG
  • Slide 39
  • Slide 40
  • Slide 41
  • ClustalW
  • Slide 43
  • Slide 44
  • ClustalW на EMBL
  • ClustalW на EMBL - результат
  • ClustalW at EMBL - Jalview
  • Consensus Sequence
  • Профиль (Profile)
  • Profile vs Consensus
  • Slide 51
  • Slide 52
  • Psi Blast (NCBI)
  • PSI-Blast
  • Psi-Blast вывод
  • Slide 56
  • Филогенез
  • Slide 58
  • Slide 59
  • Slide 60
  • Slide 61
  • Древо видов и генов
  • Ортологи и паралоги
  • Шаги реконструирования филогенетического древа
  • Филогенетическое дерево
  • Зачем нужны филогенетические деревья
  • Терминология
  • Slide 68
  • Какие бывают деревья
  • Slide 70
  • Slide 71
  • Slide 72
  • 4 OTUs 3 неукорененных филогенетических деревьев
  • Slide 74
  • Slide 75
  • Slide 76
  • Slide 77
  • Рутинная процедура или как строят деревья
  • Slide 79
  • Slide 80
  • Slide 81
  • Slide 82
  • Slide 83
  • Slide 84
  • Slide 85
  • Slide 86
  • Slide 87
  • Slide 88
  • Slide 89
  • Как выбирать последовательности для дерева
  • Самое главное ndash хорошее выравнивание
  • Основные алгоритмы построения филогенетических деревьев
  • Пример матрицы расстояний
  • Slide 94
  • Гипотеза laquoмолекулярных часовraquo (EZuckerkandl LPauling 1962)
  • UPGMA Unweighted Pair Group Method with Arithmetic Mean
  • Недостатки UPGMA
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Метод Neighbor-joining
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Slide 101
  • Как изобразить дерево Топология дерева
  • Slide 103
  • Какие on-line программы строят деревья
  • MEGA филогенетический анализ последовательностей
  • Slide 106
  • Slide 107
  • Slide 108
Page 67: Bestfit Output

ТерминологияУзел (node) mdash точка разделения предковой последовательности(вида популяции) на две независимо эволюционирующиеСоответствует внутренней вершине графа изображающего эволюциюЛист (leaf OTU ndash оперативная таксономическая единица) mdash реальный (современный) объект внешняя вершина графаВетвь (branch) mdash связь между узлами или между узлом и листом ребро графаКорень (root) mdash общий предокКлада (clade) - группа двух или более таксонов или последователь-ностей ДНК которая включает как своего общего предка так и всех его потомков

OTU

HTU (hypotetical taxonomic unit)

Какие бывают деревья

Бинарное (разрешённое)(в один момент времени может

произойти только одно событие )

Небинарное (неразрешённое) (может ли в один момент времени

произойти два события )

Время

Какие бывают деревья

Укорененное дерево (rooted tree)отражает направление эволюции

Неукорененное (бескорневое) дерево(unrooted tree) показывает только связи между узлами

Время

Если число листьев равно n существует (2n-3)разных бинарных укоренных деревьевПо определению (2n-3) = 1middot3 middot middot(2n-3)

Существует (2n-5) разных бескорневых деревьев с n листьями

Rooting

A C B B C AA B C

3 OTUs 3 OTUs 1 н 1 неукорененное деревоеукорененное дерево 33 укорененных деревьев укорененных деревьев

A

B

C

D

C

A

B

4 OTUs 4 OTUs 3 3 неукорененных филогенетических неукорененных филогенетических деревьевдеревьев

D

B

A

C C

B

A

D

4 OTUs

15 укорененных

деревьев

Количество Количество Количество

OTU укорененных неукорененных

2 1 13 3 14 15 35 105 156 954 1057 103959548 135135 103959 2027025 13513510 34459425 202702511 654729075 3445942512 13749310575 654729075

Количество возможных деревьев

Рутинная процедура или как строят деревья

Составление выборки последовательностей

Множественное выравнивание

Построение дерева фрагмент записи в виде скобочной формулы

Визуализация и редактура дерева

(((((con1013851018(f539692826973((f67220839851max42750591)492893con923019677)1362315)953075)2583145

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Множественное выравнивание

Matches

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Multiple Alignment

Matches

Mismatches

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Multiple Alignment

Matches

Mismatches

Gaps

Seq 1 A G C G A GSeq 1 A G C G A GSeq 2 G C G G A CSeq 2 G C G G A C

Шаг 3 Перевод количества расхождений в индексы замен

Distance Matrix

Units количество замен нуклеотидов на 1000

Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86

Rice 00 118 122 122

Mosquito 00 55 51

Monkey 00 3

Human 00

Шаг 4 построение филогенетического дерева

Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86

Rice 00 118 122 122

Mosquito 00 55 51

Monkey 00 3

Human 00

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Дистанция между человеком и обезьяной минимальна Эти группы объединяются в Monkey-Human а все остальные дистанции пересчитываются

Dist[Spinach MonHum] = (Dist[Spinach Monkey] +

Dist[Spinach Human])2 = (91 + 86)2 = 885

Spinach Rice Mosquito Mon-HumSpinach 00 9 106 885

Rice 00 118 122

Mosquito 00 53

Mon-Hum 00

Редуцированная матрица дистанций

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Spi-Ric

HumanMosquito

Mon-Hum

MonkeySpinachRice

Mos-Mon-Hum

Spi-Ric

Mos-Mon-Hum-Spi-Ric

Как выбирать последовательности для дерева

Кроме случаев очень близких последовательностей проще работать с белками (а не с ДНК)

Придерживайтесь небольшой выборки (lt 50 последовательностей)

Избегайтеndash фрагментовndash Ксенологов (горизонтальный перенос генов)ndash рекомбинантных последовательностейndash многодоменных белков и повторов

Используйте outgroup (последовательность ответвившаяся от общего предка заведомо (но минимально) раньше разделения интересующих групп-клад)

Самое главное ndash хорошее выравнивание

Максимальный вклад в финальное дерево нельзя построить хорошее дерево по плохому выравниванию

Блоки содержащие много гэпов плохо выровненные N- и C- концы можно просто вырезать

Основные алгоритмы построения филогенетических деревьев

Методы основанные на оценке

расстояний (матричные методы)

bull UPGMA (кластеризация)

bull Neighbor-joining

bull Минимальная эволюция

Наибольшего правдоподобия Maximal likelihood ML Используется модель эволюции и строится дерево которое наиболее правдоподобно при данной модели

Максимальной экономии (бережливости)

maximal parsimony MP Выбирается дерево с минимальным количеством

мутаций необходимых для объяснения данных

Пример матрицы расстояний

1 2 3 4 5 6 7 8 000 1053 977 1278 1203 1654 1353 2500 HUMAN 1

000 902 1203 977 1579 902 2727 HORSE 2 000 977 902 1654 1203 2424 RABIT 3

000 226 1729 1053 2576 MOUSE 4 000 1579 827 2576 RAT 5

000 1053 2955 BOVIN 6 000 2500 PIG 7

000 CHICK 8

Расстояние (уровень дивергенции) между соответствующими последовательностями из геномов мыши и свиньи

Как понимать расстояние между объектами

bull Как время в течение которого они эволюционировалиbull Как число laquoэволюционных событийraquo (мутаций)

В первом случае объекты образуют ультраметрическое пространство(если все объекты наблюдаются в одно время что как правило верно)

Но время непосредственно измерить невозможно

Гипотеза laquoмолекулярных часовraquo(EZuckerkandl LPauling 1962)

За равное время во всех ветвях эволюции данного генабелка накапливается равное число мутацийЕсли гипотеза молекулярных часов

принимается число различий между выровненными последовательностями можно считать примерно пропорциональным времени Отклонения от ультраметричности можно считать случайными Эволюция реконструируется в виде ультраметрического дерева

Укоренённое дерево называется ультраметрическим если расстояние от корня до любого из листьев одинаково

UPGMAUnweighted Pair Group Method with Arithmetic Mean

разновидность кластерного метода

Расстояние между кластерами вычисляется как среднее арифметическое всевозможных расстояний между последовательностями из кластеров

Недостатки UPGMA

Алгоритм строит ультраметрическое дерево ndash скорость эволюции предполагается одинаковой для всех ветвей дерева Использовать этот алгоритм имеет смысл только в случае ультраметрических данных (справедливости laquoмолекулярных часовraquo)

Реальное дерево UPGMA

Метод ближайших соседей (Neighbor-joining NJ)

Строит неукоренённое дерево

Может работать с большим количеством данных

Достаточно быстрый

Если есть недвусмысленное с точки зрения эксперта дерево то оно будет построено

Метод Neighbor-joining

Рисуем laquoзвездноеraquo дерево и будем laquoотщипыватьraquo от него по паре листьев

Пусть ui = Σk Mik(n-2) mdash среднее расстояние от листа i до других

листьев

1 Рассмотрим все возможные пары листьев Выберем 2 листа i и j с минимальным значением величины

Mij ndash ui ndashuj

те выбираем 2 узла которые близки друг к другу но далеки ото всех остальных

Метод ближайших соседей (Neighbor-joining NJ)

2 Кластер (i j) ndash новый узел дерева

Расстояние от i или от j до узла (ij) D(i (ij)) = 05middot(Mij + ui ndash uj) D(j (ij)) = 05middot (Mij + uj ndash ui) те длина ветви зависит от среднего расстояния до других вершин

3 Вычисляем расстояние от нового кластера до всех других

M(ij)k = Mik+Mjk ndash Mij 2

5 В матрице М убираем i и j и добавляем (i j) Повторяем пока не останутся 3 узла

Input MSA для n последовательностей одна последовательность для каждого вида

AAAAATC

AAAAAAG

CCCCCCG

AAAAATCAAAAAAG

CCCCCCG

Длинная ветвь ndash непохоже на правду

Длинная ветвь -Похоже на правду

Методы основанные на последовательностях Maximum Likelihood (ML) Maximum Parsimony (MP)

Как изобразить дерево Топология дерева

Топология дерева mdash только листья узлы (корень) и связывающие их ветви (топология не зависит от способа изображения дерева)

A

B

C

D

E A BC D E

Два изображения одной и той же топологии

Bacterium 1

Bacterium 3

Bacterium 2

Eukaryote 1

Eukaryote 4

Eukaryote 3

Eukaryote 2

Bacterium 1

Bacterium 3Bacterium 2

Eukaryote 1

Eukaryote 4Eukaryote 3

Eukaryote 2

Филограммы ndash длины ветвей

пропорциональны

эволюционному расстоянию

Кладограммы и филограммы

Кладограммы ndash только

топологя Длины ветвей не

учитываются

6

31

2

46

24

53

Как можно нарисовать построенное дерево

Какие on-line программы строят деревья

ClustalW ldquoTree typerdquo ndash nj phylip строит только методом NJ но результат ndash в разных форматах no bootstraps

Phylip (Felsenstein 1993) ndash пакет программ для построения филогенетических деревьев (stand-alone)On-line (partly) например

httpbiowebpasteurfrseqanalphylogenyphylip-ukhtml PAUP (Phylogenetic Analysis Using Parsimony)

MEGA филогенетический анализ последовательностей

httpwwwmegasoftwarenet

Эволюция ndash исторический процесс

Из 8200794532637891559375 деревьев для 20 OTUs 1

является верным и 8200794532637891559374

неверны

Truth is one falsehoods are many

Какое из 8200794532637891559375

деревьев истинно

Мы не знаем Можно применить иные критетии

Например ldquoпохожесть=родствоraquo

GCGbull Строковый поиск простой текстовый

поиск по локальной базе данных

bull Поиск в определениях или в аннотациях

bull Определения содержат минимальное количество информации для каждой статьи доступ имя организма имя гена длина последовательности дата

  • Bestfit Output
  • SP1 at swissprot
  • EGR1 at swissprot
  • Вывод
  • Bl2Seq at NCBI
  • Bl2seq results
  • Bl2seq оценка
  • Оптимизация времени вычислений при парном выравнивании
  • Slide 9
  • Алгоритм BLAST (шаг 1)
  • Slide 11
  • Blast
  • Поиск гомологов
  • ДНК или белок
  • ДНК
  • Slide 16
  • Slide 17
  • Двойная спираль
  • ДНК дальнейшая упаковка
  • Slide 20
  • Репликация ДНК
  • Slide 22
  • Slide 23
  • Slide 24
  • Slide 25
  • Множественное выравнивание последовательностей (MSA)
  • Slide 27
  • Основные предположения
  • Например
  • Почему множественное выравнивание
  • Slide 31
  • Подходы в MSA
  • MSA algorithm
  • Multiple Alignment - алгоритм
  • Комментарии
  • GCG
  • Slide 37
  • GCG
  • Slide 39
  • Slide 40
  • Slide 41
  • ClustalW
  • Slide 43
  • Slide 44
  • ClustalW на EMBL
  • ClustalW на EMBL - результат
  • ClustalW at EMBL - Jalview
  • Consensus Sequence
  • Профиль (Profile)
  • Profile vs Consensus
  • Slide 51
  • Slide 52
  • Psi Blast (NCBI)
  • PSI-Blast
  • Psi-Blast вывод
  • Slide 56
  • Филогенез
  • Slide 58
  • Slide 59
  • Slide 60
  • Slide 61
  • Древо видов и генов
  • Ортологи и паралоги
  • Шаги реконструирования филогенетического древа
  • Филогенетическое дерево
  • Зачем нужны филогенетические деревья
  • Терминология
  • Slide 68
  • Какие бывают деревья
  • Slide 70
  • Slide 71
  • Slide 72
  • 4 OTUs 3 неукорененных филогенетических деревьев
  • Slide 74
  • Slide 75
  • Slide 76
  • Slide 77
  • Рутинная процедура или как строят деревья
  • Slide 79
  • Slide 80
  • Slide 81
  • Slide 82
  • Slide 83
  • Slide 84
  • Slide 85
  • Slide 86
  • Slide 87
  • Slide 88
  • Slide 89
  • Как выбирать последовательности для дерева
  • Самое главное ndash хорошее выравнивание
  • Основные алгоритмы построения филогенетических деревьев
  • Пример матрицы расстояний
  • Slide 94
  • Гипотеза laquoмолекулярных часовraquo (EZuckerkandl LPauling 1962)
  • UPGMA Unweighted Pair Group Method with Arithmetic Mean
  • Недостатки UPGMA
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Метод Neighbor-joining
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Slide 101
  • Как изобразить дерево Топология дерева
  • Slide 103
  • Какие on-line программы строят деревья
  • MEGA филогенетический анализ последовательностей
  • Slide 106
  • Slide 107
  • Slide 108
Page 68: Bestfit Output

OTU

HTU (hypotetical taxonomic unit)

Какие бывают деревья

Бинарное (разрешённое)(в один момент времени может

произойти только одно событие )

Небинарное (неразрешённое) (может ли в один момент времени

произойти два события )

Время

Какие бывают деревья

Укорененное дерево (rooted tree)отражает направление эволюции

Неукорененное (бескорневое) дерево(unrooted tree) показывает только связи между узлами

Время

Если число листьев равно n существует (2n-3)разных бинарных укоренных деревьевПо определению (2n-3) = 1middot3 middot middot(2n-3)

Существует (2n-5) разных бескорневых деревьев с n листьями

Rooting

A C B B C AA B C

3 OTUs 3 OTUs 1 н 1 неукорененное деревоеукорененное дерево 33 укорененных деревьев укорененных деревьев

A

B

C

D

C

A

B

4 OTUs 4 OTUs 3 3 неукорененных филогенетических неукорененных филогенетических деревьевдеревьев

D

B

A

C C

B

A

D

4 OTUs

15 укорененных

деревьев

Количество Количество Количество

OTU укорененных неукорененных

2 1 13 3 14 15 35 105 156 954 1057 103959548 135135 103959 2027025 13513510 34459425 202702511 654729075 3445942512 13749310575 654729075

Количество возможных деревьев

Рутинная процедура или как строят деревья

Составление выборки последовательностей

Множественное выравнивание

Построение дерева фрагмент записи в виде скобочной формулы

Визуализация и редактура дерева

(((((con1013851018(f539692826973((f67220839851max42750591)492893con923019677)1362315)953075)2583145

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Множественное выравнивание

Matches

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Multiple Alignment

Matches

Mismatches

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Multiple Alignment

Matches

Mismatches

Gaps

Seq 1 A G C G A GSeq 1 A G C G A GSeq 2 G C G G A CSeq 2 G C G G A C

Шаг 3 Перевод количества расхождений в индексы замен

Distance Matrix

Units количество замен нуклеотидов на 1000

Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86

Rice 00 118 122 122

Mosquito 00 55 51

Monkey 00 3

Human 00

Шаг 4 построение филогенетического дерева

Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86

Rice 00 118 122 122

Mosquito 00 55 51

Monkey 00 3

Human 00

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Дистанция между человеком и обезьяной минимальна Эти группы объединяются в Monkey-Human а все остальные дистанции пересчитываются

Dist[Spinach MonHum] = (Dist[Spinach Monkey] +

Dist[Spinach Human])2 = (91 + 86)2 = 885

Spinach Rice Mosquito Mon-HumSpinach 00 9 106 885

Rice 00 118 122

Mosquito 00 53

Mon-Hum 00

Редуцированная матрица дистанций

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Spi-Ric

HumanMosquito

Mon-Hum

MonkeySpinachRice

Mos-Mon-Hum

Spi-Ric

Mos-Mon-Hum-Spi-Ric

Как выбирать последовательности для дерева

Кроме случаев очень близких последовательностей проще работать с белками (а не с ДНК)

Придерживайтесь небольшой выборки (lt 50 последовательностей)

Избегайтеndash фрагментовndash Ксенологов (горизонтальный перенос генов)ndash рекомбинантных последовательностейndash многодоменных белков и повторов

Используйте outgroup (последовательность ответвившаяся от общего предка заведомо (но минимально) раньше разделения интересующих групп-клад)

Самое главное ndash хорошее выравнивание

Максимальный вклад в финальное дерево нельзя построить хорошее дерево по плохому выравниванию

Блоки содержащие много гэпов плохо выровненные N- и C- концы можно просто вырезать

Основные алгоритмы построения филогенетических деревьев

Методы основанные на оценке

расстояний (матричные методы)

bull UPGMA (кластеризация)

bull Neighbor-joining

bull Минимальная эволюция

Наибольшего правдоподобия Maximal likelihood ML Используется модель эволюции и строится дерево которое наиболее правдоподобно при данной модели

Максимальной экономии (бережливости)

maximal parsimony MP Выбирается дерево с минимальным количеством

мутаций необходимых для объяснения данных

Пример матрицы расстояний

1 2 3 4 5 6 7 8 000 1053 977 1278 1203 1654 1353 2500 HUMAN 1

000 902 1203 977 1579 902 2727 HORSE 2 000 977 902 1654 1203 2424 RABIT 3

000 226 1729 1053 2576 MOUSE 4 000 1579 827 2576 RAT 5

000 1053 2955 BOVIN 6 000 2500 PIG 7

000 CHICK 8

Расстояние (уровень дивергенции) между соответствующими последовательностями из геномов мыши и свиньи

Как понимать расстояние между объектами

bull Как время в течение которого они эволюционировалиbull Как число laquoэволюционных событийraquo (мутаций)

В первом случае объекты образуют ультраметрическое пространство(если все объекты наблюдаются в одно время что как правило верно)

Но время непосредственно измерить невозможно

Гипотеза laquoмолекулярных часовraquo(EZuckerkandl LPauling 1962)

За равное время во всех ветвях эволюции данного генабелка накапливается равное число мутацийЕсли гипотеза молекулярных часов

принимается число различий между выровненными последовательностями можно считать примерно пропорциональным времени Отклонения от ультраметричности можно считать случайными Эволюция реконструируется в виде ультраметрического дерева

Укоренённое дерево называется ультраметрическим если расстояние от корня до любого из листьев одинаково

UPGMAUnweighted Pair Group Method with Arithmetic Mean

разновидность кластерного метода

Расстояние между кластерами вычисляется как среднее арифметическое всевозможных расстояний между последовательностями из кластеров

Недостатки UPGMA

Алгоритм строит ультраметрическое дерево ndash скорость эволюции предполагается одинаковой для всех ветвей дерева Использовать этот алгоритм имеет смысл только в случае ультраметрических данных (справедливости laquoмолекулярных часовraquo)

Реальное дерево UPGMA

Метод ближайших соседей (Neighbor-joining NJ)

Строит неукоренённое дерево

Может работать с большим количеством данных

Достаточно быстрый

Если есть недвусмысленное с точки зрения эксперта дерево то оно будет построено

Метод Neighbor-joining

Рисуем laquoзвездноеraquo дерево и будем laquoотщипыватьraquo от него по паре листьев

Пусть ui = Σk Mik(n-2) mdash среднее расстояние от листа i до других

листьев

1 Рассмотрим все возможные пары листьев Выберем 2 листа i и j с минимальным значением величины

Mij ndash ui ndashuj

те выбираем 2 узла которые близки друг к другу но далеки ото всех остальных

Метод ближайших соседей (Neighbor-joining NJ)

2 Кластер (i j) ndash новый узел дерева

Расстояние от i или от j до узла (ij) D(i (ij)) = 05middot(Mij + ui ndash uj) D(j (ij)) = 05middot (Mij + uj ndash ui) те длина ветви зависит от среднего расстояния до других вершин

3 Вычисляем расстояние от нового кластера до всех других

M(ij)k = Mik+Mjk ndash Mij 2

5 В матрице М убираем i и j и добавляем (i j) Повторяем пока не останутся 3 узла

Input MSA для n последовательностей одна последовательность для каждого вида

AAAAATC

AAAAAAG

CCCCCCG

AAAAATCAAAAAAG

CCCCCCG

Длинная ветвь ndash непохоже на правду

Длинная ветвь -Похоже на правду

Методы основанные на последовательностях Maximum Likelihood (ML) Maximum Parsimony (MP)

Как изобразить дерево Топология дерева

Топология дерева mdash только листья узлы (корень) и связывающие их ветви (топология не зависит от способа изображения дерева)

A

B

C

D

E A BC D E

Два изображения одной и той же топологии

Bacterium 1

Bacterium 3

Bacterium 2

Eukaryote 1

Eukaryote 4

Eukaryote 3

Eukaryote 2

Bacterium 1

Bacterium 3Bacterium 2

Eukaryote 1

Eukaryote 4Eukaryote 3

Eukaryote 2

Филограммы ndash длины ветвей

пропорциональны

эволюционному расстоянию

Кладограммы и филограммы

Кладограммы ndash только

топологя Длины ветвей не

учитываются

6

31

2

46

24

53

Как можно нарисовать построенное дерево

Какие on-line программы строят деревья

ClustalW ldquoTree typerdquo ndash nj phylip строит только методом NJ но результат ndash в разных форматах no bootstraps

Phylip (Felsenstein 1993) ndash пакет программ для построения филогенетических деревьев (stand-alone)On-line (partly) например

httpbiowebpasteurfrseqanalphylogenyphylip-ukhtml PAUP (Phylogenetic Analysis Using Parsimony)

MEGA филогенетический анализ последовательностей

httpwwwmegasoftwarenet

Эволюция ndash исторический процесс

Из 8200794532637891559375 деревьев для 20 OTUs 1

является верным и 8200794532637891559374

неверны

Truth is one falsehoods are many

Какое из 8200794532637891559375

деревьев истинно

Мы не знаем Можно применить иные критетии

Например ldquoпохожесть=родствоraquo

GCGbull Строковый поиск простой текстовый

поиск по локальной базе данных

bull Поиск в определениях или в аннотациях

bull Определения содержат минимальное количество информации для каждой статьи доступ имя организма имя гена длина последовательности дата

  • Bestfit Output
  • SP1 at swissprot
  • EGR1 at swissprot
  • Вывод
  • Bl2Seq at NCBI
  • Bl2seq results
  • Bl2seq оценка
  • Оптимизация времени вычислений при парном выравнивании
  • Slide 9
  • Алгоритм BLAST (шаг 1)
  • Slide 11
  • Blast
  • Поиск гомологов
  • ДНК или белок
  • ДНК
  • Slide 16
  • Slide 17
  • Двойная спираль
  • ДНК дальнейшая упаковка
  • Slide 20
  • Репликация ДНК
  • Slide 22
  • Slide 23
  • Slide 24
  • Slide 25
  • Множественное выравнивание последовательностей (MSA)
  • Slide 27
  • Основные предположения
  • Например
  • Почему множественное выравнивание
  • Slide 31
  • Подходы в MSA
  • MSA algorithm
  • Multiple Alignment - алгоритм
  • Комментарии
  • GCG
  • Slide 37
  • GCG
  • Slide 39
  • Slide 40
  • Slide 41
  • ClustalW
  • Slide 43
  • Slide 44
  • ClustalW на EMBL
  • ClustalW на EMBL - результат
  • ClustalW at EMBL - Jalview
  • Consensus Sequence
  • Профиль (Profile)
  • Profile vs Consensus
  • Slide 51
  • Slide 52
  • Psi Blast (NCBI)
  • PSI-Blast
  • Psi-Blast вывод
  • Slide 56
  • Филогенез
  • Slide 58
  • Slide 59
  • Slide 60
  • Slide 61
  • Древо видов и генов
  • Ортологи и паралоги
  • Шаги реконструирования филогенетического древа
  • Филогенетическое дерево
  • Зачем нужны филогенетические деревья
  • Терминология
  • Slide 68
  • Какие бывают деревья
  • Slide 70
  • Slide 71
  • Slide 72
  • 4 OTUs 3 неукорененных филогенетических деревьев
  • Slide 74
  • Slide 75
  • Slide 76
  • Slide 77
  • Рутинная процедура или как строят деревья
  • Slide 79
  • Slide 80
  • Slide 81
  • Slide 82
  • Slide 83
  • Slide 84
  • Slide 85
  • Slide 86
  • Slide 87
  • Slide 88
  • Slide 89
  • Как выбирать последовательности для дерева
  • Самое главное ndash хорошее выравнивание
  • Основные алгоритмы построения филогенетических деревьев
  • Пример матрицы расстояний
  • Slide 94
  • Гипотеза laquoмолекулярных часовraquo (EZuckerkandl LPauling 1962)
  • UPGMA Unweighted Pair Group Method with Arithmetic Mean
  • Недостатки UPGMA
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Метод Neighbor-joining
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Slide 101
  • Как изобразить дерево Топология дерева
  • Slide 103
  • Какие on-line программы строят деревья
  • MEGA филогенетический анализ последовательностей
  • Slide 106
  • Slide 107
  • Slide 108
Page 69: Bestfit Output

Какие бывают деревья

Бинарное (разрешённое)(в один момент времени может

произойти только одно событие )

Небинарное (неразрешённое) (может ли в один момент времени

произойти два события )

Время

Какие бывают деревья

Укорененное дерево (rooted tree)отражает направление эволюции

Неукорененное (бескорневое) дерево(unrooted tree) показывает только связи между узлами

Время

Если число листьев равно n существует (2n-3)разных бинарных укоренных деревьевПо определению (2n-3) = 1middot3 middot middot(2n-3)

Существует (2n-5) разных бескорневых деревьев с n листьями

Rooting

A C B B C AA B C

3 OTUs 3 OTUs 1 н 1 неукорененное деревоеукорененное дерево 33 укорененных деревьев укорененных деревьев

A

B

C

D

C

A

B

4 OTUs 4 OTUs 3 3 неукорененных филогенетических неукорененных филогенетических деревьевдеревьев

D

B

A

C C

B

A

D

4 OTUs

15 укорененных

деревьев

Количество Количество Количество

OTU укорененных неукорененных

2 1 13 3 14 15 35 105 156 954 1057 103959548 135135 103959 2027025 13513510 34459425 202702511 654729075 3445942512 13749310575 654729075

Количество возможных деревьев

Рутинная процедура или как строят деревья

Составление выборки последовательностей

Множественное выравнивание

Построение дерева фрагмент записи в виде скобочной формулы

Визуализация и редактура дерева

(((((con1013851018(f539692826973((f67220839851max42750591)492893con923019677)1362315)953075)2583145

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Множественное выравнивание

Matches

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Multiple Alignment

Matches

Mismatches

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Multiple Alignment

Matches

Mismatches

Gaps

Seq 1 A G C G A GSeq 1 A G C G A GSeq 2 G C G G A CSeq 2 G C G G A C

Шаг 3 Перевод количества расхождений в индексы замен

Distance Matrix

Units количество замен нуклеотидов на 1000

Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86

Rice 00 118 122 122

Mosquito 00 55 51

Monkey 00 3

Human 00

Шаг 4 построение филогенетического дерева

Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86

Rice 00 118 122 122

Mosquito 00 55 51

Monkey 00 3

Human 00

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Дистанция между человеком и обезьяной минимальна Эти группы объединяются в Monkey-Human а все остальные дистанции пересчитываются

Dist[Spinach MonHum] = (Dist[Spinach Monkey] +

Dist[Spinach Human])2 = (91 + 86)2 = 885

Spinach Rice Mosquito Mon-HumSpinach 00 9 106 885

Rice 00 118 122

Mosquito 00 53

Mon-Hum 00

Редуцированная матрица дистанций

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Spi-Ric

HumanMosquito

Mon-Hum

MonkeySpinachRice

Mos-Mon-Hum

Spi-Ric

Mos-Mon-Hum-Spi-Ric

Как выбирать последовательности для дерева

Кроме случаев очень близких последовательностей проще работать с белками (а не с ДНК)

Придерживайтесь небольшой выборки (lt 50 последовательностей)

Избегайтеndash фрагментовndash Ксенологов (горизонтальный перенос генов)ndash рекомбинантных последовательностейndash многодоменных белков и повторов

Используйте outgroup (последовательность ответвившаяся от общего предка заведомо (но минимально) раньше разделения интересующих групп-клад)

Самое главное ndash хорошее выравнивание

Максимальный вклад в финальное дерево нельзя построить хорошее дерево по плохому выравниванию

Блоки содержащие много гэпов плохо выровненные N- и C- концы можно просто вырезать

Основные алгоритмы построения филогенетических деревьев

Методы основанные на оценке

расстояний (матричные методы)

bull UPGMA (кластеризация)

bull Neighbor-joining

bull Минимальная эволюция

Наибольшего правдоподобия Maximal likelihood ML Используется модель эволюции и строится дерево которое наиболее правдоподобно при данной модели

Максимальной экономии (бережливости)

maximal parsimony MP Выбирается дерево с минимальным количеством

мутаций необходимых для объяснения данных

Пример матрицы расстояний

1 2 3 4 5 6 7 8 000 1053 977 1278 1203 1654 1353 2500 HUMAN 1

000 902 1203 977 1579 902 2727 HORSE 2 000 977 902 1654 1203 2424 RABIT 3

000 226 1729 1053 2576 MOUSE 4 000 1579 827 2576 RAT 5

000 1053 2955 BOVIN 6 000 2500 PIG 7

000 CHICK 8

Расстояние (уровень дивергенции) между соответствующими последовательностями из геномов мыши и свиньи

Как понимать расстояние между объектами

bull Как время в течение которого они эволюционировалиbull Как число laquoэволюционных событийraquo (мутаций)

В первом случае объекты образуют ультраметрическое пространство(если все объекты наблюдаются в одно время что как правило верно)

Но время непосредственно измерить невозможно

Гипотеза laquoмолекулярных часовraquo(EZuckerkandl LPauling 1962)

За равное время во всех ветвях эволюции данного генабелка накапливается равное число мутацийЕсли гипотеза молекулярных часов

принимается число различий между выровненными последовательностями можно считать примерно пропорциональным времени Отклонения от ультраметричности можно считать случайными Эволюция реконструируется в виде ультраметрического дерева

Укоренённое дерево называется ультраметрическим если расстояние от корня до любого из листьев одинаково

UPGMAUnweighted Pair Group Method with Arithmetic Mean

разновидность кластерного метода

Расстояние между кластерами вычисляется как среднее арифметическое всевозможных расстояний между последовательностями из кластеров

Недостатки UPGMA

Алгоритм строит ультраметрическое дерево ndash скорость эволюции предполагается одинаковой для всех ветвей дерева Использовать этот алгоритм имеет смысл только в случае ультраметрических данных (справедливости laquoмолекулярных часовraquo)

Реальное дерево UPGMA

Метод ближайших соседей (Neighbor-joining NJ)

Строит неукоренённое дерево

Может работать с большим количеством данных

Достаточно быстрый

Если есть недвусмысленное с точки зрения эксперта дерево то оно будет построено

Метод Neighbor-joining

Рисуем laquoзвездноеraquo дерево и будем laquoотщипыватьraquo от него по паре листьев

Пусть ui = Σk Mik(n-2) mdash среднее расстояние от листа i до других

листьев

1 Рассмотрим все возможные пары листьев Выберем 2 листа i и j с минимальным значением величины

Mij ndash ui ndashuj

те выбираем 2 узла которые близки друг к другу но далеки ото всех остальных

Метод ближайших соседей (Neighbor-joining NJ)

2 Кластер (i j) ndash новый узел дерева

Расстояние от i или от j до узла (ij) D(i (ij)) = 05middot(Mij + ui ndash uj) D(j (ij)) = 05middot (Mij + uj ndash ui) те длина ветви зависит от среднего расстояния до других вершин

3 Вычисляем расстояние от нового кластера до всех других

M(ij)k = Mik+Mjk ndash Mij 2

5 В матрице М убираем i и j и добавляем (i j) Повторяем пока не останутся 3 узла

Input MSA для n последовательностей одна последовательность для каждого вида

AAAAATC

AAAAAAG

CCCCCCG

AAAAATCAAAAAAG

CCCCCCG

Длинная ветвь ndash непохоже на правду

Длинная ветвь -Похоже на правду

Методы основанные на последовательностях Maximum Likelihood (ML) Maximum Parsimony (MP)

Как изобразить дерево Топология дерева

Топология дерева mdash только листья узлы (корень) и связывающие их ветви (топология не зависит от способа изображения дерева)

A

B

C

D

E A BC D E

Два изображения одной и той же топологии

Bacterium 1

Bacterium 3

Bacterium 2

Eukaryote 1

Eukaryote 4

Eukaryote 3

Eukaryote 2

Bacterium 1

Bacterium 3Bacterium 2

Eukaryote 1

Eukaryote 4Eukaryote 3

Eukaryote 2

Филограммы ndash длины ветвей

пропорциональны

эволюционному расстоянию

Кладограммы и филограммы

Кладограммы ndash только

топологя Длины ветвей не

учитываются

6

31

2

46

24

53

Как можно нарисовать построенное дерево

Какие on-line программы строят деревья

ClustalW ldquoTree typerdquo ndash nj phylip строит только методом NJ но результат ndash в разных форматах no bootstraps

Phylip (Felsenstein 1993) ndash пакет программ для построения филогенетических деревьев (stand-alone)On-line (partly) например

httpbiowebpasteurfrseqanalphylogenyphylip-ukhtml PAUP (Phylogenetic Analysis Using Parsimony)

MEGA филогенетический анализ последовательностей

httpwwwmegasoftwarenet

Эволюция ndash исторический процесс

Из 8200794532637891559375 деревьев для 20 OTUs 1

является верным и 8200794532637891559374

неверны

Truth is one falsehoods are many

Какое из 8200794532637891559375

деревьев истинно

Мы не знаем Можно применить иные критетии

Например ldquoпохожесть=родствоraquo

GCGbull Строковый поиск простой текстовый

поиск по локальной базе данных

bull Поиск в определениях или в аннотациях

bull Определения содержат минимальное количество информации для каждой статьи доступ имя организма имя гена длина последовательности дата

  • Bestfit Output
  • SP1 at swissprot
  • EGR1 at swissprot
  • Вывод
  • Bl2Seq at NCBI
  • Bl2seq results
  • Bl2seq оценка
  • Оптимизация времени вычислений при парном выравнивании
  • Slide 9
  • Алгоритм BLAST (шаг 1)
  • Slide 11
  • Blast
  • Поиск гомологов
  • ДНК или белок
  • ДНК
  • Slide 16
  • Slide 17
  • Двойная спираль
  • ДНК дальнейшая упаковка
  • Slide 20
  • Репликация ДНК
  • Slide 22
  • Slide 23
  • Slide 24
  • Slide 25
  • Множественное выравнивание последовательностей (MSA)
  • Slide 27
  • Основные предположения
  • Например
  • Почему множественное выравнивание
  • Slide 31
  • Подходы в MSA
  • MSA algorithm
  • Multiple Alignment - алгоритм
  • Комментарии
  • GCG
  • Slide 37
  • GCG
  • Slide 39
  • Slide 40
  • Slide 41
  • ClustalW
  • Slide 43
  • Slide 44
  • ClustalW на EMBL
  • ClustalW на EMBL - результат
  • ClustalW at EMBL - Jalview
  • Consensus Sequence
  • Профиль (Profile)
  • Profile vs Consensus
  • Slide 51
  • Slide 52
  • Psi Blast (NCBI)
  • PSI-Blast
  • Psi-Blast вывод
  • Slide 56
  • Филогенез
  • Slide 58
  • Slide 59
  • Slide 60
  • Slide 61
  • Древо видов и генов
  • Ортологи и паралоги
  • Шаги реконструирования филогенетического древа
  • Филогенетическое дерево
  • Зачем нужны филогенетические деревья
  • Терминология
  • Slide 68
  • Какие бывают деревья
  • Slide 70
  • Slide 71
  • Slide 72
  • 4 OTUs 3 неукорененных филогенетических деревьев
  • Slide 74
  • Slide 75
  • Slide 76
  • Slide 77
  • Рутинная процедура или как строят деревья
  • Slide 79
  • Slide 80
  • Slide 81
  • Slide 82
  • Slide 83
  • Slide 84
  • Slide 85
  • Slide 86
  • Slide 87
  • Slide 88
  • Slide 89
  • Как выбирать последовательности для дерева
  • Самое главное ndash хорошее выравнивание
  • Основные алгоритмы построения филогенетических деревьев
  • Пример матрицы расстояний
  • Slide 94
  • Гипотеза laquoмолекулярных часовraquo (EZuckerkandl LPauling 1962)
  • UPGMA Unweighted Pair Group Method with Arithmetic Mean
  • Недостатки UPGMA
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Метод Neighbor-joining
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Slide 101
  • Как изобразить дерево Топология дерева
  • Slide 103
  • Какие on-line программы строят деревья
  • MEGA филогенетический анализ последовательностей
  • Slide 106
  • Slide 107
  • Slide 108
Page 70: Bestfit Output

Какие бывают деревья

Укорененное дерево (rooted tree)отражает направление эволюции

Неукорененное (бескорневое) дерево(unrooted tree) показывает только связи между узлами

Время

Если число листьев равно n существует (2n-3)разных бинарных укоренных деревьевПо определению (2n-3) = 1middot3 middot middot(2n-3)

Существует (2n-5) разных бескорневых деревьев с n листьями

Rooting

A C B B C AA B C

3 OTUs 3 OTUs 1 н 1 неукорененное деревоеукорененное дерево 33 укорененных деревьев укорененных деревьев

A

B

C

D

C

A

B

4 OTUs 4 OTUs 3 3 неукорененных филогенетических неукорененных филогенетических деревьевдеревьев

D

B

A

C C

B

A

D

4 OTUs

15 укорененных

деревьев

Количество Количество Количество

OTU укорененных неукорененных

2 1 13 3 14 15 35 105 156 954 1057 103959548 135135 103959 2027025 13513510 34459425 202702511 654729075 3445942512 13749310575 654729075

Количество возможных деревьев

Рутинная процедура или как строят деревья

Составление выборки последовательностей

Множественное выравнивание

Построение дерева фрагмент записи в виде скобочной формулы

Визуализация и редактура дерева

(((((con1013851018(f539692826973((f67220839851max42750591)492893con923019677)1362315)953075)2583145

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Множественное выравнивание

Matches

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Multiple Alignment

Matches

Mismatches

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Multiple Alignment

Matches

Mismatches

Gaps

Seq 1 A G C G A GSeq 1 A G C G A GSeq 2 G C G G A CSeq 2 G C G G A C

Шаг 3 Перевод количества расхождений в индексы замен

Distance Matrix

Units количество замен нуклеотидов на 1000

Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86

Rice 00 118 122 122

Mosquito 00 55 51

Monkey 00 3

Human 00

Шаг 4 построение филогенетического дерева

Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86

Rice 00 118 122 122

Mosquito 00 55 51

Monkey 00 3

Human 00

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Дистанция между человеком и обезьяной минимальна Эти группы объединяются в Monkey-Human а все остальные дистанции пересчитываются

Dist[Spinach MonHum] = (Dist[Spinach Monkey] +

Dist[Spinach Human])2 = (91 + 86)2 = 885

Spinach Rice Mosquito Mon-HumSpinach 00 9 106 885

Rice 00 118 122

Mosquito 00 53

Mon-Hum 00

Редуцированная матрица дистанций

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Spi-Ric

HumanMosquito

Mon-Hum

MonkeySpinachRice

Mos-Mon-Hum

Spi-Ric

Mos-Mon-Hum-Spi-Ric

Как выбирать последовательности для дерева

Кроме случаев очень близких последовательностей проще работать с белками (а не с ДНК)

Придерживайтесь небольшой выборки (lt 50 последовательностей)

Избегайтеndash фрагментовndash Ксенологов (горизонтальный перенос генов)ndash рекомбинантных последовательностейndash многодоменных белков и повторов

Используйте outgroup (последовательность ответвившаяся от общего предка заведомо (но минимально) раньше разделения интересующих групп-клад)

Самое главное ndash хорошее выравнивание

Максимальный вклад в финальное дерево нельзя построить хорошее дерево по плохому выравниванию

Блоки содержащие много гэпов плохо выровненные N- и C- концы можно просто вырезать

Основные алгоритмы построения филогенетических деревьев

Методы основанные на оценке

расстояний (матричные методы)

bull UPGMA (кластеризация)

bull Neighbor-joining

bull Минимальная эволюция

Наибольшего правдоподобия Maximal likelihood ML Используется модель эволюции и строится дерево которое наиболее правдоподобно при данной модели

Максимальной экономии (бережливости)

maximal parsimony MP Выбирается дерево с минимальным количеством

мутаций необходимых для объяснения данных

Пример матрицы расстояний

1 2 3 4 5 6 7 8 000 1053 977 1278 1203 1654 1353 2500 HUMAN 1

000 902 1203 977 1579 902 2727 HORSE 2 000 977 902 1654 1203 2424 RABIT 3

000 226 1729 1053 2576 MOUSE 4 000 1579 827 2576 RAT 5

000 1053 2955 BOVIN 6 000 2500 PIG 7

000 CHICK 8

Расстояние (уровень дивергенции) между соответствующими последовательностями из геномов мыши и свиньи

Как понимать расстояние между объектами

bull Как время в течение которого они эволюционировалиbull Как число laquoэволюционных событийraquo (мутаций)

В первом случае объекты образуют ультраметрическое пространство(если все объекты наблюдаются в одно время что как правило верно)

Но время непосредственно измерить невозможно

Гипотеза laquoмолекулярных часовraquo(EZuckerkandl LPauling 1962)

За равное время во всех ветвях эволюции данного генабелка накапливается равное число мутацийЕсли гипотеза молекулярных часов

принимается число различий между выровненными последовательностями можно считать примерно пропорциональным времени Отклонения от ультраметричности можно считать случайными Эволюция реконструируется в виде ультраметрического дерева

Укоренённое дерево называется ультраметрическим если расстояние от корня до любого из листьев одинаково

UPGMAUnweighted Pair Group Method with Arithmetic Mean

разновидность кластерного метода

Расстояние между кластерами вычисляется как среднее арифметическое всевозможных расстояний между последовательностями из кластеров

Недостатки UPGMA

Алгоритм строит ультраметрическое дерево ndash скорость эволюции предполагается одинаковой для всех ветвей дерева Использовать этот алгоритм имеет смысл только в случае ультраметрических данных (справедливости laquoмолекулярных часовraquo)

Реальное дерево UPGMA

Метод ближайших соседей (Neighbor-joining NJ)

Строит неукоренённое дерево

Может работать с большим количеством данных

Достаточно быстрый

Если есть недвусмысленное с точки зрения эксперта дерево то оно будет построено

Метод Neighbor-joining

Рисуем laquoзвездноеraquo дерево и будем laquoотщипыватьraquo от него по паре листьев

Пусть ui = Σk Mik(n-2) mdash среднее расстояние от листа i до других

листьев

1 Рассмотрим все возможные пары листьев Выберем 2 листа i и j с минимальным значением величины

Mij ndash ui ndashuj

те выбираем 2 узла которые близки друг к другу но далеки ото всех остальных

Метод ближайших соседей (Neighbor-joining NJ)

2 Кластер (i j) ndash новый узел дерева

Расстояние от i или от j до узла (ij) D(i (ij)) = 05middot(Mij + ui ndash uj) D(j (ij)) = 05middot (Mij + uj ndash ui) те длина ветви зависит от среднего расстояния до других вершин

3 Вычисляем расстояние от нового кластера до всех других

M(ij)k = Mik+Mjk ndash Mij 2

5 В матрице М убираем i и j и добавляем (i j) Повторяем пока не останутся 3 узла

Input MSA для n последовательностей одна последовательность для каждого вида

AAAAATC

AAAAAAG

CCCCCCG

AAAAATCAAAAAAG

CCCCCCG

Длинная ветвь ndash непохоже на правду

Длинная ветвь -Похоже на правду

Методы основанные на последовательностях Maximum Likelihood (ML) Maximum Parsimony (MP)

Как изобразить дерево Топология дерева

Топология дерева mdash только листья узлы (корень) и связывающие их ветви (топология не зависит от способа изображения дерева)

A

B

C

D

E A BC D E

Два изображения одной и той же топологии

Bacterium 1

Bacterium 3

Bacterium 2

Eukaryote 1

Eukaryote 4

Eukaryote 3

Eukaryote 2

Bacterium 1

Bacterium 3Bacterium 2

Eukaryote 1

Eukaryote 4Eukaryote 3

Eukaryote 2

Филограммы ndash длины ветвей

пропорциональны

эволюционному расстоянию

Кладограммы и филограммы

Кладограммы ndash только

топологя Длины ветвей не

учитываются

6

31

2

46

24

53

Как можно нарисовать построенное дерево

Какие on-line программы строят деревья

ClustalW ldquoTree typerdquo ndash nj phylip строит только методом NJ но результат ndash в разных форматах no bootstraps

Phylip (Felsenstein 1993) ndash пакет программ для построения филогенетических деревьев (stand-alone)On-line (partly) например

httpbiowebpasteurfrseqanalphylogenyphylip-ukhtml PAUP (Phylogenetic Analysis Using Parsimony)

MEGA филогенетический анализ последовательностей

httpwwwmegasoftwarenet

Эволюция ndash исторический процесс

Из 8200794532637891559375 деревьев для 20 OTUs 1

является верным и 8200794532637891559374

неверны

Truth is one falsehoods are many

Какое из 8200794532637891559375

деревьев истинно

Мы не знаем Можно применить иные критетии

Например ldquoпохожесть=родствоraquo

GCGbull Строковый поиск простой текстовый

поиск по локальной базе данных

bull Поиск в определениях или в аннотациях

bull Определения содержат минимальное количество информации для каждой статьи доступ имя организма имя гена длина последовательности дата

  • Bestfit Output
  • SP1 at swissprot
  • EGR1 at swissprot
  • Вывод
  • Bl2Seq at NCBI
  • Bl2seq results
  • Bl2seq оценка
  • Оптимизация времени вычислений при парном выравнивании
  • Slide 9
  • Алгоритм BLAST (шаг 1)
  • Slide 11
  • Blast
  • Поиск гомологов
  • ДНК или белок
  • ДНК
  • Slide 16
  • Slide 17
  • Двойная спираль
  • ДНК дальнейшая упаковка
  • Slide 20
  • Репликация ДНК
  • Slide 22
  • Slide 23
  • Slide 24
  • Slide 25
  • Множественное выравнивание последовательностей (MSA)
  • Slide 27
  • Основные предположения
  • Например
  • Почему множественное выравнивание
  • Slide 31
  • Подходы в MSA
  • MSA algorithm
  • Multiple Alignment - алгоритм
  • Комментарии
  • GCG
  • Slide 37
  • GCG
  • Slide 39
  • Slide 40
  • Slide 41
  • ClustalW
  • Slide 43
  • Slide 44
  • ClustalW на EMBL
  • ClustalW на EMBL - результат
  • ClustalW at EMBL - Jalview
  • Consensus Sequence
  • Профиль (Profile)
  • Profile vs Consensus
  • Slide 51
  • Slide 52
  • Psi Blast (NCBI)
  • PSI-Blast
  • Psi-Blast вывод
  • Slide 56
  • Филогенез
  • Slide 58
  • Slide 59
  • Slide 60
  • Slide 61
  • Древо видов и генов
  • Ортологи и паралоги
  • Шаги реконструирования филогенетического древа
  • Филогенетическое дерево
  • Зачем нужны филогенетические деревья
  • Терминология
  • Slide 68
  • Какие бывают деревья
  • Slide 70
  • Slide 71
  • Slide 72
  • 4 OTUs 3 неукорененных филогенетических деревьев
  • Slide 74
  • Slide 75
  • Slide 76
  • Slide 77
  • Рутинная процедура или как строят деревья
  • Slide 79
  • Slide 80
  • Slide 81
  • Slide 82
  • Slide 83
  • Slide 84
  • Slide 85
  • Slide 86
  • Slide 87
  • Slide 88
  • Slide 89
  • Как выбирать последовательности для дерева
  • Самое главное ndash хорошее выравнивание
  • Основные алгоритмы построения филогенетических деревьев
  • Пример матрицы расстояний
  • Slide 94
  • Гипотеза laquoмолекулярных часовraquo (EZuckerkandl LPauling 1962)
  • UPGMA Unweighted Pair Group Method with Arithmetic Mean
  • Недостатки UPGMA
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Метод Neighbor-joining
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Slide 101
  • Как изобразить дерево Топология дерева
  • Slide 103
  • Какие on-line программы строят деревья
  • MEGA филогенетический анализ последовательностей
  • Slide 106
  • Slide 107
  • Slide 108
Page 71: Bestfit Output

Rooting

A C B B C AA B C

3 OTUs 3 OTUs 1 н 1 неукорененное деревоеукорененное дерево 33 укорененных деревьев укорененных деревьев

A

B

C

D

C

A

B

4 OTUs 4 OTUs 3 3 неукорененных филогенетических неукорененных филогенетических деревьевдеревьев

D

B

A

C C

B

A

D

4 OTUs

15 укорененных

деревьев

Количество Количество Количество

OTU укорененных неукорененных

2 1 13 3 14 15 35 105 156 954 1057 103959548 135135 103959 2027025 13513510 34459425 202702511 654729075 3445942512 13749310575 654729075

Количество возможных деревьев

Рутинная процедура или как строят деревья

Составление выборки последовательностей

Множественное выравнивание

Построение дерева фрагмент записи в виде скобочной формулы

Визуализация и редактура дерева

(((((con1013851018(f539692826973((f67220839851max42750591)492893con923019677)1362315)953075)2583145

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Множественное выравнивание

Matches

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Multiple Alignment

Matches

Mismatches

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Multiple Alignment

Matches

Mismatches

Gaps

Seq 1 A G C G A GSeq 1 A G C G A GSeq 2 G C G G A CSeq 2 G C G G A C

Шаг 3 Перевод количества расхождений в индексы замен

Distance Matrix

Units количество замен нуклеотидов на 1000

Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86

Rice 00 118 122 122

Mosquito 00 55 51

Monkey 00 3

Human 00

Шаг 4 построение филогенетического дерева

Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86

Rice 00 118 122 122

Mosquito 00 55 51

Monkey 00 3

Human 00

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Дистанция между человеком и обезьяной минимальна Эти группы объединяются в Monkey-Human а все остальные дистанции пересчитываются

Dist[Spinach MonHum] = (Dist[Spinach Monkey] +

Dist[Spinach Human])2 = (91 + 86)2 = 885

Spinach Rice Mosquito Mon-HumSpinach 00 9 106 885

Rice 00 118 122

Mosquito 00 53

Mon-Hum 00

Редуцированная матрица дистанций

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Spi-Ric

HumanMosquito

Mon-Hum

MonkeySpinachRice

Mos-Mon-Hum

Spi-Ric

Mos-Mon-Hum-Spi-Ric

Как выбирать последовательности для дерева

Кроме случаев очень близких последовательностей проще работать с белками (а не с ДНК)

Придерживайтесь небольшой выборки (lt 50 последовательностей)

Избегайтеndash фрагментовndash Ксенологов (горизонтальный перенос генов)ndash рекомбинантных последовательностейndash многодоменных белков и повторов

Используйте outgroup (последовательность ответвившаяся от общего предка заведомо (но минимально) раньше разделения интересующих групп-клад)

Самое главное ndash хорошее выравнивание

Максимальный вклад в финальное дерево нельзя построить хорошее дерево по плохому выравниванию

Блоки содержащие много гэпов плохо выровненные N- и C- концы можно просто вырезать

Основные алгоритмы построения филогенетических деревьев

Методы основанные на оценке

расстояний (матричные методы)

bull UPGMA (кластеризация)

bull Neighbor-joining

bull Минимальная эволюция

Наибольшего правдоподобия Maximal likelihood ML Используется модель эволюции и строится дерево которое наиболее правдоподобно при данной модели

Максимальной экономии (бережливости)

maximal parsimony MP Выбирается дерево с минимальным количеством

мутаций необходимых для объяснения данных

Пример матрицы расстояний

1 2 3 4 5 6 7 8 000 1053 977 1278 1203 1654 1353 2500 HUMAN 1

000 902 1203 977 1579 902 2727 HORSE 2 000 977 902 1654 1203 2424 RABIT 3

000 226 1729 1053 2576 MOUSE 4 000 1579 827 2576 RAT 5

000 1053 2955 BOVIN 6 000 2500 PIG 7

000 CHICK 8

Расстояние (уровень дивергенции) между соответствующими последовательностями из геномов мыши и свиньи

Как понимать расстояние между объектами

bull Как время в течение которого они эволюционировалиbull Как число laquoэволюционных событийraquo (мутаций)

В первом случае объекты образуют ультраметрическое пространство(если все объекты наблюдаются в одно время что как правило верно)

Но время непосредственно измерить невозможно

Гипотеза laquoмолекулярных часовraquo(EZuckerkandl LPauling 1962)

За равное время во всех ветвях эволюции данного генабелка накапливается равное число мутацийЕсли гипотеза молекулярных часов

принимается число различий между выровненными последовательностями можно считать примерно пропорциональным времени Отклонения от ультраметричности можно считать случайными Эволюция реконструируется в виде ультраметрического дерева

Укоренённое дерево называется ультраметрическим если расстояние от корня до любого из листьев одинаково

UPGMAUnweighted Pair Group Method with Arithmetic Mean

разновидность кластерного метода

Расстояние между кластерами вычисляется как среднее арифметическое всевозможных расстояний между последовательностями из кластеров

Недостатки UPGMA

Алгоритм строит ультраметрическое дерево ndash скорость эволюции предполагается одинаковой для всех ветвей дерева Использовать этот алгоритм имеет смысл только в случае ультраметрических данных (справедливости laquoмолекулярных часовraquo)

Реальное дерево UPGMA

Метод ближайших соседей (Neighbor-joining NJ)

Строит неукоренённое дерево

Может работать с большим количеством данных

Достаточно быстрый

Если есть недвусмысленное с точки зрения эксперта дерево то оно будет построено

Метод Neighbor-joining

Рисуем laquoзвездноеraquo дерево и будем laquoотщипыватьraquo от него по паре листьев

Пусть ui = Σk Mik(n-2) mdash среднее расстояние от листа i до других

листьев

1 Рассмотрим все возможные пары листьев Выберем 2 листа i и j с минимальным значением величины

Mij ndash ui ndashuj

те выбираем 2 узла которые близки друг к другу но далеки ото всех остальных

Метод ближайших соседей (Neighbor-joining NJ)

2 Кластер (i j) ndash новый узел дерева

Расстояние от i или от j до узла (ij) D(i (ij)) = 05middot(Mij + ui ndash uj) D(j (ij)) = 05middot (Mij + uj ndash ui) те длина ветви зависит от среднего расстояния до других вершин

3 Вычисляем расстояние от нового кластера до всех других

M(ij)k = Mik+Mjk ndash Mij 2

5 В матрице М убираем i и j и добавляем (i j) Повторяем пока не останутся 3 узла

Input MSA для n последовательностей одна последовательность для каждого вида

AAAAATC

AAAAAAG

CCCCCCG

AAAAATCAAAAAAG

CCCCCCG

Длинная ветвь ndash непохоже на правду

Длинная ветвь -Похоже на правду

Методы основанные на последовательностях Maximum Likelihood (ML) Maximum Parsimony (MP)

Как изобразить дерево Топология дерева

Топология дерева mdash только листья узлы (корень) и связывающие их ветви (топология не зависит от способа изображения дерева)

A

B

C

D

E A BC D E

Два изображения одной и той же топологии

Bacterium 1

Bacterium 3

Bacterium 2

Eukaryote 1

Eukaryote 4

Eukaryote 3

Eukaryote 2

Bacterium 1

Bacterium 3Bacterium 2

Eukaryote 1

Eukaryote 4Eukaryote 3

Eukaryote 2

Филограммы ndash длины ветвей

пропорциональны

эволюционному расстоянию

Кладограммы и филограммы

Кладограммы ndash только

топологя Длины ветвей не

учитываются

6

31

2

46

24

53

Как можно нарисовать построенное дерево

Какие on-line программы строят деревья

ClustalW ldquoTree typerdquo ndash nj phylip строит только методом NJ но результат ndash в разных форматах no bootstraps

Phylip (Felsenstein 1993) ndash пакет программ для построения филогенетических деревьев (stand-alone)On-line (partly) например

httpbiowebpasteurfrseqanalphylogenyphylip-ukhtml PAUP (Phylogenetic Analysis Using Parsimony)

MEGA филогенетический анализ последовательностей

httpwwwmegasoftwarenet

Эволюция ndash исторический процесс

Из 8200794532637891559375 деревьев для 20 OTUs 1

является верным и 8200794532637891559374

неверны

Truth is one falsehoods are many

Какое из 8200794532637891559375

деревьев истинно

Мы не знаем Можно применить иные критетии

Например ldquoпохожесть=родствоraquo

GCGbull Строковый поиск простой текстовый

поиск по локальной базе данных

bull Поиск в определениях или в аннотациях

bull Определения содержат минимальное количество информации для каждой статьи доступ имя организма имя гена длина последовательности дата

  • Bestfit Output
  • SP1 at swissprot
  • EGR1 at swissprot
  • Вывод
  • Bl2Seq at NCBI
  • Bl2seq results
  • Bl2seq оценка
  • Оптимизация времени вычислений при парном выравнивании
  • Slide 9
  • Алгоритм BLAST (шаг 1)
  • Slide 11
  • Blast
  • Поиск гомологов
  • ДНК или белок
  • ДНК
  • Slide 16
  • Slide 17
  • Двойная спираль
  • ДНК дальнейшая упаковка
  • Slide 20
  • Репликация ДНК
  • Slide 22
  • Slide 23
  • Slide 24
  • Slide 25
  • Множественное выравнивание последовательностей (MSA)
  • Slide 27
  • Основные предположения
  • Например
  • Почему множественное выравнивание
  • Slide 31
  • Подходы в MSA
  • MSA algorithm
  • Multiple Alignment - алгоритм
  • Комментарии
  • GCG
  • Slide 37
  • GCG
  • Slide 39
  • Slide 40
  • Slide 41
  • ClustalW
  • Slide 43
  • Slide 44
  • ClustalW на EMBL
  • ClustalW на EMBL - результат
  • ClustalW at EMBL - Jalview
  • Consensus Sequence
  • Профиль (Profile)
  • Profile vs Consensus
  • Slide 51
  • Slide 52
  • Psi Blast (NCBI)
  • PSI-Blast
  • Psi-Blast вывод
  • Slide 56
  • Филогенез
  • Slide 58
  • Slide 59
  • Slide 60
  • Slide 61
  • Древо видов и генов
  • Ортологи и паралоги
  • Шаги реконструирования филогенетического древа
  • Филогенетическое дерево
  • Зачем нужны филогенетические деревья
  • Терминология
  • Slide 68
  • Какие бывают деревья
  • Slide 70
  • Slide 71
  • Slide 72
  • 4 OTUs 3 неукорененных филогенетических деревьев
  • Slide 74
  • Slide 75
  • Slide 76
  • Slide 77
  • Рутинная процедура или как строят деревья
  • Slide 79
  • Slide 80
  • Slide 81
  • Slide 82
  • Slide 83
  • Slide 84
  • Slide 85
  • Slide 86
  • Slide 87
  • Slide 88
  • Slide 89
  • Как выбирать последовательности для дерева
  • Самое главное ndash хорошее выравнивание
  • Основные алгоритмы построения филогенетических деревьев
  • Пример матрицы расстояний
  • Slide 94
  • Гипотеза laquoмолекулярных часовraquo (EZuckerkandl LPauling 1962)
  • UPGMA Unweighted Pair Group Method with Arithmetic Mean
  • Недостатки UPGMA
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Метод Neighbor-joining
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Slide 101
  • Как изобразить дерево Топология дерева
  • Slide 103
  • Какие on-line программы строят деревья
  • MEGA филогенетический анализ последовательностей
  • Slide 106
  • Slide 107
  • Slide 108
Page 72: Bestfit Output

A C B B C AA B C

3 OTUs 3 OTUs 1 н 1 неукорененное деревоеукорененное дерево 33 укорененных деревьев укорененных деревьев

A

B

C

D

C

A

B

4 OTUs 4 OTUs 3 3 неукорененных филогенетических неукорененных филогенетических деревьевдеревьев

D

B

A

C C

B

A

D

4 OTUs

15 укорененных

деревьев

Количество Количество Количество

OTU укорененных неукорененных

2 1 13 3 14 15 35 105 156 954 1057 103959548 135135 103959 2027025 13513510 34459425 202702511 654729075 3445942512 13749310575 654729075

Количество возможных деревьев

Рутинная процедура или как строят деревья

Составление выборки последовательностей

Множественное выравнивание

Построение дерева фрагмент записи в виде скобочной формулы

Визуализация и редактура дерева

(((((con1013851018(f539692826973((f67220839851max42750591)492893con923019677)1362315)953075)2583145

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Множественное выравнивание

Matches

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Multiple Alignment

Matches

Mismatches

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Multiple Alignment

Matches

Mismatches

Gaps

Seq 1 A G C G A GSeq 1 A G C G A GSeq 2 G C G G A CSeq 2 G C G G A C

Шаг 3 Перевод количества расхождений в индексы замен

Distance Matrix

Units количество замен нуклеотидов на 1000

Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86

Rice 00 118 122 122

Mosquito 00 55 51

Monkey 00 3

Human 00

Шаг 4 построение филогенетического дерева

Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86

Rice 00 118 122 122

Mosquito 00 55 51

Monkey 00 3

Human 00

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Дистанция между человеком и обезьяной минимальна Эти группы объединяются в Monkey-Human а все остальные дистанции пересчитываются

Dist[Spinach MonHum] = (Dist[Spinach Monkey] +

Dist[Spinach Human])2 = (91 + 86)2 = 885

Spinach Rice Mosquito Mon-HumSpinach 00 9 106 885

Rice 00 118 122

Mosquito 00 53

Mon-Hum 00

Редуцированная матрица дистанций

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Spi-Ric

HumanMosquito

Mon-Hum

MonkeySpinachRice

Mos-Mon-Hum

Spi-Ric

Mos-Mon-Hum-Spi-Ric

Как выбирать последовательности для дерева

Кроме случаев очень близких последовательностей проще работать с белками (а не с ДНК)

Придерживайтесь небольшой выборки (lt 50 последовательностей)

Избегайтеndash фрагментовndash Ксенологов (горизонтальный перенос генов)ndash рекомбинантных последовательностейndash многодоменных белков и повторов

Используйте outgroup (последовательность ответвившаяся от общего предка заведомо (но минимально) раньше разделения интересующих групп-клад)

Самое главное ndash хорошее выравнивание

Максимальный вклад в финальное дерево нельзя построить хорошее дерево по плохому выравниванию

Блоки содержащие много гэпов плохо выровненные N- и C- концы можно просто вырезать

Основные алгоритмы построения филогенетических деревьев

Методы основанные на оценке

расстояний (матричные методы)

bull UPGMA (кластеризация)

bull Neighbor-joining

bull Минимальная эволюция

Наибольшего правдоподобия Maximal likelihood ML Используется модель эволюции и строится дерево которое наиболее правдоподобно при данной модели

Максимальной экономии (бережливости)

maximal parsimony MP Выбирается дерево с минимальным количеством

мутаций необходимых для объяснения данных

Пример матрицы расстояний

1 2 3 4 5 6 7 8 000 1053 977 1278 1203 1654 1353 2500 HUMAN 1

000 902 1203 977 1579 902 2727 HORSE 2 000 977 902 1654 1203 2424 RABIT 3

000 226 1729 1053 2576 MOUSE 4 000 1579 827 2576 RAT 5

000 1053 2955 BOVIN 6 000 2500 PIG 7

000 CHICK 8

Расстояние (уровень дивергенции) между соответствующими последовательностями из геномов мыши и свиньи

Как понимать расстояние между объектами

bull Как время в течение которого они эволюционировалиbull Как число laquoэволюционных событийraquo (мутаций)

В первом случае объекты образуют ультраметрическое пространство(если все объекты наблюдаются в одно время что как правило верно)

Но время непосредственно измерить невозможно

Гипотеза laquoмолекулярных часовraquo(EZuckerkandl LPauling 1962)

За равное время во всех ветвях эволюции данного генабелка накапливается равное число мутацийЕсли гипотеза молекулярных часов

принимается число различий между выровненными последовательностями можно считать примерно пропорциональным времени Отклонения от ультраметричности можно считать случайными Эволюция реконструируется в виде ультраметрического дерева

Укоренённое дерево называется ультраметрическим если расстояние от корня до любого из листьев одинаково

UPGMAUnweighted Pair Group Method with Arithmetic Mean

разновидность кластерного метода

Расстояние между кластерами вычисляется как среднее арифметическое всевозможных расстояний между последовательностями из кластеров

Недостатки UPGMA

Алгоритм строит ультраметрическое дерево ndash скорость эволюции предполагается одинаковой для всех ветвей дерева Использовать этот алгоритм имеет смысл только в случае ультраметрических данных (справедливости laquoмолекулярных часовraquo)

Реальное дерево UPGMA

Метод ближайших соседей (Neighbor-joining NJ)

Строит неукоренённое дерево

Может работать с большим количеством данных

Достаточно быстрый

Если есть недвусмысленное с точки зрения эксперта дерево то оно будет построено

Метод Neighbor-joining

Рисуем laquoзвездноеraquo дерево и будем laquoотщипыватьraquo от него по паре листьев

Пусть ui = Σk Mik(n-2) mdash среднее расстояние от листа i до других

листьев

1 Рассмотрим все возможные пары листьев Выберем 2 листа i и j с минимальным значением величины

Mij ndash ui ndashuj

те выбираем 2 узла которые близки друг к другу но далеки ото всех остальных

Метод ближайших соседей (Neighbor-joining NJ)

2 Кластер (i j) ndash новый узел дерева

Расстояние от i или от j до узла (ij) D(i (ij)) = 05middot(Mij + ui ndash uj) D(j (ij)) = 05middot (Mij + uj ndash ui) те длина ветви зависит от среднего расстояния до других вершин

3 Вычисляем расстояние от нового кластера до всех других

M(ij)k = Mik+Mjk ndash Mij 2

5 В матрице М убираем i и j и добавляем (i j) Повторяем пока не останутся 3 узла

Input MSA для n последовательностей одна последовательность для каждого вида

AAAAATC

AAAAAAG

CCCCCCG

AAAAATCAAAAAAG

CCCCCCG

Длинная ветвь ndash непохоже на правду

Длинная ветвь -Похоже на правду

Методы основанные на последовательностях Maximum Likelihood (ML) Maximum Parsimony (MP)

Как изобразить дерево Топология дерева

Топология дерева mdash только листья узлы (корень) и связывающие их ветви (топология не зависит от способа изображения дерева)

A

B

C

D

E A BC D E

Два изображения одной и той же топологии

Bacterium 1

Bacterium 3

Bacterium 2

Eukaryote 1

Eukaryote 4

Eukaryote 3

Eukaryote 2

Bacterium 1

Bacterium 3Bacterium 2

Eukaryote 1

Eukaryote 4Eukaryote 3

Eukaryote 2

Филограммы ndash длины ветвей

пропорциональны

эволюционному расстоянию

Кладограммы и филограммы

Кладограммы ndash только

топологя Длины ветвей не

учитываются

6

31

2

46

24

53

Как можно нарисовать построенное дерево

Какие on-line программы строят деревья

ClustalW ldquoTree typerdquo ndash nj phylip строит только методом NJ но результат ndash в разных форматах no bootstraps

Phylip (Felsenstein 1993) ndash пакет программ для построения филогенетических деревьев (stand-alone)On-line (partly) например

httpbiowebpasteurfrseqanalphylogenyphylip-ukhtml PAUP (Phylogenetic Analysis Using Parsimony)

MEGA филогенетический анализ последовательностей

httpwwwmegasoftwarenet

Эволюция ndash исторический процесс

Из 8200794532637891559375 деревьев для 20 OTUs 1

является верным и 8200794532637891559374

неверны

Truth is one falsehoods are many

Какое из 8200794532637891559375

деревьев истинно

Мы не знаем Можно применить иные критетии

Например ldquoпохожесть=родствоraquo

GCGbull Строковый поиск простой текстовый

поиск по локальной базе данных

bull Поиск в определениях или в аннотациях

bull Определения содержат минимальное количество информации для каждой статьи доступ имя организма имя гена длина последовательности дата

  • Bestfit Output
  • SP1 at swissprot
  • EGR1 at swissprot
  • Вывод
  • Bl2Seq at NCBI
  • Bl2seq results
  • Bl2seq оценка
  • Оптимизация времени вычислений при парном выравнивании
  • Slide 9
  • Алгоритм BLAST (шаг 1)
  • Slide 11
  • Blast
  • Поиск гомологов
  • ДНК или белок
  • ДНК
  • Slide 16
  • Slide 17
  • Двойная спираль
  • ДНК дальнейшая упаковка
  • Slide 20
  • Репликация ДНК
  • Slide 22
  • Slide 23
  • Slide 24
  • Slide 25
  • Множественное выравнивание последовательностей (MSA)
  • Slide 27
  • Основные предположения
  • Например
  • Почему множественное выравнивание
  • Slide 31
  • Подходы в MSA
  • MSA algorithm
  • Multiple Alignment - алгоритм
  • Комментарии
  • GCG
  • Slide 37
  • GCG
  • Slide 39
  • Slide 40
  • Slide 41
  • ClustalW
  • Slide 43
  • Slide 44
  • ClustalW на EMBL
  • ClustalW на EMBL - результат
  • ClustalW at EMBL - Jalview
  • Consensus Sequence
  • Профиль (Profile)
  • Profile vs Consensus
  • Slide 51
  • Slide 52
  • Psi Blast (NCBI)
  • PSI-Blast
  • Psi-Blast вывод
  • Slide 56
  • Филогенез
  • Slide 58
  • Slide 59
  • Slide 60
  • Slide 61
  • Древо видов и генов
  • Ортологи и паралоги
  • Шаги реконструирования филогенетического древа
  • Филогенетическое дерево
  • Зачем нужны филогенетические деревья
  • Терминология
  • Slide 68
  • Какие бывают деревья
  • Slide 70
  • Slide 71
  • Slide 72
  • 4 OTUs 3 неукорененных филогенетических деревьев
  • Slide 74
  • Slide 75
  • Slide 76
  • Slide 77
  • Рутинная процедура или как строят деревья
  • Slide 79
  • Slide 80
  • Slide 81
  • Slide 82
  • Slide 83
  • Slide 84
  • Slide 85
  • Slide 86
  • Slide 87
  • Slide 88
  • Slide 89
  • Как выбирать последовательности для дерева
  • Самое главное ndash хорошее выравнивание
  • Основные алгоритмы построения филогенетических деревьев
  • Пример матрицы расстояний
  • Slide 94
  • Гипотеза laquoмолекулярных часовraquo (EZuckerkandl LPauling 1962)
  • UPGMA Unweighted Pair Group Method with Arithmetic Mean
  • Недостатки UPGMA
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Метод Neighbor-joining
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Slide 101
  • Как изобразить дерево Топология дерева
  • Slide 103
  • Какие on-line программы строят деревья
  • MEGA филогенетический анализ последовательностей
  • Slide 106
  • Slide 107
  • Slide 108
Page 73: Bestfit Output

D

C

A

B

4 OTUs 4 OTUs 3 3 неукорененных филогенетических неукорененных филогенетических деревьевдеревьев

D

B

A

C C

B

A

D

4 OTUs

15 укорененных

деревьев

Количество Количество Количество

OTU укорененных неукорененных

2 1 13 3 14 15 35 105 156 954 1057 103959548 135135 103959 2027025 13513510 34459425 202702511 654729075 3445942512 13749310575 654729075

Количество возможных деревьев

Рутинная процедура или как строят деревья

Составление выборки последовательностей

Множественное выравнивание

Построение дерева фрагмент записи в виде скобочной формулы

Визуализация и редактура дерева

(((((con1013851018(f539692826973((f67220839851max42750591)492893con923019677)1362315)953075)2583145

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Множественное выравнивание

Matches

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Multiple Alignment

Matches

Mismatches

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Multiple Alignment

Matches

Mismatches

Gaps

Seq 1 A G C G A GSeq 1 A G C G A GSeq 2 G C G G A CSeq 2 G C G G A C

Шаг 3 Перевод количества расхождений в индексы замен

Distance Matrix

Units количество замен нуклеотидов на 1000

Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86

Rice 00 118 122 122

Mosquito 00 55 51

Monkey 00 3

Human 00

Шаг 4 построение филогенетического дерева

Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86

Rice 00 118 122 122

Mosquito 00 55 51

Monkey 00 3

Human 00

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Дистанция между человеком и обезьяной минимальна Эти группы объединяются в Monkey-Human а все остальные дистанции пересчитываются

Dist[Spinach MonHum] = (Dist[Spinach Monkey] +

Dist[Spinach Human])2 = (91 + 86)2 = 885

Spinach Rice Mosquito Mon-HumSpinach 00 9 106 885

Rice 00 118 122

Mosquito 00 53

Mon-Hum 00

Редуцированная матрица дистанций

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Spi-Ric

HumanMosquito

Mon-Hum

MonkeySpinachRice

Mos-Mon-Hum

Spi-Ric

Mos-Mon-Hum-Spi-Ric

Как выбирать последовательности для дерева

Кроме случаев очень близких последовательностей проще работать с белками (а не с ДНК)

Придерживайтесь небольшой выборки (lt 50 последовательностей)

Избегайтеndash фрагментовndash Ксенологов (горизонтальный перенос генов)ndash рекомбинантных последовательностейndash многодоменных белков и повторов

Используйте outgroup (последовательность ответвившаяся от общего предка заведомо (но минимально) раньше разделения интересующих групп-клад)

Самое главное ndash хорошее выравнивание

Максимальный вклад в финальное дерево нельзя построить хорошее дерево по плохому выравниванию

Блоки содержащие много гэпов плохо выровненные N- и C- концы можно просто вырезать

Основные алгоритмы построения филогенетических деревьев

Методы основанные на оценке

расстояний (матричные методы)

bull UPGMA (кластеризация)

bull Neighbor-joining

bull Минимальная эволюция

Наибольшего правдоподобия Maximal likelihood ML Используется модель эволюции и строится дерево которое наиболее правдоподобно при данной модели

Максимальной экономии (бережливости)

maximal parsimony MP Выбирается дерево с минимальным количеством

мутаций необходимых для объяснения данных

Пример матрицы расстояний

1 2 3 4 5 6 7 8 000 1053 977 1278 1203 1654 1353 2500 HUMAN 1

000 902 1203 977 1579 902 2727 HORSE 2 000 977 902 1654 1203 2424 RABIT 3

000 226 1729 1053 2576 MOUSE 4 000 1579 827 2576 RAT 5

000 1053 2955 BOVIN 6 000 2500 PIG 7

000 CHICK 8

Расстояние (уровень дивергенции) между соответствующими последовательностями из геномов мыши и свиньи

Как понимать расстояние между объектами

bull Как время в течение которого они эволюционировалиbull Как число laquoэволюционных событийraquo (мутаций)

В первом случае объекты образуют ультраметрическое пространство(если все объекты наблюдаются в одно время что как правило верно)

Но время непосредственно измерить невозможно

Гипотеза laquoмолекулярных часовraquo(EZuckerkandl LPauling 1962)

За равное время во всех ветвях эволюции данного генабелка накапливается равное число мутацийЕсли гипотеза молекулярных часов

принимается число различий между выровненными последовательностями можно считать примерно пропорциональным времени Отклонения от ультраметричности можно считать случайными Эволюция реконструируется в виде ультраметрического дерева

Укоренённое дерево называется ультраметрическим если расстояние от корня до любого из листьев одинаково

UPGMAUnweighted Pair Group Method with Arithmetic Mean

разновидность кластерного метода

Расстояние между кластерами вычисляется как среднее арифметическое всевозможных расстояний между последовательностями из кластеров

Недостатки UPGMA

Алгоритм строит ультраметрическое дерево ndash скорость эволюции предполагается одинаковой для всех ветвей дерева Использовать этот алгоритм имеет смысл только в случае ультраметрических данных (справедливости laquoмолекулярных часовraquo)

Реальное дерево UPGMA

Метод ближайших соседей (Neighbor-joining NJ)

Строит неукоренённое дерево

Может работать с большим количеством данных

Достаточно быстрый

Если есть недвусмысленное с точки зрения эксперта дерево то оно будет построено

Метод Neighbor-joining

Рисуем laquoзвездноеraquo дерево и будем laquoотщипыватьraquo от него по паре листьев

Пусть ui = Σk Mik(n-2) mdash среднее расстояние от листа i до других

листьев

1 Рассмотрим все возможные пары листьев Выберем 2 листа i и j с минимальным значением величины

Mij ndash ui ndashuj

те выбираем 2 узла которые близки друг к другу но далеки ото всех остальных

Метод ближайших соседей (Neighbor-joining NJ)

2 Кластер (i j) ndash новый узел дерева

Расстояние от i или от j до узла (ij) D(i (ij)) = 05middot(Mij + ui ndash uj) D(j (ij)) = 05middot (Mij + uj ndash ui) те длина ветви зависит от среднего расстояния до других вершин

3 Вычисляем расстояние от нового кластера до всех других

M(ij)k = Mik+Mjk ndash Mij 2

5 В матрице М убираем i и j и добавляем (i j) Повторяем пока не останутся 3 узла

Input MSA для n последовательностей одна последовательность для каждого вида

AAAAATC

AAAAAAG

CCCCCCG

AAAAATCAAAAAAG

CCCCCCG

Длинная ветвь ndash непохоже на правду

Длинная ветвь -Похоже на правду

Методы основанные на последовательностях Maximum Likelihood (ML) Maximum Parsimony (MP)

Как изобразить дерево Топология дерева

Топология дерева mdash только листья узлы (корень) и связывающие их ветви (топология не зависит от способа изображения дерева)

A

B

C

D

E A BC D E

Два изображения одной и той же топологии

Bacterium 1

Bacterium 3

Bacterium 2

Eukaryote 1

Eukaryote 4

Eukaryote 3

Eukaryote 2

Bacterium 1

Bacterium 3Bacterium 2

Eukaryote 1

Eukaryote 4Eukaryote 3

Eukaryote 2

Филограммы ndash длины ветвей

пропорциональны

эволюционному расстоянию

Кладограммы и филограммы

Кладограммы ndash только

топологя Длины ветвей не

учитываются

6

31

2

46

24

53

Как можно нарисовать построенное дерево

Какие on-line программы строят деревья

ClustalW ldquoTree typerdquo ndash nj phylip строит только методом NJ но результат ndash в разных форматах no bootstraps

Phylip (Felsenstein 1993) ndash пакет программ для построения филогенетических деревьев (stand-alone)On-line (partly) например

httpbiowebpasteurfrseqanalphylogenyphylip-ukhtml PAUP (Phylogenetic Analysis Using Parsimony)

MEGA филогенетический анализ последовательностей

httpwwwmegasoftwarenet

Эволюция ndash исторический процесс

Из 8200794532637891559375 деревьев для 20 OTUs 1

является верным и 8200794532637891559374

неверны

Truth is one falsehoods are many

Какое из 8200794532637891559375

деревьев истинно

Мы не знаем Можно применить иные критетии

Например ldquoпохожесть=родствоraquo

GCGbull Строковый поиск простой текстовый

поиск по локальной базе данных

bull Поиск в определениях или в аннотациях

bull Определения содержат минимальное количество информации для каждой статьи доступ имя организма имя гена длина последовательности дата

  • Bestfit Output
  • SP1 at swissprot
  • EGR1 at swissprot
  • Вывод
  • Bl2Seq at NCBI
  • Bl2seq results
  • Bl2seq оценка
  • Оптимизация времени вычислений при парном выравнивании
  • Slide 9
  • Алгоритм BLAST (шаг 1)
  • Slide 11
  • Blast
  • Поиск гомологов
  • ДНК или белок
  • ДНК
  • Slide 16
  • Slide 17
  • Двойная спираль
  • ДНК дальнейшая упаковка
  • Slide 20
  • Репликация ДНК
  • Slide 22
  • Slide 23
  • Slide 24
  • Slide 25
  • Множественное выравнивание последовательностей (MSA)
  • Slide 27
  • Основные предположения
  • Например
  • Почему множественное выравнивание
  • Slide 31
  • Подходы в MSA
  • MSA algorithm
  • Multiple Alignment - алгоритм
  • Комментарии
  • GCG
  • Slide 37
  • GCG
  • Slide 39
  • Slide 40
  • Slide 41
  • ClustalW
  • Slide 43
  • Slide 44
  • ClustalW на EMBL
  • ClustalW на EMBL - результат
  • ClustalW at EMBL - Jalview
  • Consensus Sequence
  • Профиль (Profile)
  • Profile vs Consensus
  • Slide 51
  • Slide 52
  • Psi Blast (NCBI)
  • PSI-Blast
  • Psi-Blast вывод
  • Slide 56
  • Филогенез
  • Slide 58
  • Slide 59
  • Slide 60
  • Slide 61
  • Древо видов и генов
  • Ортологи и паралоги
  • Шаги реконструирования филогенетического древа
  • Филогенетическое дерево
  • Зачем нужны филогенетические деревья
  • Терминология
  • Slide 68
  • Какие бывают деревья
  • Slide 70
  • Slide 71
  • Slide 72
  • 4 OTUs 3 неукорененных филогенетических деревьев
  • Slide 74
  • Slide 75
  • Slide 76
  • Slide 77
  • Рутинная процедура или как строят деревья
  • Slide 79
  • Slide 80
  • Slide 81
  • Slide 82
  • Slide 83
  • Slide 84
  • Slide 85
  • Slide 86
  • Slide 87
  • Slide 88
  • Slide 89
  • Как выбирать последовательности для дерева
  • Самое главное ndash хорошее выравнивание
  • Основные алгоритмы построения филогенетических деревьев
  • Пример матрицы расстояний
  • Slide 94
  • Гипотеза laquoмолекулярных часовraquo (EZuckerkandl LPauling 1962)
  • UPGMA Unweighted Pair Group Method with Arithmetic Mean
  • Недостатки UPGMA
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Метод Neighbor-joining
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Slide 101
  • Как изобразить дерево Топология дерева
  • Slide 103
  • Какие on-line программы строят деревья
  • MEGA филогенетический анализ последовательностей
  • Slide 106
  • Slide 107
  • Slide 108
Page 74: Bestfit Output

4 OTUs

15 укорененных

деревьев

Количество Количество Количество

OTU укорененных неукорененных

2 1 13 3 14 15 35 105 156 954 1057 103959548 135135 103959 2027025 13513510 34459425 202702511 654729075 3445942512 13749310575 654729075

Количество возможных деревьев

Рутинная процедура или как строят деревья

Составление выборки последовательностей

Множественное выравнивание

Построение дерева фрагмент записи в виде скобочной формулы

Визуализация и редактура дерева

(((((con1013851018(f539692826973((f67220839851max42750591)492893con923019677)1362315)953075)2583145

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Множественное выравнивание

Matches

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Multiple Alignment

Matches

Mismatches

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Multiple Alignment

Matches

Mismatches

Gaps

Seq 1 A G C G A GSeq 1 A G C G A GSeq 2 G C G G A CSeq 2 G C G G A C

Шаг 3 Перевод количества расхождений в индексы замен

Distance Matrix

Units количество замен нуклеотидов на 1000

Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86

Rice 00 118 122 122

Mosquito 00 55 51

Monkey 00 3

Human 00

Шаг 4 построение филогенетического дерева

Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86

Rice 00 118 122 122

Mosquito 00 55 51

Monkey 00 3

Human 00

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Дистанция между человеком и обезьяной минимальна Эти группы объединяются в Monkey-Human а все остальные дистанции пересчитываются

Dist[Spinach MonHum] = (Dist[Spinach Monkey] +

Dist[Spinach Human])2 = (91 + 86)2 = 885

Spinach Rice Mosquito Mon-HumSpinach 00 9 106 885

Rice 00 118 122

Mosquito 00 53

Mon-Hum 00

Редуцированная матрица дистанций

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Spi-Ric

HumanMosquito

Mon-Hum

MonkeySpinachRice

Mos-Mon-Hum

Spi-Ric

Mos-Mon-Hum-Spi-Ric

Как выбирать последовательности для дерева

Кроме случаев очень близких последовательностей проще работать с белками (а не с ДНК)

Придерживайтесь небольшой выборки (lt 50 последовательностей)

Избегайтеndash фрагментовndash Ксенологов (горизонтальный перенос генов)ndash рекомбинантных последовательностейndash многодоменных белков и повторов

Используйте outgroup (последовательность ответвившаяся от общего предка заведомо (но минимально) раньше разделения интересующих групп-клад)

Самое главное ndash хорошее выравнивание

Максимальный вклад в финальное дерево нельзя построить хорошее дерево по плохому выравниванию

Блоки содержащие много гэпов плохо выровненные N- и C- концы можно просто вырезать

Основные алгоритмы построения филогенетических деревьев

Методы основанные на оценке

расстояний (матричные методы)

bull UPGMA (кластеризация)

bull Neighbor-joining

bull Минимальная эволюция

Наибольшего правдоподобия Maximal likelihood ML Используется модель эволюции и строится дерево которое наиболее правдоподобно при данной модели

Максимальной экономии (бережливости)

maximal parsimony MP Выбирается дерево с минимальным количеством

мутаций необходимых для объяснения данных

Пример матрицы расстояний

1 2 3 4 5 6 7 8 000 1053 977 1278 1203 1654 1353 2500 HUMAN 1

000 902 1203 977 1579 902 2727 HORSE 2 000 977 902 1654 1203 2424 RABIT 3

000 226 1729 1053 2576 MOUSE 4 000 1579 827 2576 RAT 5

000 1053 2955 BOVIN 6 000 2500 PIG 7

000 CHICK 8

Расстояние (уровень дивергенции) между соответствующими последовательностями из геномов мыши и свиньи

Как понимать расстояние между объектами

bull Как время в течение которого они эволюционировалиbull Как число laquoэволюционных событийraquo (мутаций)

В первом случае объекты образуют ультраметрическое пространство(если все объекты наблюдаются в одно время что как правило верно)

Но время непосредственно измерить невозможно

Гипотеза laquoмолекулярных часовraquo(EZuckerkandl LPauling 1962)

За равное время во всех ветвях эволюции данного генабелка накапливается равное число мутацийЕсли гипотеза молекулярных часов

принимается число различий между выровненными последовательностями можно считать примерно пропорциональным времени Отклонения от ультраметричности можно считать случайными Эволюция реконструируется в виде ультраметрического дерева

Укоренённое дерево называется ультраметрическим если расстояние от корня до любого из листьев одинаково

UPGMAUnweighted Pair Group Method with Arithmetic Mean

разновидность кластерного метода

Расстояние между кластерами вычисляется как среднее арифметическое всевозможных расстояний между последовательностями из кластеров

Недостатки UPGMA

Алгоритм строит ультраметрическое дерево ndash скорость эволюции предполагается одинаковой для всех ветвей дерева Использовать этот алгоритм имеет смысл только в случае ультраметрических данных (справедливости laquoмолекулярных часовraquo)

Реальное дерево UPGMA

Метод ближайших соседей (Neighbor-joining NJ)

Строит неукоренённое дерево

Может работать с большим количеством данных

Достаточно быстрый

Если есть недвусмысленное с точки зрения эксперта дерево то оно будет построено

Метод Neighbor-joining

Рисуем laquoзвездноеraquo дерево и будем laquoотщипыватьraquo от него по паре листьев

Пусть ui = Σk Mik(n-2) mdash среднее расстояние от листа i до других

листьев

1 Рассмотрим все возможные пары листьев Выберем 2 листа i и j с минимальным значением величины

Mij ndash ui ndashuj

те выбираем 2 узла которые близки друг к другу но далеки ото всех остальных

Метод ближайших соседей (Neighbor-joining NJ)

2 Кластер (i j) ndash новый узел дерева

Расстояние от i или от j до узла (ij) D(i (ij)) = 05middot(Mij + ui ndash uj) D(j (ij)) = 05middot (Mij + uj ndash ui) те длина ветви зависит от среднего расстояния до других вершин

3 Вычисляем расстояние от нового кластера до всех других

M(ij)k = Mik+Mjk ndash Mij 2

5 В матрице М убираем i и j и добавляем (i j) Повторяем пока не останутся 3 узла

Input MSA для n последовательностей одна последовательность для каждого вида

AAAAATC

AAAAAAG

CCCCCCG

AAAAATCAAAAAAG

CCCCCCG

Длинная ветвь ndash непохоже на правду

Длинная ветвь -Похоже на правду

Методы основанные на последовательностях Maximum Likelihood (ML) Maximum Parsimony (MP)

Как изобразить дерево Топология дерева

Топология дерева mdash только листья узлы (корень) и связывающие их ветви (топология не зависит от способа изображения дерева)

A

B

C

D

E A BC D E

Два изображения одной и той же топологии

Bacterium 1

Bacterium 3

Bacterium 2

Eukaryote 1

Eukaryote 4

Eukaryote 3

Eukaryote 2

Bacterium 1

Bacterium 3Bacterium 2

Eukaryote 1

Eukaryote 4Eukaryote 3

Eukaryote 2

Филограммы ndash длины ветвей

пропорциональны

эволюционному расстоянию

Кладограммы и филограммы

Кладограммы ndash только

топологя Длины ветвей не

учитываются

6

31

2

46

24

53

Как можно нарисовать построенное дерево

Какие on-line программы строят деревья

ClustalW ldquoTree typerdquo ndash nj phylip строит только методом NJ но результат ndash в разных форматах no bootstraps

Phylip (Felsenstein 1993) ndash пакет программ для построения филогенетических деревьев (stand-alone)On-line (partly) например

httpbiowebpasteurfrseqanalphylogenyphylip-ukhtml PAUP (Phylogenetic Analysis Using Parsimony)

MEGA филогенетический анализ последовательностей

httpwwwmegasoftwarenet

Эволюция ndash исторический процесс

Из 8200794532637891559375 деревьев для 20 OTUs 1

является верным и 8200794532637891559374

неверны

Truth is one falsehoods are many

Какое из 8200794532637891559375

деревьев истинно

Мы не знаем Можно применить иные критетии

Например ldquoпохожесть=родствоraquo

GCGbull Строковый поиск простой текстовый

поиск по локальной базе данных

bull Поиск в определениях или в аннотациях

bull Определения содержат минимальное количество информации для каждой статьи доступ имя организма имя гена длина последовательности дата

  • Bestfit Output
  • SP1 at swissprot
  • EGR1 at swissprot
  • Вывод
  • Bl2Seq at NCBI
  • Bl2seq results
  • Bl2seq оценка
  • Оптимизация времени вычислений при парном выравнивании
  • Slide 9
  • Алгоритм BLAST (шаг 1)
  • Slide 11
  • Blast
  • Поиск гомологов
  • ДНК или белок
  • ДНК
  • Slide 16
  • Slide 17
  • Двойная спираль
  • ДНК дальнейшая упаковка
  • Slide 20
  • Репликация ДНК
  • Slide 22
  • Slide 23
  • Slide 24
  • Slide 25
  • Множественное выравнивание последовательностей (MSA)
  • Slide 27
  • Основные предположения
  • Например
  • Почему множественное выравнивание
  • Slide 31
  • Подходы в MSA
  • MSA algorithm
  • Multiple Alignment - алгоритм
  • Комментарии
  • GCG
  • Slide 37
  • GCG
  • Slide 39
  • Slide 40
  • Slide 41
  • ClustalW
  • Slide 43
  • Slide 44
  • ClustalW на EMBL
  • ClustalW на EMBL - результат
  • ClustalW at EMBL - Jalview
  • Consensus Sequence
  • Профиль (Profile)
  • Profile vs Consensus
  • Slide 51
  • Slide 52
  • Psi Blast (NCBI)
  • PSI-Blast
  • Psi-Blast вывод
  • Slide 56
  • Филогенез
  • Slide 58
  • Slide 59
  • Slide 60
  • Slide 61
  • Древо видов и генов
  • Ортологи и паралоги
  • Шаги реконструирования филогенетического древа
  • Филогенетическое дерево
  • Зачем нужны филогенетические деревья
  • Терминология
  • Slide 68
  • Какие бывают деревья
  • Slide 70
  • Slide 71
  • Slide 72
  • 4 OTUs 3 неукорененных филогенетических деревьев
  • Slide 74
  • Slide 75
  • Slide 76
  • Slide 77
  • Рутинная процедура или как строят деревья
  • Slide 79
  • Slide 80
  • Slide 81
  • Slide 82
  • Slide 83
  • Slide 84
  • Slide 85
  • Slide 86
  • Slide 87
  • Slide 88
  • Slide 89
  • Как выбирать последовательности для дерева
  • Самое главное ndash хорошее выравнивание
  • Основные алгоритмы построения филогенетических деревьев
  • Пример матрицы расстояний
  • Slide 94
  • Гипотеза laquoмолекулярных часовraquo (EZuckerkandl LPauling 1962)
  • UPGMA Unweighted Pair Group Method with Arithmetic Mean
  • Недостатки UPGMA
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Метод Neighbor-joining
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Slide 101
  • Как изобразить дерево Топология дерева
  • Slide 103
  • Какие on-line программы строят деревья
  • MEGA филогенетический анализ последовательностей
  • Slide 106
  • Slide 107
  • Slide 108
Page 75: Bestfit Output

Количество Количество Количество

OTU укорененных неукорененных

2 1 13 3 14 15 35 105 156 954 1057 103959548 135135 103959 2027025 13513510 34459425 202702511 654729075 3445942512 13749310575 654729075

Количество возможных деревьев

Рутинная процедура или как строят деревья

Составление выборки последовательностей

Множественное выравнивание

Построение дерева фрагмент записи в виде скобочной формулы

Визуализация и редактура дерева

(((((con1013851018(f539692826973((f67220839851max42750591)492893con923019677)1362315)953075)2583145

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Множественное выравнивание

Matches

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Multiple Alignment

Matches

Mismatches

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Multiple Alignment

Matches

Mismatches

Gaps

Seq 1 A G C G A GSeq 1 A G C G A GSeq 2 G C G G A CSeq 2 G C G G A C

Шаг 3 Перевод количества расхождений в индексы замен

Distance Matrix

Units количество замен нуклеотидов на 1000

Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86

Rice 00 118 122 122

Mosquito 00 55 51

Monkey 00 3

Human 00

Шаг 4 построение филогенетического дерева

Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86

Rice 00 118 122 122

Mosquito 00 55 51

Monkey 00 3

Human 00

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Дистанция между человеком и обезьяной минимальна Эти группы объединяются в Monkey-Human а все остальные дистанции пересчитываются

Dist[Spinach MonHum] = (Dist[Spinach Monkey] +

Dist[Spinach Human])2 = (91 + 86)2 = 885

Spinach Rice Mosquito Mon-HumSpinach 00 9 106 885

Rice 00 118 122

Mosquito 00 53

Mon-Hum 00

Редуцированная матрица дистанций

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Spi-Ric

HumanMosquito

Mon-Hum

MonkeySpinachRice

Mos-Mon-Hum

Spi-Ric

Mos-Mon-Hum-Spi-Ric

Как выбирать последовательности для дерева

Кроме случаев очень близких последовательностей проще работать с белками (а не с ДНК)

Придерживайтесь небольшой выборки (lt 50 последовательностей)

Избегайтеndash фрагментовndash Ксенологов (горизонтальный перенос генов)ndash рекомбинантных последовательностейndash многодоменных белков и повторов

Используйте outgroup (последовательность ответвившаяся от общего предка заведомо (но минимально) раньше разделения интересующих групп-клад)

Самое главное ndash хорошее выравнивание

Максимальный вклад в финальное дерево нельзя построить хорошее дерево по плохому выравниванию

Блоки содержащие много гэпов плохо выровненные N- и C- концы можно просто вырезать

Основные алгоритмы построения филогенетических деревьев

Методы основанные на оценке

расстояний (матричные методы)

bull UPGMA (кластеризация)

bull Neighbor-joining

bull Минимальная эволюция

Наибольшего правдоподобия Maximal likelihood ML Используется модель эволюции и строится дерево которое наиболее правдоподобно при данной модели

Максимальной экономии (бережливости)

maximal parsimony MP Выбирается дерево с минимальным количеством

мутаций необходимых для объяснения данных

Пример матрицы расстояний

1 2 3 4 5 6 7 8 000 1053 977 1278 1203 1654 1353 2500 HUMAN 1

000 902 1203 977 1579 902 2727 HORSE 2 000 977 902 1654 1203 2424 RABIT 3

000 226 1729 1053 2576 MOUSE 4 000 1579 827 2576 RAT 5

000 1053 2955 BOVIN 6 000 2500 PIG 7

000 CHICK 8

Расстояние (уровень дивергенции) между соответствующими последовательностями из геномов мыши и свиньи

Как понимать расстояние между объектами

bull Как время в течение которого они эволюционировалиbull Как число laquoэволюционных событийraquo (мутаций)

В первом случае объекты образуют ультраметрическое пространство(если все объекты наблюдаются в одно время что как правило верно)

Но время непосредственно измерить невозможно

Гипотеза laquoмолекулярных часовraquo(EZuckerkandl LPauling 1962)

За равное время во всех ветвях эволюции данного генабелка накапливается равное число мутацийЕсли гипотеза молекулярных часов

принимается число различий между выровненными последовательностями можно считать примерно пропорциональным времени Отклонения от ультраметричности можно считать случайными Эволюция реконструируется в виде ультраметрического дерева

Укоренённое дерево называется ультраметрическим если расстояние от корня до любого из листьев одинаково

UPGMAUnweighted Pair Group Method with Arithmetic Mean

разновидность кластерного метода

Расстояние между кластерами вычисляется как среднее арифметическое всевозможных расстояний между последовательностями из кластеров

Недостатки UPGMA

Алгоритм строит ультраметрическое дерево ndash скорость эволюции предполагается одинаковой для всех ветвей дерева Использовать этот алгоритм имеет смысл только в случае ультраметрических данных (справедливости laquoмолекулярных часовraquo)

Реальное дерево UPGMA

Метод ближайших соседей (Neighbor-joining NJ)

Строит неукоренённое дерево

Может работать с большим количеством данных

Достаточно быстрый

Если есть недвусмысленное с точки зрения эксперта дерево то оно будет построено

Метод Neighbor-joining

Рисуем laquoзвездноеraquo дерево и будем laquoотщипыватьraquo от него по паре листьев

Пусть ui = Σk Mik(n-2) mdash среднее расстояние от листа i до других

листьев

1 Рассмотрим все возможные пары листьев Выберем 2 листа i и j с минимальным значением величины

Mij ndash ui ndashuj

те выбираем 2 узла которые близки друг к другу но далеки ото всех остальных

Метод ближайших соседей (Neighbor-joining NJ)

2 Кластер (i j) ndash новый узел дерева

Расстояние от i или от j до узла (ij) D(i (ij)) = 05middot(Mij + ui ndash uj) D(j (ij)) = 05middot (Mij + uj ndash ui) те длина ветви зависит от среднего расстояния до других вершин

3 Вычисляем расстояние от нового кластера до всех других

M(ij)k = Mik+Mjk ndash Mij 2

5 В матрице М убираем i и j и добавляем (i j) Повторяем пока не останутся 3 узла

Input MSA для n последовательностей одна последовательность для каждого вида

AAAAATC

AAAAAAG

CCCCCCG

AAAAATCAAAAAAG

CCCCCCG

Длинная ветвь ndash непохоже на правду

Длинная ветвь -Похоже на правду

Методы основанные на последовательностях Maximum Likelihood (ML) Maximum Parsimony (MP)

Как изобразить дерево Топология дерева

Топология дерева mdash только листья узлы (корень) и связывающие их ветви (топология не зависит от способа изображения дерева)

A

B

C

D

E A BC D E

Два изображения одной и той же топологии

Bacterium 1

Bacterium 3

Bacterium 2

Eukaryote 1

Eukaryote 4

Eukaryote 3

Eukaryote 2

Bacterium 1

Bacterium 3Bacterium 2

Eukaryote 1

Eukaryote 4Eukaryote 3

Eukaryote 2

Филограммы ndash длины ветвей

пропорциональны

эволюционному расстоянию

Кладограммы и филограммы

Кладограммы ndash только

топологя Длины ветвей не

учитываются

6

31

2

46

24

53

Как можно нарисовать построенное дерево

Какие on-line программы строят деревья

ClustalW ldquoTree typerdquo ndash nj phylip строит только методом NJ но результат ndash в разных форматах no bootstraps

Phylip (Felsenstein 1993) ndash пакет программ для построения филогенетических деревьев (stand-alone)On-line (partly) например

httpbiowebpasteurfrseqanalphylogenyphylip-ukhtml PAUP (Phylogenetic Analysis Using Parsimony)

MEGA филогенетический анализ последовательностей

httpwwwmegasoftwarenet

Эволюция ndash исторический процесс

Из 8200794532637891559375 деревьев для 20 OTUs 1

является верным и 8200794532637891559374

неверны

Truth is one falsehoods are many

Какое из 8200794532637891559375

деревьев истинно

Мы не знаем Можно применить иные критетии

Например ldquoпохожесть=родствоraquo

GCGbull Строковый поиск простой текстовый

поиск по локальной базе данных

bull Поиск в определениях или в аннотациях

bull Определения содержат минимальное количество информации для каждой статьи доступ имя организма имя гена длина последовательности дата

  • Bestfit Output
  • SP1 at swissprot
  • EGR1 at swissprot
  • Вывод
  • Bl2Seq at NCBI
  • Bl2seq results
  • Bl2seq оценка
  • Оптимизация времени вычислений при парном выравнивании
  • Slide 9
  • Алгоритм BLAST (шаг 1)
  • Slide 11
  • Blast
  • Поиск гомологов
  • ДНК или белок
  • ДНК
  • Slide 16
  • Slide 17
  • Двойная спираль
  • ДНК дальнейшая упаковка
  • Slide 20
  • Репликация ДНК
  • Slide 22
  • Slide 23
  • Slide 24
  • Slide 25
  • Множественное выравнивание последовательностей (MSA)
  • Slide 27
  • Основные предположения
  • Например
  • Почему множественное выравнивание
  • Slide 31
  • Подходы в MSA
  • MSA algorithm
  • Multiple Alignment - алгоритм
  • Комментарии
  • GCG
  • Slide 37
  • GCG
  • Slide 39
  • Slide 40
  • Slide 41
  • ClustalW
  • Slide 43
  • Slide 44
  • ClustalW на EMBL
  • ClustalW на EMBL - результат
  • ClustalW at EMBL - Jalview
  • Consensus Sequence
  • Профиль (Profile)
  • Profile vs Consensus
  • Slide 51
  • Slide 52
  • Psi Blast (NCBI)
  • PSI-Blast
  • Psi-Blast вывод
  • Slide 56
  • Филогенез
  • Slide 58
  • Slide 59
  • Slide 60
  • Slide 61
  • Древо видов и генов
  • Ортологи и паралоги
  • Шаги реконструирования филогенетического древа
  • Филогенетическое дерево
  • Зачем нужны филогенетические деревья
  • Терминология
  • Slide 68
  • Какие бывают деревья
  • Slide 70
  • Slide 71
  • Slide 72
  • 4 OTUs 3 неукорененных филогенетических деревьев
  • Slide 74
  • Slide 75
  • Slide 76
  • Slide 77
  • Рутинная процедура или как строят деревья
  • Slide 79
  • Slide 80
  • Slide 81
  • Slide 82
  • Slide 83
  • Slide 84
  • Slide 85
  • Slide 86
  • Slide 87
  • Slide 88
  • Slide 89
  • Как выбирать последовательности для дерева
  • Самое главное ndash хорошее выравнивание
  • Основные алгоритмы построения филогенетических деревьев
  • Пример матрицы расстояний
  • Slide 94
  • Гипотеза laquoмолекулярных часовraquo (EZuckerkandl LPauling 1962)
  • UPGMA Unweighted Pair Group Method with Arithmetic Mean
  • Недостатки UPGMA
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Метод Neighbor-joining
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Slide 101
  • Как изобразить дерево Топология дерева
  • Slide 103
  • Какие on-line программы строят деревья
  • MEGA филогенетический анализ последовательностей
  • Slide 106
  • Slide 107
  • Slide 108
Page 76: Bestfit Output

Рутинная процедура или как строят деревья

Составление выборки последовательностей

Множественное выравнивание

Построение дерева фрагмент записи в виде скобочной формулы

Визуализация и редактура дерева

(((((con1013851018(f539692826973((f67220839851max42750591)492893con923019677)1362315)953075)2583145

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Множественное выравнивание

Matches

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Multiple Alignment

Matches

Mismatches

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Multiple Alignment

Matches

Mismatches

Gaps

Seq 1 A G C G A GSeq 1 A G C G A GSeq 2 G C G G A CSeq 2 G C G G A C

Шаг 3 Перевод количества расхождений в индексы замен

Distance Matrix

Units количество замен нуклеотидов на 1000

Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86

Rice 00 118 122 122

Mosquito 00 55 51

Monkey 00 3

Human 00

Шаг 4 построение филогенетического дерева

Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86

Rice 00 118 122 122

Mosquito 00 55 51

Monkey 00 3

Human 00

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Дистанция между человеком и обезьяной минимальна Эти группы объединяются в Monkey-Human а все остальные дистанции пересчитываются

Dist[Spinach MonHum] = (Dist[Spinach Monkey] +

Dist[Spinach Human])2 = (91 + 86)2 = 885

Spinach Rice Mosquito Mon-HumSpinach 00 9 106 885

Rice 00 118 122

Mosquito 00 53

Mon-Hum 00

Редуцированная матрица дистанций

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Spi-Ric

HumanMosquito

Mon-Hum

MonkeySpinachRice

Mos-Mon-Hum

Spi-Ric

Mos-Mon-Hum-Spi-Ric

Как выбирать последовательности для дерева

Кроме случаев очень близких последовательностей проще работать с белками (а не с ДНК)

Придерживайтесь небольшой выборки (lt 50 последовательностей)

Избегайтеndash фрагментовndash Ксенологов (горизонтальный перенос генов)ndash рекомбинантных последовательностейndash многодоменных белков и повторов

Используйте outgroup (последовательность ответвившаяся от общего предка заведомо (но минимально) раньше разделения интересующих групп-клад)

Самое главное ndash хорошее выравнивание

Максимальный вклад в финальное дерево нельзя построить хорошее дерево по плохому выравниванию

Блоки содержащие много гэпов плохо выровненные N- и C- концы можно просто вырезать

Основные алгоритмы построения филогенетических деревьев

Методы основанные на оценке

расстояний (матричные методы)

bull UPGMA (кластеризация)

bull Neighbor-joining

bull Минимальная эволюция

Наибольшего правдоподобия Maximal likelihood ML Используется модель эволюции и строится дерево которое наиболее правдоподобно при данной модели

Максимальной экономии (бережливости)

maximal parsimony MP Выбирается дерево с минимальным количеством

мутаций необходимых для объяснения данных

Пример матрицы расстояний

1 2 3 4 5 6 7 8 000 1053 977 1278 1203 1654 1353 2500 HUMAN 1

000 902 1203 977 1579 902 2727 HORSE 2 000 977 902 1654 1203 2424 RABIT 3

000 226 1729 1053 2576 MOUSE 4 000 1579 827 2576 RAT 5

000 1053 2955 BOVIN 6 000 2500 PIG 7

000 CHICK 8

Расстояние (уровень дивергенции) между соответствующими последовательностями из геномов мыши и свиньи

Как понимать расстояние между объектами

bull Как время в течение которого они эволюционировалиbull Как число laquoэволюционных событийraquo (мутаций)

В первом случае объекты образуют ультраметрическое пространство(если все объекты наблюдаются в одно время что как правило верно)

Но время непосредственно измерить невозможно

Гипотеза laquoмолекулярных часовraquo(EZuckerkandl LPauling 1962)

За равное время во всех ветвях эволюции данного генабелка накапливается равное число мутацийЕсли гипотеза молекулярных часов

принимается число различий между выровненными последовательностями можно считать примерно пропорциональным времени Отклонения от ультраметричности можно считать случайными Эволюция реконструируется в виде ультраметрического дерева

Укоренённое дерево называется ультраметрическим если расстояние от корня до любого из листьев одинаково

UPGMAUnweighted Pair Group Method with Arithmetic Mean

разновидность кластерного метода

Расстояние между кластерами вычисляется как среднее арифметическое всевозможных расстояний между последовательностями из кластеров

Недостатки UPGMA

Алгоритм строит ультраметрическое дерево ndash скорость эволюции предполагается одинаковой для всех ветвей дерева Использовать этот алгоритм имеет смысл только в случае ультраметрических данных (справедливости laquoмолекулярных часовraquo)

Реальное дерево UPGMA

Метод ближайших соседей (Neighbor-joining NJ)

Строит неукоренённое дерево

Может работать с большим количеством данных

Достаточно быстрый

Если есть недвусмысленное с точки зрения эксперта дерево то оно будет построено

Метод Neighbor-joining

Рисуем laquoзвездноеraquo дерево и будем laquoотщипыватьraquo от него по паре листьев

Пусть ui = Σk Mik(n-2) mdash среднее расстояние от листа i до других

листьев

1 Рассмотрим все возможные пары листьев Выберем 2 листа i и j с минимальным значением величины

Mij ndash ui ndashuj

те выбираем 2 узла которые близки друг к другу но далеки ото всех остальных

Метод ближайших соседей (Neighbor-joining NJ)

2 Кластер (i j) ndash новый узел дерева

Расстояние от i или от j до узла (ij) D(i (ij)) = 05middot(Mij + ui ndash uj) D(j (ij)) = 05middot (Mij + uj ndash ui) те длина ветви зависит от среднего расстояния до других вершин

3 Вычисляем расстояние от нового кластера до всех других

M(ij)k = Mik+Mjk ndash Mij 2

5 В матрице М убираем i и j и добавляем (i j) Повторяем пока не останутся 3 узла

Input MSA для n последовательностей одна последовательность для каждого вида

AAAAATC

AAAAAAG

CCCCCCG

AAAAATCAAAAAAG

CCCCCCG

Длинная ветвь ndash непохоже на правду

Длинная ветвь -Похоже на правду

Методы основанные на последовательностях Maximum Likelihood (ML) Maximum Parsimony (MP)

Как изобразить дерево Топология дерева

Топология дерева mdash только листья узлы (корень) и связывающие их ветви (топология не зависит от способа изображения дерева)

A

B

C

D

E A BC D E

Два изображения одной и той же топологии

Bacterium 1

Bacterium 3

Bacterium 2

Eukaryote 1

Eukaryote 4

Eukaryote 3

Eukaryote 2

Bacterium 1

Bacterium 3Bacterium 2

Eukaryote 1

Eukaryote 4Eukaryote 3

Eukaryote 2

Филограммы ndash длины ветвей

пропорциональны

эволюционному расстоянию

Кладограммы и филограммы

Кладограммы ndash только

топологя Длины ветвей не

учитываются

6

31

2

46

24

53

Как можно нарисовать построенное дерево

Какие on-line программы строят деревья

ClustalW ldquoTree typerdquo ndash nj phylip строит только методом NJ но результат ndash в разных форматах no bootstraps

Phylip (Felsenstein 1993) ndash пакет программ для построения филогенетических деревьев (stand-alone)On-line (partly) например

httpbiowebpasteurfrseqanalphylogenyphylip-ukhtml PAUP (Phylogenetic Analysis Using Parsimony)

MEGA филогенетический анализ последовательностей

httpwwwmegasoftwarenet

Эволюция ndash исторический процесс

Из 8200794532637891559375 деревьев для 20 OTUs 1

является верным и 8200794532637891559374

неверны

Truth is one falsehoods are many

Какое из 8200794532637891559375

деревьев истинно

Мы не знаем Можно применить иные критетии

Например ldquoпохожесть=родствоraquo

GCGbull Строковый поиск простой текстовый

поиск по локальной базе данных

bull Поиск в определениях или в аннотациях

bull Определения содержат минимальное количество информации для каждой статьи доступ имя организма имя гена длина последовательности дата

  • Bestfit Output
  • SP1 at swissprot
  • EGR1 at swissprot
  • Вывод
  • Bl2Seq at NCBI
  • Bl2seq results
  • Bl2seq оценка
  • Оптимизация времени вычислений при парном выравнивании
  • Slide 9
  • Алгоритм BLAST (шаг 1)
  • Slide 11
  • Blast
  • Поиск гомологов
  • ДНК или белок
  • ДНК
  • Slide 16
  • Slide 17
  • Двойная спираль
  • ДНК дальнейшая упаковка
  • Slide 20
  • Репликация ДНК
  • Slide 22
  • Slide 23
  • Slide 24
  • Slide 25
  • Множественное выравнивание последовательностей (MSA)
  • Slide 27
  • Основные предположения
  • Например
  • Почему множественное выравнивание
  • Slide 31
  • Подходы в MSA
  • MSA algorithm
  • Multiple Alignment - алгоритм
  • Комментарии
  • GCG
  • Slide 37
  • GCG
  • Slide 39
  • Slide 40
  • Slide 41
  • ClustalW
  • Slide 43
  • Slide 44
  • ClustalW на EMBL
  • ClustalW на EMBL - результат
  • ClustalW at EMBL - Jalview
  • Consensus Sequence
  • Профиль (Profile)
  • Profile vs Consensus
  • Slide 51
  • Slide 52
  • Psi Blast (NCBI)
  • PSI-Blast
  • Psi-Blast вывод
  • Slide 56
  • Филогенез
  • Slide 58
  • Slide 59
  • Slide 60
  • Slide 61
  • Древо видов и генов
  • Ортологи и паралоги
  • Шаги реконструирования филогенетического древа
  • Филогенетическое дерево
  • Зачем нужны филогенетические деревья
  • Терминология
  • Slide 68
  • Какие бывают деревья
  • Slide 70
  • Slide 71
  • Slide 72
  • 4 OTUs 3 неукорененных филогенетических деревьев
  • Slide 74
  • Slide 75
  • Slide 76
  • Slide 77
  • Рутинная процедура или как строят деревья
  • Slide 79
  • Slide 80
  • Slide 81
  • Slide 82
  • Slide 83
  • Slide 84
  • Slide 85
  • Slide 86
  • Slide 87
  • Slide 88
  • Slide 89
  • Как выбирать последовательности для дерева
  • Самое главное ndash хорошее выравнивание
  • Основные алгоритмы построения филогенетических деревьев
  • Пример матрицы расстояний
  • Slide 94
  • Гипотеза laquoмолекулярных часовraquo (EZuckerkandl LPauling 1962)
  • UPGMA Unweighted Pair Group Method with Arithmetic Mean
  • Недостатки UPGMA
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Метод Neighbor-joining
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Slide 101
  • Как изобразить дерево Топология дерева
  • Slide 103
  • Какие on-line программы строят деревья
  • MEGA филогенетический анализ последовательностей
  • Slide 106
  • Slide 107
  • Slide 108
Page 77: Bestfit Output

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Множественное выравнивание

Matches

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Multiple Alignment

Matches

Mismatches

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Multiple Alignment

Matches

Mismatches

Gaps

Seq 1 A G C G A GSeq 1 A G C G A GSeq 2 G C G G A CSeq 2 G C G G A C

Шаг 3 Перевод количества расхождений в индексы замен

Distance Matrix

Units количество замен нуклеотидов на 1000

Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86

Rice 00 118 122 122

Mosquito 00 55 51

Monkey 00 3

Human 00

Шаг 4 построение филогенетического дерева

Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86

Rice 00 118 122 122

Mosquito 00 55 51

Monkey 00 3

Human 00

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Дистанция между человеком и обезьяной минимальна Эти группы объединяются в Monkey-Human а все остальные дистанции пересчитываются

Dist[Spinach MonHum] = (Dist[Spinach Monkey] +

Dist[Spinach Human])2 = (91 + 86)2 = 885

Spinach Rice Mosquito Mon-HumSpinach 00 9 106 885

Rice 00 118 122

Mosquito 00 53

Mon-Hum 00

Редуцированная матрица дистанций

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Spi-Ric

HumanMosquito

Mon-Hum

MonkeySpinachRice

Mos-Mon-Hum

Spi-Ric

Mos-Mon-Hum-Spi-Ric

Как выбирать последовательности для дерева

Кроме случаев очень близких последовательностей проще работать с белками (а не с ДНК)

Придерживайтесь небольшой выборки (lt 50 последовательностей)

Избегайтеndash фрагментовndash Ксенологов (горизонтальный перенос генов)ndash рекомбинантных последовательностейndash многодоменных белков и повторов

Используйте outgroup (последовательность ответвившаяся от общего предка заведомо (но минимально) раньше разделения интересующих групп-клад)

Самое главное ndash хорошее выравнивание

Максимальный вклад в финальное дерево нельзя построить хорошее дерево по плохому выравниванию

Блоки содержащие много гэпов плохо выровненные N- и C- концы можно просто вырезать

Основные алгоритмы построения филогенетических деревьев

Методы основанные на оценке

расстояний (матричные методы)

bull UPGMA (кластеризация)

bull Neighbor-joining

bull Минимальная эволюция

Наибольшего правдоподобия Maximal likelihood ML Используется модель эволюции и строится дерево которое наиболее правдоподобно при данной модели

Максимальной экономии (бережливости)

maximal parsimony MP Выбирается дерево с минимальным количеством

мутаций необходимых для объяснения данных

Пример матрицы расстояний

1 2 3 4 5 6 7 8 000 1053 977 1278 1203 1654 1353 2500 HUMAN 1

000 902 1203 977 1579 902 2727 HORSE 2 000 977 902 1654 1203 2424 RABIT 3

000 226 1729 1053 2576 MOUSE 4 000 1579 827 2576 RAT 5

000 1053 2955 BOVIN 6 000 2500 PIG 7

000 CHICK 8

Расстояние (уровень дивергенции) между соответствующими последовательностями из геномов мыши и свиньи

Как понимать расстояние между объектами

bull Как время в течение которого они эволюционировалиbull Как число laquoэволюционных событийraquo (мутаций)

В первом случае объекты образуют ультраметрическое пространство(если все объекты наблюдаются в одно время что как правило верно)

Но время непосредственно измерить невозможно

Гипотеза laquoмолекулярных часовraquo(EZuckerkandl LPauling 1962)

За равное время во всех ветвях эволюции данного генабелка накапливается равное число мутацийЕсли гипотеза молекулярных часов

принимается число различий между выровненными последовательностями можно считать примерно пропорциональным времени Отклонения от ультраметричности можно считать случайными Эволюция реконструируется в виде ультраметрического дерева

Укоренённое дерево называется ультраметрическим если расстояние от корня до любого из листьев одинаково

UPGMAUnweighted Pair Group Method with Arithmetic Mean

разновидность кластерного метода

Расстояние между кластерами вычисляется как среднее арифметическое всевозможных расстояний между последовательностями из кластеров

Недостатки UPGMA

Алгоритм строит ультраметрическое дерево ndash скорость эволюции предполагается одинаковой для всех ветвей дерева Использовать этот алгоритм имеет смысл только в случае ультраметрических данных (справедливости laquoмолекулярных часовraquo)

Реальное дерево UPGMA

Метод ближайших соседей (Neighbor-joining NJ)

Строит неукоренённое дерево

Может работать с большим количеством данных

Достаточно быстрый

Если есть недвусмысленное с точки зрения эксперта дерево то оно будет построено

Метод Neighbor-joining

Рисуем laquoзвездноеraquo дерево и будем laquoотщипыватьraquo от него по паре листьев

Пусть ui = Σk Mik(n-2) mdash среднее расстояние от листа i до других

листьев

1 Рассмотрим все возможные пары листьев Выберем 2 листа i и j с минимальным значением величины

Mij ndash ui ndashuj

те выбираем 2 узла которые близки друг к другу но далеки ото всех остальных

Метод ближайших соседей (Neighbor-joining NJ)

2 Кластер (i j) ndash новый узел дерева

Расстояние от i или от j до узла (ij) D(i (ij)) = 05middot(Mij + ui ndash uj) D(j (ij)) = 05middot (Mij + uj ndash ui) те длина ветви зависит от среднего расстояния до других вершин

3 Вычисляем расстояние от нового кластера до всех других

M(ij)k = Mik+Mjk ndash Mij 2

5 В матрице М убираем i и j и добавляем (i j) Повторяем пока не останутся 3 узла

Input MSA для n последовательностей одна последовательность для каждого вида

AAAAATC

AAAAAAG

CCCCCCG

AAAAATCAAAAAAG

CCCCCCG

Длинная ветвь ndash непохоже на правду

Длинная ветвь -Похоже на правду

Методы основанные на последовательностях Maximum Likelihood (ML) Maximum Parsimony (MP)

Как изобразить дерево Топология дерева

Топология дерева mdash только листья узлы (корень) и связывающие их ветви (топология не зависит от способа изображения дерева)

A

B

C

D

E A BC D E

Два изображения одной и той же топологии

Bacterium 1

Bacterium 3

Bacterium 2

Eukaryote 1

Eukaryote 4

Eukaryote 3

Eukaryote 2

Bacterium 1

Bacterium 3Bacterium 2

Eukaryote 1

Eukaryote 4Eukaryote 3

Eukaryote 2

Филограммы ndash длины ветвей

пропорциональны

эволюционному расстоянию

Кладограммы и филограммы

Кладограммы ndash только

топологя Длины ветвей не

учитываются

6

31

2

46

24

53

Как можно нарисовать построенное дерево

Какие on-line программы строят деревья

ClustalW ldquoTree typerdquo ndash nj phylip строит только методом NJ но результат ndash в разных форматах no bootstraps

Phylip (Felsenstein 1993) ndash пакет программ для построения филогенетических деревьев (stand-alone)On-line (partly) например

httpbiowebpasteurfrseqanalphylogenyphylip-ukhtml PAUP (Phylogenetic Analysis Using Parsimony)

MEGA филогенетический анализ последовательностей

httpwwwmegasoftwarenet

Эволюция ndash исторический процесс

Из 8200794532637891559375 деревьев для 20 OTUs 1

является верным и 8200794532637891559374

неверны

Truth is one falsehoods are many

Какое из 8200794532637891559375

деревьев истинно

Мы не знаем Можно применить иные критетии

Например ldquoпохожесть=родствоraquo

GCGbull Строковый поиск простой текстовый

поиск по локальной базе данных

bull Поиск в определениях или в аннотациях

bull Определения содержат минимальное количество информации для каждой статьи доступ имя организма имя гена длина последовательности дата

  • Bestfit Output
  • SP1 at swissprot
  • EGR1 at swissprot
  • Вывод
  • Bl2Seq at NCBI
  • Bl2seq results
  • Bl2seq оценка
  • Оптимизация времени вычислений при парном выравнивании
  • Slide 9
  • Алгоритм BLAST (шаг 1)
  • Slide 11
  • Blast
  • Поиск гомологов
  • ДНК или белок
  • ДНК
  • Slide 16
  • Slide 17
  • Двойная спираль
  • ДНК дальнейшая упаковка
  • Slide 20
  • Репликация ДНК
  • Slide 22
  • Slide 23
  • Slide 24
  • Slide 25
  • Множественное выравнивание последовательностей (MSA)
  • Slide 27
  • Основные предположения
  • Например
  • Почему множественное выравнивание
  • Slide 31
  • Подходы в MSA
  • MSA algorithm
  • Multiple Alignment - алгоритм
  • Комментарии
  • GCG
  • Slide 37
  • GCG
  • Slide 39
  • Slide 40
  • Slide 41
  • ClustalW
  • Slide 43
  • Slide 44
  • ClustalW на EMBL
  • ClustalW на EMBL - результат
  • ClustalW at EMBL - Jalview
  • Consensus Sequence
  • Профиль (Profile)
  • Profile vs Consensus
  • Slide 51
  • Slide 52
  • Psi Blast (NCBI)
  • PSI-Blast
  • Psi-Blast вывод
  • Slide 56
  • Филогенез
  • Slide 58
  • Slide 59
  • Slide 60
  • Slide 61
  • Древо видов и генов
  • Ортологи и паралоги
  • Шаги реконструирования филогенетического древа
  • Филогенетическое дерево
  • Зачем нужны филогенетические деревья
  • Терминология
  • Slide 68
  • Какие бывают деревья
  • Slide 70
  • Slide 71
  • Slide 72
  • 4 OTUs 3 неукорененных филогенетических деревьев
  • Slide 74
  • Slide 75
  • Slide 76
  • Slide 77
  • Рутинная процедура или как строят деревья
  • Slide 79
  • Slide 80
  • Slide 81
  • Slide 82
  • Slide 83
  • Slide 84
  • Slide 85
  • Slide 86
  • Slide 87
  • Slide 88
  • Slide 89
  • Как выбирать последовательности для дерева
  • Самое главное ndash хорошее выравнивание
  • Основные алгоритмы построения филогенетических деревьев
  • Пример матрицы расстояний
  • Slide 94
  • Гипотеза laquoмолекулярных часовraquo (EZuckerkandl LPauling 1962)
  • UPGMA Unweighted Pair Group Method with Arithmetic Mean
  • Недостатки UPGMA
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Метод Neighbor-joining
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Slide 101
  • Как изобразить дерево Топология дерева
  • Slide 103
  • Какие on-line программы строят деревья
  • MEGA филогенетический анализ последовательностей
  • Slide 106
  • Slide 107
  • Slide 108
Page 78: Bestfit Output

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Multiple Alignment

Matches

Mismatches

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Multiple Alignment

Matches

Mismatches

Gaps

Seq 1 A G C G A GSeq 1 A G C G A GSeq 2 G C G G A CSeq 2 G C G G A C

Шаг 3 Перевод количества расхождений в индексы замен

Distance Matrix

Units количество замен нуклеотидов на 1000

Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86

Rice 00 118 122 122

Mosquito 00 55 51

Monkey 00 3

Human 00

Шаг 4 построение филогенетического дерева

Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86

Rice 00 118 122 122

Mosquito 00 55 51

Monkey 00 3

Human 00

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Дистанция между человеком и обезьяной минимальна Эти группы объединяются в Monkey-Human а все остальные дистанции пересчитываются

Dist[Spinach MonHum] = (Dist[Spinach Monkey] +

Dist[Spinach Human])2 = (91 + 86)2 = 885

Spinach Rice Mosquito Mon-HumSpinach 00 9 106 885

Rice 00 118 122

Mosquito 00 53

Mon-Hum 00

Редуцированная матрица дистанций

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Spi-Ric

HumanMosquito

Mon-Hum

MonkeySpinachRice

Mos-Mon-Hum

Spi-Ric

Mos-Mon-Hum-Spi-Ric

Как выбирать последовательности для дерева

Кроме случаев очень близких последовательностей проще работать с белками (а не с ДНК)

Придерживайтесь небольшой выборки (lt 50 последовательностей)

Избегайтеndash фрагментовndash Ксенологов (горизонтальный перенос генов)ndash рекомбинантных последовательностейndash многодоменных белков и повторов

Используйте outgroup (последовательность ответвившаяся от общего предка заведомо (но минимально) раньше разделения интересующих групп-клад)

Самое главное ndash хорошее выравнивание

Максимальный вклад в финальное дерево нельзя построить хорошее дерево по плохому выравниванию

Блоки содержащие много гэпов плохо выровненные N- и C- концы можно просто вырезать

Основные алгоритмы построения филогенетических деревьев

Методы основанные на оценке

расстояний (матричные методы)

bull UPGMA (кластеризация)

bull Neighbor-joining

bull Минимальная эволюция

Наибольшего правдоподобия Maximal likelihood ML Используется модель эволюции и строится дерево которое наиболее правдоподобно при данной модели

Максимальной экономии (бережливости)

maximal parsimony MP Выбирается дерево с минимальным количеством

мутаций необходимых для объяснения данных

Пример матрицы расстояний

1 2 3 4 5 6 7 8 000 1053 977 1278 1203 1654 1353 2500 HUMAN 1

000 902 1203 977 1579 902 2727 HORSE 2 000 977 902 1654 1203 2424 RABIT 3

000 226 1729 1053 2576 MOUSE 4 000 1579 827 2576 RAT 5

000 1053 2955 BOVIN 6 000 2500 PIG 7

000 CHICK 8

Расстояние (уровень дивергенции) между соответствующими последовательностями из геномов мыши и свиньи

Как понимать расстояние между объектами

bull Как время в течение которого они эволюционировалиbull Как число laquoэволюционных событийraquo (мутаций)

В первом случае объекты образуют ультраметрическое пространство(если все объекты наблюдаются в одно время что как правило верно)

Но время непосредственно измерить невозможно

Гипотеза laquoмолекулярных часовraquo(EZuckerkandl LPauling 1962)

За равное время во всех ветвях эволюции данного генабелка накапливается равное число мутацийЕсли гипотеза молекулярных часов

принимается число различий между выровненными последовательностями можно считать примерно пропорциональным времени Отклонения от ультраметричности можно считать случайными Эволюция реконструируется в виде ультраметрического дерева

Укоренённое дерево называется ультраметрическим если расстояние от корня до любого из листьев одинаково

UPGMAUnweighted Pair Group Method with Arithmetic Mean

разновидность кластерного метода

Расстояние между кластерами вычисляется как среднее арифметическое всевозможных расстояний между последовательностями из кластеров

Недостатки UPGMA

Алгоритм строит ультраметрическое дерево ndash скорость эволюции предполагается одинаковой для всех ветвей дерева Использовать этот алгоритм имеет смысл только в случае ультраметрических данных (справедливости laquoмолекулярных часовraquo)

Реальное дерево UPGMA

Метод ближайших соседей (Neighbor-joining NJ)

Строит неукоренённое дерево

Может работать с большим количеством данных

Достаточно быстрый

Если есть недвусмысленное с точки зрения эксперта дерево то оно будет построено

Метод Neighbor-joining

Рисуем laquoзвездноеraquo дерево и будем laquoотщипыватьraquo от него по паре листьев

Пусть ui = Σk Mik(n-2) mdash среднее расстояние от листа i до других

листьев

1 Рассмотрим все возможные пары листьев Выберем 2 листа i и j с минимальным значением величины

Mij ndash ui ndashuj

те выбираем 2 узла которые близки друг к другу но далеки ото всех остальных

Метод ближайших соседей (Neighbor-joining NJ)

2 Кластер (i j) ndash новый узел дерева

Расстояние от i или от j до узла (ij) D(i (ij)) = 05middot(Mij + ui ndash uj) D(j (ij)) = 05middot (Mij + uj ndash ui) те длина ветви зависит от среднего расстояния до других вершин

3 Вычисляем расстояние от нового кластера до всех других

M(ij)k = Mik+Mjk ndash Mij 2

5 В матрице М убираем i и j и добавляем (i j) Повторяем пока не останутся 3 узла

Input MSA для n последовательностей одна последовательность для каждого вида

AAAAATC

AAAAAAG

CCCCCCG

AAAAATCAAAAAAG

CCCCCCG

Длинная ветвь ndash непохоже на правду

Длинная ветвь -Похоже на правду

Методы основанные на последовательностях Maximum Likelihood (ML) Maximum Parsimony (MP)

Как изобразить дерево Топология дерева

Топология дерева mdash только листья узлы (корень) и связывающие их ветви (топология не зависит от способа изображения дерева)

A

B

C

D

E A BC D E

Два изображения одной и той же топологии

Bacterium 1

Bacterium 3

Bacterium 2

Eukaryote 1

Eukaryote 4

Eukaryote 3

Eukaryote 2

Bacterium 1

Bacterium 3Bacterium 2

Eukaryote 1

Eukaryote 4Eukaryote 3

Eukaryote 2

Филограммы ndash длины ветвей

пропорциональны

эволюционному расстоянию

Кладограммы и филограммы

Кладограммы ndash только

топологя Длины ветвей не

учитываются

6

31

2

46

24

53

Как можно нарисовать построенное дерево

Какие on-line программы строят деревья

ClustalW ldquoTree typerdquo ndash nj phylip строит только методом NJ но результат ndash в разных форматах no bootstraps

Phylip (Felsenstein 1993) ndash пакет программ для построения филогенетических деревьев (stand-alone)On-line (partly) например

httpbiowebpasteurfrseqanalphylogenyphylip-ukhtml PAUP (Phylogenetic Analysis Using Parsimony)

MEGA филогенетический анализ последовательностей

httpwwwmegasoftwarenet

Эволюция ndash исторический процесс

Из 8200794532637891559375 деревьев для 20 OTUs 1

является верным и 8200794532637891559374

неверны

Truth is one falsehoods are many

Какое из 8200794532637891559375

деревьев истинно

Мы не знаем Можно применить иные критетии

Например ldquoпохожесть=родствоraquo

GCGbull Строковый поиск простой текстовый

поиск по локальной базе данных

bull Поиск в определениях или в аннотациях

bull Определения содержат минимальное количество информации для каждой статьи доступ имя организма имя гена длина последовательности дата

  • Bestfit Output
  • SP1 at swissprot
  • EGR1 at swissprot
  • Вывод
  • Bl2Seq at NCBI
  • Bl2seq results
  • Bl2seq оценка
  • Оптимизация времени вычислений при парном выравнивании
  • Slide 9
  • Алгоритм BLAST (шаг 1)
  • Slide 11
  • Blast
  • Поиск гомологов
  • ДНК или белок
  • ДНК
  • Slide 16
  • Slide 17
  • Двойная спираль
  • ДНК дальнейшая упаковка
  • Slide 20
  • Репликация ДНК
  • Slide 22
  • Slide 23
  • Slide 24
  • Slide 25
  • Множественное выравнивание последовательностей (MSA)
  • Slide 27
  • Основные предположения
  • Например
  • Почему множественное выравнивание
  • Slide 31
  • Подходы в MSA
  • MSA algorithm
  • Multiple Alignment - алгоритм
  • Комментарии
  • GCG
  • Slide 37
  • GCG
  • Slide 39
  • Slide 40
  • Slide 41
  • ClustalW
  • Slide 43
  • Slide 44
  • ClustalW на EMBL
  • ClustalW на EMBL - результат
  • ClustalW at EMBL - Jalview
  • Consensus Sequence
  • Профиль (Profile)
  • Profile vs Consensus
  • Slide 51
  • Slide 52
  • Psi Blast (NCBI)
  • PSI-Blast
  • Psi-Blast вывод
  • Slide 56
  • Филогенез
  • Slide 58
  • Slide 59
  • Slide 60
  • Slide 61
  • Древо видов и генов
  • Ортологи и паралоги
  • Шаги реконструирования филогенетического древа
  • Филогенетическое дерево
  • Зачем нужны филогенетические деревья
  • Терминология
  • Slide 68
  • Какие бывают деревья
  • Slide 70
  • Slide 71
  • Slide 72
  • 4 OTUs 3 неукорененных филогенетических деревьев
  • Slide 74
  • Slide 75
  • Slide 76
  • Slide 77
  • Рутинная процедура или как строят деревья
  • Slide 79
  • Slide 80
  • Slide 81
  • Slide 82
  • Slide 83
  • Slide 84
  • Slide 85
  • Slide 86
  • Slide 87
  • Slide 88
  • Slide 89
  • Как выбирать последовательности для дерева
  • Самое главное ndash хорошее выравнивание
  • Основные алгоритмы построения филогенетических деревьев
  • Пример матрицы расстояний
  • Slide 94
  • Гипотеза laquoмолекулярных часовraquo (EZuckerkandl LPauling 1962)
  • UPGMA Unweighted Pair Group Method with Arithmetic Mean
  • Недостатки UPGMA
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Метод Neighbor-joining
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Slide 101
  • Как изобразить дерево Топология дерева
  • Slide 103
  • Какие on-line программы строят деревья
  • MEGA филогенетический анализ последовательностей
  • Slide 106
  • Slide 107
  • Slide 108
Page 79: Bestfit Output

GCGGCTCA TCAGGTAGTT GGTG-G SpinachGCGGCCCA TCAGGTAGTT GGTG-G RiceGCGTTCCA TC--CTGGTT GGTGTG MosquitoGCGTCCCA TCAGCTAGTT GTTG-G MonkeyGCGGCGCA TTAGCTAGTT GGTG-A Human

Multiple Alignment

Matches

Mismatches

Gaps

Seq 1 A G C G A GSeq 1 A G C G A GSeq 2 G C G G A CSeq 2 G C G G A C

Шаг 3 Перевод количества расхождений в индексы замен

Distance Matrix

Units количество замен нуклеотидов на 1000

Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86

Rice 00 118 122 122

Mosquito 00 55 51

Monkey 00 3

Human 00

Шаг 4 построение филогенетического дерева

Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86

Rice 00 118 122 122

Mosquito 00 55 51

Monkey 00 3

Human 00

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Дистанция между человеком и обезьяной минимальна Эти группы объединяются в Monkey-Human а все остальные дистанции пересчитываются

Dist[Spinach MonHum] = (Dist[Spinach Monkey] +

Dist[Spinach Human])2 = (91 + 86)2 = 885

Spinach Rice Mosquito Mon-HumSpinach 00 9 106 885

Rice 00 118 122

Mosquito 00 53

Mon-Hum 00

Редуцированная матрица дистанций

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Spi-Ric

HumanMosquito

Mon-Hum

MonkeySpinachRice

Mos-Mon-Hum

Spi-Ric

Mos-Mon-Hum-Spi-Ric

Как выбирать последовательности для дерева

Кроме случаев очень близких последовательностей проще работать с белками (а не с ДНК)

Придерживайтесь небольшой выборки (lt 50 последовательностей)

Избегайтеndash фрагментовndash Ксенологов (горизонтальный перенос генов)ndash рекомбинантных последовательностейndash многодоменных белков и повторов

Используйте outgroup (последовательность ответвившаяся от общего предка заведомо (но минимально) раньше разделения интересующих групп-клад)

Самое главное ndash хорошее выравнивание

Максимальный вклад в финальное дерево нельзя построить хорошее дерево по плохому выравниванию

Блоки содержащие много гэпов плохо выровненные N- и C- концы можно просто вырезать

Основные алгоритмы построения филогенетических деревьев

Методы основанные на оценке

расстояний (матричные методы)

bull UPGMA (кластеризация)

bull Neighbor-joining

bull Минимальная эволюция

Наибольшего правдоподобия Maximal likelihood ML Используется модель эволюции и строится дерево которое наиболее правдоподобно при данной модели

Максимальной экономии (бережливости)

maximal parsimony MP Выбирается дерево с минимальным количеством

мутаций необходимых для объяснения данных

Пример матрицы расстояний

1 2 3 4 5 6 7 8 000 1053 977 1278 1203 1654 1353 2500 HUMAN 1

000 902 1203 977 1579 902 2727 HORSE 2 000 977 902 1654 1203 2424 RABIT 3

000 226 1729 1053 2576 MOUSE 4 000 1579 827 2576 RAT 5

000 1053 2955 BOVIN 6 000 2500 PIG 7

000 CHICK 8

Расстояние (уровень дивергенции) между соответствующими последовательностями из геномов мыши и свиньи

Как понимать расстояние между объектами

bull Как время в течение которого они эволюционировалиbull Как число laquoэволюционных событийraquo (мутаций)

В первом случае объекты образуют ультраметрическое пространство(если все объекты наблюдаются в одно время что как правило верно)

Но время непосредственно измерить невозможно

Гипотеза laquoмолекулярных часовraquo(EZuckerkandl LPauling 1962)

За равное время во всех ветвях эволюции данного генабелка накапливается равное число мутацийЕсли гипотеза молекулярных часов

принимается число различий между выровненными последовательностями можно считать примерно пропорциональным времени Отклонения от ультраметричности можно считать случайными Эволюция реконструируется в виде ультраметрического дерева

Укоренённое дерево называется ультраметрическим если расстояние от корня до любого из листьев одинаково

UPGMAUnweighted Pair Group Method with Arithmetic Mean

разновидность кластерного метода

Расстояние между кластерами вычисляется как среднее арифметическое всевозможных расстояний между последовательностями из кластеров

Недостатки UPGMA

Алгоритм строит ультраметрическое дерево ndash скорость эволюции предполагается одинаковой для всех ветвей дерева Использовать этот алгоритм имеет смысл только в случае ультраметрических данных (справедливости laquoмолекулярных часовraquo)

Реальное дерево UPGMA

Метод ближайших соседей (Neighbor-joining NJ)

Строит неукоренённое дерево

Может работать с большим количеством данных

Достаточно быстрый

Если есть недвусмысленное с точки зрения эксперта дерево то оно будет построено

Метод Neighbor-joining

Рисуем laquoзвездноеraquo дерево и будем laquoотщипыватьraquo от него по паре листьев

Пусть ui = Σk Mik(n-2) mdash среднее расстояние от листа i до других

листьев

1 Рассмотрим все возможные пары листьев Выберем 2 листа i и j с минимальным значением величины

Mij ndash ui ndashuj

те выбираем 2 узла которые близки друг к другу но далеки ото всех остальных

Метод ближайших соседей (Neighbor-joining NJ)

2 Кластер (i j) ndash новый узел дерева

Расстояние от i или от j до узла (ij) D(i (ij)) = 05middot(Mij + ui ndash uj) D(j (ij)) = 05middot (Mij + uj ndash ui) те длина ветви зависит от среднего расстояния до других вершин

3 Вычисляем расстояние от нового кластера до всех других

M(ij)k = Mik+Mjk ndash Mij 2

5 В матрице М убираем i и j и добавляем (i j) Повторяем пока не останутся 3 узла

Input MSA для n последовательностей одна последовательность для каждого вида

AAAAATC

AAAAAAG

CCCCCCG

AAAAATCAAAAAAG

CCCCCCG

Длинная ветвь ndash непохоже на правду

Длинная ветвь -Похоже на правду

Методы основанные на последовательностях Maximum Likelihood (ML) Maximum Parsimony (MP)

Как изобразить дерево Топология дерева

Топология дерева mdash только листья узлы (корень) и связывающие их ветви (топология не зависит от способа изображения дерева)

A

B

C

D

E A BC D E

Два изображения одной и той же топологии

Bacterium 1

Bacterium 3

Bacterium 2

Eukaryote 1

Eukaryote 4

Eukaryote 3

Eukaryote 2

Bacterium 1

Bacterium 3Bacterium 2

Eukaryote 1

Eukaryote 4Eukaryote 3

Eukaryote 2

Филограммы ndash длины ветвей

пропорциональны

эволюционному расстоянию

Кладограммы и филограммы

Кладограммы ndash только

топологя Длины ветвей не

учитываются

6

31

2

46

24

53

Как можно нарисовать построенное дерево

Какие on-line программы строят деревья

ClustalW ldquoTree typerdquo ndash nj phylip строит только методом NJ но результат ndash в разных форматах no bootstraps

Phylip (Felsenstein 1993) ndash пакет программ для построения филогенетических деревьев (stand-alone)On-line (partly) например

httpbiowebpasteurfrseqanalphylogenyphylip-ukhtml PAUP (Phylogenetic Analysis Using Parsimony)

MEGA филогенетический анализ последовательностей

httpwwwmegasoftwarenet

Эволюция ndash исторический процесс

Из 8200794532637891559375 деревьев для 20 OTUs 1

является верным и 8200794532637891559374

неверны

Truth is one falsehoods are many

Какое из 8200794532637891559375

деревьев истинно

Мы не знаем Можно применить иные критетии

Например ldquoпохожесть=родствоraquo

GCGbull Строковый поиск простой текстовый

поиск по локальной базе данных

bull Поиск в определениях или в аннотациях

bull Определения содержат минимальное количество информации для каждой статьи доступ имя организма имя гена длина последовательности дата

  • Bestfit Output
  • SP1 at swissprot
  • EGR1 at swissprot
  • Вывод
  • Bl2Seq at NCBI
  • Bl2seq results
  • Bl2seq оценка
  • Оптимизация времени вычислений при парном выравнивании
  • Slide 9
  • Алгоритм BLAST (шаг 1)
  • Slide 11
  • Blast
  • Поиск гомологов
  • ДНК или белок
  • ДНК
  • Slide 16
  • Slide 17
  • Двойная спираль
  • ДНК дальнейшая упаковка
  • Slide 20
  • Репликация ДНК
  • Slide 22
  • Slide 23
  • Slide 24
  • Slide 25
  • Множественное выравнивание последовательностей (MSA)
  • Slide 27
  • Основные предположения
  • Например
  • Почему множественное выравнивание
  • Slide 31
  • Подходы в MSA
  • MSA algorithm
  • Multiple Alignment - алгоритм
  • Комментарии
  • GCG
  • Slide 37
  • GCG
  • Slide 39
  • Slide 40
  • Slide 41
  • ClustalW
  • Slide 43
  • Slide 44
  • ClustalW на EMBL
  • ClustalW на EMBL - результат
  • ClustalW at EMBL - Jalview
  • Consensus Sequence
  • Профиль (Profile)
  • Profile vs Consensus
  • Slide 51
  • Slide 52
  • Psi Blast (NCBI)
  • PSI-Blast
  • Psi-Blast вывод
  • Slide 56
  • Филогенез
  • Slide 58
  • Slide 59
  • Slide 60
  • Slide 61
  • Древо видов и генов
  • Ортологи и паралоги
  • Шаги реконструирования филогенетического древа
  • Филогенетическое дерево
  • Зачем нужны филогенетические деревья
  • Терминология
  • Slide 68
  • Какие бывают деревья
  • Slide 70
  • Slide 71
  • Slide 72
  • 4 OTUs 3 неукорененных филогенетических деревьев
  • Slide 74
  • Slide 75
  • Slide 76
  • Slide 77
  • Рутинная процедура или как строят деревья
  • Slide 79
  • Slide 80
  • Slide 81
  • Slide 82
  • Slide 83
  • Slide 84
  • Slide 85
  • Slide 86
  • Slide 87
  • Slide 88
  • Slide 89
  • Как выбирать последовательности для дерева
  • Самое главное ndash хорошее выравнивание
  • Основные алгоритмы построения филогенетических деревьев
  • Пример матрицы расстояний
  • Slide 94
  • Гипотеза laquoмолекулярных часовraquo (EZuckerkandl LPauling 1962)
  • UPGMA Unweighted Pair Group Method with Arithmetic Mean
  • Недостатки UPGMA
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Метод Neighbor-joining
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Slide 101
  • Как изобразить дерево Топология дерева
  • Slide 103
  • Какие on-line программы строят деревья
  • MEGA филогенетический анализ последовательностей
  • Slide 106
  • Slide 107
  • Slide 108
Page 80: Bestfit Output

Seq 1 A G C G A GSeq 1 A G C G A GSeq 2 G C G G A CSeq 2 G C G G A C

Шаг 3 Перевод количества расхождений в индексы замен

Distance Matrix

Units количество замен нуклеотидов на 1000

Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86

Rice 00 118 122 122

Mosquito 00 55 51

Monkey 00 3

Human 00

Шаг 4 построение филогенетического дерева

Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86

Rice 00 118 122 122

Mosquito 00 55 51

Monkey 00 3

Human 00

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Дистанция между человеком и обезьяной минимальна Эти группы объединяются в Monkey-Human а все остальные дистанции пересчитываются

Dist[Spinach MonHum] = (Dist[Spinach Monkey] +

Dist[Spinach Human])2 = (91 + 86)2 = 885

Spinach Rice Mosquito Mon-HumSpinach 00 9 106 885

Rice 00 118 122

Mosquito 00 53

Mon-Hum 00

Редуцированная матрица дистанций

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Spi-Ric

HumanMosquito

Mon-Hum

MonkeySpinachRice

Mos-Mon-Hum

Spi-Ric

Mos-Mon-Hum-Spi-Ric

Как выбирать последовательности для дерева

Кроме случаев очень близких последовательностей проще работать с белками (а не с ДНК)

Придерживайтесь небольшой выборки (lt 50 последовательностей)

Избегайтеndash фрагментовndash Ксенологов (горизонтальный перенос генов)ndash рекомбинантных последовательностейndash многодоменных белков и повторов

Используйте outgroup (последовательность ответвившаяся от общего предка заведомо (но минимально) раньше разделения интересующих групп-клад)

Самое главное ndash хорошее выравнивание

Максимальный вклад в финальное дерево нельзя построить хорошее дерево по плохому выравниванию

Блоки содержащие много гэпов плохо выровненные N- и C- концы можно просто вырезать

Основные алгоритмы построения филогенетических деревьев

Методы основанные на оценке

расстояний (матричные методы)

bull UPGMA (кластеризация)

bull Neighbor-joining

bull Минимальная эволюция

Наибольшего правдоподобия Maximal likelihood ML Используется модель эволюции и строится дерево которое наиболее правдоподобно при данной модели

Максимальной экономии (бережливости)

maximal parsimony MP Выбирается дерево с минимальным количеством

мутаций необходимых для объяснения данных

Пример матрицы расстояний

1 2 3 4 5 6 7 8 000 1053 977 1278 1203 1654 1353 2500 HUMAN 1

000 902 1203 977 1579 902 2727 HORSE 2 000 977 902 1654 1203 2424 RABIT 3

000 226 1729 1053 2576 MOUSE 4 000 1579 827 2576 RAT 5

000 1053 2955 BOVIN 6 000 2500 PIG 7

000 CHICK 8

Расстояние (уровень дивергенции) между соответствующими последовательностями из геномов мыши и свиньи

Как понимать расстояние между объектами

bull Как время в течение которого они эволюционировалиbull Как число laquoэволюционных событийraquo (мутаций)

В первом случае объекты образуют ультраметрическое пространство(если все объекты наблюдаются в одно время что как правило верно)

Но время непосредственно измерить невозможно

Гипотеза laquoмолекулярных часовraquo(EZuckerkandl LPauling 1962)

За равное время во всех ветвях эволюции данного генабелка накапливается равное число мутацийЕсли гипотеза молекулярных часов

принимается число различий между выровненными последовательностями можно считать примерно пропорциональным времени Отклонения от ультраметричности можно считать случайными Эволюция реконструируется в виде ультраметрического дерева

Укоренённое дерево называется ультраметрическим если расстояние от корня до любого из листьев одинаково

UPGMAUnweighted Pair Group Method with Arithmetic Mean

разновидность кластерного метода

Расстояние между кластерами вычисляется как среднее арифметическое всевозможных расстояний между последовательностями из кластеров

Недостатки UPGMA

Алгоритм строит ультраметрическое дерево ndash скорость эволюции предполагается одинаковой для всех ветвей дерева Использовать этот алгоритм имеет смысл только в случае ультраметрических данных (справедливости laquoмолекулярных часовraquo)

Реальное дерево UPGMA

Метод ближайших соседей (Neighbor-joining NJ)

Строит неукоренённое дерево

Может работать с большим количеством данных

Достаточно быстрый

Если есть недвусмысленное с точки зрения эксперта дерево то оно будет построено

Метод Neighbor-joining

Рисуем laquoзвездноеraquo дерево и будем laquoотщипыватьraquo от него по паре листьев

Пусть ui = Σk Mik(n-2) mdash среднее расстояние от листа i до других

листьев

1 Рассмотрим все возможные пары листьев Выберем 2 листа i и j с минимальным значением величины

Mij ndash ui ndashuj

те выбираем 2 узла которые близки друг к другу но далеки ото всех остальных

Метод ближайших соседей (Neighbor-joining NJ)

2 Кластер (i j) ndash новый узел дерева

Расстояние от i или от j до узла (ij) D(i (ij)) = 05middot(Mij + ui ndash uj) D(j (ij)) = 05middot (Mij + uj ndash ui) те длина ветви зависит от среднего расстояния до других вершин

3 Вычисляем расстояние от нового кластера до всех других

M(ij)k = Mik+Mjk ndash Mij 2

5 В матрице М убираем i и j и добавляем (i j) Повторяем пока не останутся 3 узла

Input MSA для n последовательностей одна последовательность для каждого вида

AAAAATC

AAAAAAG

CCCCCCG

AAAAATCAAAAAAG

CCCCCCG

Длинная ветвь ndash непохоже на правду

Длинная ветвь -Похоже на правду

Методы основанные на последовательностях Maximum Likelihood (ML) Maximum Parsimony (MP)

Как изобразить дерево Топология дерева

Топология дерева mdash только листья узлы (корень) и связывающие их ветви (топология не зависит от способа изображения дерева)

A

B

C

D

E A BC D E

Два изображения одной и той же топологии

Bacterium 1

Bacterium 3

Bacterium 2

Eukaryote 1

Eukaryote 4

Eukaryote 3

Eukaryote 2

Bacterium 1

Bacterium 3Bacterium 2

Eukaryote 1

Eukaryote 4Eukaryote 3

Eukaryote 2

Филограммы ndash длины ветвей

пропорциональны

эволюционному расстоянию

Кладограммы и филограммы

Кладограммы ndash только

топологя Длины ветвей не

учитываются

6

31

2

46

24

53

Как можно нарисовать построенное дерево

Какие on-line программы строят деревья

ClustalW ldquoTree typerdquo ndash nj phylip строит только методом NJ но результат ndash в разных форматах no bootstraps

Phylip (Felsenstein 1993) ndash пакет программ для построения филогенетических деревьев (stand-alone)On-line (partly) например

httpbiowebpasteurfrseqanalphylogenyphylip-ukhtml PAUP (Phylogenetic Analysis Using Parsimony)

MEGA филогенетический анализ последовательностей

httpwwwmegasoftwarenet

Эволюция ndash исторический процесс

Из 8200794532637891559375 деревьев для 20 OTUs 1

является верным и 8200794532637891559374

неверны

Truth is one falsehoods are many

Какое из 8200794532637891559375

деревьев истинно

Мы не знаем Можно применить иные критетии

Например ldquoпохожесть=родствоraquo

GCGbull Строковый поиск простой текстовый

поиск по локальной базе данных

bull Поиск в определениях или в аннотациях

bull Определения содержат минимальное количество информации для каждой статьи доступ имя организма имя гена длина последовательности дата

  • Bestfit Output
  • SP1 at swissprot
  • EGR1 at swissprot
  • Вывод
  • Bl2Seq at NCBI
  • Bl2seq results
  • Bl2seq оценка
  • Оптимизация времени вычислений при парном выравнивании
  • Slide 9
  • Алгоритм BLAST (шаг 1)
  • Slide 11
  • Blast
  • Поиск гомологов
  • ДНК или белок
  • ДНК
  • Slide 16
  • Slide 17
  • Двойная спираль
  • ДНК дальнейшая упаковка
  • Slide 20
  • Репликация ДНК
  • Slide 22
  • Slide 23
  • Slide 24
  • Slide 25
  • Множественное выравнивание последовательностей (MSA)
  • Slide 27
  • Основные предположения
  • Например
  • Почему множественное выравнивание
  • Slide 31
  • Подходы в MSA
  • MSA algorithm
  • Multiple Alignment - алгоритм
  • Комментарии
  • GCG
  • Slide 37
  • GCG
  • Slide 39
  • Slide 40
  • Slide 41
  • ClustalW
  • Slide 43
  • Slide 44
  • ClustalW на EMBL
  • ClustalW на EMBL - результат
  • ClustalW at EMBL - Jalview
  • Consensus Sequence
  • Профиль (Profile)
  • Profile vs Consensus
  • Slide 51
  • Slide 52
  • Psi Blast (NCBI)
  • PSI-Blast
  • Psi-Blast вывод
  • Slide 56
  • Филогенез
  • Slide 58
  • Slide 59
  • Slide 60
  • Slide 61
  • Древо видов и генов
  • Ортологи и паралоги
  • Шаги реконструирования филогенетического древа
  • Филогенетическое дерево
  • Зачем нужны филогенетические деревья
  • Терминология
  • Slide 68
  • Какие бывают деревья
  • Slide 70
  • Slide 71
  • Slide 72
  • 4 OTUs 3 неукорененных филогенетических деревьев
  • Slide 74
  • Slide 75
  • Slide 76
  • Slide 77
  • Рутинная процедура или как строят деревья
  • Slide 79
  • Slide 80
  • Slide 81
  • Slide 82
  • Slide 83
  • Slide 84
  • Slide 85
  • Slide 86
  • Slide 87
  • Slide 88
  • Slide 89
  • Как выбирать последовательности для дерева
  • Самое главное ndash хорошее выравнивание
  • Основные алгоритмы построения филогенетических деревьев
  • Пример матрицы расстояний
  • Slide 94
  • Гипотеза laquoмолекулярных часовraquo (EZuckerkandl LPauling 1962)
  • UPGMA Unweighted Pair Group Method with Arithmetic Mean
  • Недостатки UPGMA
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Метод Neighbor-joining
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Slide 101
  • Как изобразить дерево Топология дерева
  • Slide 103
  • Какие on-line программы строят деревья
  • MEGA филогенетический анализ последовательностей
  • Slide 106
  • Slide 107
  • Slide 108
Page 81: Bestfit Output

Distance Matrix

Units количество замен нуклеотидов на 1000

Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86

Rice 00 118 122 122

Mosquito 00 55 51

Monkey 00 3

Human 00

Шаг 4 построение филогенетического дерева

Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86

Rice 00 118 122 122

Mosquito 00 55 51

Monkey 00 3

Human 00

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Дистанция между человеком и обезьяной минимальна Эти группы объединяются в Monkey-Human а все остальные дистанции пересчитываются

Dist[Spinach MonHum] = (Dist[Spinach Monkey] +

Dist[Spinach Human])2 = (91 + 86)2 = 885

Spinach Rice Mosquito Mon-HumSpinach 00 9 106 885

Rice 00 118 122

Mosquito 00 53

Mon-Hum 00

Редуцированная матрица дистанций

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Spi-Ric

HumanMosquito

Mon-Hum

MonkeySpinachRice

Mos-Mon-Hum

Spi-Ric

Mos-Mon-Hum-Spi-Ric

Как выбирать последовательности для дерева

Кроме случаев очень близких последовательностей проще работать с белками (а не с ДНК)

Придерживайтесь небольшой выборки (lt 50 последовательностей)

Избегайтеndash фрагментовndash Ксенологов (горизонтальный перенос генов)ndash рекомбинантных последовательностейndash многодоменных белков и повторов

Используйте outgroup (последовательность ответвившаяся от общего предка заведомо (но минимально) раньше разделения интересующих групп-клад)

Самое главное ndash хорошее выравнивание

Максимальный вклад в финальное дерево нельзя построить хорошее дерево по плохому выравниванию

Блоки содержащие много гэпов плохо выровненные N- и C- концы можно просто вырезать

Основные алгоритмы построения филогенетических деревьев

Методы основанные на оценке

расстояний (матричные методы)

bull UPGMA (кластеризация)

bull Neighbor-joining

bull Минимальная эволюция

Наибольшего правдоподобия Maximal likelihood ML Используется модель эволюции и строится дерево которое наиболее правдоподобно при данной модели

Максимальной экономии (бережливости)

maximal parsimony MP Выбирается дерево с минимальным количеством

мутаций необходимых для объяснения данных

Пример матрицы расстояний

1 2 3 4 5 6 7 8 000 1053 977 1278 1203 1654 1353 2500 HUMAN 1

000 902 1203 977 1579 902 2727 HORSE 2 000 977 902 1654 1203 2424 RABIT 3

000 226 1729 1053 2576 MOUSE 4 000 1579 827 2576 RAT 5

000 1053 2955 BOVIN 6 000 2500 PIG 7

000 CHICK 8

Расстояние (уровень дивергенции) между соответствующими последовательностями из геномов мыши и свиньи

Как понимать расстояние между объектами

bull Как время в течение которого они эволюционировалиbull Как число laquoэволюционных событийraquo (мутаций)

В первом случае объекты образуют ультраметрическое пространство(если все объекты наблюдаются в одно время что как правило верно)

Но время непосредственно измерить невозможно

Гипотеза laquoмолекулярных часовraquo(EZuckerkandl LPauling 1962)

За равное время во всех ветвях эволюции данного генабелка накапливается равное число мутацийЕсли гипотеза молекулярных часов

принимается число различий между выровненными последовательностями можно считать примерно пропорциональным времени Отклонения от ультраметричности можно считать случайными Эволюция реконструируется в виде ультраметрического дерева

Укоренённое дерево называется ультраметрическим если расстояние от корня до любого из листьев одинаково

UPGMAUnweighted Pair Group Method with Arithmetic Mean

разновидность кластерного метода

Расстояние между кластерами вычисляется как среднее арифметическое всевозможных расстояний между последовательностями из кластеров

Недостатки UPGMA

Алгоритм строит ультраметрическое дерево ndash скорость эволюции предполагается одинаковой для всех ветвей дерева Использовать этот алгоритм имеет смысл только в случае ультраметрических данных (справедливости laquoмолекулярных часовraquo)

Реальное дерево UPGMA

Метод ближайших соседей (Neighbor-joining NJ)

Строит неукоренённое дерево

Может работать с большим количеством данных

Достаточно быстрый

Если есть недвусмысленное с точки зрения эксперта дерево то оно будет построено

Метод Neighbor-joining

Рисуем laquoзвездноеraquo дерево и будем laquoотщипыватьraquo от него по паре листьев

Пусть ui = Σk Mik(n-2) mdash среднее расстояние от листа i до других

листьев

1 Рассмотрим все возможные пары листьев Выберем 2 листа i и j с минимальным значением величины

Mij ndash ui ndashuj

те выбираем 2 узла которые близки друг к другу но далеки ото всех остальных

Метод ближайших соседей (Neighbor-joining NJ)

2 Кластер (i j) ndash новый узел дерева

Расстояние от i или от j до узла (ij) D(i (ij)) = 05middot(Mij + ui ndash uj) D(j (ij)) = 05middot (Mij + uj ndash ui) те длина ветви зависит от среднего расстояния до других вершин

3 Вычисляем расстояние от нового кластера до всех других

M(ij)k = Mik+Mjk ndash Mij 2

5 В матрице М убираем i и j и добавляем (i j) Повторяем пока не останутся 3 узла

Input MSA для n последовательностей одна последовательность для каждого вида

AAAAATC

AAAAAAG

CCCCCCG

AAAAATCAAAAAAG

CCCCCCG

Длинная ветвь ndash непохоже на правду

Длинная ветвь -Похоже на правду

Методы основанные на последовательностях Maximum Likelihood (ML) Maximum Parsimony (MP)

Как изобразить дерево Топология дерева

Топология дерева mdash только листья узлы (корень) и связывающие их ветви (топология не зависит от способа изображения дерева)

A

B

C

D

E A BC D E

Два изображения одной и той же топологии

Bacterium 1

Bacterium 3

Bacterium 2

Eukaryote 1

Eukaryote 4

Eukaryote 3

Eukaryote 2

Bacterium 1

Bacterium 3Bacterium 2

Eukaryote 1

Eukaryote 4Eukaryote 3

Eukaryote 2

Филограммы ndash длины ветвей

пропорциональны

эволюционному расстоянию

Кладограммы и филограммы

Кладограммы ndash только

топологя Длины ветвей не

учитываются

6

31

2

46

24

53

Как можно нарисовать построенное дерево

Какие on-line программы строят деревья

ClustalW ldquoTree typerdquo ndash nj phylip строит только методом NJ но результат ndash в разных форматах no bootstraps

Phylip (Felsenstein 1993) ndash пакет программ для построения филогенетических деревьев (stand-alone)On-line (partly) например

httpbiowebpasteurfrseqanalphylogenyphylip-ukhtml PAUP (Phylogenetic Analysis Using Parsimony)

MEGA филогенетический анализ последовательностей

httpwwwmegasoftwarenet

Эволюция ndash исторический процесс

Из 8200794532637891559375 деревьев для 20 OTUs 1

является верным и 8200794532637891559374

неверны

Truth is one falsehoods are many

Какое из 8200794532637891559375

деревьев истинно

Мы не знаем Можно применить иные критетии

Например ldquoпохожесть=родствоraquo

GCGbull Строковый поиск простой текстовый

поиск по локальной базе данных

bull Поиск в определениях или в аннотациях

bull Определения содержат минимальное количество информации для каждой статьи доступ имя организма имя гена длина последовательности дата

  • Bestfit Output
  • SP1 at swissprot
  • EGR1 at swissprot
  • Вывод
  • Bl2Seq at NCBI
  • Bl2seq results
  • Bl2seq оценка
  • Оптимизация времени вычислений при парном выравнивании
  • Slide 9
  • Алгоритм BLAST (шаг 1)
  • Slide 11
  • Blast
  • Поиск гомологов
  • ДНК или белок
  • ДНК
  • Slide 16
  • Slide 17
  • Двойная спираль
  • ДНК дальнейшая упаковка
  • Slide 20
  • Репликация ДНК
  • Slide 22
  • Slide 23
  • Slide 24
  • Slide 25
  • Множественное выравнивание последовательностей (MSA)
  • Slide 27
  • Основные предположения
  • Например
  • Почему множественное выравнивание
  • Slide 31
  • Подходы в MSA
  • MSA algorithm
  • Multiple Alignment - алгоритм
  • Комментарии
  • GCG
  • Slide 37
  • GCG
  • Slide 39
  • Slide 40
  • Slide 41
  • ClustalW
  • Slide 43
  • Slide 44
  • ClustalW на EMBL
  • ClustalW на EMBL - результат
  • ClustalW at EMBL - Jalview
  • Consensus Sequence
  • Профиль (Profile)
  • Profile vs Consensus
  • Slide 51
  • Slide 52
  • Psi Blast (NCBI)
  • PSI-Blast
  • Psi-Blast вывод
  • Slide 56
  • Филогенез
  • Slide 58
  • Slide 59
  • Slide 60
  • Slide 61
  • Древо видов и генов
  • Ортологи и паралоги
  • Шаги реконструирования филогенетического древа
  • Филогенетическое дерево
  • Зачем нужны филогенетические деревья
  • Терминология
  • Slide 68
  • Какие бывают деревья
  • Slide 70
  • Slide 71
  • Slide 72
  • 4 OTUs 3 неукорененных филогенетических деревьев
  • Slide 74
  • Slide 75
  • Slide 76
  • Slide 77
  • Рутинная процедура или как строят деревья
  • Slide 79
  • Slide 80
  • Slide 81
  • Slide 82
  • Slide 83
  • Slide 84
  • Slide 85
  • Slide 86
  • Slide 87
  • Slide 88
  • Slide 89
  • Как выбирать последовательности для дерева
  • Самое главное ndash хорошее выравнивание
  • Основные алгоритмы построения филогенетических деревьев
  • Пример матрицы расстояний
  • Slide 94
  • Гипотеза laquoмолекулярных часовraquo (EZuckerkandl LPauling 1962)
  • UPGMA Unweighted Pair Group Method with Arithmetic Mean
  • Недостатки UPGMA
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Метод Neighbor-joining
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Slide 101
  • Как изобразить дерево Топология дерева
  • Slide 103
  • Какие on-line программы строят деревья
  • MEGA филогенетический анализ последовательностей
  • Slide 106
  • Slide 107
  • Slide 108
Page 82: Bestfit Output

Шаг 4 построение филогенетического дерева

Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86

Rice 00 118 122 122

Mosquito 00 55 51

Monkey 00 3

Human 00

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Дистанция между человеком и обезьяной минимальна Эти группы объединяются в Monkey-Human а все остальные дистанции пересчитываются

Dist[Spinach MonHum] = (Dist[Spinach Monkey] +

Dist[Spinach Human])2 = (91 + 86)2 = 885

Spinach Rice Mosquito Mon-HumSpinach 00 9 106 885

Rice 00 118 122

Mosquito 00 53

Mon-Hum 00

Редуцированная матрица дистанций

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Spi-Ric

HumanMosquito

Mon-Hum

MonkeySpinachRice

Mos-Mon-Hum

Spi-Ric

Mos-Mon-Hum-Spi-Ric

Как выбирать последовательности для дерева

Кроме случаев очень близких последовательностей проще работать с белками (а не с ДНК)

Придерживайтесь небольшой выборки (lt 50 последовательностей)

Избегайтеndash фрагментовndash Ксенологов (горизонтальный перенос генов)ndash рекомбинантных последовательностейndash многодоменных белков и повторов

Используйте outgroup (последовательность ответвившаяся от общего предка заведомо (но минимально) раньше разделения интересующих групп-клад)

Самое главное ndash хорошее выравнивание

Максимальный вклад в финальное дерево нельзя построить хорошее дерево по плохому выравниванию

Блоки содержащие много гэпов плохо выровненные N- и C- концы можно просто вырезать

Основные алгоритмы построения филогенетических деревьев

Методы основанные на оценке

расстояний (матричные методы)

bull UPGMA (кластеризация)

bull Neighbor-joining

bull Минимальная эволюция

Наибольшего правдоподобия Maximal likelihood ML Используется модель эволюции и строится дерево которое наиболее правдоподобно при данной модели

Максимальной экономии (бережливости)

maximal parsimony MP Выбирается дерево с минимальным количеством

мутаций необходимых для объяснения данных

Пример матрицы расстояний

1 2 3 4 5 6 7 8 000 1053 977 1278 1203 1654 1353 2500 HUMAN 1

000 902 1203 977 1579 902 2727 HORSE 2 000 977 902 1654 1203 2424 RABIT 3

000 226 1729 1053 2576 MOUSE 4 000 1579 827 2576 RAT 5

000 1053 2955 BOVIN 6 000 2500 PIG 7

000 CHICK 8

Расстояние (уровень дивергенции) между соответствующими последовательностями из геномов мыши и свиньи

Как понимать расстояние между объектами

bull Как время в течение которого они эволюционировалиbull Как число laquoэволюционных событийraquo (мутаций)

В первом случае объекты образуют ультраметрическое пространство(если все объекты наблюдаются в одно время что как правило верно)

Но время непосредственно измерить невозможно

Гипотеза laquoмолекулярных часовraquo(EZuckerkandl LPauling 1962)

За равное время во всех ветвях эволюции данного генабелка накапливается равное число мутацийЕсли гипотеза молекулярных часов

принимается число различий между выровненными последовательностями можно считать примерно пропорциональным времени Отклонения от ультраметричности можно считать случайными Эволюция реконструируется в виде ультраметрического дерева

Укоренённое дерево называется ультраметрическим если расстояние от корня до любого из листьев одинаково

UPGMAUnweighted Pair Group Method with Arithmetic Mean

разновидность кластерного метода

Расстояние между кластерами вычисляется как среднее арифметическое всевозможных расстояний между последовательностями из кластеров

Недостатки UPGMA

Алгоритм строит ультраметрическое дерево ndash скорость эволюции предполагается одинаковой для всех ветвей дерева Использовать этот алгоритм имеет смысл только в случае ультраметрических данных (справедливости laquoмолекулярных часовraquo)

Реальное дерево UPGMA

Метод ближайших соседей (Neighbor-joining NJ)

Строит неукоренённое дерево

Может работать с большим количеством данных

Достаточно быстрый

Если есть недвусмысленное с точки зрения эксперта дерево то оно будет построено

Метод Neighbor-joining

Рисуем laquoзвездноеraquo дерево и будем laquoотщипыватьraquo от него по паре листьев

Пусть ui = Σk Mik(n-2) mdash среднее расстояние от листа i до других

листьев

1 Рассмотрим все возможные пары листьев Выберем 2 листа i и j с минимальным значением величины

Mij ndash ui ndashuj

те выбираем 2 узла которые близки друг к другу но далеки ото всех остальных

Метод ближайших соседей (Neighbor-joining NJ)

2 Кластер (i j) ndash новый узел дерева

Расстояние от i или от j до узла (ij) D(i (ij)) = 05middot(Mij + ui ndash uj) D(j (ij)) = 05middot (Mij + uj ndash ui) те длина ветви зависит от среднего расстояния до других вершин

3 Вычисляем расстояние от нового кластера до всех других

M(ij)k = Mik+Mjk ndash Mij 2

5 В матрице М убираем i и j и добавляем (i j) Повторяем пока не останутся 3 узла

Input MSA для n последовательностей одна последовательность для каждого вида

AAAAATC

AAAAAAG

CCCCCCG

AAAAATCAAAAAAG

CCCCCCG

Длинная ветвь ndash непохоже на правду

Длинная ветвь -Похоже на правду

Методы основанные на последовательностях Maximum Likelihood (ML) Maximum Parsimony (MP)

Как изобразить дерево Топология дерева

Топология дерева mdash только листья узлы (корень) и связывающие их ветви (топология не зависит от способа изображения дерева)

A

B

C

D

E A BC D E

Два изображения одной и той же топологии

Bacterium 1

Bacterium 3

Bacterium 2

Eukaryote 1

Eukaryote 4

Eukaryote 3

Eukaryote 2

Bacterium 1

Bacterium 3Bacterium 2

Eukaryote 1

Eukaryote 4Eukaryote 3

Eukaryote 2

Филограммы ndash длины ветвей

пропорциональны

эволюционному расстоянию

Кладограммы и филограммы

Кладограммы ndash только

топологя Длины ветвей не

учитываются

6

31

2

46

24

53

Как можно нарисовать построенное дерево

Какие on-line программы строят деревья

ClustalW ldquoTree typerdquo ndash nj phylip строит только методом NJ но результат ndash в разных форматах no bootstraps

Phylip (Felsenstein 1993) ndash пакет программ для построения филогенетических деревьев (stand-alone)On-line (partly) например

httpbiowebpasteurfrseqanalphylogenyphylip-ukhtml PAUP (Phylogenetic Analysis Using Parsimony)

MEGA филогенетический анализ последовательностей

httpwwwmegasoftwarenet

Эволюция ndash исторический процесс

Из 8200794532637891559375 деревьев для 20 OTUs 1

является верным и 8200794532637891559374

неверны

Truth is one falsehoods are many

Какое из 8200794532637891559375

деревьев истинно

Мы не знаем Можно применить иные критетии

Например ldquoпохожесть=родствоraquo

GCGbull Строковый поиск простой текстовый

поиск по локальной базе данных

bull Поиск в определениях или в аннотациях

bull Определения содержат минимальное количество информации для каждой статьи доступ имя организма имя гена длина последовательности дата

  • Bestfit Output
  • SP1 at swissprot
  • EGR1 at swissprot
  • Вывод
  • Bl2Seq at NCBI
  • Bl2seq results
  • Bl2seq оценка
  • Оптимизация времени вычислений при парном выравнивании
  • Slide 9
  • Алгоритм BLAST (шаг 1)
  • Slide 11
  • Blast
  • Поиск гомологов
  • ДНК или белок
  • ДНК
  • Slide 16
  • Slide 17
  • Двойная спираль
  • ДНК дальнейшая упаковка
  • Slide 20
  • Репликация ДНК
  • Slide 22
  • Slide 23
  • Slide 24
  • Slide 25
  • Множественное выравнивание последовательностей (MSA)
  • Slide 27
  • Основные предположения
  • Например
  • Почему множественное выравнивание
  • Slide 31
  • Подходы в MSA
  • MSA algorithm
  • Multiple Alignment - алгоритм
  • Комментарии
  • GCG
  • Slide 37
  • GCG
  • Slide 39
  • Slide 40
  • Slide 41
  • ClustalW
  • Slide 43
  • Slide 44
  • ClustalW на EMBL
  • ClustalW на EMBL - результат
  • ClustalW at EMBL - Jalview
  • Consensus Sequence
  • Профиль (Profile)
  • Profile vs Consensus
  • Slide 51
  • Slide 52
  • Psi Blast (NCBI)
  • PSI-Blast
  • Psi-Blast вывод
  • Slide 56
  • Филогенез
  • Slide 58
  • Slide 59
  • Slide 60
  • Slide 61
  • Древо видов и генов
  • Ортологи и паралоги
  • Шаги реконструирования филогенетического древа
  • Филогенетическое дерево
  • Зачем нужны филогенетические деревья
  • Терминология
  • Slide 68
  • Какие бывают деревья
  • Slide 70
  • Slide 71
  • Slide 72
  • 4 OTUs 3 неукорененных филогенетических деревьев
  • Slide 74
  • Slide 75
  • Slide 76
  • Slide 77
  • Рутинная процедура или как строят деревья
  • Slide 79
  • Slide 80
  • Slide 81
  • Slide 82
  • Slide 83
  • Slide 84
  • Slide 85
  • Slide 86
  • Slide 87
  • Slide 88
  • Slide 89
  • Как выбирать последовательности для дерева
  • Самое главное ndash хорошее выравнивание
  • Основные алгоритмы построения филогенетических деревьев
  • Пример матрицы расстояний
  • Slide 94
  • Гипотеза laquoмолекулярных часовraquo (EZuckerkandl LPauling 1962)
  • UPGMA Unweighted Pair Group Method with Arithmetic Mean
  • Недостатки UPGMA
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Метод Neighbor-joining
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Slide 101
  • Как изобразить дерево Топология дерева
  • Slide 103
  • Какие on-line программы строят деревья
  • MEGA филогенетический анализ последовательностей
  • Slide 106
  • Slide 107
  • Slide 108
Page 83: Bestfit Output

Spinach Rice Mosquito Monkey HumanSpinach 00 9 106 91 86

Rice 00 118 122 122

Mosquito 00 55 51

Monkey 00 3

Human 00

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Дистанция между человеком и обезьяной минимальна Эти группы объединяются в Monkey-Human а все остальные дистанции пересчитываются

Dist[Spinach MonHum] = (Dist[Spinach Monkey] +

Dist[Spinach Human])2 = (91 + 86)2 = 885

Spinach Rice Mosquito Mon-HumSpinach 00 9 106 885

Rice 00 118 122

Mosquito 00 53

Mon-Hum 00

Редуцированная матрица дистанций

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Spi-Ric

HumanMosquito

Mon-Hum

MonkeySpinachRice

Mos-Mon-Hum

Spi-Ric

Mos-Mon-Hum-Spi-Ric

Как выбирать последовательности для дерева

Кроме случаев очень близких последовательностей проще работать с белками (а не с ДНК)

Придерживайтесь небольшой выборки (lt 50 последовательностей)

Избегайтеndash фрагментовndash Ксенологов (горизонтальный перенос генов)ndash рекомбинантных последовательностейndash многодоменных белков и повторов

Используйте outgroup (последовательность ответвившаяся от общего предка заведомо (но минимально) раньше разделения интересующих групп-клад)

Самое главное ndash хорошее выравнивание

Максимальный вклад в финальное дерево нельзя построить хорошее дерево по плохому выравниванию

Блоки содержащие много гэпов плохо выровненные N- и C- концы можно просто вырезать

Основные алгоритмы построения филогенетических деревьев

Методы основанные на оценке

расстояний (матричные методы)

bull UPGMA (кластеризация)

bull Neighbor-joining

bull Минимальная эволюция

Наибольшего правдоподобия Maximal likelihood ML Используется модель эволюции и строится дерево которое наиболее правдоподобно при данной модели

Максимальной экономии (бережливости)

maximal parsimony MP Выбирается дерево с минимальным количеством

мутаций необходимых для объяснения данных

Пример матрицы расстояний

1 2 3 4 5 6 7 8 000 1053 977 1278 1203 1654 1353 2500 HUMAN 1

000 902 1203 977 1579 902 2727 HORSE 2 000 977 902 1654 1203 2424 RABIT 3

000 226 1729 1053 2576 MOUSE 4 000 1579 827 2576 RAT 5

000 1053 2955 BOVIN 6 000 2500 PIG 7

000 CHICK 8

Расстояние (уровень дивергенции) между соответствующими последовательностями из геномов мыши и свиньи

Как понимать расстояние между объектами

bull Как время в течение которого они эволюционировалиbull Как число laquoэволюционных событийraquo (мутаций)

В первом случае объекты образуют ультраметрическое пространство(если все объекты наблюдаются в одно время что как правило верно)

Но время непосредственно измерить невозможно

Гипотеза laquoмолекулярных часовraquo(EZuckerkandl LPauling 1962)

За равное время во всех ветвях эволюции данного генабелка накапливается равное число мутацийЕсли гипотеза молекулярных часов

принимается число различий между выровненными последовательностями можно считать примерно пропорциональным времени Отклонения от ультраметричности можно считать случайными Эволюция реконструируется в виде ультраметрического дерева

Укоренённое дерево называется ультраметрическим если расстояние от корня до любого из листьев одинаково

UPGMAUnweighted Pair Group Method with Arithmetic Mean

разновидность кластерного метода

Расстояние между кластерами вычисляется как среднее арифметическое всевозможных расстояний между последовательностями из кластеров

Недостатки UPGMA

Алгоритм строит ультраметрическое дерево ndash скорость эволюции предполагается одинаковой для всех ветвей дерева Использовать этот алгоритм имеет смысл только в случае ультраметрических данных (справедливости laquoмолекулярных часовraquo)

Реальное дерево UPGMA

Метод ближайших соседей (Neighbor-joining NJ)

Строит неукоренённое дерево

Может работать с большим количеством данных

Достаточно быстрый

Если есть недвусмысленное с точки зрения эксперта дерево то оно будет построено

Метод Neighbor-joining

Рисуем laquoзвездноеraquo дерево и будем laquoотщипыватьraquo от него по паре листьев

Пусть ui = Σk Mik(n-2) mdash среднее расстояние от листа i до других

листьев

1 Рассмотрим все возможные пары листьев Выберем 2 листа i и j с минимальным значением величины

Mij ndash ui ndashuj

те выбираем 2 узла которые близки друг к другу но далеки ото всех остальных

Метод ближайших соседей (Neighbor-joining NJ)

2 Кластер (i j) ndash новый узел дерева

Расстояние от i или от j до узла (ij) D(i (ij)) = 05middot(Mij + ui ndash uj) D(j (ij)) = 05middot (Mij + uj ndash ui) те длина ветви зависит от среднего расстояния до других вершин

3 Вычисляем расстояние от нового кластера до всех других

M(ij)k = Mik+Mjk ndash Mij 2

5 В матрице М убираем i и j и добавляем (i j) Повторяем пока не останутся 3 узла

Input MSA для n последовательностей одна последовательность для каждого вида

AAAAATC

AAAAAAG

CCCCCCG

AAAAATCAAAAAAG

CCCCCCG

Длинная ветвь ndash непохоже на правду

Длинная ветвь -Похоже на правду

Методы основанные на последовательностях Maximum Likelihood (ML) Maximum Parsimony (MP)

Как изобразить дерево Топология дерева

Топология дерева mdash только листья узлы (корень) и связывающие их ветви (топология не зависит от способа изображения дерева)

A

B

C

D

E A BC D E

Два изображения одной и той же топологии

Bacterium 1

Bacterium 3

Bacterium 2

Eukaryote 1

Eukaryote 4

Eukaryote 3

Eukaryote 2

Bacterium 1

Bacterium 3Bacterium 2

Eukaryote 1

Eukaryote 4Eukaryote 3

Eukaryote 2

Филограммы ndash длины ветвей

пропорциональны

эволюционному расстоянию

Кладограммы и филограммы

Кладограммы ndash только

топологя Длины ветвей не

учитываются

6

31

2

46

24

53

Как можно нарисовать построенное дерево

Какие on-line программы строят деревья

ClustalW ldquoTree typerdquo ndash nj phylip строит только методом NJ но результат ndash в разных форматах no bootstraps

Phylip (Felsenstein 1993) ndash пакет программ для построения филогенетических деревьев (stand-alone)On-line (partly) например

httpbiowebpasteurfrseqanalphylogenyphylip-ukhtml PAUP (Phylogenetic Analysis Using Parsimony)

MEGA филогенетический анализ последовательностей

httpwwwmegasoftwarenet

Эволюция ndash исторический процесс

Из 8200794532637891559375 деревьев для 20 OTUs 1

является верным и 8200794532637891559374

неверны

Truth is one falsehoods are many

Какое из 8200794532637891559375

деревьев истинно

Мы не знаем Можно применить иные критетии

Например ldquoпохожесть=родствоraquo

GCGbull Строковый поиск простой текстовый

поиск по локальной базе данных

bull Поиск в определениях или в аннотациях

bull Определения содержат минимальное количество информации для каждой статьи доступ имя организма имя гена длина последовательности дата

  • Bestfit Output
  • SP1 at swissprot
  • EGR1 at swissprot
  • Вывод
  • Bl2Seq at NCBI
  • Bl2seq results
  • Bl2seq оценка
  • Оптимизация времени вычислений при парном выравнивании
  • Slide 9
  • Алгоритм BLAST (шаг 1)
  • Slide 11
  • Blast
  • Поиск гомологов
  • ДНК или белок
  • ДНК
  • Slide 16
  • Slide 17
  • Двойная спираль
  • ДНК дальнейшая упаковка
  • Slide 20
  • Репликация ДНК
  • Slide 22
  • Slide 23
  • Slide 24
  • Slide 25
  • Множественное выравнивание последовательностей (MSA)
  • Slide 27
  • Основные предположения
  • Например
  • Почему множественное выравнивание
  • Slide 31
  • Подходы в MSA
  • MSA algorithm
  • Multiple Alignment - алгоритм
  • Комментарии
  • GCG
  • Slide 37
  • GCG
  • Slide 39
  • Slide 40
  • Slide 41
  • ClustalW
  • Slide 43
  • Slide 44
  • ClustalW на EMBL
  • ClustalW на EMBL - результат
  • ClustalW at EMBL - Jalview
  • Consensus Sequence
  • Профиль (Profile)
  • Profile vs Consensus
  • Slide 51
  • Slide 52
  • Psi Blast (NCBI)
  • PSI-Blast
  • Psi-Blast вывод
  • Slide 56
  • Филогенез
  • Slide 58
  • Slide 59
  • Slide 60
  • Slide 61
  • Древо видов и генов
  • Ортологи и паралоги
  • Шаги реконструирования филогенетического древа
  • Филогенетическое дерево
  • Зачем нужны филогенетические деревья
  • Терминология
  • Slide 68
  • Какие бывают деревья
  • Slide 70
  • Slide 71
  • Slide 72
  • 4 OTUs 3 неукорененных филогенетических деревьев
  • Slide 74
  • Slide 75
  • Slide 76
  • Slide 77
  • Рутинная процедура или как строят деревья
  • Slide 79
  • Slide 80
  • Slide 81
  • Slide 82
  • Slide 83
  • Slide 84
  • Slide 85
  • Slide 86
  • Slide 87
  • Slide 88
  • Slide 89
  • Как выбирать последовательности для дерева
  • Самое главное ndash хорошее выравнивание
  • Основные алгоритмы построения филогенетических деревьев
  • Пример матрицы расстояний
  • Slide 94
  • Гипотеза laquoмолекулярных часовraquo (EZuckerkandl LPauling 1962)
  • UPGMA Unweighted Pair Group Method with Arithmetic Mean
  • Недостатки UPGMA
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Метод Neighbor-joining
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Slide 101
  • Как изобразить дерево Топология дерева
  • Slide 103
  • Какие on-line программы строят деревья
  • MEGA филогенетический анализ последовательностей
  • Slide 106
  • Slide 107
  • Slide 108
Page 84: Bestfit Output

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Дистанция между человеком и обезьяной минимальна Эти группы объединяются в Monkey-Human а все остальные дистанции пересчитываются

Dist[Spinach MonHum] = (Dist[Spinach Monkey] +

Dist[Spinach Human])2 = (91 + 86)2 = 885

Spinach Rice Mosquito Mon-HumSpinach 00 9 106 885

Rice 00 118 122

Mosquito 00 53

Mon-Hum 00

Редуцированная матрица дистанций

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Spi-Ric

HumanMosquito

Mon-Hum

MonkeySpinachRice

Mos-Mon-Hum

Spi-Ric

Mos-Mon-Hum-Spi-Ric

Как выбирать последовательности для дерева

Кроме случаев очень близких последовательностей проще работать с белками (а не с ДНК)

Придерживайтесь небольшой выборки (lt 50 последовательностей)

Избегайтеndash фрагментовndash Ксенологов (горизонтальный перенос генов)ndash рекомбинантных последовательностейndash многодоменных белков и повторов

Используйте outgroup (последовательность ответвившаяся от общего предка заведомо (но минимально) раньше разделения интересующих групп-клад)

Самое главное ndash хорошее выравнивание

Максимальный вклад в финальное дерево нельзя построить хорошее дерево по плохому выравниванию

Блоки содержащие много гэпов плохо выровненные N- и C- концы можно просто вырезать

Основные алгоритмы построения филогенетических деревьев

Методы основанные на оценке

расстояний (матричные методы)

bull UPGMA (кластеризация)

bull Neighbor-joining

bull Минимальная эволюция

Наибольшего правдоподобия Maximal likelihood ML Используется модель эволюции и строится дерево которое наиболее правдоподобно при данной модели

Максимальной экономии (бережливости)

maximal parsimony MP Выбирается дерево с минимальным количеством

мутаций необходимых для объяснения данных

Пример матрицы расстояний

1 2 3 4 5 6 7 8 000 1053 977 1278 1203 1654 1353 2500 HUMAN 1

000 902 1203 977 1579 902 2727 HORSE 2 000 977 902 1654 1203 2424 RABIT 3

000 226 1729 1053 2576 MOUSE 4 000 1579 827 2576 RAT 5

000 1053 2955 BOVIN 6 000 2500 PIG 7

000 CHICK 8

Расстояние (уровень дивергенции) между соответствующими последовательностями из геномов мыши и свиньи

Как понимать расстояние между объектами

bull Как время в течение которого они эволюционировалиbull Как число laquoэволюционных событийraquo (мутаций)

В первом случае объекты образуют ультраметрическое пространство(если все объекты наблюдаются в одно время что как правило верно)

Но время непосредственно измерить невозможно

Гипотеза laquoмолекулярных часовraquo(EZuckerkandl LPauling 1962)

За равное время во всех ветвях эволюции данного генабелка накапливается равное число мутацийЕсли гипотеза молекулярных часов

принимается число различий между выровненными последовательностями можно считать примерно пропорциональным времени Отклонения от ультраметричности можно считать случайными Эволюция реконструируется в виде ультраметрического дерева

Укоренённое дерево называется ультраметрическим если расстояние от корня до любого из листьев одинаково

UPGMAUnweighted Pair Group Method with Arithmetic Mean

разновидность кластерного метода

Расстояние между кластерами вычисляется как среднее арифметическое всевозможных расстояний между последовательностями из кластеров

Недостатки UPGMA

Алгоритм строит ультраметрическое дерево ndash скорость эволюции предполагается одинаковой для всех ветвей дерева Использовать этот алгоритм имеет смысл только в случае ультраметрических данных (справедливости laquoмолекулярных часовraquo)

Реальное дерево UPGMA

Метод ближайших соседей (Neighbor-joining NJ)

Строит неукоренённое дерево

Может работать с большим количеством данных

Достаточно быстрый

Если есть недвусмысленное с точки зрения эксперта дерево то оно будет построено

Метод Neighbor-joining

Рисуем laquoзвездноеraquo дерево и будем laquoотщипыватьraquo от него по паре листьев

Пусть ui = Σk Mik(n-2) mdash среднее расстояние от листа i до других

листьев

1 Рассмотрим все возможные пары листьев Выберем 2 листа i и j с минимальным значением величины

Mij ndash ui ndashuj

те выбираем 2 узла которые близки друг к другу но далеки ото всех остальных

Метод ближайших соседей (Neighbor-joining NJ)

2 Кластер (i j) ndash новый узел дерева

Расстояние от i или от j до узла (ij) D(i (ij)) = 05middot(Mij + ui ndash uj) D(j (ij)) = 05middot (Mij + uj ndash ui) те длина ветви зависит от среднего расстояния до других вершин

3 Вычисляем расстояние от нового кластера до всех других

M(ij)k = Mik+Mjk ndash Mij 2

5 В матрице М убираем i и j и добавляем (i j) Повторяем пока не останутся 3 узла

Input MSA для n последовательностей одна последовательность для каждого вида

AAAAATC

AAAAAAG

CCCCCCG

AAAAATCAAAAAAG

CCCCCCG

Длинная ветвь ndash непохоже на правду

Длинная ветвь -Похоже на правду

Методы основанные на последовательностях Maximum Likelihood (ML) Maximum Parsimony (MP)

Как изобразить дерево Топология дерева

Топология дерева mdash только листья узлы (корень) и связывающие их ветви (топология не зависит от способа изображения дерева)

A

B

C

D

E A BC D E

Два изображения одной и той же топологии

Bacterium 1

Bacterium 3

Bacterium 2

Eukaryote 1

Eukaryote 4

Eukaryote 3

Eukaryote 2

Bacterium 1

Bacterium 3Bacterium 2

Eukaryote 1

Eukaryote 4Eukaryote 3

Eukaryote 2

Филограммы ndash длины ветвей

пропорциональны

эволюционному расстоянию

Кладограммы и филограммы

Кладограммы ndash только

топологя Длины ветвей не

учитываются

6

31

2

46

24

53

Как можно нарисовать построенное дерево

Какие on-line программы строят деревья

ClustalW ldquoTree typerdquo ndash nj phylip строит только методом NJ но результат ndash в разных форматах no bootstraps

Phylip (Felsenstein 1993) ndash пакет программ для построения филогенетических деревьев (stand-alone)On-line (partly) например

httpbiowebpasteurfrseqanalphylogenyphylip-ukhtml PAUP (Phylogenetic Analysis Using Parsimony)

MEGA филогенетический анализ последовательностей

httpwwwmegasoftwarenet

Эволюция ndash исторический процесс

Из 8200794532637891559375 деревьев для 20 OTUs 1

является верным и 8200794532637891559374

неверны

Truth is one falsehoods are many

Какое из 8200794532637891559375

деревьев истинно

Мы не знаем Можно применить иные критетии

Например ldquoпохожесть=родствоraquo

GCGbull Строковый поиск простой текстовый

поиск по локальной базе данных

bull Поиск в определениях или в аннотациях

bull Определения содержат минимальное количество информации для каждой статьи доступ имя организма имя гена длина последовательности дата

  • Bestfit Output
  • SP1 at swissprot
  • EGR1 at swissprot
  • Вывод
  • Bl2Seq at NCBI
  • Bl2seq results
  • Bl2seq оценка
  • Оптимизация времени вычислений при парном выравнивании
  • Slide 9
  • Алгоритм BLAST (шаг 1)
  • Slide 11
  • Blast
  • Поиск гомологов
  • ДНК или белок
  • ДНК
  • Slide 16
  • Slide 17
  • Двойная спираль
  • ДНК дальнейшая упаковка
  • Slide 20
  • Репликация ДНК
  • Slide 22
  • Slide 23
  • Slide 24
  • Slide 25
  • Множественное выравнивание последовательностей (MSA)
  • Slide 27
  • Основные предположения
  • Например
  • Почему множественное выравнивание
  • Slide 31
  • Подходы в MSA
  • MSA algorithm
  • Multiple Alignment - алгоритм
  • Комментарии
  • GCG
  • Slide 37
  • GCG
  • Slide 39
  • Slide 40
  • Slide 41
  • ClustalW
  • Slide 43
  • Slide 44
  • ClustalW на EMBL
  • ClustalW на EMBL - результат
  • ClustalW at EMBL - Jalview
  • Consensus Sequence
  • Профиль (Profile)
  • Profile vs Consensus
  • Slide 51
  • Slide 52
  • Psi Blast (NCBI)
  • PSI-Blast
  • Psi-Blast вывод
  • Slide 56
  • Филогенез
  • Slide 58
  • Slide 59
  • Slide 60
  • Slide 61
  • Древо видов и генов
  • Ортологи и паралоги
  • Шаги реконструирования филогенетического древа
  • Филогенетическое дерево
  • Зачем нужны филогенетические деревья
  • Терминология
  • Slide 68
  • Какие бывают деревья
  • Slide 70
  • Slide 71
  • Slide 72
  • 4 OTUs 3 неукорененных филогенетических деревьев
  • Slide 74
  • Slide 75
  • Slide 76
  • Slide 77
  • Рутинная процедура или как строят деревья
  • Slide 79
  • Slide 80
  • Slide 81
  • Slide 82
  • Slide 83
  • Slide 84
  • Slide 85
  • Slide 86
  • Slide 87
  • Slide 88
  • Slide 89
  • Как выбирать последовательности для дерева
  • Самое главное ndash хорошее выравнивание
  • Основные алгоритмы построения филогенетических деревьев
  • Пример матрицы расстояний
  • Slide 94
  • Гипотеза laquoмолекулярных часовraquo (EZuckerkandl LPauling 1962)
  • UPGMA Unweighted Pair Group Method with Arithmetic Mean
  • Недостатки UPGMA
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Метод Neighbor-joining
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Slide 101
  • Как изобразить дерево Топология дерева
  • Slide 103
  • Какие on-line программы строят деревья
  • MEGA филогенетический анализ последовательностей
  • Slide 106
  • Slide 107
  • Slide 108
Page 85: Bestfit Output

Spinach Rice Mosquito Mon-HumSpinach 00 9 106 885

Rice 00 118 122

Mosquito 00 53

Mon-Hum 00

Редуцированная матрица дистанций

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Spi-Ric

HumanMosquito

Mon-Hum

MonkeySpinachRice

Mos-Mon-Hum

Spi-Ric

Mos-Mon-Hum-Spi-Ric

Как выбирать последовательности для дерева

Кроме случаев очень близких последовательностей проще работать с белками (а не с ДНК)

Придерживайтесь небольшой выборки (lt 50 последовательностей)

Избегайтеndash фрагментовndash Ксенологов (горизонтальный перенос генов)ndash рекомбинантных последовательностейndash многодоменных белков и повторов

Используйте outgroup (последовательность ответвившаяся от общего предка заведомо (но минимально) раньше разделения интересующих групп-клад)

Самое главное ndash хорошее выравнивание

Максимальный вклад в финальное дерево нельзя построить хорошее дерево по плохому выравниванию

Блоки содержащие много гэпов плохо выровненные N- и C- концы можно просто вырезать

Основные алгоритмы построения филогенетических деревьев

Методы основанные на оценке

расстояний (матричные методы)

bull UPGMA (кластеризация)

bull Neighbor-joining

bull Минимальная эволюция

Наибольшего правдоподобия Maximal likelihood ML Используется модель эволюции и строится дерево которое наиболее правдоподобно при данной модели

Максимальной экономии (бережливости)

maximal parsimony MP Выбирается дерево с минимальным количеством

мутаций необходимых для объяснения данных

Пример матрицы расстояний

1 2 3 4 5 6 7 8 000 1053 977 1278 1203 1654 1353 2500 HUMAN 1

000 902 1203 977 1579 902 2727 HORSE 2 000 977 902 1654 1203 2424 RABIT 3

000 226 1729 1053 2576 MOUSE 4 000 1579 827 2576 RAT 5

000 1053 2955 BOVIN 6 000 2500 PIG 7

000 CHICK 8

Расстояние (уровень дивергенции) между соответствующими последовательностями из геномов мыши и свиньи

Как понимать расстояние между объектами

bull Как время в течение которого они эволюционировалиbull Как число laquoэволюционных событийraquo (мутаций)

В первом случае объекты образуют ультраметрическое пространство(если все объекты наблюдаются в одно время что как правило верно)

Но время непосредственно измерить невозможно

Гипотеза laquoмолекулярных часовraquo(EZuckerkandl LPauling 1962)

За равное время во всех ветвях эволюции данного генабелка накапливается равное число мутацийЕсли гипотеза молекулярных часов

принимается число различий между выровненными последовательностями можно считать примерно пропорциональным времени Отклонения от ультраметричности можно считать случайными Эволюция реконструируется в виде ультраметрического дерева

Укоренённое дерево называется ультраметрическим если расстояние от корня до любого из листьев одинаково

UPGMAUnweighted Pair Group Method with Arithmetic Mean

разновидность кластерного метода

Расстояние между кластерами вычисляется как среднее арифметическое всевозможных расстояний между последовательностями из кластеров

Недостатки UPGMA

Алгоритм строит ультраметрическое дерево ndash скорость эволюции предполагается одинаковой для всех ветвей дерева Использовать этот алгоритм имеет смысл только в случае ультраметрических данных (справедливости laquoмолекулярных часовraquo)

Реальное дерево UPGMA

Метод ближайших соседей (Neighbor-joining NJ)

Строит неукоренённое дерево

Может работать с большим количеством данных

Достаточно быстрый

Если есть недвусмысленное с точки зрения эксперта дерево то оно будет построено

Метод Neighbor-joining

Рисуем laquoзвездноеraquo дерево и будем laquoотщипыватьraquo от него по паре листьев

Пусть ui = Σk Mik(n-2) mdash среднее расстояние от листа i до других

листьев

1 Рассмотрим все возможные пары листьев Выберем 2 листа i и j с минимальным значением величины

Mij ndash ui ndashuj

те выбираем 2 узла которые близки друг к другу но далеки ото всех остальных

Метод ближайших соседей (Neighbor-joining NJ)

2 Кластер (i j) ndash новый узел дерева

Расстояние от i или от j до узла (ij) D(i (ij)) = 05middot(Mij + ui ndash uj) D(j (ij)) = 05middot (Mij + uj ndash ui) те длина ветви зависит от среднего расстояния до других вершин

3 Вычисляем расстояние от нового кластера до всех других

M(ij)k = Mik+Mjk ndash Mij 2

5 В матрице М убираем i и j и добавляем (i j) Повторяем пока не останутся 3 узла

Input MSA для n последовательностей одна последовательность для каждого вида

AAAAATC

AAAAAAG

CCCCCCG

AAAAATCAAAAAAG

CCCCCCG

Длинная ветвь ndash непохоже на правду

Длинная ветвь -Похоже на правду

Методы основанные на последовательностях Maximum Likelihood (ML) Maximum Parsimony (MP)

Как изобразить дерево Топология дерева

Топология дерева mdash только листья узлы (корень) и связывающие их ветви (топология не зависит от способа изображения дерева)

A

B

C

D

E A BC D E

Два изображения одной и той же топологии

Bacterium 1

Bacterium 3

Bacterium 2

Eukaryote 1

Eukaryote 4

Eukaryote 3

Eukaryote 2

Bacterium 1

Bacterium 3Bacterium 2

Eukaryote 1

Eukaryote 4Eukaryote 3

Eukaryote 2

Филограммы ndash длины ветвей

пропорциональны

эволюционному расстоянию

Кладограммы и филограммы

Кладограммы ndash только

топологя Длины ветвей не

учитываются

6

31

2

46

24

53

Как можно нарисовать построенное дерево

Какие on-line программы строят деревья

ClustalW ldquoTree typerdquo ndash nj phylip строит только методом NJ но результат ndash в разных форматах no bootstraps

Phylip (Felsenstein 1993) ndash пакет программ для построения филогенетических деревьев (stand-alone)On-line (partly) например

httpbiowebpasteurfrseqanalphylogenyphylip-ukhtml PAUP (Phylogenetic Analysis Using Parsimony)

MEGA филогенетический анализ последовательностей

httpwwwmegasoftwarenet

Эволюция ndash исторический процесс

Из 8200794532637891559375 деревьев для 20 OTUs 1

является верным и 8200794532637891559374

неверны

Truth is one falsehoods are many

Какое из 8200794532637891559375

деревьев истинно

Мы не знаем Можно применить иные критетии

Например ldquoпохожесть=родствоraquo

GCGbull Строковый поиск простой текстовый

поиск по локальной базе данных

bull Поиск в определениях или в аннотациях

bull Определения содержат минимальное количество информации для каждой статьи доступ имя организма имя гена длина последовательности дата

  • Bestfit Output
  • SP1 at swissprot
  • EGR1 at swissprot
  • Вывод
  • Bl2Seq at NCBI
  • Bl2seq results
  • Bl2seq оценка
  • Оптимизация времени вычислений при парном выравнивании
  • Slide 9
  • Алгоритм BLAST (шаг 1)
  • Slide 11
  • Blast
  • Поиск гомологов
  • ДНК или белок
  • ДНК
  • Slide 16
  • Slide 17
  • Двойная спираль
  • ДНК дальнейшая упаковка
  • Slide 20
  • Репликация ДНК
  • Slide 22
  • Slide 23
  • Slide 24
  • Slide 25
  • Множественное выравнивание последовательностей (MSA)
  • Slide 27
  • Основные предположения
  • Например
  • Почему множественное выравнивание
  • Slide 31
  • Подходы в MSA
  • MSA algorithm
  • Multiple Alignment - алгоритм
  • Комментарии
  • GCG
  • Slide 37
  • GCG
  • Slide 39
  • Slide 40
  • Slide 41
  • ClustalW
  • Slide 43
  • Slide 44
  • ClustalW на EMBL
  • ClustalW на EMBL - результат
  • ClustalW at EMBL - Jalview
  • Consensus Sequence
  • Профиль (Profile)
  • Profile vs Consensus
  • Slide 51
  • Slide 52
  • Psi Blast (NCBI)
  • PSI-Blast
  • Psi-Blast вывод
  • Slide 56
  • Филогенез
  • Slide 58
  • Slide 59
  • Slide 60
  • Slide 61
  • Древо видов и генов
  • Ортологи и паралоги
  • Шаги реконструирования филогенетического древа
  • Филогенетическое дерево
  • Зачем нужны филогенетические деревья
  • Терминология
  • Slide 68
  • Какие бывают деревья
  • Slide 70
  • Slide 71
  • Slide 72
  • 4 OTUs 3 неукорененных филогенетических деревьев
  • Slide 74
  • Slide 75
  • Slide 76
  • Slide 77
  • Рутинная процедура или как строят деревья
  • Slide 79
  • Slide 80
  • Slide 81
  • Slide 82
  • Slide 83
  • Slide 84
  • Slide 85
  • Slide 86
  • Slide 87
  • Slide 88
  • Slide 89
  • Как выбирать последовательности для дерева
  • Самое главное ndash хорошее выравнивание
  • Основные алгоритмы построения филогенетических деревьев
  • Пример матрицы расстояний
  • Slide 94
  • Гипотеза laquoмолекулярных часовraquo (EZuckerkandl LPauling 1962)
  • UPGMA Unweighted Pair Group Method with Arithmetic Mean
  • Недостатки UPGMA
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Метод Neighbor-joining
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Slide 101
  • Как изобразить дерево Топология дерева
  • Slide 103
  • Какие on-line программы строят деревья
  • MEGA филогенетический анализ последовательностей
  • Slide 106
  • Slide 107
  • Slide 108
Page 86: Bestfit Output

Mon-Hum

MonkeyHumanSpinachMosquito Rice

Spi-Ric

HumanMosquito

Mon-Hum

MonkeySpinachRice

Mos-Mon-Hum

Spi-Ric

Mos-Mon-Hum-Spi-Ric

Как выбирать последовательности для дерева

Кроме случаев очень близких последовательностей проще работать с белками (а не с ДНК)

Придерживайтесь небольшой выборки (lt 50 последовательностей)

Избегайтеndash фрагментовndash Ксенологов (горизонтальный перенос генов)ndash рекомбинантных последовательностейndash многодоменных белков и повторов

Используйте outgroup (последовательность ответвившаяся от общего предка заведомо (но минимально) раньше разделения интересующих групп-клад)

Самое главное ndash хорошее выравнивание

Максимальный вклад в финальное дерево нельзя построить хорошее дерево по плохому выравниванию

Блоки содержащие много гэпов плохо выровненные N- и C- концы можно просто вырезать

Основные алгоритмы построения филогенетических деревьев

Методы основанные на оценке

расстояний (матричные методы)

bull UPGMA (кластеризация)

bull Neighbor-joining

bull Минимальная эволюция

Наибольшего правдоподобия Maximal likelihood ML Используется модель эволюции и строится дерево которое наиболее правдоподобно при данной модели

Максимальной экономии (бережливости)

maximal parsimony MP Выбирается дерево с минимальным количеством

мутаций необходимых для объяснения данных

Пример матрицы расстояний

1 2 3 4 5 6 7 8 000 1053 977 1278 1203 1654 1353 2500 HUMAN 1

000 902 1203 977 1579 902 2727 HORSE 2 000 977 902 1654 1203 2424 RABIT 3

000 226 1729 1053 2576 MOUSE 4 000 1579 827 2576 RAT 5

000 1053 2955 BOVIN 6 000 2500 PIG 7

000 CHICK 8

Расстояние (уровень дивергенции) между соответствующими последовательностями из геномов мыши и свиньи

Как понимать расстояние между объектами

bull Как время в течение которого они эволюционировалиbull Как число laquoэволюционных событийraquo (мутаций)

В первом случае объекты образуют ультраметрическое пространство(если все объекты наблюдаются в одно время что как правило верно)

Но время непосредственно измерить невозможно

Гипотеза laquoмолекулярных часовraquo(EZuckerkandl LPauling 1962)

За равное время во всех ветвях эволюции данного генабелка накапливается равное число мутацийЕсли гипотеза молекулярных часов

принимается число различий между выровненными последовательностями можно считать примерно пропорциональным времени Отклонения от ультраметричности можно считать случайными Эволюция реконструируется в виде ультраметрического дерева

Укоренённое дерево называется ультраметрическим если расстояние от корня до любого из листьев одинаково

UPGMAUnweighted Pair Group Method with Arithmetic Mean

разновидность кластерного метода

Расстояние между кластерами вычисляется как среднее арифметическое всевозможных расстояний между последовательностями из кластеров

Недостатки UPGMA

Алгоритм строит ультраметрическое дерево ndash скорость эволюции предполагается одинаковой для всех ветвей дерева Использовать этот алгоритм имеет смысл только в случае ультраметрических данных (справедливости laquoмолекулярных часовraquo)

Реальное дерево UPGMA

Метод ближайших соседей (Neighbor-joining NJ)

Строит неукоренённое дерево

Может работать с большим количеством данных

Достаточно быстрый

Если есть недвусмысленное с точки зрения эксперта дерево то оно будет построено

Метод Neighbor-joining

Рисуем laquoзвездноеraquo дерево и будем laquoотщипыватьraquo от него по паре листьев

Пусть ui = Σk Mik(n-2) mdash среднее расстояние от листа i до других

листьев

1 Рассмотрим все возможные пары листьев Выберем 2 листа i и j с минимальным значением величины

Mij ndash ui ndashuj

те выбираем 2 узла которые близки друг к другу но далеки ото всех остальных

Метод ближайших соседей (Neighbor-joining NJ)

2 Кластер (i j) ndash новый узел дерева

Расстояние от i или от j до узла (ij) D(i (ij)) = 05middot(Mij + ui ndash uj) D(j (ij)) = 05middot (Mij + uj ndash ui) те длина ветви зависит от среднего расстояния до других вершин

3 Вычисляем расстояние от нового кластера до всех других

M(ij)k = Mik+Mjk ndash Mij 2

5 В матрице М убираем i и j и добавляем (i j) Повторяем пока не останутся 3 узла

Input MSA для n последовательностей одна последовательность для каждого вида

AAAAATC

AAAAAAG

CCCCCCG

AAAAATCAAAAAAG

CCCCCCG

Длинная ветвь ndash непохоже на правду

Длинная ветвь -Похоже на правду

Методы основанные на последовательностях Maximum Likelihood (ML) Maximum Parsimony (MP)

Как изобразить дерево Топология дерева

Топология дерева mdash только листья узлы (корень) и связывающие их ветви (топология не зависит от способа изображения дерева)

A

B

C

D

E A BC D E

Два изображения одной и той же топологии

Bacterium 1

Bacterium 3

Bacterium 2

Eukaryote 1

Eukaryote 4

Eukaryote 3

Eukaryote 2

Bacterium 1

Bacterium 3Bacterium 2

Eukaryote 1

Eukaryote 4Eukaryote 3

Eukaryote 2

Филограммы ndash длины ветвей

пропорциональны

эволюционному расстоянию

Кладограммы и филограммы

Кладограммы ndash только

топологя Длины ветвей не

учитываются

6

31

2

46

24

53

Как можно нарисовать построенное дерево

Какие on-line программы строят деревья

ClustalW ldquoTree typerdquo ndash nj phylip строит только методом NJ но результат ndash в разных форматах no bootstraps

Phylip (Felsenstein 1993) ndash пакет программ для построения филогенетических деревьев (stand-alone)On-line (partly) например

httpbiowebpasteurfrseqanalphylogenyphylip-ukhtml PAUP (Phylogenetic Analysis Using Parsimony)

MEGA филогенетический анализ последовательностей

httpwwwmegasoftwarenet

Эволюция ndash исторический процесс

Из 8200794532637891559375 деревьев для 20 OTUs 1

является верным и 8200794532637891559374

неверны

Truth is one falsehoods are many

Какое из 8200794532637891559375

деревьев истинно

Мы не знаем Можно применить иные критетии

Например ldquoпохожесть=родствоraquo

GCGbull Строковый поиск простой текстовый

поиск по локальной базе данных

bull Поиск в определениях или в аннотациях

bull Определения содержат минимальное количество информации для каждой статьи доступ имя организма имя гена длина последовательности дата

  • Bestfit Output
  • SP1 at swissprot
  • EGR1 at swissprot
  • Вывод
  • Bl2Seq at NCBI
  • Bl2seq results
  • Bl2seq оценка
  • Оптимизация времени вычислений при парном выравнивании
  • Slide 9
  • Алгоритм BLAST (шаг 1)
  • Slide 11
  • Blast
  • Поиск гомологов
  • ДНК или белок
  • ДНК
  • Slide 16
  • Slide 17
  • Двойная спираль
  • ДНК дальнейшая упаковка
  • Slide 20
  • Репликация ДНК
  • Slide 22
  • Slide 23
  • Slide 24
  • Slide 25
  • Множественное выравнивание последовательностей (MSA)
  • Slide 27
  • Основные предположения
  • Например
  • Почему множественное выравнивание
  • Slide 31
  • Подходы в MSA
  • MSA algorithm
  • Multiple Alignment - алгоритм
  • Комментарии
  • GCG
  • Slide 37
  • GCG
  • Slide 39
  • Slide 40
  • Slide 41
  • ClustalW
  • Slide 43
  • Slide 44
  • ClustalW на EMBL
  • ClustalW на EMBL - результат
  • ClustalW at EMBL - Jalview
  • Consensus Sequence
  • Профиль (Profile)
  • Profile vs Consensus
  • Slide 51
  • Slide 52
  • Psi Blast (NCBI)
  • PSI-Blast
  • Psi-Blast вывод
  • Slide 56
  • Филогенез
  • Slide 58
  • Slide 59
  • Slide 60
  • Slide 61
  • Древо видов и генов
  • Ортологи и паралоги
  • Шаги реконструирования филогенетического древа
  • Филогенетическое дерево
  • Зачем нужны филогенетические деревья
  • Терминология
  • Slide 68
  • Какие бывают деревья
  • Slide 70
  • Slide 71
  • Slide 72
  • 4 OTUs 3 неукорененных филогенетических деревьев
  • Slide 74
  • Slide 75
  • Slide 76
  • Slide 77
  • Рутинная процедура или как строят деревья
  • Slide 79
  • Slide 80
  • Slide 81
  • Slide 82
  • Slide 83
  • Slide 84
  • Slide 85
  • Slide 86
  • Slide 87
  • Slide 88
  • Slide 89
  • Как выбирать последовательности для дерева
  • Самое главное ndash хорошее выравнивание
  • Основные алгоритмы построения филогенетических деревьев
  • Пример матрицы расстояний
  • Slide 94
  • Гипотеза laquoмолекулярных часовraquo (EZuckerkandl LPauling 1962)
  • UPGMA Unweighted Pair Group Method with Arithmetic Mean
  • Недостатки UPGMA
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Метод Neighbor-joining
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Slide 101
  • Как изобразить дерево Топология дерева
  • Slide 103
  • Какие on-line программы строят деревья
  • MEGA филогенетический анализ последовательностей
  • Slide 106
  • Slide 107
  • Slide 108
Page 87: Bestfit Output

HumanMosquito

Mon-Hum

MonkeySpinachRice

Mos-Mon-Hum

Spi-Ric

Mos-Mon-Hum-Spi-Ric

Как выбирать последовательности для дерева

Кроме случаев очень близких последовательностей проще работать с белками (а не с ДНК)

Придерживайтесь небольшой выборки (lt 50 последовательностей)

Избегайтеndash фрагментовndash Ксенологов (горизонтальный перенос генов)ndash рекомбинантных последовательностейndash многодоменных белков и повторов

Используйте outgroup (последовательность ответвившаяся от общего предка заведомо (но минимально) раньше разделения интересующих групп-клад)

Самое главное ndash хорошее выравнивание

Максимальный вклад в финальное дерево нельзя построить хорошее дерево по плохому выравниванию

Блоки содержащие много гэпов плохо выровненные N- и C- концы можно просто вырезать

Основные алгоритмы построения филогенетических деревьев

Методы основанные на оценке

расстояний (матричные методы)

bull UPGMA (кластеризация)

bull Neighbor-joining

bull Минимальная эволюция

Наибольшего правдоподобия Maximal likelihood ML Используется модель эволюции и строится дерево которое наиболее правдоподобно при данной модели

Максимальной экономии (бережливости)

maximal parsimony MP Выбирается дерево с минимальным количеством

мутаций необходимых для объяснения данных

Пример матрицы расстояний

1 2 3 4 5 6 7 8 000 1053 977 1278 1203 1654 1353 2500 HUMAN 1

000 902 1203 977 1579 902 2727 HORSE 2 000 977 902 1654 1203 2424 RABIT 3

000 226 1729 1053 2576 MOUSE 4 000 1579 827 2576 RAT 5

000 1053 2955 BOVIN 6 000 2500 PIG 7

000 CHICK 8

Расстояние (уровень дивергенции) между соответствующими последовательностями из геномов мыши и свиньи

Как понимать расстояние между объектами

bull Как время в течение которого они эволюционировалиbull Как число laquoэволюционных событийraquo (мутаций)

В первом случае объекты образуют ультраметрическое пространство(если все объекты наблюдаются в одно время что как правило верно)

Но время непосредственно измерить невозможно

Гипотеза laquoмолекулярных часовraquo(EZuckerkandl LPauling 1962)

За равное время во всех ветвях эволюции данного генабелка накапливается равное число мутацийЕсли гипотеза молекулярных часов

принимается число различий между выровненными последовательностями можно считать примерно пропорциональным времени Отклонения от ультраметричности можно считать случайными Эволюция реконструируется в виде ультраметрического дерева

Укоренённое дерево называется ультраметрическим если расстояние от корня до любого из листьев одинаково

UPGMAUnweighted Pair Group Method with Arithmetic Mean

разновидность кластерного метода

Расстояние между кластерами вычисляется как среднее арифметическое всевозможных расстояний между последовательностями из кластеров

Недостатки UPGMA

Алгоритм строит ультраметрическое дерево ndash скорость эволюции предполагается одинаковой для всех ветвей дерева Использовать этот алгоритм имеет смысл только в случае ультраметрических данных (справедливости laquoмолекулярных часовraquo)

Реальное дерево UPGMA

Метод ближайших соседей (Neighbor-joining NJ)

Строит неукоренённое дерево

Может работать с большим количеством данных

Достаточно быстрый

Если есть недвусмысленное с точки зрения эксперта дерево то оно будет построено

Метод Neighbor-joining

Рисуем laquoзвездноеraquo дерево и будем laquoотщипыватьraquo от него по паре листьев

Пусть ui = Σk Mik(n-2) mdash среднее расстояние от листа i до других

листьев

1 Рассмотрим все возможные пары листьев Выберем 2 листа i и j с минимальным значением величины

Mij ndash ui ndashuj

те выбираем 2 узла которые близки друг к другу но далеки ото всех остальных

Метод ближайших соседей (Neighbor-joining NJ)

2 Кластер (i j) ndash новый узел дерева

Расстояние от i или от j до узла (ij) D(i (ij)) = 05middot(Mij + ui ndash uj) D(j (ij)) = 05middot (Mij + uj ndash ui) те длина ветви зависит от среднего расстояния до других вершин

3 Вычисляем расстояние от нового кластера до всех других

M(ij)k = Mik+Mjk ndash Mij 2

5 В матрице М убираем i и j и добавляем (i j) Повторяем пока не останутся 3 узла

Input MSA для n последовательностей одна последовательность для каждого вида

AAAAATC

AAAAAAG

CCCCCCG

AAAAATCAAAAAAG

CCCCCCG

Длинная ветвь ndash непохоже на правду

Длинная ветвь -Похоже на правду

Методы основанные на последовательностях Maximum Likelihood (ML) Maximum Parsimony (MP)

Как изобразить дерево Топология дерева

Топология дерева mdash только листья узлы (корень) и связывающие их ветви (топология не зависит от способа изображения дерева)

A

B

C

D

E A BC D E

Два изображения одной и той же топологии

Bacterium 1

Bacterium 3

Bacterium 2

Eukaryote 1

Eukaryote 4

Eukaryote 3

Eukaryote 2

Bacterium 1

Bacterium 3Bacterium 2

Eukaryote 1

Eukaryote 4Eukaryote 3

Eukaryote 2

Филограммы ndash длины ветвей

пропорциональны

эволюционному расстоянию

Кладограммы и филограммы

Кладограммы ndash только

топологя Длины ветвей не

учитываются

6

31

2

46

24

53

Как можно нарисовать построенное дерево

Какие on-line программы строят деревья

ClustalW ldquoTree typerdquo ndash nj phylip строит только методом NJ но результат ndash в разных форматах no bootstraps

Phylip (Felsenstein 1993) ndash пакет программ для построения филогенетических деревьев (stand-alone)On-line (partly) например

httpbiowebpasteurfrseqanalphylogenyphylip-ukhtml PAUP (Phylogenetic Analysis Using Parsimony)

MEGA филогенетический анализ последовательностей

httpwwwmegasoftwarenet

Эволюция ndash исторический процесс

Из 8200794532637891559375 деревьев для 20 OTUs 1

является верным и 8200794532637891559374

неверны

Truth is one falsehoods are many

Какое из 8200794532637891559375

деревьев истинно

Мы не знаем Можно применить иные критетии

Например ldquoпохожесть=родствоraquo

GCGbull Строковый поиск простой текстовый

поиск по локальной базе данных

bull Поиск в определениях или в аннотациях

bull Определения содержат минимальное количество информации для каждой статьи доступ имя организма имя гена длина последовательности дата

  • Bestfit Output
  • SP1 at swissprot
  • EGR1 at swissprot
  • Вывод
  • Bl2Seq at NCBI
  • Bl2seq results
  • Bl2seq оценка
  • Оптимизация времени вычислений при парном выравнивании
  • Slide 9
  • Алгоритм BLAST (шаг 1)
  • Slide 11
  • Blast
  • Поиск гомологов
  • ДНК или белок
  • ДНК
  • Slide 16
  • Slide 17
  • Двойная спираль
  • ДНК дальнейшая упаковка
  • Slide 20
  • Репликация ДНК
  • Slide 22
  • Slide 23
  • Slide 24
  • Slide 25
  • Множественное выравнивание последовательностей (MSA)
  • Slide 27
  • Основные предположения
  • Например
  • Почему множественное выравнивание
  • Slide 31
  • Подходы в MSA
  • MSA algorithm
  • Multiple Alignment - алгоритм
  • Комментарии
  • GCG
  • Slide 37
  • GCG
  • Slide 39
  • Slide 40
  • Slide 41
  • ClustalW
  • Slide 43
  • Slide 44
  • ClustalW на EMBL
  • ClustalW на EMBL - результат
  • ClustalW at EMBL - Jalview
  • Consensus Sequence
  • Профиль (Profile)
  • Profile vs Consensus
  • Slide 51
  • Slide 52
  • Psi Blast (NCBI)
  • PSI-Blast
  • Psi-Blast вывод
  • Slide 56
  • Филогенез
  • Slide 58
  • Slide 59
  • Slide 60
  • Slide 61
  • Древо видов и генов
  • Ортологи и паралоги
  • Шаги реконструирования филогенетического древа
  • Филогенетическое дерево
  • Зачем нужны филогенетические деревья
  • Терминология
  • Slide 68
  • Какие бывают деревья
  • Slide 70
  • Slide 71
  • Slide 72
  • 4 OTUs 3 неукорененных филогенетических деревьев
  • Slide 74
  • Slide 75
  • Slide 76
  • Slide 77
  • Рутинная процедура или как строят деревья
  • Slide 79
  • Slide 80
  • Slide 81
  • Slide 82
  • Slide 83
  • Slide 84
  • Slide 85
  • Slide 86
  • Slide 87
  • Slide 88
  • Slide 89
  • Как выбирать последовательности для дерева
  • Самое главное ndash хорошее выравнивание
  • Основные алгоритмы построения филогенетических деревьев
  • Пример матрицы расстояний
  • Slide 94
  • Гипотеза laquoмолекулярных часовraquo (EZuckerkandl LPauling 1962)
  • UPGMA Unweighted Pair Group Method with Arithmetic Mean
  • Недостатки UPGMA
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Метод Neighbor-joining
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Slide 101
  • Как изобразить дерево Топология дерева
  • Slide 103
  • Какие on-line программы строят деревья
  • MEGA филогенетический анализ последовательностей
  • Slide 106
  • Slide 107
  • Slide 108
Page 88: Bestfit Output

Как выбирать последовательности для дерева

Кроме случаев очень близких последовательностей проще работать с белками (а не с ДНК)

Придерживайтесь небольшой выборки (lt 50 последовательностей)

Избегайтеndash фрагментовndash Ксенологов (горизонтальный перенос генов)ndash рекомбинантных последовательностейndash многодоменных белков и повторов

Используйте outgroup (последовательность ответвившаяся от общего предка заведомо (но минимально) раньше разделения интересующих групп-клад)

Самое главное ndash хорошее выравнивание

Максимальный вклад в финальное дерево нельзя построить хорошее дерево по плохому выравниванию

Блоки содержащие много гэпов плохо выровненные N- и C- концы можно просто вырезать

Основные алгоритмы построения филогенетических деревьев

Методы основанные на оценке

расстояний (матричные методы)

bull UPGMA (кластеризация)

bull Neighbor-joining

bull Минимальная эволюция

Наибольшего правдоподобия Maximal likelihood ML Используется модель эволюции и строится дерево которое наиболее правдоподобно при данной модели

Максимальной экономии (бережливости)

maximal parsimony MP Выбирается дерево с минимальным количеством

мутаций необходимых для объяснения данных

Пример матрицы расстояний

1 2 3 4 5 6 7 8 000 1053 977 1278 1203 1654 1353 2500 HUMAN 1

000 902 1203 977 1579 902 2727 HORSE 2 000 977 902 1654 1203 2424 RABIT 3

000 226 1729 1053 2576 MOUSE 4 000 1579 827 2576 RAT 5

000 1053 2955 BOVIN 6 000 2500 PIG 7

000 CHICK 8

Расстояние (уровень дивергенции) между соответствующими последовательностями из геномов мыши и свиньи

Как понимать расстояние между объектами

bull Как время в течение которого они эволюционировалиbull Как число laquoэволюционных событийraquo (мутаций)

В первом случае объекты образуют ультраметрическое пространство(если все объекты наблюдаются в одно время что как правило верно)

Но время непосредственно измерить невозможно

Гипотеза laquoмолекулярных часовraquo(EZuckerkandl LPauling 1962)

За равное время во всех ветвях эволюции данного генабелка накапливается равное число мутацийЕсли гипотеза молекулярных часов

принимается число различий между выровненными последовательностями можно считать примерно пропорциональным времени Отклонения от ультраметричности можно считать случайными Эволюция реконструируется в виде ультраметрического дерева

Укоренённое дерево называется ультраметрическим если расстояние от корня до любого из листьев одинаково

UPGMAUnweighted Pair Group Method with Arithmetic Mean

разновидность кластерного метода

Расстояние между кластерами вычисляется как среднее арифметическое всевозможных расстояний между последовательностями из кластеров

Недостатки UPGMA

Алгоритм строит ультраметрическое дерево ndash скорость эволюции предполагается одинаковой для всех ветвей дерева Использовать этот алгоритм имеет смысл только в случае ультраметрических данных (справедливости laquoмолекулярных часовraquo)

Реальное дерево UPGMA

Метод ближайших соседей (Neighbor-joining NJ)

Строит неукоренённое дерево

Может работать с большим количеством данных

Достаточно быстрый

Если есть недвусмысленное с точки зрения эксперта дерево то оно будет построено

Метод Neighbor-joining

Рисуем laquoзвездноеraquo дерево и будем laquoотщипыватьraquo от него по паре листьев

Пусть ui = Σk Mik(n-2) mdash среднее расстояние от листа i до других

листьев

1 Рассмотрим все возможные пары листьев Выберем 2 листа i и j с минимальным значением величины

Mij ndash ui ndashuj

те выбираем 2 узла которые близки друг к другу но далеки ото всех остальных

Метод ближайших соседей (Neighbor-joining NJ)

2 Кластер (i j) ndash новый узел дерева

Расстояние от i или от j до узла (ij) D(i (ij)) = 05middot(Mij + ui ndash uj) D(j (ij)) = 05middot (Mij + uj ndash ui) те длина ветви зависит от среднего расстояния до других вершин

3 Вычисляем расстояние от нового кластера до всех других

M(ij)k = Mik+Mjk ndash Mij 2

5 В матрице М убираем i и j и добавляем (i j) Повторяем пока не останутся 3 узла

Input MSA для n последовательностей одна последовательность для каждого вида

AAAAATC

AAAAAAG

CCCCCCG

AAAAATCAAAAAAG

CCCCCCG

Длинная ветвь ndash непохоже на правду

Длинная ветвь -Похоже на правду

Методы основанные на последовательностях Maximum Likelihood (ML) Maximum Parsimony (MP)

Как изобразить дерево Топология дерева

Топология дерева mdash только листья узлы (корень) и связывающие их ветви (топология не зависит от способа изображения дерева)

A

B

C

D

E A BC D E

Два изображения одной и той же топологии

Bacterium 1

Bacterium 3

Bacterium 2

Eukaryote 1

Eukaryote 4

Eukaryote 3

Eukaryote 2

Bacterium 1

Bacterium 3Bacterium 2

Eukaryote 1

Eukaryote 4Eukaryote 3

Eukaryote 2

Филограммы ndash длины ветвей

пропорциональны

эволюционному расстоянию

Кладограммы и филограммы

Кладограммы ndash только

топологя Длины ветвей не

учитываются

6

31

2

46

24

53

Как можно нарисовать построенное дерево

Какие on-line программы строят деревья

ClustalW ldquoTree typerdquo ndash nj phylip строит только методом NJ но результат ndash в разных форматах no bootstraps

Phylip (Felsenstein 1993) ndash пакет программ для построения филогенетических деревьев (stand-alone)On-line (partly) например

httpbiowebpasteurfrseqanalphylogenyphylip-ukhtml PAUP (Phylogenetic Analysis Using Parsimony)

MEGA филогенетический анализ последовательностей

httpwwwmegasoftwarenet

Эволюция ndash исторический процесс

Из 8200794532637891559375 деревьев для 20 OTUs 1

является верным и 8200794532637891559374

неверны

Truth is one falsehoods are many

Какое из 8200794532637891559375

деревьев истинно

Мы не знаем Можно применить иные критетии

Например ldquoпохожесть=родствоraquo

GCGbull Строковый поиск простой текстовый

поиск по локальной базе данных

bull Поиск в определениях или в аннотациях

bull Определения содержат минимальное количество информации для каждой статьи доступ имя организма имя гена длина последовательности дата

  • Bestfit Output
  • SP1 at swissprot
  • EGR1 at swissprot
  • Вывод
  • Bl2Seq at NCBI
  • Bl2seq results
  • Bl2seq оценка
  • Оптимизация времени вычислений при парном выравнивании
  • Slide 9
  • Алгоритм BLAST (шаг 1)
  • Slide 11
  • Blast
  • Поиск гомологов
  • ДНК или белок
  • ДНК
  • Slide 16
  • Slide 17
  • Двойная спираль
  • ДНК дальнейшая упаковка
  • Slide 20
  • Репликация ДНК
  • Slide 22
  • Slide 23
  • Slide 24
  • Slide 25
  • Множественное выравнивание последовательностей (MSA)
  • Slide 27
  • Основные предположения
  • Например
  • Почему множественное выравнивание
  • Slide 31
  • Подходы в MSA
  • MSA algorithm
  • Multiple Alignment - алгоритм
  • Комментарии
  • GCG
  • Slide 37
  • GCG
  • Slide 39
  • Slide 40
  • Slide 41
  • ClustalW
  • Slide 43
  • Slide 44
  • ClustalW на EMBL
  • ClustalW на EMBL - результат
  • ClustalW at EMBL - Jalview
  • Consensus Sequence
  • Профиль (Profile)
  • Profile vs Consensus
  • Slide 51
  • Slide 52
  • Psi Blast (NCBI)
  • PSI-Blast
  • Psi-Blast вывод
  • Slide 56
  • Филогенез
  • Slide 58
  • Slide 59
  • Slide 60
  • Slide 61
  • Древо видов и генов
  • Ортологи и паралоги
  • Шаги реконструирования филогенетического древа
  • Филогенетическое дерево
  • Зачем нужны филогенетические деревья
  • Терминология
  • Slide 68
  • Какие бывают деревья
  • Slide 70
  • Slide 71
  • Slide 72
  • 4 OTUs 3 неукорененных филогенетических деревьев
  • Slide 74
  • Slide 75
  • Slide 76
  • Slide 77
  • Рутинная процедура или как строят деревья
  • Slide 79
  • Slide 80
  • Slide 81
  • Slide 82
  • Slide 83
  • Slide 84
  • Slide 85
  • Slide 86
  • Slide 87
  • Slide 88
  • Slide 89
  • Как выбирать последовательности для дерева
  • Самое главное ndash хорошее выравнивание
  • Основные алгоритмы построения филогенетических деревьев
  • Пример матрицы расстояний
  • Slide 94
  • Гипотеза laquoмолекулярных часовraquo (EZuckerkandl LPauling 1962)
  • UPGMA Unweighted Pair Group Method with Arithmetic Mean
  • Недостатки UPGMA
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Метод Neighbor-joining
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Slide 101
  • Как изобразить дерево Топология дерева
  • Slide 103
  • Какие on-line программы строят деревья
  • MEGA филогенетический анализ последовательностей
  • Slide 106
  • Slide 107
  • Slide 108
Page 89: Bestfit Output

Самое главное ndash хорошее выравнивание

Максимальный вклад в финальное дерево нельзя построить хорошее дерево по плохому выравниванию

Блоки содержащие много гэпов плохо выровненные N- и C- концы можно просто вырезать

Основные алгоритмы построения филогенетических деревьев

Методы основанные на оценке

расстояний (матричные методы)

bull UPGMA (кластеризация)

bull Neighbor-joining

bull Минимальная эволюция

Наибольшего правдоподобия Maximal likelihood ML Используется модель эволюции и строится дерево которое наиболее правдоподобно при данной модели

Максимальной экономии (бережливости)

maximal parsimony MP Выбирается дерево с минимальным количеством

мутаций необходимых для объяснения данных

Пример матрицы расстояний

1 2 3 4 5 6 7 8 000 1053 977 1278 1203 1654 1353 2500 HUMAN 1

000 902 1203 977 1579 902 2727 HORSE 2 000 977 902 1654 1203 2424 RABIT 3

000 226 1729 1053 2576 MOUSE 4 000 1579 827 2576 RAT 5

000 1053 2955 BOVIN 6 000 2500 PIG 7

000 CHICK 8

Расстояние (уровень дивергенции) между соответствующими последовательностями из геномов мыши и свиньи

Как понимать расстояние между объектами

bull Как время в течение которого они эволюционировалиbull Как число laquoэволюционных событийraquo (мутаций)

В первом случае объекты образуют ультраметрическое пространство(если все объекты наблюдаются в одно время что как правило верно)

Но время непосредственно измерить невозможно

Гипотеза laquoмолекулярных часовraquo(EZuckerkandl LPauling 1962)

За равное время во всех ветвях эволюции данного генабелка накапливается равное число мутацийЕсли гипотеза молекулярных часов

принимается число различий между выровненными последовательностями можно считать примерно пропорциональным времени Отклонения от ультраметричности можно считать случайными Эволюция реконструируется в виде ультраметрического дерева

Укоренённое дерево называется ультраметрическим если расстояние от корня до любого из листьев одинаково

UPGMAUnweighted Pair Group Method with Arithmetic Mean

разновидность кластерного метода

Расстояние между кластерами вычисляется как среднее арифметическое всевозможных расстояний между последовательностями из кластеров

Недостатки UPGMA

Алгоритм строит ультраметрическое дерево ndash скорость эволюции предполагается одинаковой для всех ветвей дерева Использовать этот алгоритм имеет смысл только в случае ультраметрических данных (справедливости laquoмолекулярных часовraquo)

Реальное дерево UPGMA

Метод ближайших соседей (Neighbor-joining NJ)

Строит неукоренённое дерево

Может работать с большим количеством данных

Достаточно быстрый

Если есть недвусмысленное с точки зрения эксперта дерево то оно будет построено

Метод Neighbor-joining

Рисуем laquoзвездноеraquo дерево и будем laquoотщипыватьraquo от него по паре листьев

Пусть ui = Σk Mik(n-2) mdash среднее расстояние от листа i до других

листьев

1 Рассмотрим все возможные пары листьев Выберем 2 листа i и j с минимальным значением величины

Mij ndash ui ndashuj

те выбираем 2 узла которые близки друг к другу но далеки ото всех остальных

Метод ближайших соседей (Neighbor-joining NJ)

2 Кластер (i j) ndash новый узел дерева

Расстояние от i или от j до узла (ij) D(i (ij)) = 05middot(Mij + ui ndash uj) D(j (ij)) = 05middot (Mij + uj ndash ui) те длина ветви зависит от среднего расстояния до других вершин

3 Вычисляем расстояние от нового кластера до всех других

M(ij)k = Mik+Mjk ndash Mij 2

5 В матрице М убираем i и j и добавляем (i j) Повторяем пока не останутся 3 узла

Input MSA для n последовательностей одна последовательность для каждого вида

AAAAATC

AAAAAAG

CCCCCCG

AAAAATCAAAAAAG

CCCCCCG

Длинная ветвь ndash непохоже на правду

Длинная ветвь -Похоже на правду

Методы основанные на последовательностях Maximum Likelihood (ML) Maximum Parsimony (MP)

Как изобразить дерево Топология дерева

Топология дерева mdash только листья узлы (корень) и связывающие их ветви (топология не зависит от способа изображения дерева)

A

B

C

D

E A BC D E

Два изображения одной и той же топологии

Bacterium 1

Bacterium 3

Bacterium 2

Eukaryote 1

Eukaryote 4

Eukaryote 3

Eukaryote 2

Bacterium 1

Bacterium 3Bacterium 2

Eukaryote 1

Eukaryote 4Eukaryote 3

Eukaryote 2

Филограммы ndash длины ветвей

пропорциональны

эволюционному расстоянию

Кладограммы и филограммы

Кладограммы ndash только

топологя Длины ветвей не

учитываются

6

31

2

46

24

53

Как можно нарисовать построенное дерево

Какие on-line программы строят деревья

ClustalW ldquoTree typerdquo ndash nj phylip строит только методом NJ но результат ndash в разных форматах no bootstraps

Phylip (Felsenstein 1993) ndash пакет программ для построения филогенетических деревьев (stand-alone)On-line (partly) например

httpbiowebpasteurfrseqanalphylogenyphylip-ukhtml PAUP (Phylogenetic Analysis Using Parsimony)

MEGA филогенетический анализ последовательностей

httpwwwmegasoftwarenet

Эволюция ndash исторический процесс

Из 8200794532637891559375 деревьев для 20 OTUs 1

является верным и 8200794532637891559374

неверны

Truth is one falsehoods are many

Какое из 8200794532637891559375

деревьев истинно

Мы не знаем Можно применить иные критетии

Например ldquoпохожесть=родствоraquo

GCGbull Строковый поиск простой текстовый

поиск по локальной базе данных

bull Поиск в определениях или в аннотациях

bull Определения содержат минимальное количество информации для каждой статьи доступ имя организма имя гена длина последовательности дата

  • Bestfit Output
  • SP1 at swissprot
  • EGR1 at swissprot
  • Вывод
  • Bl2Seq at NCBI
  • Bl2seq results
  • Bl2seq оценка
  • Оптимизация времени вычислений при парном выравнивании
  • Slide 9
  • Алгоритм BLAST (шаг 1)
  • Slide 11
  • Blast
  • Поиск гомологов
  • ДНК или белок
  • ДНК
  • Slide 16
  • Slide 17
  • Двойная спираль
  • ДНК дальнейшая упаковка
  • Slide 20
  • Репликация ДНК
  • Slide 22
  • Slide 23
  • Slide 24
  • Slide 25
  • Множественное выравнивание последовательностей (MSA)
  • Slide 27
  • Основные предположения
  • Например
  • Почему множественное выравнивание
  • Slide 31
  • Подходы в MSA
  • MSA algorithm
  • Multiple Alignment - алгоритм
  • Комментарии
  • GCG
  • Slide 37
  • GCG
  • Slide 39
  • Slide 40
  • Slide 41
  • ClustalW
  • Slide 43
  • Slide 44
  • ClustalW на EMBL
  • ClustalW на EMBL - результат
  • ClustalW at EMBL - Jalview
  • Consensus Sequence
  • Профиль (Profile)
  • Profile vs Consensus
  • Slide 51
  • Slide 52
  • Psi Blast (NCBI)
  • PSI-Blast
  • Psi-Blast вывод
  • Slide 56
  • Филогенез
  • Slide 58
  • Slide 59
  • Slide 60
  • Slide 61
  • Древо видов и генов
  • Ортологи и паралоги
  • Шаги реконструирования филогенетического древа
  • Филогенетическое дерево
  • Зачем нужны филогенетические деревья
  • Терминология
  • Slide 68
  • Какие бывают деревья
  • Slide 70
  • Slide 71
  • Slide 72
  • 4 OTUs 3 неукорененных филогенетических деревьев
  • Slide 74
  • Slide 75
  • Slide 76
  • Slide 77
  • Рутинная процедура или как строят деревья
  • Slide 79
  • Slide 80
  • Slide 81
  • Slide 82
  • Slide 83
  • Slide 84
  • Slide 85
  • Slide 86
  • Slide 87
  • Slide 88
  • Slide 89
  • Как выбирать последовательности для дерева
  • Самое главное ndash хорошее выравнивание
  • Основные алгоритмы построения филогенетических деревьев
  • Пример матрицы расстояний
  • Slide 94
  • Гипотеза laquoмолекулярных часовraquo (EZuckerkandl LPauling 1962)
  • UPGMA Unweighted Pair Group Method with Arithmetic Mean
  • Недостатки UPGMA
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Метод Neighbor-joining
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Slide 101
  • Как изобразить дерево Топология дерева
  • Slide 103
  • Какие on-line программы строят деревья
  • MEGA филогенетический анализ последовательностей
  • Slide 106
  • Slide 107
  • Slide 108
Page 90: Bestfit Output

Основные алгоритмы построения филогенетических деревьев

Методы основанные на оценке

расстояний (матричные методы)

bull UPGMA (кластеризация)

bull Neighbor-joining

bull Минимальная эволюция

Наибольшего правдоподобия Maximal likelihood ML Используется модель эволюции и строится дерево которое наиболее правдоподобно при данной модели

Максимальной экономии (бережливости)

maximal parsimony MP Выбирается дерево с минимальным количеством

мутаций необходимых для объяснения данных

Пример матрицы расстояний

1 2 3 4 5 6 7 8 000 1053 977 1278 1203 1654 1353 2500 HUMAN 1

000 902 1203 977 1579 902 2727 HORSE 2 000 977 902 1654 1203 2424 RABIT 3

000 226 1729 1053 2576 MOUSE 4 000 1579 827 2576 RAT 5

000 1053 2955 BOVIN 6 000 2500 PIG 7

000 CHICK 8

Расстояние (уровень дивергенции) между соответствующими последовательностями из геномов мыши и свиньи

Как понимать расстояние между объектами

bull Как время в течение которого они эволюционировалиbull Как число laquoэволюционных событийraquo (мутаций)

В первом случае объекты образуют ультраметрическое пространство(если все объекты наблюдаются в одно время что как правило верно)

Но время непосредственно измерить невозможно

Гипотеза laquoмолекулярных часовraquo(EZuckerkandl LPauling 1962)

За равное время во всех ветвях эволюции данного генабелка накапливается равное число мутацийЕсли гипотеза молекулярных часов

принимается число различий между выровненными последовательностями можно считать примерно пропорциональным времени Отклонения от ультраметричности можно считать случайными Эволюция реконструируется в виде ультраметрического дерева

Укоренённое дерево называется ультраметрическим если расстояние от корня до любого из листьев одинаково

UPGMAUnweighted Pair Group Method with Arithmetic Mean

разновидность кластерного метода

Расстояние между кластерами вычисляется как среднее арифметическое всевозможных расстояний между последовательностями из кластеров

Недостатки UPGMA

Алгоритм строит ультраметрическое дерево ndash скорость эволюции предполагается одинаковой для всех ветвей дерева Использовать этот алгоритм имеет смысл только в случае ультраметрических данных (справедливости laquoмолекулярных часовraquo)

Реальное дерево UPGMA

Метод ближайших соседей (Neighbor-joining NJ)

Строит неукоренённое дерево

Может работать с большим количеством данных

Достаточно быстрый

Если есть недвусмысленное с точки зрения эксперта дерево то оно будет построено

Метод Neighbor-joining

Рисуем laquoзвездноеraquo дерево и будем laquoотщипыватьraquo от него по паре листьев

Пусть ui = Σk Mik(n-2) mdash среднее расстояние от листа i до других

листьев

1 Рассмотрим все возможные пары листьев Выберем 2 листа i и j с минимальным значением величины

Mij ndash ui ndashuj

те выбираем 2 узла которые близки друг к другу но далеки ото всех остальных

Метод ближайших соседей (Neighbor-joining NJ)

2 Кластер (i j) ndash новый узел дерева

Расстояние от i или от j до узла (ij) D(i (ij)) = 05middot(Mij + ui ndash uj) D(j (ij)) = 05middot (Mij + uj ndash ui) те длина ветви зависит от среднего расстояния до других вершин

3 Вычисляем расстояние от нового кластера до всех других

M(ij)k = Mik+Mjk ndash Mij 2

5 В матрице М убираем i и j и добавляем (i j) Повторяем пока не останутся 3 узла

Input MSA для n последовательностей одна последовательность для каждого вида

AAAAATC

AAAAAAG

CCCCCCG

AAAAATCAAAAAAG

CCCCCCG

Длинная ветвь ndash непохоже на правду

Длинная ветвь -Похоже на правду

Методы основанные на последовательностях Maximum Likelihood (ML) Maximum Parsimony (MP)

Как изобразить дерево Топология дерева

Топология дерева mdash только листья узлы (корень) и связывающие их ветви (топология не зависит от способа изображения дерева)

A

B

C

D

E A BC D E

Два изображения одной и той же топологии

Bacterium 1

Bacterium 3

Bacterium 2

Eukaryote 1

Eukaryote 4

Eukaryote 3

Eukaryote 2

Bacterium 1

Bacterium 3Bacterium 2

Eukaryote 1

Eukaryote 4Eukaryote 3

Eukaryote 2

Филограммы ndash длины ветвей

пропорциональны

эволюционному расстоянию

Кладограммы и филограммы

Кладограммы ndash только

топологя Длины ветвей не

учитываются

6

31

2

46

24

53

Как можно нарисовать построенное дерево

Какие on-line программы строят деревья

ClustalW ldquoTree typerdquo ndash nj phylip строит только методом NJ но результат ndash в разных форматах no bootstraps

Phylip (Felsenstein 1993) ndash пакет программ для построения филогенетических деревьев (stand-alone)On-line (partly) например

httpbiowebpasteurfrseqanalphylogenyphylip-ukhtml PAUP (Phylogenetic Analysis Using Parsimony)

MEGA филогенетический анализ последовательностей

httpwwwmegasoftwarenet

Эволюция ndash исторический процесс

Из 8200794532637891559375 деревьев для 20 OTUs 1

является верным и 8200794532637891559374

неверны

Truth is one falsehoods are many

Какое из 8200794532637891559375

деревьев истинно

Мы не знаем Можно применить иные критетии

Например ldquoпохожесть=родствоraquo

GCGbull Строковый поиск простой текстовый

поиск по локальной базе данных

bull Поиск в определениях или в аннотациях

bull Определения содержат минимальное количество информации для каждой статьи доступ имя организма имя гена длина последовательности дата

  • Bestfit Output
  • SP1 at swissprot
  • EGR1 at swissprot
  • Вывод
  • Bl2Seq at NCBI
  • Bl2seq results
  • Bl2seq оценка
  • Оптимизация времени вычислений при парном выравнивании
  • Slide 9
  • Алгоритм BLAST (шаг 1)
  • Slide 11
  • Blast
  • Поиск гомологов
  • ДНК или белок
  • ДНК
  • Slide 16
  • Slide 17
  • Двойная спираль
  • ДНК дальнейшая упаковка
  • Slide 20
  • Репликация ДНК
  • Slide 22
  • Slide 23
  • Slide 24
  • Slide 25
  • Множественное выравнивание последовательностей (MSA)
  • Slide 27
  • Основные предположения
  • Например
  • Почему множественное выравнивание
  • Slide 31
  • Подходы в MSA
  • MSA algorithm
  • Multiple Alignment - алгоритм
  • Комментарии
  • GCG
  • Slide 37
  • GCG
  • Slide 39
  • Slide 40
  • Slide 41
  • ClustalW
  • Slide 43
  • Slide 44
  • ClustalW на EMBL
  • ClustalW на EMBL - результат
  • ClustalW at EMBL - Jalview
  • Consensus Sequence
  • Профиль (Profile)
  • Profile vs Consensus
  • Slide 51
  • Slide 52
  • Psi Blast (NCBI)
  • PSI-Blast
  • Psi-Blast вывод
  • Slide 56
  • Филогенез
  • Slide 58
  • Slide 59
  • Slide 60
  • Slide 61
  • Древо видов и генов
  • Ортологи и паралоги
  • Шаги реконструирования филогенетического древа
  • Филогенетическое дерево
  • Зачем нужны филогенетические деревья
  • Терминология
  • Slide 68
  • Какие бывают деревья
  • Slide 70
  • Slide 71
  • Slide 72
  • 4 OTUs 3 неукорененных филогенетических деревьев
  • Slide 74
  • Slide 75
  • Slide 76
  • Slide 77
  • Рутинная процедура или как строят деревья
  • Slide 79
  • Slide 80
  • Slide 81
  • Slide 82
  • Slide 83
  • Slide 84
  • Slide 85
  • Slide 86
  • Slide 87
  • Slide 88
  • Slide 89
  • Как выбирать последовательности для дерева
  • Самое главное ndash хорошее выравнивание
  • Основные алгоритмы построения филогенетических деревьев
  • Пример матрицы расстояний
  • Slide 94
  • Гипотеза laquoмолекулярных часовraquo (EZuckerkandl LPauling 1962)
  • UPGMA Unweighted Pair Group Method with Arithmetic Mean
  • Недостатки UPGMA
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Метод Neighbor-joining
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Slide 101
  • Как изобразить дерево Топология дерева
  • Slide 103
  • Какие on-line программы строят деревья
  • MEGA филогенетический анализ последовательностей
  • Slide 106
  • Slide 107
  • Slide 108
Page 91: Bestfit Output

Пример матрицы расстояний

1 2 3 4 5 6 7 8 000 1053 977 1278 1203 1654 1353 2500 HUMAN 1

000 902 1203 977 1579 902 2727 HORSE 2 000 977 902 1654 1203 2424 RABIT 3

000 226 1729 1053 2576 MOUSE 4 000 1579 827 2576 RAT 5

000 1053 2955 BOVIN 6 000 2500 PIG 7

000 CHICK 8

Расстояние (уровень дивергенции) между соответствующими последовательностями из геномов мыши и свиньи

Как понимать расстояние между объектами

bull Как время в течение которого они эволюционировалиbull Как число laquoэволюционных событийraquo (мутаций)

В первом случае объекты образуют ультраметрическое пространство(если все объекты наблюдаются в одно время что как правило верно)

Но время непосредственно измерить невозможно

Гипотеза laquoмолекулярных часовraquo(EZuckerkandl LPauling 1962)

За равное время во всех ветвях эволюции данного генабелка накапливается равное число мутацийЕсли гипотеза молекулярных часов

принимается число различий между выровненными последовательностями можно считать примерно пропорциональным времени Отклонения от ультраметричности можно считать случайными Эволюция реконструируется в виде ультраметрического дерева

Укоренённое дерево называется ультраметрическим если расстояние от корня до любого из листьев одинаково

UPGMAUnweighted Pair Group Method with Arithmetic Mean

разновидность кластерного метода

Расстояние между кластерами вычисляется как среднее арифметическое всевозможных расстояний между последовательностями из кластеров

Недостатки UPGMA

Алгоритм строит ультраметрическое дерево ndash скорость эволюции предполагается одинаковой для всех ветвей дерева Использовать этот алгоритм имеет смысл только в случае ультраметрических данных (справедливости laquoмолекулярных часовraquo)

Реальное дерево UPGMA

Метод ближайших соседей (Neighbor-joining NJ)

Строит неукоренённое дерево

Может работать с большим количеством данных

Достаточно быстрый

Если есть недвусмысленное с точки зрения эксперта дерево то оно будет построено

Метод Neighbor-joining

Рисуем laquoзвездноеraquo дерево и будем laquoотщипыватьraquo от него по паре листьев

Пусть ui = Σk Mik(n-2) mdash среднее расстояние от листа i до других

листьев

1 Рассмотрим все возможные пары листьев Выберем 2 листа i и j с минимальным значением величины

Mij ndash ui ndashuj

те выбираем 2 узла которые близки друг к другу но далеки ото всех остальных

Метод ближайших соседей (Neighbor-joining NJ)

2 Кластер (i j) ndash новый узел дерева

Расстояние от i или от j до узла (ij) D(i (ij)) = 05middot(Mij + ui ndash uj) D(j (ij)) = 05middot (Mij + uj ndash ui) те длина ветви зависит от среднего расстояния до других вершин

3 Вычисляем расстояние от нового кластера до всех других

M(ij)k = Mik+Mjk ndash Mij 2

5 В матрице М убираем i и j и добавляем (i j) Повторяем пока не останутся 3 узла

Input MSA для n последовательностей одна последовательность для каждого вида

AAAAATC

AAAAAAG

CCCCCCG

AAAAATCAAAAAAG

CCCCCCG

Длинная ветвь ndash непохоже на правду

Длинная ветвь -Похоже на правду

Методы основанные на последовательностях Maximum Likelihood (ML) Maximum Parsimony (MP)

Как изобразить дерево Топология дерева

Топология дерева mdash только листья узлы (корень) и связывающие их ветви (топология не зависит от способа изображения дерева)

A

B

C

D

E A BC D E

Два изображения одной и той же топологии

Bacterium 1

Bacterium 3

Bacterium 2

Eukaryote 1

Eukaryote 4

Eukaryote 3

Eukaryote 2

Bacterium 1

Bacterium 3Bacterium 2

Eukaryote 1

Eukaryote 4Eukaryote 3

Eukaryote 2

Филограммы ndash длины ветвей

пропорциональны

эволюционному расстоянию

Кладограммы и филограммы

Кладограммы ndash только

топологя Длины ветвей не

учитываются

6

31

2

46

24

53

Как можно нарисовать построенное дерево

Какие on-line программы строят деревья

ClustalW ldquoTree typerdquo ndash nj phylip строит только методом NJ но результат ndash в разных форматах no bootstraps

Phylip (Felsenstein 1993) ndash пакет программ для построения филогенетических деревьев (stand-alone)On-line (partly) например

httpbiowebpasteurfrseqanalphylogenyphylip-ukhtml PAUP (Phylogenetic Analysis Using Parsimony)

MEGA филогенетический анализ последовательностей

httpwwwmegasoftwarenet

Эволюция ndash исторический процесс

Из 8200794532637891559375 деревьев для 20 OTUs 1

является верным и 8200794532637891559374

неверны

Truth is one falsehoods are many

Какое из 8200794532637891559375

деревьев истинно

Мы не знаем Можно применить иные критетии

Например ldquoпохожесть=родствоraquo

GCGbull Строковый поиск простой текстовый

поиск по локальной базе данных

bull Поиск в определениях или в аннотациях

bull Определения содержат минимальное количество информации для каждой статьи доступ имя организма имя гена длина последовательности дата

  • Bestfit Output
  • SP1 at swissprot
  • EGR1 at swissprot
  • Вывод
  • Bl2Seq at NCBI
  • Bl2seq results
  • Bl2seq оценка
  • Оптимизация времени вычислений при парном выравнивании
  • Slide 9
  • Алгоритм BLAST (шаг 1)
  • Slide 11
  • Blast
  • Поиск гомологов
  • ДНК или белок
  • ДНК
  • Slide 16
  • Slide 17
  • Двойная спираль
  • ДНК дальнейшая упаковка
  • Slide 20
  • Репликация ДНК
  • Slide 22
  • Slide 23
  • Slide 24
  • Slide 25
  • Множественное выравнивание последовательностей (MSA)
  • Slide 27
  • Основные предположения
  • Например
  • Почему множественное выравнивание
  • Slide 31
  • Подходы в MSA
  • MSA algorithm
  • Multiple Alignment - алгоритм
  • Комментарии
  • GCG
  • Slide 37
  • GCG
  • Slide 39
  • Slide 40
  • Slide 41
  • ClustalW
  • Slide 43
  • Slide 44
  • ClustalW на EMBL
  • ClustalW на EMBL - результат
  • ClustalW at EMBL - Jalview
  • Consensus Sequence
  • Профиль (Profile)
  • Profile vs Consensus
  • Slide 51
  • Slide 52
  • Psi Blast (NCBI)
  • PSI-Blast
  • Psi-Blast вывод
  • Slide 56
  • Филогенез
  • Slide 58
  • Slide 59
  • Slide 60
  • Slide 61
  • Древо видов и генов
  • Ортологи и паралоги
  • Шаги реконструирования филогенетического древа
  • Филогенетическое дерево
  • Зачем нужны филогенетические деревья
  • Терминология
  • Slide 68
  • Какие бывают деревья
  • Slide 70
  • Slide 71
  • Slide 72
  • 4 OTUs 3 неукорененных филогенетических деревьев
  • Slide 74
  • Slide 75
  • Slide 76
  • Slide 77
  • Рутинная процедура или как строят деревья
  • Slide 79
  • Slide 80
  • Slide 81
  • Slide 82
  • Slide 83
  • Slide 84
  • Slide 85
  • Slide 86
  • Slide 87
  • Slide 88
  • Slide 89
  • Как выбирать последовательности для дерева
  • Самое главное ndash хорошее выравнивание
  • Основные алгоритмы построения филогенетических деревьев
  • Пример матрицы расстояний
  • Slide 94
  • Гипотеза laquoмолекулярных часовraquo (EZuckerkandl LPauling 1962)
  • UPGMA Unweighted Pair Group Method with Arithmetic Mean
  • Недостатки UPGMA
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Метод Neighbor-joining
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Slide 101
  • Как изобразить дерево Топология дерева
  • Slide 103
  • Какие on-line программы строят деревья
  • MEGA филогенетический анализ последовательностей
  • Slide 106
  • Slide 107
  • Slide 108
Page 92: Bestfit Output

Как понимать расстояние между объектами

bull Как время в течение которого они эволюционировалиbull Как число laquoэволюционных событийraquo (мутаций)

В первом случае объекты образуют ультраметрическое пространство(если все объекты наблюдаются в одно время что как правило верно)

Но время непосредственно измерить невозможно

Гипотеза laquoмолекулярных часовraquo(EZuckerkandl LPauling 1962)

За равное время во всех ветвях эволюции данного генабелка накапливается равное число мутацийЕсли гипотеза молекулярных часов

принимается число различий между выровненными последовательностями можно считать примерно пропорциональным времени Отклонения от ультраметричности можно считать случайными Эволюция реконструируется в виде ультраметрического дерева

Укоренённое дерево называется ультраметрическим если расстояние от корня до любого из листьев одинаково

UPGMAUnweighted Pair Group Method with Arithmetic Mean

разновидность кластерного метода

Расстояние между кластерами вычисляется как среднее арифметическое всевозможных расстояний между последовательностями из кластеров

Недостатки UPGMA

Алгоритм строит ультраметрическое дерево ndash скорость эволюции предполагается одинаковой для всех ветвей дерева Использовать этот алгоритм имеет смысл только в случае ультраметрических данных (справедливости laquoмолекулярных часовraquo)

Реальное дерево UPGMA

Метод ближайших соседей (Neighbor-joining NJ)

Строит неукоренённое дерево

Может работать с большим количеством данных

Достаточно быстрый

Если есть недвусмысленное с точки зрения эксперта дерево то оно будет построено

Метод Neighbor-joining

Рисуем laquoзвездноеraquo дерево и будем laquoотщипыватьraquo от него по паре листьев

Пусть ui = Σk Mik(n-2) mdash среднее расстояние от листа i до других

листьев

1 Рассмотрим все возможные пары листьев Выберем 2 листа i и j с минимальным значением величины

Mij ndash ui ndashuj

те выбираем 2 узла которые близки друг к другу но далеки ото всех остальных

Метод ближайших соседей (Neighbor-joining NJ)

2 Кластер (i j) ndash новый узел дерева

Расстояние от i или от j до узла (ij) D(i (ij)) = 05middot(Mij + ui ndash uj) D(j (ij)) = 05middot (Mij + uj ndash ui) те длина ветви зависит от среднего расстояния до других вершин

3 Вычисляем расстояние от нового кластера до всех других

M(ij)k = Mik+Mjk ndash Mij 2

5 В матрице М убираем i и j и добавляем (i j) Повторяем пока не останутся 3 узла

Input MSA для n последовательностей одна последовательность для каждого вида

AAAAATC

AAAAAAG

CCCCCCG

AAAAATCAAAAAAG

CCCCCCG

Длинная ветвь ndash непохоже на правду

Длинная ветвь -Похоже на правду

Методы основанные на последовательностях Maximum Likelihood (ML) Maximum Parsimony (MP)

Как изобразить дерево Топология дерева

Топология дерева mdash только листья узлы (корень) и связывающие их ветви (топология не зависит от способа изображения дерева)

A

B

C

D

E A BC D E

Два изображения одной и той же топологии

Bacterium 1

Bacterium 3

Bacterium 2

Eukaryote 1

Eukaryote 4

Eukaryote 3

Eukaryote 2

Bacterium 1

Bacterium 3Bacterium 2

Eukaryote 1

Eukaryote 4Eukaryote 3

Eukaryote 2

Филограммы ndash длины ветвей

пропорциональны

эволюционному расстоянию

Кладограммы и филограммы

Кладограммы ndash только

топологя Длины ветвей не

учитываются

6

31

2

46

24

53

Как можно нарисовать построенное дерево

Какие on-line программы строят деревья

ClustalW ldquoTree typerdquo ndash nj phylip строит только методом NJ но результат ndash в разных форматах no bootstraps

Phylip (Felsenstein 1993) ndash пакет программ для построения филогенетических деревьев (stand-alone)On-line (partly) например

httpbiowebpasteurfrseqanalphylogenyphylip-ukhtml PAUP (Phylogenetic Analysis Using Parsimony)

MEGA филогенетический анализ последовательностей

httpwwwmegasoftwarenet

Эволюция ndash исторический процесс

Из 8200794532637891559375 деревьев для 20 OTUs 1

является верным и 8200794532637891559374

неверны

Truth is one falsehoods are many

Какое из 8200794532637891559375

деревьев истинно

Мы не знаем Можно применить иные критетии

Например ldquoпохожесть=родствоraquo

GCGbull Строковый поиск простой текстовый

поиск по локальной базе данных

bull Поиск в определениях или в аннотациях

bull Определения содержат минимальное количество информации для каждой статьи доступ имя организма имя гена длина последовательности дата

  • Bestfit Output
  • SP1 at swissprot
  • EGR1 at swissprot
  • Вывод
  • Bl2Seq at NCBI
  • Bl2seq results
  • Bl2seq оценка
  • Оптимизация времени вычислений при парном выравнивании
  • Slide 9
  • Алгоритм BLAST (шаг 1)
  • Slide 11
  • Blast
  • Поиск гомологов
  • ДНК или белок
  • ДНК
  • Slide 16
  • Slide 17
  • Двойная спираль
  • ДНК дальнейшая упаковка
  • Slide 20
  • Репликация ДНК
  • Slide 22
  • Slide 23
  • Slide 24
  • Slide 25
  • Множественное выравнивание последовательностей (MSA)
  • Slide 27
  • Основные предположения
  • Например
  • Почему множественное выравнивание
  • Slide 31
  • Подходы в MSA
  • MSA algorithm
  • Multiple Alignment - алгоритм
  • Комментарии
  • GCG
  • Slide 37
  • GCG
  • Slide 39
  • Slide 40
  • Slide 41
  • ClustalW
  • Slide 43
  • Slide 44
  • ClustalW на EMBL
  • ClustalW на EMBL - результат
  • ClustalW at EMBL - Jalview
  • Consensus Sequence
  • Профиль (Profile)
  • Profile vs Consensus
  • Slide 51
  • Slide 52
  • Psi Blast (NCBI)
  • PSI-Blast
  • Psi-Blast вывод
  • Slide 56
  • Филогенез
  • Slide 58
  • Slide 59
  • Slide 60
  • Slide 61
  • Древо видов и генов
  • Ортологи и паралоги
  • Шаги реконструирования филогенетического древа
  • Филогенетическое дерево
  • Зачем нужны филогенетические деревья
  • Терминология
  • Slide 68
  • Какие бывают деревья
  • Slide 70
  • Slide 71
  • Slide 72
  • 4 OTUs 3 неукорененных филогенетических деревьев
  • Slide 74
  • Slide 75
  • Slide 76
  • Slide 77
  • Рутинная процедура или как строят деревья
  • Slide 79
  • Slide 80
  • Slide 81
  • Slide 82
  • Slide 83
  • Slide 84
  • Slide 85
  • Slide 86
  • Slide 87
  • Slide 88
  • Slide 89
  • Как выбирать последовательности для дерева
  • Самое главное ndash хорошее выравнивание
  • Основные алгоритмы построения филогенетических деревьев
  • Пример матрицы расстояний
  • Slide 94
  • Гипотеза laquoмолекулярных часовraquo (EZuckerkandl LPauling 1962)
  • UPGMA Unweighted Pair Group Method with Arithmetic Mean
  • Недостатки UPGMA
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Метод Neighbor-joining
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Slide 101
  • Как изобразить дерево Топология дерева
  • Slide 103
  • Какие on-line программы строят деревья
  • MEGA филогенетический анализ последовательностей
  • Slide 106
  • Slide 107
  • Slide 108
Page 93: Bestfit Output

Гипотеза laquoмолекулярных часовraquo(EZuckerkandl LPauling 1962)

За равное время во всех ветвях эволюции данного генабелка накапливается равное число мутацийЕсли гипотеза молекулярных часов

принимается число различий между выровненными последовательностями можно считать примерно пропорциональным времени Отклонения от ультраметричности можно считать случайными Эволюция реконструируется в виде ультраметрического дерева

Укоренённое дерево называется ультраметрическим если расстояние от корня до любого из листьев одинаково

UPGMAUnweighted Pair Group Method with Arithmetic Mean

разновидность кластерного метода

Расстояние между кластерами вычисляется как среднее арифметическое всевозможных расстояний между последовательностями из кластеров

Недостатки UPGMA

Алгоритм строит ультраметрическое дерево ndash скорость эволюции предполагается одинаковой для всех ветвей дерева Использовать этот алгоритм имеет смысл только в случае ультраметрических данных (справедливости laquoмолекулярных часовraquo)

Реальное дерево UPGMA

Метод ближайших соседей (Neighbor-joining NJ)

Строит неукоренённое дерево

Может работать с большим количеством данных

Достаточно быстрый

Если есть недвусмысленное с точки зрения эксперта дерево то оно будет построено

Метод Neighbor-joining

Рисуем laquoзвездноеraquo дерево и будем laquoотщипыватьraquo от него по паре листьев

Пусть ui = Σk Mik(n-2) mdash среднее расстояние от листа i до других

листьев

1 Рассмотрим все возможные пары листьев Выберем 2 листа i и j с минимальным значением величины

Mij ndash ui ndashuj

те выбираем 2 узла которые близки друг к другу но далеки ото всех остальных

Метод ближайших соседей (Neighbor-joining NJ)

2 Кластер (i j) ndash новый узел дерева

Расстояние от i или от j до узла (ij) D(i (ij)) = 05middot(Mij + ui ndash uj) D(j (ij)) = 05middot (Mij + uj ndash ui) те длина ветви зависит от среднего расстояния до других вершин

3 Вычисляем расстояние от нового кластера до всех других

M(ij)k = Mik+Mjk ndash Mij 2

5 В матрице М убираем i и j и добавляем (i j) Повторяем пока не останутся 3 узла

Input MSA для n последовательностей одна последовательность для каждого вида

AAAAATC

AAAAAAG

CCCCCCG

AAAAATCAAAAAAG

CCCCCCG

Длинная ветвь ndash непохоже на правду

Длинная ветвь -Похоже на правду

Методы основанные на последовательностях Maximum Likelihood (ML) Maximum Parsimony (MP)

Как изобразить дерево Топология дерева

Топология дерева mdash только листья узлы (корень) и связывающие их ветви (топология не зависит от способа изображения дерева)

A

B

C

D

E A BC D E

Два изображения одной и той же топологии

Bacterium 1

Bacterium 3

Bacterium 2

Eukaryote 1

Eukaryote 4

Eukaryote 3

Eukaryote 2

Bacterium 1

Bacterium 3Bacterium 2

Eukaryote 1

Eukaryote 4Eukaryote 3

Eukaryote 2

Филограммы ndash длины ветвей

пропорциональны

эволюционному расстоянию

Кладограммы и филограммы

Кладограммы ndash только

топологя Длины ветвей не

учитываются

6

31

2

46

24

53

Как можно нарисовать построенное дерево

Какие on-line программы строят деревья

ClustalW ldquoTree typerdquo ndash nj phylip строит только методом NJ но результат ndash в разных форматах no bootstraps

Phylip (Felsenstein 1993) ndash пакет программ для построения филогенетических деревьев (stand-alone)On-line (partly) например

httpbiowebpasteurfrseqanalphylogenyphylip-ukhtml PAUP (Phylogenetic Analysis Using Parsimony)

MEGA филогенетический анализ последовательностей

httpwwwmegasoftwarenet

Эволюция ndash исторический процесс

Из 8200794532637891559375 деревьев для 20 OTUs 1

является верным и 8200794532637891559374

неверны

Truth is one falsehoods are many

Какое из 8200794532637891559375

деревьев истинно

Мы не знаем Можно применить иные критетии

Например ldquoпохожесть=родствоraquo

GCGbull Строковый поиск простой текстовый

поиск по локальной базе данных

bull Поиск в определениях или в аннотациях

bull Определения содержат минимальное количество информации для каждой статьи доступ имя организма имя гена длина последовательности дата

  • Bestfit Output
  • SP1 at swissprot
  • EGR1 at swissprot
  • Вывод
  • Bl2Seq at NCBI
  • Bl2seq results
  • Bl2seq оценка
  • Оптимизация времени вычислений при парном выравнивании
  • Slide 9
  • Алгоритм BLAST (шаг 1)
  • Slide 11
  • Blast
  • Поиск гомологов
  • ДНК или белок
  • ДНК
  • Slide 16
  • Slide 17
  • Двойная спираль
  • ДНК дальнейшая упаковка
  • Slide 20
  • Репликация ДНК
  • Slide 22
  • Slide 23
  • Slide 24
  • Slide 25
  • Множественное выравнивание последовательностей (MSA)
  • Slide 27
  • Основные предположения
  • Например
  • Почему множественное выравнивание
  • Slide 31
  • Подходы в MSA
  • MSA algorithm
  • Multiple Alignment - алгоритм
  • Комментарии
  • GCG
  • Slide 37
  • GCG
  • Slide 39
  • Slide 40
  • Slide 41
  • ClustalW
  • Slide 43
  • Slide 44
  • ClustalW на EMBL
  • ClustalW на EMBL - результат
  • ClustalW at EMBL - Jalview
  • Consensus Sequence
  • Профиль (Profile)
  • Profile vs Consensus
  • Slide 51
  • Slide 52
  • Psi Blast (NCBI)
  • PSI-Blast
  • Psi-Blast вывод
  • Slide 56
  • Филогенез
  • Slide 58
  • Slide 59
  • Slide 60
  • Slide 61
  • Древо видов и генов
  • Ортологи и паралоги
  • Шаги реконструирования филогенетического древа
  • Филогенетическое дерево
  • Зачем нужны филогенетические деревья
  • Терминология
  • Slide 68
  • Какие бывают деревья
  • Slide 70
  • Slide 71
  • Slide 72
  • 4 OTUs 3 неукорененных филогенетических деревьев
  • Slide 74
  • Slide 75
  • Slide 76
  • Slide 77
  • Рутинная процедура или как строят деревья
  • Slide 79
  • Slide 80
  • Slide 81
  • Slide 82
  • Slide 83
  • Slide 84
  • Slide 85
  • Slide 86
  • Slide 87
  • Slide 88
  • Slide 89
  • Как выбирать последовательности для дерева
  • Самое главное ndash хорошее выравнивание
  • Основные алгоритмы построения филогенетических деревьев
  • Пример матрицы расстояний
  • Slide 94
  • Гипотеза laquoмолекулярных часовraquo (EZuckerkandl LPauling 1962)
  • UPGMA Unweighted Pair Group Method with Arithmetic Mean
  • Недостатки UPGMA
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Метод Neighbor-joining
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Slide 101
  • Как изобразить дерево Топология дерева
  • Slide 103
  • Какие on-line программы строят деревья
  • MEGA филогенетический анализ последовательностей
  • Slide 106
  • Slide 107
  • Slide 108
Page 94: Bestfit Output

UPGMAUnweighted Pair Group Method with Arithmetic Mean

разновидность кластерного метода

Расстояние между кластерами вычисляется как среднее арифметическое всевозможных расстояний между последовательностями из кластеров

Недостатки UPGMA

Алгоритм строит ультраметрическое дерево ndash скорость эволюции предполагается одинаковой для всех ветвей дерева Использовать этот алгоритм имеет смысл только в случае ультраметрических данных (справедливости laquoмолекулярных часовraquo)

Реальное дерево UPGMA

Метод ближайших соседей (Neighbor-joining NJ)

Строит неукоренённое дерево

Может работать с большим количеством данных

Достаточно быстрый

Если есть недвусмысленное с точки зрения эксперта дерево то оно будет построено

Метод Neighbor-joining

Рисуем laquoзвездноеraquo дерево и будем laquoотщипыватьraquo от него по паре листьев

Пусть ui = Σk Mik(n-2) mdash среднее расстояние от листа i до других

листьев

1 Рассмотрим все возможные пары листьев Выберем 2 листа i и j с минимальным значением величины

Mij ndash ui ndashuj

те выбираем 2 узла которые близки друг к другу но далеки ото всех остальных

Метод ближайших соседей (Neighbor-joining NJ)

2 Кластер (i j) ndash новый узел дерева

Расстояние от i или от j до узла (ij) D(i (ij)) = 05middot(Mij + ui ndash uj) D(j (ij)) = 05middot (Mij + uj ndash ui) те длина ветви зависит от среднего расстояния до других вершин

3 Вычисляем расстояние от нового кластера до всех других

M(ij)k = Mik+Mjk ndash Mij 2

5 В матрице М убираем i и j и добавляем (i j) Повторяем пока не останутся 3 узла

Input MSA для n последовательностей одна последовательность для каждого вида

AAAAATC

AAAAAAG

CCCCCCG

AAAAATCAAAAAAG

CCCCCCG

Длинная ветвь ndash непохоже на правду

Длинная ветвь -Похоже на правду

Методы основанные на последовательностях Maximum Likelihood (ML) Maximum Parsimony (MP)

Как изобразить дерево Топология дерева

Топология дерева mdash только листья узлы (корень) и связывающие их ветви (топология не зависит от способа изображения дерева)

A

B

C

D

E A BC D E

Два изображения одной и той же топологии

Bacterium 1

Bacterium 3

Bacterium 2

Eukaryote 1

Eukaryote 4

Eukaryote 3

Eukaryote 2

Bacterium 1

Bacterium 3Bacterium 2

Eukaryote 1

Eukaryote 4Eukaryote 3

Eukaryote 2

Филограммы ndash длины ветвей

пропорциональны

эволюционному расстоянию

Кладограммы и филограммы

Кладограммы ndash только

топологя Длины ветвей не

учитываются

6

31

2

46

24

53

Как можно нарисовать построенное дерево

Какие on-line программы строят деревья

ClustalW ldquoTree typerdquo ndash nj phylip строит только методом NJ но результат ndash в разных форматах no bootstraps

Phylip (Felsenstein 1993) ndash пакет программ для построения филогенетических деревьев (stand-alone)On-line (partly) например

httpbiowebpasteurfrseqanalphylogenyphylip-ukhtml PAUP (Phylogenetic Analysis Using Parsimony)

MEGA филогенетический анализ последовательностей

httpwwwmegasoftwarenet

Эволюция ndash исторический процесс

Из 8200794532637891559375 деревьев для 20 OTUs 1

является верным и 8200794532637891559374

неверны

Truth is one falsehoods are many

Какое из 8200794532637891559375

деревьев истинно

Мы не знаем Можно применить иные критетии

Например ldquoпохожесть=родствоraquo

GCGbull Строковый поиск простой текстовый

поиск по локальной базе данных

bull Поиск в определениях или в аннотациях

bull Определения содержат минимальное количество информации для каждой статьи доступ имя организма имя гена длина последовательности дата

  • Bestfit Output
  • SP1 at swissprot
  • EGR1 at swissprot
  • Вывод
  • Bl2Seq at NCBI
  • Bl2seq results
  • Bl2seq оценка
  • Оптимизация времени вычислений при парном выравнивании
  • Slide 9
  • Алгоритм BLAST (шаг 1)
  • Slide 11
  • Blast
  • Поиск гомологов
  • ДНК или белок
  • ДНК
  • Slide 16
  • Slide 17
  • Двойная спираль
  • ДНК дальнейшая упаковка
  • Slide 20
  • Репликация ДНК
  • Slide 22
  • Slide 23
  • Slide 24
  • Slide 25
  • Множественное выравнивание последовательностей (MSA)
  • Slide 27
  • Основные предположения
  • Например
  • Почему множественное выравнивание
  • Slide 31
  • Подходы в MSA
  • MSA algorithm
  • Multiple Alignment - алгоритм
  • Комментарии
  • GCG
  • Slide 37
  • GCG
  • Slide 39
  • Slide 40
  • Slide 41
  • ClustalW
  • Slide 43
  • Slide 44
  • ClustalW на EMBL
  • ClustalW на EMBL - результат
  • ClustalW at EMBL - Jalview
  • Consensus Sequence
  • Профиль (Profile)
  • Profile vs Consensus
  • Slide 51
  • Slide 52
  • Psi Blast (NCBI)
  • PSI-Blast
  • Psi-Blast вывод
  • Slide 56
  • Филогенез
  • Slide 58
  • Slide 59
  • Slide 60
  • Slide 61
  • Древо видов и генов
  • Ортологи и паралоги
  • Шаги реконструирования филогенетического древа
  • Филогенетическое дерево
  • Зачем нужны филогенетические деревья
  • Терминология
  • Slide 68
  • Какие бывают деревья
  • Slide 70
  • Slide 71
  • Slide 72
  • 4 OTUs 3 неукорененных филогенетических деревьев
  • Slide 74
  • Slide 75
  • Slide 76
  • Slide 77
  • Рутинная процедура или как строят деревья
  • Slide 79
  • Slide 80
  • Slide 81
  • Slide 82
  • Slide 83
  • Slide 84
  • Slide 85
  • Slide 86
  • Slide 87
  • Slide 88
  • Slide 89
  • Как выбирать последовательности для дерева
  • Самое главное ndash хорошее выравнивание
  • Основные алгоритмы построения филогенетических деревьев
  • Пример матрицы расстояний
  • Slide 94
  • Гипотеза laquoмолекулярных часовraquo (EZuckerkandl LPauling 1962)
  • UPGMA Unweighted Pair Group Method with Arithmetic Mean
  • Недостатки UPGMA
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Метод Neighbor-joining
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Slide 101
  • Как изобразить дерево Топология дерева
  • Slide 103
  • Какие on-line программы строят деревья
  • MEGA филогенетический анализ последовательностей
  • Slide 106
  • Slide 107
  • Slide 108
Page 95: Bestfit Output

Недостатки UPGMA

Алгоритм строит ультраметрическое дерево ndash скорость эволюции предполагается одинаковой для всех ветвей дерева Использовать этот алгоритм имеет смысл только в случае ультраметрических данных (справедливости laquoмолекулярных часовraquo)

Реальное дерево UPGMA

Метод ближайших соседей (Neighbor-joining NJ)

Строит неукоренённое дерево

Может работать с большим количеством данных

Достаточно быстрый

Если есть недвусмысленное с точки зрения эксперта дерево то оно будет построено

Метод Neighbor-joining

Рисуем laquoзвездноеraquo дерево и будем laquoотщипыватьraquo от него по паре листьев

Пусть ui = Σk Mik(n-2) mdash среднее расстояние от листа i до других

листьев

1 Рассмотрим все возможные пары листьев Выберем 2 листа i и j с минимальным значением величины

Mij ndash ui ndashuj

те выбираем 2 узла которые близки друг к другу но далеки ото всех остальных

Метод ближайших соседей (Neighbor-joining NJ)

2 Кластер (i j) ndash новый узел дерева

Расстояние от i или от j до узла (ij) D(i (ij)) = 05middot(Mij + ui ndash uj) D(j (ij)) = 05middot (Mij + uj ndash ui) те длина ветви зависит от среднего расстояния до других вершин

3 Вычисляем расстояние от нового кластера до всех других

M(ij)k = Mik+Mjk ndash Mij 2

5 В матрице М убираем i и j и добавляем (i j) Повторяем пока не останутся 3 узла

Input MSA для n последовательностей одна последовательность для каждого вида

AAAAATC

AAAAAAG

CCCCCCG

AAAAATCAAAAAAG

CCCCCCG

Длинная ветвь ndash непохоже на правду

Длинная ветвь -Похоже на правду

Методы основанные на последовательностях Maximum Likelihood (ML) Maximum Parsimony (MP)

Как изобразить дерево Топология дерева

Топология дерева mdash только листья узлы (корень) и связывающие их ветви (топология не зависит от способа изображения дерева)

A

B

C

D

E A BC D E

Два изображения одной и той же топологии

Bacterium 1

Bacterium 3

Bacterium 2

Eukaryote 1

Eukaryote 4

Eukaryote 3

Eukaryote 2

Bacterium 1

Bacterium 3Bacterium 2

Eukaryote 1

Eukaryote 4Eukaryote 3

Eukaryote 2

Филограммы ndash длины ветвей

пропорциональны

эволюционному расстоянию

Кладограммы и филограммы

Кладограммы ndash только

топологя Длины ветвей не

учитываются

6

31

2

46

24

53

Как можно нарисовать построенное дерево

Какие on-line программы строят деревья

ClustalW ldquoTree typerdquo ndash nj phylip строит только методом NJ но результат ndash в разных форматах no bootstraps

Phylip (Felsenstein 1993) ndash пакет программ для построения филогенетических деревьев (stand-alone)On-line (partly) например

httpbiowebpasteurfrseqanalphylogenyphylip-ukhtml PAUP (Phylogenetic Analysis Using Parsimony)

MEGA филогенетический анализ последовательностей

httpwwwmegasoftwarenet

Эволюция ndash исторический процесс

Из 8200794532637891559375 деревьев для 20 OTUs 1

является верным и 8200794532637891559374

неверны

Truth is one falsehoods are many

Какое из 8200794532637891559375

деревьев истинно

Мы не знаем Можно применить иные критетии

Например ldquoпохожесть=родствоraquo

GCGbull Строковый поиск простой текстовый

поиск по локальной базе данных

bull Поиск в определениях или в аннотациях

bull Определения содержат минимальное количество информации для каждой статьи доступ имя организма имя гена длина последовательности дата

  • Bestfit Output
  • SP1 at swissprot
  • EGR1 at swissprot
  • Вывод
  • Bl2Seq at NCBI
  • Bl2seq results
  • Bl2seq оценка
  • Оптимизация времени вычислений при парном выравнивании
  • Slide 9
  • Алгоритм BLAST (шаг 1)
  • Slide 11
  • Blast
  • Поиск гомологов
  • ДНК или белок
  • ДНК
  • Slide 16
  • Slide 17
  • Двойная спираль
  • ДНК дальнейшая упаковка
  • Slide 20
  • Репликация ДНК
  • Slide 22
  • Slide 23
  • Slide 24
  • Slide 25
  • Множественное выравнивание последовательностей (MSA)
  • Slide 27
  • Основные предположения
  • Например
  • Почему множественное выравнивание
  • Slide 31
  • Подходы в MSA
  • MSA algorithm
  • Multiple Alignment - алгоритм
  • Комментарии
  • GCG
  • Slide 37
  • GCG
  • Slide 39
  • Slide 40
  • Slide 41
  • ClustalW
  • Slide 43
  • Slide 44
  • ClustalW на EMBL
  • ClustalW на EMBL - результат
  • ClustalW at EMBL - Jalview
  • Consensus Sequence
  • Профиль (Profile)
  • Profile vs Consensus
  • Slide 51
  • Slide 52
  • Psi Blast (NCBI)
  • PSI-Blast
  • Psi-Blast вывод
  • Slide 56
  • Филогенез
  • Slide 58
  • Slide 59
  • Slide 60
  • Slide 61
  • Древо видов и генов
  • Ортологи и паралоги
  • Шаги реконструирования филогенетического древа
  • Филогенетическое дерево
  • Зачем нужны филогенетические деревья
  • Терминология
  • Slide 68
  • Какие бывают деревья
  • Slide 70
  • Slide 71
  • Slide 72
  • 4 OTUs 3 неукорененных филогенетических деревьев
  • Slide 74
  • Slide 75
  • Slide 76
  • Slide 77
  • Рутинная процедура или как строят деревья
  • Slide 79
  • Slide 80
  • Slide 81
  • Slide 82
  • Slide 83
  • Slide 84
  • Slide 85
  • Slide 86
  • Slide 87
  • Slide 88
  • Slide 89
  • Как выбирать последовательности для дерева
  • Самое главное ndash хорошее выравнивание
  • Основные алгоритмы построения филогенетических деревьев
  • Пример матрицы расстояний
  • Slide 94
  • Гипотеза laquoмолекулярных часовraquo (EZuckerkandl LPauling 1962)
  • UPGMA Unweighted Pair Group Method with Arithmetic Mean
  • Недостатки UPGMA
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Метод Neighbor-joining
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Slide 101
  • Как изобразить дерево Топология дерева
  • Slide 103
  • Какие on-line программы строят деревья
  • MEGA филогенетический анализ последовательностей
  • Slide 106
  • Slide 107
  • Slide 108
Page 96: Bestfit Output

Метод ближайших соседей (Neighbor-joining NJ)

Строит неукоренённое дерево

Может работать с большим количеством данных

Достаточно быстрый

Если есть недвусмысленное с точки зрения эксперта дерево то оно будет построено

Метод Neighbor-joining

Рисуем laquoзвездноеraquo дерево и будем laquoотщипыватьraquo от него по паре листьев

Пусть ui = Σk Mik(n-2) mdash среднее расстояние от листа i до других

листьев

1 Рассмотрим все возможные пары листьев Выберем 2 листа i и j с минимальным значением величины

Mij ndash ui ndashuj

те выбираем 2 узла которые близки друг к другу но далеки ото всех остальных

Метод ближайших соседей (Neighbor-joining NJ)

2 Кластер (i j) ndash новый узел дерева

Расстояние от i или от j до узла (ij) D(i (ij)) = 05middot(Mij + ui ndash uj) D(j (ij)) = 05middot (Mij + uj ndash ui) те длина ветви зависит от среднего расстояния до других вершин

3 Вычисляем расстояние от нового кластера до всех других

M(ij)k = Mik+Mjk ndash Mij 2

5 В матрице М убираем i и j и добавляем (i j) Повторяем пока не останутся 3 узла

Input MSA для n последовательностей одна последовательность для каждого вида

AAAAATC

AAAAAAG

CCCCCCG

AAAAATCAAAAAAG

CCCCCCG

Длинная ветвь ndash непохоже на правду

Длинная ветвь -Похоже на правду

Методы основанные на последовательностях Maximum Likelihood (ML) Maximum Parsimony (MP)

Как изобразить дерево Топология дерева

Топология дерева mdash только листья узлы (корень) и связывающие их ветви (топология не зависит от способа изображения дерева)

A

B

C

D

E A BC D E

Два изображения одной и той же топологии

Bacterium 1

Bacterium 3

Bacterium 2

Eukaryote 1

Eukaryote 4

Eukaryote 3

Eukaryote 2

Bacterium 1

Bacterium 3Bacterium 2

Eukaryote 1

Eukaryote 4Eukaryote 3

Eukaryote 2

Филограммы ndash длины ветвей

пропорциональны

эволюционному расстоянию

Кладограммы и филограммы

Кладограммы ndash только

топологя Длины ветвей не

учитываются

6

31

2

46

24

53

Как можно нарисовать построенное дерево

Какие on-line программы строят деревья

ClustalW ldquoTree typerdquo ndash nj phylip строит только методом NJ но результат ndash в разных форматах no bootstraps

Phylip (Felsenstein 1993) ndash пакет программ для построения филогенетических деревьев (stand-alone)On-line (partly) например

httpbiowebpasteurfrseqanalphylogenyphylip-ukhtml PAUP (Phylogenetic Analysis Using Parsimony)

MEGA филогенетический анализ последовательностей

httpwwwmegasoftwarenet

Эволюция ndash исторический процесс

Из 8200794532637891559375 деревьев для 20 OTUs 1

является верным и 8200794532637891559374

неверны

Truth is one falsehoods are many

Какое из 8200794532637891559375

деревьев истинно

Мы не знаем Можно применить иные критетии

Например ldquoпохожесть=родствоraquo

GCGbull Строковый поиск простой текстовый

поиск по локальной базе данных

bull Поиск в определениях или в аннотациях

bull Определения содержат минимальное количество информации для каждой статьи доступ имя организма имя гена длина последовательности дата

  • Bestfit Output
  • SP1 at swissprot
  • EGR1 at swissprot
  • Вывод
  • Bl2Seq at NCBI
  • Bl2seq results
  • Bl2seq оценка
  • Оптимизация времени вычислений при парном выравнивании
  • Slide 9
  • Алгоритм BLAST (шаг 1)
  • Slide 11
  • Blast
  • Поиск гомологов
  • ДНК или белок
  • ДНК
  • Slide 16
  • Slide 17
  • Двойная спираль
  • ДНК дальнейшая упаковка
  • Slide 20
  • Репликация ДНК
  • Slide 22
  • Slide 23
  • Slide 24
  • Slide 25
  • Множественное выравнивание последовательностей (MSA)
  • Slide 27
  • Основные предположения
  • Например
  • Почему множественное выравнивание
  • Slide 31
  • Подходы в MSA
  • MSA algorithm
  • Multiple Alignment - алгоритм
  • Комментарии
  • GCG
  • Slide 37
  • GCG
  • Slide 39
  • Slide 40
  • Slide 41
  • ClustalW
  • Slide 43
  • Slide 44
  • ClustalW на EMBL
  • ClustalW на EMBL - результат
  • ClustalW at EMBL - Jalview
  • Consensus Sequence
  • Профиль (Profile)
  • Profile vs Consensus
  • Slide 51
  • Slide 52
  • Psi Blast (NCBI)
  • PSI-Blast
  • Psi-Blast вывод
  • Slide 56
  • Филогенез
  • Slide 58
  • Slide 59
  • Slide 60
  • Slide 61
  • Древо видов и генов
  • Ортологи и паралоги
  • Шаги реконструирования филогенетического древа
  • Филогенетическое дерево
  • Зачем нужны филогенетические деревья
  • Терминология
  • Slide 68
  • Какие бывают деревья
  • Slide 70
  • Slide 71
  • Slide 72
  • 4 OTUs 3 неукорененных филогенетических деревьев
  • Slide 74
  • Slide 75
  • Slide 76
  • Slide 77
  • Рутинная процедура или как строят деревья
  • Slide 79
  • Slide 80
  • Slide 81
  • Slide 82
  • Slide 83
  • Slide 84
  • Slide 85
  • Slide 86
  • Slide 87
  • Slide 88
  • Slide 89
  • Как выбирать последовательности для дерева
  • Самое главное ndash хорошее выравнивание
  • Основные алгоритмы построения филогенетических деревьев
  • Пример матрицы расстояний
  • Slide 94
  • Гипотеза laquoмолекулярных часовraquo (EZuckerkandl LPauling 1962)
  • UPGMA Unweighted Pair Group Method with Arithmetic Mean
  • Недостатки UPGMA
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Метод Neighbor-joining
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Slide 101
  • Как изобразить дерево Топология дерева
  • Slide 103
  • Какие on-line программы строят деревья
  • MEGA филогенетический анализ последовательностей
  • Slide 106
  • Slide 107
  • Slide 108
Page 97: Bestfit Output

Метод Neighbor-joining

Рисуем laquoзвездноеraquo дерево и будем laquoотщипыватьraquo от него по паре листьев

Пусть ui = Σk Mik(n-2) mdash среднее расстояние от листа i до других

листьев

1 Рассмотрим все возможные пары листьев Выберем 2 листа i и j с минимальным значением величины

Mij ndash ui ndashuj

те выбираем 2 узла которые близки друг к другу но далеки ото всех остальных

Метод ближайших соседей (Neighbor-joining NJ)

2 Кластер (i j) ndash новый узел дерева

Расстояние от i или от j до узла (ij) D(i (ij)) = 05middot(Mij + ui ndash uj) D(j (ij)) = 05middot (Mij + uj ndash ui) те длина ветви зависит от среднего расстояния до других вершин

3 Вычисляем расстояние от нового кластера до всех других

M(ij)k = Mik+Mjk ndash Mij 2

5 В матрице М убираем i и j и добавляем (i j) Повторяем пока не останутся 3 узла

Input MSA для n последовательностей одна последовательность для каждого вида

AAAAATC

AAAAAAG

CCCCCCG

AAAAATCAAAAAAG

CCCCCCG

Длинная ветвь ndash непохоже на правду

Длинная ветвь -Похоже на правду

Методы основанные на последовательностях Maximum Likelihood (ML) Maximum Parsimony (MP)

Как изобразить дерево Топология дерева

Топология дерева mdash только листья узлы (корень) и связывающие их ветви (топология не зависит от способа изображения дерева)

A

B

C

D

E A BC D E

Два изображения одной и той же топологии

Bacterium 1

Bacterium 3

Bacterium 2

Eukaryote 1

Eukaryote 4

Eukaryote 3

Eukaryote 2

Bacterium 1

Bacterium 3Bacterium 2

Eukaryote 1

Eukaryote 4Eukaryote 3

Eukaryote 2

Филограммы ndash длины ветвей

пропорциональны

эволюционному расстоянию

Кладограммы и филограммы

Кладограммы ndash только

топологя Длины ветвей не

учитываются

6

31

2

46

24

53

Как можно нарисовать построенное дерево

Какие on-line программы строят деревья

ClustalW ldquoTree typerdquo ndash nj phylip строит только методом NJ но результат ndash в разных форматах no bootstraps

Phylip (Felsenstein 1993) ndash пакет программ для построения филогенетических деревьев (stand-alone)On-line (partly) например

httpbiowebpasteurfrseqanalphylogenyphylip-ukhtml PAUP (Phylogenetic Analysis Using Parsimony)

MEGA филогенетический анализ последовательностей

httpwwwmegasoftwarenet

Эволюция ndash исторический процесс

Из 8200794532637891559375 деревьев для 20 OTUs 1

является верным и 8200794532637891559374

неверны

Truth is one falsehoods are many

Какое из 8200794532637891559375

деревьев истинно

Мы не знаем Можно применить иные критетии

Например ldquoпохожесть=родствоraquo

GCGbull Строковый поиск простой текстовый

поиск по локальной базе данных

bull Поиск в определениях или в аннотациях

bull Определения содержат минимальное количество информации для каждой статьи доступ имя организма имя гена длина последовательности дата

  • Bestfit Output
  • SP1 at swissprot
  • EGR1 at swissprot
  • Вывод
  • Bl2Seq at NCBI
  • Bl2seq results
  • Bl2seq оценка
  • Оптимизация времени вычислений при парном выравнивании
  • Slide 9
  • Алгоритм BLAST (шаг 1)
  • Slide 11
  • Blast
  • Поиск гомологов
  • ДНК или белок
  • ДНК
  • Slide 16
  • Slide 17
  • Двойная спираль
  • ДНК дальнейшая упаковка
  • Slide 20
  • Репликация ДНК
  • Slide 22
  • Slide 23
  • Slide 24
  • Slide 25
  • Множественное выравнивание последовательностей (MSA)
  • Slide 27
  • Основные предположения
  • Например
  • Почему множественное выравнивание
  • Slide 31
  • Подходы в MSA
  • MSA algorithm
  • Multiple Alignment - алгоритм
  • Комментарии
  • GCG
  • Slide 37
  • GCG
  • Slide 39
  • Slide 40
  • Slide 41
  • ClustalW
  • Slide 43
  • Slide 44
  • ClustalW на EMBL
  • ClustalW на EMBL - результат
  • ClustalW at EMBL - Jalview
  • Consensus Sequence
  • Профиль (Profile)
  • Profile vs Consensus
  • Slide 51
  • Slide 52
  • Psi Blast (NCBI)
  • PSI-Blast
  • Psi-Blast вывод
  • Slide 56
  • Филогенез
  • Slide 58
  • Slide 59
  • Slide 60
  • Slide 61
  • Древо видов и генов
  • Ортологи и паралоги
  • Шаги реконструирования филогенетического древа
  • Филогенетическое дерево
  • Зачем нужны филогенетические деревья
  • Терминология
  • Slide 68
  • Какие бывают деревья
  • Slide 70
  • Slide 71
  • Slide 72
  • 4 OTUs 3 неукорененных филогенетических деревьев
  • Slide 74
  • Slide 75
  • Slide 76
  • Slide 77
  • Рутинная процедура или как строят деревья
  • Slide 79
  • Slide 80
  • Slide 81
  • Slide 82
  • Slide 83
  • Slide 84
  • Slide 85
  • Slide 86
  • Slide 87
  • Slide 88
  • Slide 89
  • Как выбирать последовательности для дерева
  • Самое главное ndash хорошее выравнивание
  • Основные алгоритмы построения филогенетических деревьев
  • Пример матрицы расстояний
  • Slide 94
  • Гипотеза laquoмолекулярных часовraquo (EZuckerkandl LPauling 1962)
  • UPGMA Unweighted Pair Group Method with Arithmetic Mean
  • Недостатки UPGMA
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Метод Neighbor-joining
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Slide 101
  • Как изобразить дерево Топология дерева
  • Slide 103
  • Какие on-line программы строят деревья
  • MEGA филогенетический анализ последовательностей
  • Slide 106
  • Slide 107
  • Slide 108
Page 98: Bestfit Output

Метод ближайших соседей (Neighbor-joining NJ)

2 Кластер (i j) ndash новый узел дерева

Расстояние от i или от j до узла (ij) D(i (ij)) = 05middot(Mij + ui ndash uj) D(j (ij)) = 05middot (Mij + uj ndash ui) те длина ветви зависит от среднего расстояния до других вершин

3 Вычисляем расстояние от нового кластера до всех других

M(ij)k = Mik+Mjk ndash Mij 2

5 В матрице М убираем i и j и добавляем (i j) Повторяем пока не останутся 3 узла

Input MSA для n последовательностей одна последовательность для каждого вида

AAAAATC

AAAAAAG

CCCCCCG

AAAAATCAAAAAAG

CCCCCCG

Длинная ветвь ndash непохоже на правду

Длинная ветвь -Похоже на правду

Методы основанные на последовательностях Maximum Likelihood (ML) Maximum Parsimony (MP)

Как изобразить дерево Топология дерева

Топология дерева mdash только листья узлы (корень) и связывающие их ветви (топология не зависит от способа изображения дерева)

A

B

C

D

E A BC D E

Два изображения одной и той же топологии

Bacterium 1

Bacterium 3

Bacterium 2

Eukaryote 1

Eukaryote 4

Eukaryote 3

Eukaryote 2

Bacterium 1

Bacterium 3Bacterium 2

Eukaryote 1

Eukaryote 4Eukaryote 3

Eukaryote 2

Филограммы ndash длины ветвей

пропорциональны

эволюционному расстоянию

Кладограммы и филограммы

Кладограммы ndash только

топологя Длины ветвей не

учитываются

6

31

2

46

24

53

Как можно нарисовать построенное дерево

Какие on-line программы строят деревья

ClustalW ldquoTree typerdquo ndash nj phylip строит только методом NJ но результат ndash в разных форматах no bootstraps

Phylip (Felsenstein 1993) ndash пакет программ для построения филогенетических деревьев (stand-alone)On-line (partly) например

httpbiowebpasteurfrseqanalphylogenyphylip-ukhtml PAUP (Phylogenetic Analysis Using Parsimony)

MEGA филогенетический анализ последовательностей

httpwwwmegasoftwarenet

Эволюция ndash исторический процесс

Из 8200794532637891559375 деревьев для 20 OTUs 1

является верным и 8200794532637891559374

неверны

Truth is one falsehoods are many

Какое из 8200794532637891559375

деревьев истинно

Мы не знаем Можно применить иные критетии

Например ldquoпохожесть=родствоraquo

GCGbull Строковый поиск простой текстовый

поиск по локальной базе данных

bull Поиск в определениях или в аннотациях

bull Определения содержат минимальное количество информации для каждой статьи доступ имя организма имя гена длина последовательности дата

  • Bestfit Output
  • SP1 at swissprot
  • EGR1 at swissprot
  • Вывод
  • Bl2Seq at NCBI
  • Bl2seq results
  • Bl2seq оценка
  • Оптимизация времени вычислений при парном выравнивании
  • Slide 9
  • Алгоритм BLAST (шаг 1)
  • Slide 11
  • Blast
  • Поиск гомологов
  • ДНК или белок
  • ДНК
  • Slide 16
  • Slide 17
  • Двойная спираль
  • ДНК дальнейшая упаковка
  • Slide 20
  • Репликация ДНК
  • Slide 22
  • Slide 23
  • Slide 24
  • Slide 25
  • Множественное выравнивание последовательностей (MSA)
  • Slide 27
  • Основные предположения
  • Например
  • Почему множественное выравнивание
  • Slide 31
  • Подходы в MSA
  • MSA algorithm
  • Multiple Alignment - алгоритм
  • Комментарии
  • GCG
  • Slide 37
  • GCG
  • Slide 39
  • Slide 40
  • Slide 41
  • ClustalW
  • Slide 43
  • Slide 44
  • ClustalW на EMBL
  • ClustalW на EMBL - результат
  • ClustalW at EMBL - Jalview
  • Consensus Sequence
  • Профиль (Profile)
  • Profile vs Consensus
  • Slide 51
  • Slide 52
  • Psi Blast (NCBI)
  • PSI-Blast
  • Psi-Blast вывод
  • Slide 56
  • Филогенез
  • Slide 58
  • Slide 59
  • Slide 60
  • Slide 61
  • Древо видов и генов
  • Ортологи и паралоги
  • Шаги реконструирования филогенетического древа
  • Филогенетическое дерево
  • Зачем нужны филогенетические деревья
  • Терминология
  • Slide 68
  • Какие бывают деревья
  • Slide 70
  • Slide 71
  • Slide 72
  • 4 OTUs 3 неукорененных филогенетических деревьев
  • Slide 74
  • Slide 75
  • Slide 76
  • Slide 77
  • Рутинная процедура или как строят деревья
  • Slide 79
  • Slide 80
  • Slide 81
  • Slide 82
  • Slide 83
  • Slide 84
  • Slide 85
  • Slide 86
  • Slide 87
  • Slide 88
  • Slide 89
  • Как выбирать последовательности для дерева
  • Самое главное ndash хорошее выравнивание
  • Основные алгоритмы построения филогенетических деревьев
  • Пример матрицы расстояний
  • Slide 94
  • Гипотеза laquoмолекулярных часовraquo (EZuckerkandl LPauling 1962)
  • UPGMA Unweighted Pair Group Method with Arithmetic Mean
  • Недостатки UPGMA
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Метод Neighbor-joining
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Slide 101
  • Как изобразить дерево Топология дерева
  • Slide 103
  • Какие on-line программы строят деревья
  • MEGA филогенетический анализ последовательностей
  • Slide 106
  • Slide 107
  • Slide 108
Page 99: Bestfit Output

Input MSA для n последовательностей одна последовательность для каждого вида

AAAAATC

AAAAAAG

CCCCCCG

AAAAATCAAAAAAG

CCCCCCG

Длинная ветвь ndash непохоже на правду

Длинная ветвь -Похоже на правду

Методы основанные на последовательностях Maximum Likelihood (ML) Maximum Parsimony (MP)

Как изобразить дерево Топология дерева

Топология дерева mdash только листья узлы (корень) и связывающие их ветви (топология не зависит от способа изображения дерева)

A

B

C

D

E A BC D E

Два изображения одной и той же топологии

Bacterium 1

Bacterium 3

Bacterium 2

Eukaryote 1

Eukaryote 4

Eukaryote 3

Eukaryote 2

Bacterium 1

Bacterium 3Bacterium 2

Eukaryote 1

Eukaryote 4Eukaryote 3

Eukaryote 2

Филограммы ndash длины ветвей

пропорциональны

эволюционному расстоянию

Кладограммы и филограммы

Кладограммы ndash только

топологя Длины ветвей не

учитываются

6

31

2

46

24

53

Как можно нарисовать построенное дерево

Какие on-line программы строят деревья

ClustalW ldquoTree typerdquo ndash nj phylip строит только методом NJ но результат ndash в разных форматах no bootstraps

Phylip (Felsenstein 1993) ndash пакет программ для построения филогенетических деревьев (stand-alone)On-line (partly) например

httpbiowebpasteurfrseqanalphylogenyphylip-ukhtml PAUP (Phylogenetic Analysis Using Parsimony)

MEGA филогенетический анализ последовательностей

httpwwwmegasoftwarenet

Эволюция ndash исторический процесс

Из 8200794532637891559375 деревьев для 20 OTUs 1

является верным и 8200794532637891559374

неверны

Truth is one falsehoods are many

Какое из 8200794532637891559375

деревьев истинно

Мы не знаем Можно применить иные критетии

Например ldquoпохожесть=родствоraquo

GCGbull Строковый поиск простой текстовый

поиск по локальной базе данных

bull Поиск в определениях или в аннотациях

bull Определения содержат минимальное количество информации для каждой статьи доступ имя организма имя гена длина последовательности дата

  • Bestfit Output
  • SP1 at swissprot
  • EGR1 at swissprot
  • Вывод
  • Bl2Seq at NCBI
  • Bl2seq results
  • Bl2seq оценка
  • Оптимизация времени вычислений при парном выравнивании
  • Slide 9
  • Алгоритм BLAST (шаг 1)
  • Slide 11
  • Blast
  • Поиск гомологов
  • ДНК или белок
  • ДНК
  • Slide 16
  • Slide 17
  • Двойная спираль
  • ДНК дальнейшая упаковка
  • Slide 20
  • Репликация ДНК
  • Slide 22
  • Slide 23
  • Slide 24
  • Slide 25
  • Множественное выравнивание последовательностей (MSA)
  • Slide 27
  • Основные предположения
  • Например
  • Почему множественное выравнивание
  • Slide 31
  • Подходы в MSA
  • MSA algorithm
  • Multiple Alignment - алгоритм
  • Комментарии
  • GCG
  • Slide 37
  • GCG
  • Slide 39
  • Slide 40
  • Slide 41
  • ClustalW
  • Slide 43
  • Slide 44
  • ClustalW на EMBL
  • ClustalW на EMBL - результат
  • ClustalW at EMBL - Jalview
  • Consensus Sequence
  • Профиль (Profile)
  • Profile vs Consensus
  • Slide 51
  • Slide 52
  • Psi Blast (NCBI)
  • PSI-Blast
  • Psi-Blast вывод
  • Slide 56
  • Филогенез
  • Slide 58
  • Slide 59
  • Slide 60
  • Slide 61
  • Древо видов и генов
  • Ортологи и паралоги
  • Шаги реконструирования филогенетического древа
  • Филогенетическое дерево
  • Зачем нужны филогенетические деревья
  • Терминология
  • Slide 68
  • Какие бывают деревья
  • Slide 70
  • Slide 71
  • Slide 72
  • 4 OTUs 3 неукорененных филогенетических деревьев
  • Slide 74
  • Slide 75
  • Slide 76
  • Slide 77
  • Рутинная процедура или как строят деревья
  • Slide 79
  • Slide 80
  • Slide 81
  • Slide 82
  • Slide 83
  • Slide 84
  • Slide 85
  • Slide 86
  • Slide 87
  • Slide 88
  • Slide 89
  • Как выбирать последовательности для дерева
  • Самое главное ndash хорошее выравнивание
  • Основные алгоритмы построения филогенетических деревьев
  • Пример матрицы расстояний
  • Slide 94
  • Гипотеза laquoмолекулярных часовraquo (EZuckerkandl LPauling 1962)
  • UPGMA Unweighted Pair Group Method with Arithmetic Mean
  • Недостатки UPGMA
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Метод Neighbor-joining
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Slide 101
  • Как изобразить дерево Топология дерева
  • Slide 103
  • Какие on-line программы строят деревья
  • MEGA филогенетический анализ последовательностей
  • Slide 106
  • Slide 107
  • Slide 108
Page 100: Bestfit Output

Как изобразить дерево Топология дерева

Топология дерева mdash только листья узлы (корень) и связывающие их ветви (топология не зависит от способа изображения дерева)

A

B

C

D

E A BC D E

Два изображения одной и той же топологии

Bacterium 1

Bacterium 3

Bacterium 2

Eukaryote 1

Eukaryote 4

Eukaryote 3

Eukaryote 2

Bacterium 1

Bacterium 3Bacterium 2

Eukaryote 1

Eukaryote 4Eukaryote 3

Eukaryote 2

Филограммы ndash длины ветвей

пропорциональны

эволюционному расстоянию

Кладограммы и филограммы

Кладограммы ndash только

топологя Длины ветвей не

учитываются

6

31

2

46

24

53

Как можно нарисовать построенное дерево

Какие on-line программы строят деревья

ClustalW ldquoTree typerdquo ndash nj phylip строит только методом NJ но результат ndash в разных форматах no bootstraps

Phylip (Felsenstein 1993) ndash пакет программ для построения филогенетических деревьев (stand-alone)On-line (partly) например

httpbiowebpasteurfrseqanalphylogenyphylip-ukhtml PAUP (Phylogenetic Analysis Using Parsimony)

MEGA филогенетический анализ последовательностей

httpwwwmegasoftwarenet

Эволюция ndash исторический процесс

Из 8200794532637891559375 деревьев для 20 OTUs 1

является верным и 8200794532637891559374

неверны

Truth is one falsehoods are many

Какое из 8200794532637891559375

деревьев истинно

Мы не знаем Можно применить иные критетии

Например ldquoпохожесть=родствоraquo

GCGbull Строковый поиск простой текстовый

поиск по локальной базе данных

bull Поиск в определениях или в аннотациях

bull Определения содержат минимальное количество информации для каждой статьи доступ имя организма имя гена длина последовательности дата

  • Bestfit Output
  • SP1 at swissprot
  • EGR1 at swissprot
  • Вывод
  • Bl2Seq at NCBI
  • Bl2seq results
  • Bl2seq оценка
  • Оптимизация времени вычислений при парном выравнивании
  • Slide 9
  • Алгоритм BLAST (шаг 1)
  • Slide 11
  • Blast
  • Поиск гомологов
  • ДНК или белок
  • ДНК
  • Slide 16
  • Slide 17
  • Двойная спираль
  • ДНК дальнейшая упаковка
  • Slide 20
  • Репликация ДНК
  • Slide 22
  • Slide 23
  • Slide 24
  • Slide 25
  • Множественное выравнивание последовательностей (MSA)
  • Slide 27
  • Основные предположения
  • Например
  • Почему множественное выравнивание
  • Slide 31
  • Подходы в MSA
  • MSA algorithm
  • Multiple Alignment - алгоритм
  • Комментарии
  • GCG
  • Slide 37
  • GCG
  • Slide 39
  • Slide 40
  • Slide 41
  • ClustalW
  • Slide 43
  • Slide 44
  • ClustalW на EMBL
  • ClustalW на EMBL - результат
  • ClustalW at EMBL - Jalview
  • Consensus Sequence
  • Профиль (Profile)
  • Profile vs Consensus
  • Slide 51
  • Slide 52
  • Psi Blast (NCBI)
  • PSI-Blast
  • Psi-Blast вывод
  • Slide 56
  • Филогенез
  • Slide 58
  • Slide 59
  • Slide 60
  • Slide 61
  • Древо видов и генов
  • Ортологи и паралоги
  • Шаги реконструирования филогенетического древа
  • Филогенетическое дерево
  • Зачем нужны филогенетические деревья
  • Терминология
  • Slide 68
  • Какие бывают деревья
  • Slide 70
  • Slide 71
  • Slide 72
  • 4 OTUs 3 неукорененных филогенетических деревьев
  • Slide 74
  • Slide 75
  • Slide 76
  • Slide 77
  • Рутинная процедура или как строят деревья
  • Slide 79
  • Slide 80
  • Slide 81
  • Slide 82
  • Slide 83
  • Slide 84
  • Slide 85
  • Slide 86
  • Slide 87
  • Slide 88
  • Slide 89
  • Как выбирать последовательности для дерева
  • Самое главное ndash хорошее выравнивание
  • Основные алгоритмы построения филогенетических деревьев
  • Пример матрицы расстояний
  • Slide 94
  • Гипотеза laquoмолекулярных часовraquo (EZuckerkandl LPauling 1962)
  • UPGMA Unweighted Pair Group Method with Arithmetic Mean
  • Недостатки UPGMA
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Метод Neighbor-joining
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Slide 101
  • Как изобразить дерево Топология дерева
  • Slide 103
  • Какие on-line программы строят деревья
  • MEGA филогенетический анализ последовательностей
  • Slide 106
  • Slide 107
  • Slide 108
Page 101: Bestfit Output

Bacterium 1

Bacterium 3

Bacterium 2

Eukaryote 1

Eukaryote 4

Eukaryote 3

Eukaryote 2

Bacterium 1

Bacterium 3Bacterium 2

Eukaryote 1

Eukaryote 4Eukaryote 3

Eukaryote 2

Филограммы ndash длины ветвей

пропорциональны

эволюционному расстоянию

Кладограммы и филограммы

Кладограммы ndash только

топологя Длины ветвей не

учитываются

6

31

2

46

24

53

Как можно нарисовать построенное дерево

Какие on-line программы строят деревья

ClustalW ldquoTree typerdquo ndash nj phylip строит только методом NJ но результат ndash в разных форматах no bootstraps

Phylip (Felsenstein 1993) ndash пакет программ для построения филогенетических деревьев (stand-alone)On-line (partly) например

httpbiowebpasteurfrseqanalphylogenyphylip-ukhtml PAUP (Phylogenetic Analysis Using Parsimony)

MEGA филогенетический анализ последовательностей

httpwwwmegasoftwarenet

Эволюция ndash исторический процесс

Из 8200794532637891559375 деревьев для 20 OTUs 1

является верным и 8200794532637891559374

неверны

Truth is one falsehoods are many

Какое из 8200794532637891559375

деревьев истинно

Мы не знаем Можно применить иные критетии

Например ldquoпохожесть=родствоraquo

GCGbull Строковый поиск простой текстовый

поиск по локальной базе данных

bull Поиск в определениях или в аннотациях

bull Определения содержат минимальное количество информации для каждой статьи доступ имя организма имя гена длина последовательности дата

  • Bestfit Output
  • SP1 at swissprot
  • EGR1 at swissprot
  • Вывод
  • Bl2Seq at NCBI
  • Bl2seq results
  • Bl2seq оценка
  • Оптимизация времени вычислений при парном выравнивании
  • Slide 9
  • Алгоритм BLAST (шаг 1)
  • Slide 11
  • Blast
  • Поиск гомологов
  • ДНК или белок
  • ДНК
  • Slide 16
  • Slide 17
  • Двойная спираль
  • ДНК дальнейшая упаковка
  • Slide 20
  • Репликация ДНК
  • Slide 22
  • Slide 23
  • Slide 24
  • Slide 25
  • Множественное выравнивание последовательностей (MSA)
  • Slide 27
  • Основные предположения
  • Например
  • Почему множественное выравнивание
  • Slide 31
  • Подходы в MSA
  • MSA algorithm
  • Multiple Alignment - алгоритм
  • Комментарии
  • GCG
  • Slide 37
  • GCG
  • Slide 39
  • Slide 40
  • Slide 41
  • ClustalW
  • Slide 43
  • Slide 44
  • ClustalW на EMBL
  • ClustalW на EMBL - результат
  • ClustalW at EMBL - Jalview
  • Consensus Sequence
  • Профиль (Profile)
  • Profile vs Consensus
  • Slide 51
  • Slide 52
  • Psi Blast (NCBI)
  • PSI-Blast
  • Psi-Blast вывод
  • Slide 56
  • Филогенез
  • Slide 58
  • Slide 59
  • Slide 60
  • Slide 61
  • Древо видов и генов
  • Ортологи и паралоги
  • Шаги реконструирования филогенетического древа
  • Филогенетическое дерево
  • Зачем нужны филогенетические деревья
  • Терминология
  • Slide 68
  • Какие бывают деревья
  • Slide 70
  • Slide 71
  • Slide 72
  • 4 OTUs 3 неукорененных филогенетических деревьев
  • Slide 74
  • Slide 75
  • Slide 76
  • Slide 77
  • Рутинная процедура или как строят деревья
  • Slide 79
  • Slide 80
  • Slide 81
  • Slide 82
  • Slide 83
  • Slide 84
  • Slide 85
  • Slide 86
  • Slide 87
  • Slide 88
  • Slide 89
  • Как выбирать последовательности для дерева
  • Самое главное ndash хорошее выравнивание
  • Основные алгоритмы построения филогенетических деревьев
  • Пример матрицы расстояний
  • Slide 94
  • Гипотеза laquoмолекулярных часовraquo (EZuckerkandl LPauling 1962)
  • UPGMA Unweighted Pair Group Method with Arithmetic Mean
  • Недостатки UPGMA
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Метод Neighbor-joining
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Slide 101
  • Как изобразить дерево Топология дерева
  • Slide 103
  • Какие on-line программы строят деревья
  • MEGA филогенетический анализ последовательностей
  • Slide 106
  • Slide 107
  • Slide 108
Page 102: Bestfit Output

Какие on-line программы строят деревья

ClustalW ldquoTree typerdquo ndash nj phylip строит только методом NJ но результат ndash в разных форматах no bootstraps

Phylip (Felsenstein 1993) ndash пакет программ для построения филогенетических деревьев (stand-alone)On-line (partly) например

httpbiowebpasteurfrseqanalphylogenyphylip-ukhtml PAUP (Phylogenetic Analysis Using Parsimony)

MEGA филогенетический анализ последовательностей

httpwwwmegasoftwarenet

Эволюция ndash исторический процесс

Из 8200794532637891559375 деревьев для 20 OTUs 1

является верным и 8200794532637891559374

неверны

Truth is one falsehoods are many

Какое из 8200794532637891559375

деревьев истинно

Мы не знаем Можно применить иные критетии

Например ldquoпохожесть=родствоraquo

GCGbull Строковый поиск простой текстовый

поиск по локальной базе данных

bull Поиск в определениях или в аннотациях

bull Определения содержат минимальное количество информации для каждой статьи доступ имя организма имя гена длина последовательности дата

  • Bestfit Output
  • SP1 at swissprot
  • EGR1 at swissprot
  • Вывод
  • Bl2Seq at NCBI
  • Bl2seq results
  • Bl2seq оценка
  • Оптимизация времени вычислений при парном выравнивании
  • Slide 9
  • Алгоритм BLAST (шаг 1)
  • Slide 11
  • Blast
  • Поиск гомологов
  • ДНК или белок
  • ДНК
  • Slide 16
  • Slide 17
  • Двойная спираль
  • ДНК дальнейшая упаковка
  • Slide 20
  • Репликация ДНК
  • Slide 22
  • Slide 23
  • Slide 24
  • Slide 25
  • Множественное выравнивание последовательностей (MSA)
  • Slide 27
  • Основные предположения
  • Например
  • Почему множественное выравнивание
  • Slide 31
  • Подходы в MSA
  • MSA algorithm
  • Multiple Alignment - алгоритм
  • Комментарии
  • GCG
  • Slide 37
  • GCG
  • Slide 39
  • Slide 40
  • Slide 41
  • ClustalW
  • Slide 43
  • Slide 44
  • ClustalW на EMBL
  • ClustalW на EMBL - результат
  • ClustalW at EMBL - Jalview
  • Consensus Sequence
  • Профиль (Profile)
  • Profile vs Consensus
  • Slide 51
  • Slide 52
  • Psi Blast (NCBI)
  • PSI-Blast
  • Psi-Blast вывод
  • Slide 56
  • Филогенез
  • Slide 58
  • Slide 59
  • Slide 60
  • Slide 61
  • Древо видов и генов
  • Ортологи и паралоги
  • Шаги реконструирования филогенетического древа
  • Филогенетическое дерево
  • Зачем нужны филогенетические деревья
  • Терминология
  • Slide 68
  • Какие бывают деревья
  • Slide 70
  • Slide 71
  • Slide 72
  • 4 OTUs 3 неукорененных филогенетических деревьев
  • Slide 74
  • Slide 75
  • Slide 76
  • Slide 77
  • Рутинная процедура или как строят деревья
  • Slide 79
  • Slide 80
  • Slide 81
  • Slide 82
  • Slide 83
  • Slide 84
  • Slide 85
  • Slide 86
  • Slide 87
  • Slide 88
  • Slide 89
  • Как выбирать последовательности для дерева
  • Самое главное ndash хорошее выравнивание
  • Основные алгоритмы построения филогенетических деревьев
  • Пример матрицы расстояний
  • Slide 94
  • Гипотеза laquoмолекулярных часовraquo (EZuckerkandl LPauling 1962)
  • UPGMA Unweighted Pair Group Method with Arithmetic Mean
  • Недостатки UPGMA
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Метод Neighbor-joining
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Slide 101
  • Как изобразить дерево Топология дерева
  • Slide 103
  • Какие on-line программы строят деревья
  • MEGA филогенетический анализ последовательностей
  • Slide 106
  • Slide 107
  • Slide 108
Page 103: Bestfit Output

MEGA филогенетический анализ последовательностей

httpwwwmegasoftwarenet

Эволюция ndash исторический процесс

Из 8200794532637891559375 деревьев для 20 OTUs 1

является верным и 8200794532637891559374

неверны

Truth is one falsehoods are many

Какое из 8200794532637891559375

деревьев истинно

Мы не знаем Можно применить иные критетии

Например ldquoпохожесть=родствоraquo

GCGbull Строковый поиск простой текстовый

поиск по локальной базе данных

bull Поиск в определениях или в аннотациях

bull Определения содержат минимальное количество информации для каждой статьи доступ имя организма имя гена длина последовательности дата

  • Bestfit Output
  • SP1 at swissprot
  • EGR1 at swissprot
  • Вывод
  • Bl2Seq at NCBI
  • Bl2seq results
  • Bl2seq оценка
  • Оптимизация времени вычислений при парном выравнивании
  • Slide 9
  • Алгоритм BLAST (шаг 1)
  • Slide 11
  • Blast
  • Поиск гомологов
  • ДНК или белок
  • ДНК
  • Slide 16
  • Slide 17
  • Двойная спираль
  • ДНК дальнейшая упаковка
  • Slide 20
  • Репликация ДНК
  • Slide 22
  • Slide 23
  • Slide 24
  • Slide 25
  • Множественное выравнивание последовательностей (MSA)
  • Slide 27
  • Основные предположения
  • Например
  • Почему множественное выравнивание
  • Slide 31
  • Подходы в MSA
  • MSA algorithm
  • Multiple Alignment - алгоритм
  • Комментарии
  • GCG
  • Slide 37
  • GCG
  • Slide 39
  • Slide 40
  • Slide 41
  • ClustalW
  • Slide 43
  • Slide 44
  • ClustalW на EMBL
  • ClustalW на EMBL - результат
  • ClustalW at EMBL - Jalview
  • Consensus Sequence
  • Профиль (Profile)
  • Profile vs Consensus
  • Slide 51
  • Slide 52
  • Psi Blast (NCBI)
  • PSI-Blast
  • Psi-Blast вывод
  • Slide 56
  • Филогенез
  • Slide 58
  • Slide 59
  • Slide 60
  • Slide 61
  • Древо видов и генов
  • Ортологи и паралоги
  • Шаги реконструирования филогенетического древа
  • Филогенетическое дерево
  • Зачем нужны филогенетические деревья
  • Терминология
  • Slide 68
  • Какие бывают деревья
  • Slide 70
  • Slide 71
  • Slide 72
  • 4 OTUs 3 неукорененных филогенетических деревьев
  • Slide 74
  • Slide 75
  • Slide 76
  • Slide 77
  • Рутинная процедура или как строят деревья
  • Slide 79
  • Slide 80
  • Slide 81
  • Slide 82
  • Slide 83
  • Slide 84
  • Slide 85
  • Slide 86
  • Slide 87
  • Slide 88
  • Slide 89
  • Как выбирать последовательности для дерева
  • Самое главное ndash хорошее выравнивание
  • Основные алгоритмы построения филогенетических деревьев
  • Пример матрицы расстояний
  • Slide 94
  • Гипотеза laquoмолекулярных часовraquo (EZuckerkandl LPauling 1962)
  • UPGMA Unweighted Pair Group Method with Arithmetic Mean
  • Недостатки UPGMA
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Метод Neighbor-joining
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Slide 101
  • Как изобразить дерево Топология дерева
  • Slide 103
  • Какие on-line программы строят деревья
  • MEGA филогенетический анализ последовательностей
  • Slide 106
  • Slide 107
  • Slide 108
Page 104: Bestfit Output

Эволюция ndash исторический процесс

Из 8200794532637891559375 деревьев для 20 OTUs 1

является верным и 8200794532637891559374

неверны

Truth is one falsehoods are many

Какое из 8200794532637891559375

деревьев истинно

Мы не знаем Можно применить иные критетии

Например ldquoпохожесть=родствоraquo

GCGbull Строковый поиск простой текстовый

поиск по локальной базе данных

bull Поиск в определениях или в аннотациях

bull Определения содержат минимальное количество информации для каждой статьи доступ имя организма имя гена длина последовательности дата

  • Bestfit Output
  • SP1 at swissprot
  • EGR1 at swissprot
  • Вывод
  • Bl2Seq at NCBI
  • Bl2seq results
  • Bl2seq оценка
  • Оптимизация времени вычислений при парном выравнивании
  • Slide 9
  • Алгоритм BLAST (шаг 1)
  • Slide 11
  • Blast
  • Поиск гомологов
  • ДНК или белок
  • ДНК
  • Slide 16
  • Slide 17
  • Двойная спираль
  • ДНК дальнейшая упаковка
  • Slide 20
  • Репликация ДНК
  • Slide 22
  • Slide 23
  • Slide 24
  • Slide 25
  • Множественное выравнивание последовательностей (MSA)
  • Slide 27
  • Основные предположения
  • Например
  • Почему множественное выравнивание
  • Slide 31
  • Подходы в MSA
  • MSA algorithm
  • Multiple Alignment - алгоритм
  • Комментарии
  • GCG
  • Slide 37
  • GCG
  • Slide 39
  • Slide 40
  • Slide 41
  • ClustalW
  • Slide 43
  • Slide 44
  • ClustalW на EMBL
  • ClustalW на EMBL - результат
  • ClustalW at EMBL - Jalview
  • Consensus Sequence
  • Профиль (Profile)
  • Profile vs Consensus
  • Slide 51
  • Slide 52
  • Psi Blast (NCBI)
  • PSI-Blast
  • Psi-Blast вывод
  • Slide 56
  • Филогенез
  • Slide 58
  • Slide 59
  • Slide 60
  • Slide 61
  • Древо видов и генов
  • Ортологи и паралоги
  • Шаги реконструирования филогенетического древа
  • Филогенетическое дерево
  • Зачем нужны филогенетические деревья
  • Терминология
  • Slide 68
  • Какие бывают деревья
  • Slide 70
  • Slide 71
  • Slide 72
  • 4 OTUs 3 неукорененных филогенетических деревьев
  • Slide 74
  • Slide 75
  • Slide 76
  • Slide 77
  • Рутинная процедура или как строят деревья
  • Slide 79
  • Slide 80
  • Slide 81
  • Slide 82
  • Slide 83
  • Slide 84
  • Slide 85
  • Slide 86
  • Slide 87
  • Slide 88
  • Slide 89
  • Как выбирать последовательности для дерева
  • Самое главное ndash хорошее выравнивание
  • Основные алгоритмы построения филогенетических деревьев
  • Пример матрицы расстояний
  • Slide 94
  • Гипотеза laquoмолекулярных часовraquo (EZuckerkandl LPauling 1962)
  • UPGMA Unweighted Pair Group Method with Arithmetic Mean
  • Недостатки UPGMA
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Метод Neighbor-joining
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Slide 101
  • Как изобразить дерево Топология дерева
  • Slide 103
  • Какие on-line программы строят деревья
  • MEGA филогенетический анализ последовательностей
  • Slide 106
  • Slide 107
  • Slide 108
Page 105: Bestfit Output

Какое из 8200794532637891559375

деревьев истинно

Мы не знаем Можно применить иные критетии

Например ldquoпохожесть=родствоraquo

GCGbull Строковый поиск простой текстовый

поиск по локальной базе данных

bull Поиск в определениях или в аннотациях

bull Определения содержат минимальное количество информации для каждой статьи доступ имя организма имя гена длина последовательности дата

  • Bestfit Output
  • SP1 at swissprot
  • EGR1 at swissprot
  • Вывод
  • Bl2Seq at NCBI
  • Bl2seq results
  • Bl2seq оценка
  • Оптимизация времени вычислений при парном выравнивании
  • Slide 9
  • Алгоритм BLAST (шаг 1)
  • Slide 11
  • Blast
  • Поиск гомологов
  • ДНК или белок
  • ДНК
  • Slide 16
  • Slide 17
  • Двойная спираль
  • ДНК дальнейшая упаковка
  • Slide 20
  • Репликация ДНК
  • Slide 22
  • Slide 23
  • Slide 24
  • Slide 25
  • Множественное выравнивание последовательностей (MSA)
  • Slide 27
  • Основные предположения
  • Например
  • Почему множественное выравнивание
  • Slide 31
  • Подходы в MSA
  • MSA algorithm
  • Multiple Alignment - алгоритм
  • Комментарии
  • GCG
  • Slide 37
  • GCG
  • Slide 39
  • Slide 40
  • Slide 41
  • ClustalW
  • Slide 43
  • Slide 44
  • ClustalW на EMBL
  • ClustalW на EMBL - результат
  • ClustalW at EMBL - Jalview
  • Consensus Sequence
  • Профиль (Profile)
  • Profile vs Consensus
  • Slide 51
  • Slide 52
  • Psi Blast (NCBI)
  • PSI-Blast
  • Psi-Blast вывод
  • Slide 56
  • Филогенез
  • Slide 58
  • Slide 59
  • Slide 60
  • Slide 61
  • Древо видов и генов
  • Ортологи и паралоги
  • Шаги реконструирования филогенетического древа
  • Филогенетическое дерево
  • Зачем нужны филогенетические деревья
  • Терминология
  • Slide 68
  • Какие бывают деревья
  • Slide 70
  • Slide 71
  • Slide 72
  • 4 OTUs 3 неукорененных филогенетических деревьев
  • Slide 74
  • Slide 75
  • Slide 76
  • Slide 77
  • Рутинная процедура или как строят деревья
  • Slide 79
  • Slide 80
  • Slide 81
  • Slide 82
  • Slide 83
  • Slide 84
  • Slide 85
  • Slide 86
  • Slide 87
  • Slide 88
  • Slide 89
  • Как выбирать последовательности для дерева
  • Самое главное ndash хорошее выравнивание
  • Основные алгоритмы построения филогенетических деревьев
  • Пример матрицы расстояний
  • Slide 94
  • Гипотеза laquoмолекулярных часовraquo (EZuckerkandl LPauling 1962)
  • UPGMA Unweighted Pair Group Method with Arithmetic Mean
  • Недостатки UPGMA
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Метод Neighbor-joining
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Slide 101
  • Как изобразить дерево Топология дерева
  • Slide 103
  • Какие on-line программы строят деревья
  • MEGA филогенетический анализ последовательностей
  • Slide 106
  • Slide 107
  • Slide 108
Page 106: Bestfit Output

GCGbull Строковый поиск простой текстовый

поиск по локальной базе данных

bull Поиск в определениях или в аннотациях

bull Определения содержат минимальное количество информации для каждой статьи доступ имя организма имя гена длина последовательности дата

  • Bestfit Output
  • SP1 at swissprot
  • EGR1 at swissprot
  • Вывод
  • Bl2Seq at NCBI
  • Bl2seq results
  • Bl2seq оценка
  • Оптимизация времени вычислений при парном выравнивании
  • Slide 9
  • Алгоритм BLAST (шаг 1)
  • Slide 11
  • Blast
  • Поиск гомологов
  • ДНК или белок
  • ДНК
  • Slide 16
  • Slide 17
  • Двойная спираль
  • ДНК дальнейшая упаковка
  • Slide 20
  • Репликация ДНК
  • Slide 22
  • Slide 23
  • Slide 24
  • Slide 25
  • Множественное выравнивание последовательностей (MSA)
  • Slide 27
  • Основные предположения
  • Например
  • Почему множественное выравнивание
  • Slide 31
  • Подходы в MSA
  • MSA algorithm
  • Multiple Alignment - алгоритм
  • Комментарии
  • GCG
  • Slide 37
  • GCG
  • Slide 39
  • Slide 40
  • Slide 41
  • ClustalW
  • Slide 43
  • Slide 44
  • ClustalW на EMBL
  • ClustalW на EMBL - результат
  • ClustalW at EMBL - Jalview
  • Consensus Sequence
  • Профиль (Profile)
  • Profile vs Consensus
  • Slide 51
  • Slide 52
  • Psi Blast (NCBI)
  • PSI-Blast
  • Psi-Blast вывод
  • Slide 56
  • Филогенез
  • Slide 58
  • Slide 59
  • Slide 60
  • Slide 61
  • Древо видов и генов
  • Ортологи и паралоги
  • Шаги реконструирования филогенетического древа
  • Филогенетическое дерево
  • Зачем нужны филогенетические деревья
  • Терминология
  • Slide 68
  • Какие бывают деревья
  • Slide 70
  • Slide 71
  • Slide 72
  • 4 OTUs 3 неукорененных филогенетических деревьев
  • Slide 74
  • Slide 75
  • Slide 76
  • Slide 77
  • Рутинная процедура или как строят деревья
  • Slide 79
  • Slide 80
  • Slide 81
  • Slide 82
  • Slide 83
  • Slide 84
  • Slide 85
  • Slide 86
  • Slide 87
  • Slide 88
  • Slide 89
  • Как выбирать последовательности для дерева
  • Самое главное ndash хорошее выравнивание
  • Основные алгоритмы построения филогенетических деревьев
  • Пример матрицы расстояний
  • Slide 94
  • Гипотеза laquoмолекулярных часовraquo (EZuckerkandl LPauling 1962)
  • UPGMA Unweighted Pair Group Method with Arithmetic Mean
  • Недостатки UPGMA
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Метод Neighbor-joining
  • Метод ближайших соседей (Neighbor-joining NJ)
  • Slide 101
  • Как изобразить дерево Топология дерева
  • Slide 103
  • Какие on-line программы строят деревья
  • MEGA филогенетический анализ последовательностей
  • Slide 106
  • Slide 107
  • Slide 108