34
1 Дипломная работа Евфратова С.А., ХФ МГУ, каф. ХПС, лаб. химии нуклеопротеидов Научные руководители: Елена Михайловна Смекалова, к.х.н., ХПС Пётр Владимирович Сергиев, д.х.н., доцент, ХПС Научный куратор: Головин Андрей Викторович, к.х.н., ФББ «Анализ мотивов в больших массивах данных»

Diploma Work

Embed Size (px)

Citation preview

Page 1: Diploma Work

1

Дипломная работа

Евфратова С.А., ХФ МГУ, каф. ХПС, лаб. химии нуклеопротеидов

Научные руководители:

Елена Михайловна Смекалова, к.х.н., ХПСПётр Владимирович Сергиев, д.х.н., доцент, ХПС

Научный куратор:

Головин Андрей Викторович, к.х.н., ФББ

«Анализ мотивов в больших массивах данных»

Page 2: Diploma Work

Задача поиска и анализа мотивов

● Поиска генов в геномах в т.ч. для нкРНК

● Идентификации цис-регуляторных элементов генов

● Анализа, в т.ч. статистического, как наборов генов, так и генома в целом

● .......

В данной работе:● Применён поиск по

паттернам для нахождения низкогомологичных генов нкРНК — TER

● Анализ распределений последовательностей Шайн-Дальгарно и их регуляторных элементов

актуальна для

2

Мотив — характерное сочетание остатков в цепях биополимеров.Паттерн — поисковый шаблон для мотивов.

Page 3: Diploma Work

Часть 1

Универсальный поиск по паттернам,поиск теломеразных РНК

3

Page 4: Diploma Work

4

Web BLAST:● Нет поддержки паттернов● Нет набора выборки● Длина запроса не менее 7 нт● Только для близких генов● Низкая скорость и стабильность

Существующие инструменты ?

fragrep2, web MEME, HMMer● Высокая сложность редактированя● Невозможность построения

шаблонов de novo● Ошибки авто-построения● Преимущественно для белков● Зависимость от гомологов● Низкая скорость

Позиционные весовыематрицы

Скрытые модели

Маркова

Построенные на гомологах математические модели усреднённой последовательности.

Page 5: Diploma Work

5

Создать универсальный инструмент для поиска генов с произвольно задаваемыми паттернами и возможностью формирования выборок с адаптацией под некодирующие РНК

Задачи:

Выполнить поиск теломеразных РНК (TER) в организмах с известными геномами, где эти гены неизвестны

Page 6: Diploma Work

6

Теломеразные РНК● Крайне низкая

гомология● Значительная

вариабельность длины

● Матричный участок теломерного повтора

● Общие элементы вторичной структуры

● Общие элементы в пределах группы

● Нет длинных рамок считывания для консервативных белков

Сложности поиска:

Критерии поиска:

Общая топология TER

Page 7: Diploma Work

7

Схема работы инструмента mfilterВыборка

● По короткой последовательности формируется выборка кандидатов

● Фильтрация по произвольно заданным паттернам с диапазонами

● Отбор кандидатов, содержащих известные белки - pfilter

● Сравнение каждого кандидата с пробной последовательностью

http://93.180.63.163/mfilter/man_rus.html

Page 8: Diploma Work

8

Проверка работоспособности mfilter

http://93.180.63.163/mfilter/

Поиски TER в модельных организмах

организм матрица итого

Положительный контроль

AAATCCGTACACCACATACCTAA

240 1 1 1

CATCCGTAC

58 45 3 3 3 3

CTAACCCTAA

9005 8987 8 1 1

Отрицательный контроль

CAATCCCA

5987 5965 0 0

TGACTAACCC

5 5 0 0 0

граничныеусловия

Est1консенсус

псевдоузелSm сайт

илипсевдоузел

.{100,600}<псевдоузел>

K. lactis

.{100,300}gaatg

.{100,600}<псевдоузел>

.{100,1500}at{3,6}g

C. albicans

.{20,40}TGT{4}.{5,15}CT{3}

.{10,50}AAAAA

Danio rerio

.{20,40}TGT{4}.{5,15}CT{3}

D.melanogaster

.{100,300}gaatg

.{100,600}<псевдоузел>

E. coli

Page 9: Diploma Work

9

Проверка

http://93.180.63.163/mfilter/

Danio rerio

BLAST

PWM

Page 10: Diploma Work

10

Выбор организмов:Дрожжи: Yarowia lipolytica основной объект

http://93.180.63.163/mfilter/

Page 11: Diploma Work

11

● Теломерный повтор: GGGTTAGTCA

Конструирование паттернов

● Sm сайт: at{3,6}g

● Est1 связывающая шпилька: gaatg

● ПсевдоузелTGACTAACCCGACTAACCCTACTAACCCTGCTAACCCTGATAACCCTGACAACCCTGACTACCCTGACTACCCTGACTAACCTGACTAACCTGACTAACC

TGACTAACCCМатричный участок:

http://93.180.63.163/mfilter/

?

Page 12: Diploma Work

12

● Получение выборки со всеми вариантами минимальной матрицы● Отбор по паттерну псевдоузла● Удаление дубликатов кандидатов● Разметка паттернов● Исключение кандидатов с известными генами (базы CDD, Rfam и NR/NT)● Выравнивание псевдоузла с псевдоузлами рода Candida● Картирование начала, конца и консервативных доменов TER рода Candida● Детекция структур Смыкания трёх спиралей и Est1-шпильки● Ручное сворачивание псевдоузла

http://93.180.63.163/mfilter/

Алгоритм поиска гена ylTER

Page 13: Diploma Work

13

ylTER16 кандидатов гена ylTER с ранжировкой (диапазоны, паттерны, дополнительные нуклеотиды) :

Кандидат 071: картировано начало и 2 консервативных домена, 7+3 доп.нт. Матрицы, длина около 1600, псевдоузел выравнивается, найдены структуры, близкие к Est1 и TWJ. Консенсуса Est1 не найдено.

Кандидат 033:картировано начало и конец, псевдоузел выравнивается, консенсус Est1 есть (но не найдено структуры), детектирован кандидат TWJ, матрица имеет 4 близких доп. нт. Длина кандидата - 2870нт.

http://93.180.63.163/mfilter/

6 плохих6 средник2 хороших2 отличных

Page 14: Diploma Work

14

● Выполнены выравнивание и анализ последовательности гена с ближайшими родственниками и человеком

● Проведён анализ промотерной области

● Определены полиморфизмы

http://93.180.63.163/mfilter/

голый землекоп(Тестирование и калибровка mfilter)

Heterocephalus glaber

CR2 -p3

CR7 -p8b

Page 15: Diploma Work

15

Промотерная область hgTER

Делеция характерна для

всех грызунов

Сбой Sp1.2Характерен для родственных видов: морской свинки и шиншиллы

Не выявлено отличий структурной и промотерной области гена TER у организма Heterocephalus glaber между ближайшими родственными видами.

http://93.180.63.163/mfilter/

Выявлены 2 полиморфизма:A->G в CR2-p3 (111 нт в hTER) — в первой петле псевдоузла, характерный для некоторых грызунов.G->A в CR7-p8b (422 нт в hTER) — в стебеле шпильки между H и ACA боксами, характерный для некоторых амфибий.

Матрица

Начало транскрипта

Page 16: Diploma Work

Часть 2

Статистический анализ последовательностей Шайн-Дальгарно

16

Page 17: Diploma Work

17

Последовательности Шайн-Дальгарно

● Консервативные последовательности в бактериальных генах для эффективного связывания мРНК с рибосомой при инициации трансляции.

● Могут иметь [AU] богатые энхансеры в 5' стороне.

Page 18: Diploma Work

18

Задача: Построение распределений числа генов по:

● Размеру блока ШД● Расстоянию до старта● Размеру [AU] блока● Расстоянию до [AU] блока● Расстоянию до пред. гена● Доле [AU] перед геном+Учёт данных транскриптома

Объект: E. coliAcc: U00096.2

4,6 Млн. нт.> 4500 аннотаций генов и стр. транскриптома

[AU] - состав

Page 19: Diploma Work

19

1) Независимость распределения длин ШД от длин стартовых спейсеров.

2) Повышение доли AU в областях перед ШД для первых в оперонах и одиночных генах относительно всего генома.

Результаты

Page 20: Diploma Work

20

http://93.180.63.163/mfilter/

Page 21: Diploma Work

21

Выводы:1) Создан веб-сервис для универсального поиска генов по

паттернам, кодирующим областям и пробным последовательностям — mfilter (http://93.180.63.163/mfilter/) и адаптация его для поиска теломеразных РНК (http://93.180.63.163/cgi-bin/tab_tr.pl).

2) Найдены биоинформатическими методами кандидаты на роль гена теломеразной РНК в организме Yarrowia lipolytica и оценён массив кандидатов аналогичного гена в организме Caenorhabditis elegans.

3) Найдены и проанализированы in silico последовательности структурной и промотерной части гена теломеразной РНК организма Heterocephalus glaber.

4) Выполнены анализы распределений последовательностей Шайн-Дальгарно для генома E. coli по их размерам, AU-составу энхансерных участков, случаям реинициации и расположения в оперонах при учёте данных секвенирования транскриптома.

Page 22: Diploma Work

22

22

Page 23: Diploma Work

23

Page 24: Diploma Work

24

Текущий интерфейс

Page 25: Diploma Work

25

Выводимые данные

Page 26: Diploma Work

26

aatccc.{100,200}tgac(g|t)tgat

Паттерновый шаблон и грамматика вводаЦепи из паттернов — нуклеотидных консенсусов в грамматике регулярных выражений с диапазонами расстояний друг между другом.

На основе первичного паттерна BLAST формирует пул первичных кандидатов, далее они проверяются на совпадение с шаблоном

Page 27: Diploma Work

27

071

033

Page 28: Diploma Work

28

t{0,6}([agc].?)?[agc]?t{2,4}[agc]?t{1,4}

.{0,9}a[tg]t.{0,3}gat.{0,7}

t{1,5}[agc]{0,2}t{1,4}[agc]{0,4}t{2,4}

a{0,5}([tgc].?)?[tgc]?a{2,4}[tgc]?a{2,5}

Page 29: Diploma Work

29

Page 30: Diploma Work

30

Page 31: Diploma Work

31

Общий тип: большинство организмов

Quoll-тип: Quoll, H. glaber

delAA, MD, leukem.

Суслики, Полёвки - с полиморфизмом по этой букве, но структурный тип как у

человека

Page 32: Diploma Work

32

Человек Шиншилла

H. glaberМорская свинка

DCC→G

Мышь

Жаба

Page 33: Diploma Work

33

Nucleic Acids Res. 2008,36(Database issue):D339-43. Epub 2007 Dec 11.

Page 34: Diploma Work

34

Транскриптом

34