Upload
marinacreautor
View
51
Download
2
Tags:
Embed Size (px)
Citation preview
Организация анализа NGS (Next-Generation sequencing)
данных в UGENE
Голосова Ольга
ООО НЦИТ «Унипро»
План• Задача анализа данных секвенирования• О проекте UGENE• Сотрудничество с институтом NIAID• Итоги
СеквенированиеСеквенирование ДНК — определение последовательности ДНК, представление ее в цифровом виде.
СеквенированиеВысокоэффективное секвенирование (High-throughput или Next Generation Sequencing) — группа различных методов, позволяющих осуществлять секвенирование ДНК очень большого размера за одну операцию.
Секвенирование
Зачем определять ДНК• Персонализированная медицина
– Определение предрасположенности к болезням– Более качественное проектирование лекарств (в
зависимости от генотипа и т.п.)
• Биоархеология, антропология, миграция• Криминология• Идентификация• И многое другое
NGS данные
UGENEUGENE — свободное кроссплатформенное биоинформационное программное обеспечение [Okonechnikov K.; Golosova O.; Fursov M.; the UGENE team. Unipro UGENE: a unified bioinformatics toolkit ;Bioinformatics 2012 28: 1166-1167].Некоторые возможности:• Редактор последовательностей• Редактор множественных выравниваний• Обозреватель сборок (Assembly Browser)• Множество алгоритмов для анализа данных• Автоматизация анализа (Workflow Designer)
Сотрудничество с NIAID
NIAID (National Institute of Allergy and Infectious Diseases) - один из 27 институтов National Institutes of Health (NIH), USA
http://www.niaid.nih.gov/
Проблемы анализа NGS данных• Разрозненность инструментов• Несовместимость форматов• Трудоемкость конфигурации • Недоступность инcтрументов для разных ОС• Запуск только из командной строки• Много ручной рутинной работы
Цели сотрудничества• NGS Pipelines:
– Variants Calling Pipeline– Tuxedo Pipeline (RNA-Seq)– Cistrome Pipeline (ChIP-Seq)
• Удобство работы:– Pipeline wizards– Dashboard
• Оценка времени выполнения, запуск на Amazon сервере• А также:
– BioMart Integration– DAS Integration– Mobyle Integration
Variants Calling PipelineПоиск вариаций с помощью SAMtools:
Tuxedo PipelineАнализ RNA-Seq данных с помощью инструментов:• TopHat (использует Bowtie, Bowtie2)• Cufflinks• Cuffmerge• Cuffdiff
Cistrome Pipeline
Анализ ChIP-Seq данных с помощью инструментов:• MACS• CEAS• peak2gene• seqpos• go_analysis• conservation plot
Wizards
Dashboard• Workflow Resources:
– workflow name;– workflow start time;– time left (finish time can be shown as a tooltip);– percentage of the workflow running progress;– amount of used memory;– percentage of CPU usage;
• Output Files:– clickable file name;– the name of the workflow element that has produced the file;– is it a temporary or final file;– file status: is written, ready, deleted (for temporary files);
• Common Statistics– number of messages that has been retrieved by an element, etc.;
Промежуточные итоги• NGS Pipelines:
– Variants Calling Pipeline– Tuxedo Pipeline (Linux, Mac OS)– Cistrome Pipeline
• Удобство работы:– Pipeline wizards– Dashboard
• Оценка времени выполнения, запуск на Amazon сервере• А также:
– BioMart Integration– DAS Integration– Mobyle Integration
• Довольный заказчик
Спасибо за внимание