37
BIOINFORMATYKA 1. Wykład wstępny 2. Biologiczne bazy danych 3. Bazy danych: projektowanie i struktura 4. Sekwencjonowanie następnej generacji 5. Sekwencjonowanie następnej generacji 6. Funkcjonalna adnotacja polimorfizmów 7. Funkcjonalna adnotacja polimorfizmów 8. Bash 9. Bash 10. Analiza asocjacyjna 11. Analiza asocjacyjna 12. Wybrane algorytmy 13. Wybrane algorytmy 14. - 15. Literatura 2019

BIOINFORMATYKA - THETAtheta.edu.pl/.../2019/10/bioinformatics2_lecture3.pdfBIOINFORMATYKA 1. Wykład wstępny 2. Biologiczne bazy danych 3. Bazy danych: projektowanie i struktura 4

  • Upload
    others

  • View
    1

  • Download
    0

Embed Size (px)

Citation preview

Page 1: BIOINFORMATYKA - THETAtheta.edu.pl/.../2019/10/bioinformatics2_lecture3.pdfBIOINFORMATYKA 1. Wykład wstępny 2. Biologiczne bazy danych 3. Bazy danych: projektowanie i struktura 4

BIOINFORMATYKA

1. Wykład wstępny

2. Biologiczne bazy danych

3. Bazy danych: projektowanie i struktura

4. Sekwencjonowanie następnej generacji

5. Sekwencjonowanie następnej generacji

6. Funkcjonalna adnotacja polimorfizmów

7. Funkcjonalna adnotacja polimorfizmów

8. Bash

9. Bash

10. Analiza asocjacyjna

11. Analiza asocjacyjna

12. Wybrane algorytmy

13. Wybrane algorytmy

14. - 15. Literatura 2019

Page 2: BIOINFORMATYKA - THETAtheta.edu.pl/.../2019/10/bioinformatics2_lecture3.pdfBIOINFORMATYKA 1. Wykład wstępny 2. Biologiczne bazy danych 3. Bazy danych: projektowanie i struktura 4

WSTĘP

1. Konieczność zarządzania i manipulowania danymi w bioinformatyce

2. Przykładowe narzędzia tworzenia baz danych

3. Przykładowe narzędzia do manipulowania danymi

4. Przykładowe zastosowanie – Excel

5. Przykładowe zastosowanie - MySQL

Copyright ©2019, Joanna Szyda

Page 3: BIOINFORMATYKA - THETAtheta.edu.pl/.../2019/10/bioinformatics2_lecture3.pdfBIOINFORMATYKA 1. Wykład wstępny 2. Biologiczne bazy danych 3. Bazy danych: projektowanie i struktura 4

bazy danych

Page 4: BIOINFORMATYKA - THETAtheta.edu.pl/.../2019/10/bioinformatics2_lecture3.pdfBIOINFORMATYKA 1. Wykład wstępny 2. Biologiczne bazy danych 3. Bazy danych: projektowanie i struktura 4

KONIECZNOŚĆ ZARZĄDZANIA I MANIPULOWANIA DANYMI

20112013

2017

dynamiczna

duża

Copyright ©2019, Joanna Szyda

Page 5: BIOINFORMATYKA - THETAtheta.edu.pl/.../2019/10/bioinformatics2_lecture3.pdfBIOINFORMATYKA 1. Wykład wstępny 2. Biologiczne bazy danych 3. Bazy danych: projektowanie i struktura 4

KONIECZNOŚĆ ZARZĄDZANIA I MANIPULOWANIA DANYMI

Copyright ©2019, Joanna Szyda

NCBI RefSeq data base

0

1E+10

2E+10

3E+10

4E+10

5E+10

6E+10

01-2003 25-2007 50-2011 75-2016 95-2019

amino-acids

amino-acids

0

50000000

100000000

150000000

200000000

250000000

01-2003 25-2007 50-2011 75-2016 95-2019

records

records

Page 6: BIOINFORMATYKA - THETAtheta.edu.pl/.../2019/10/bioinformatics2_lecture3.pdfBIOINFORMATYKA 1. Wykład wstępny 2. Biologiczne bazy danych 3. Bazy danych: projektowanie i struktura 4

KONIECZNOŚĆ ZARZĄDZANIA I MANIPULOWANIA DANYMI

Copyright ©2019, Joanna Szyda

Bazy danych NCBI

Page 7: BIOINFORMATYKA - THETAtheta.edu.pl/.../2019/10/bioinformatics2_lecture3.pdfBIOINFORMATYKA 1. Wykład wstępny 2. Biologiczne bazy danych 3. Bazy danych: projektowanie i struktura 4

KONIECZNOŚĆ ZARZĄDZANIA I MANIPULOWANIA DANYMI

Copyright ©2019, Joanna Szyda

>NG_034204.1 Homo sapiens coiled-coil domain containing 181 pseudogene (LOC103568124) on chromosome 12

AGCTGGAATTTCTTATAGGATTCATACATAAAGACACAAAGGTTTTATGTCCTCAAAAATTGATCTGCCAGAGAGGCCCA

GATGGAGGACACAGAGGCATGCTGTTGCCATGGCAGTGTGGTCCTGGCTGCTGCGGAGGCAGGTGCCAGGGTCTCCCTTG

CCTCGATGTGAAGAGCTTAGAAAGCGGAGGAGAGGAGAACTCCCCTGGCCGTCTCTGTGACCCCAGCCGCCGCATTTTAC

ACAGACAGGAGGGAAACAGAGGGAGAGAAGGGAAGGACGGTGTGGAGTAGAAATATTAATGGTGGGAGAGAGGAAAATGA

ATGAAAATAAAGAGACTGATTCAAAAGAAAGTGAAGAATACAAAGATGAATCTGAAAAGGACCTGGAGGGGTTAACTAAT

GAAAATGAAAAAAGTGATGCCAGCATAATAGAGATGGCTTGTGAGAAGGAAGAGAATATTAACCAAGACTTAAAAGAGAA

TGAAACAGTAATAGAACACAGCAAACAGCTTTCTGATCCTGACAAATCTTTGCAGGATGAGGTCTCACCAAGAAGAAATG

ACTTCATTTCGGTACCGAGTATTCAACCTTTGGATCCCATATCAGATTCAGATAGTGAAAACTCTTTCCAGGAGTCCAAA

CTAGAAAGCCAGAAAGACTTGGAGGAGGAAGAGGATGAGGAAGTAAGGTGATACATTATGGAGAAAATTGTACAAGCTAA

CAAGCTTCTATAGAATCAAGAACCCGTGAATGATAAAAGGGAGTGAAAATTTAAGCTCAAGGACAAATTAGTTGATCTGG

AAGTTCCTCCACTAAAAGACACTAATACTTACAAAAGTTATTTTGAAAATGAAAGAAATATATTTGGGAAACTGTCACAG

TGATGTATTTCCAATGATTTGGGACAAGAAAATATGCTCCTGTCACTTATTAATGGAAGCTGTGAAATAAACAAGGATAG

GACAATACTGGTAGAGAGAGATGGAAAATTTGAACTTCTGAATTTACAAGACATTGAAGAGTCAGGGGTATTTGCCTCCC

ATTAATAATGCAAATAGTACAGAAAATGACCCTCAGCAGGTGTTACCCAGATCTTCCAACTCCTGTGTCAGTGGCATCAA

GAAAGAAGATTCTGCAGCAAAGATTGATGTTGTCACTCACTCATCAACAGGAGAGCCGTTGGCTTATATCCCTCCACTTA

TAAGTTGGCTTATATCCCACCACTCAACCGCAAGACTTGTCCAAGCTCTGCTGCCATCTCAGATCGAAGTAAAGGGAATG

GGAAATCTAATCAGGACAGTCTGCACATATCTCATCAGTGACCTCAACATACTGTCTTTCCCCTTGACAGAAAGAACTAC

AAAACGAGAACAAAAGAGAGAAAAGCTGAAAAGAGAGGAAGAGCAACAGAAAATAGAAGAAGAGGAAGAAAAAAAGAGGG

AGAATGGCATAGTATTTAAAGCATGGTTGCAAAAGAAAAGAGAGCAGGTCTTAGAAATGAGGAGAATTCAGCAAGCAAAG

CAGATTGAAGACATGAACAGCAGAGTAAGTAAAACTTTTCTGAAAAATAAGTTCATACAGATATGAAAGCTGAACTTAAT

TACAAAAGGGAGTCTGGATATCAGCCTATGAAAGAAGTAGAAAAGTGG

>NG_028783.2 Homo sapiens RNA polymerase I-specific transcription initiation factor RRN3-like (LOC100129955) pseudogene on chromosome 2

AAATAATGAATTTTAGAAGTCGGATAAAATTCTTCCTAAAAGGATTCATTATATAAAGCAAATAGCTGAACAATGTCAGG

TTGTAACATAGTAATCAAGAGAAAGAGCTTCCAGGCGAGGTGCAGCTATCACTTTAAGCCCCGGGGCAACCAGGCTGCTT

CTCACATGGTTGCCGGGGAAGCAGAGGCTTCAGCTTCTGTGGTCAAGAAGCTGGGTATGTCATGGACCAGTATTTCAGAT

ATGCTTGCATTCAAGAATGATTTTTCCAGCTCTCCCCCAAGAAAAATTGTTCATCTTGATGGAACGGGGACAGAAGTCTT

GCCGAAGGACAAAGAGTGAAACAAATTTAACTTTGAGCTGTTGAAGAGCCAGTTGTGAGATTCAAACATAAAGGATGACC

AGATCTTGAACTGGCTGTGAAAATTTTGCTCTTCTATCATGTACTTGGCAAAAGACTTTGAGCAGCTCCTCAGTATTACA

TTGAGATTGCCTTGGTTGAATAGAATTCAAACAGTGGTGGAAGAGTATTTGGCTTCTCTGGGTAGTCTTGTAACAACAGA

CTCTTCCTTAGCCCAAGTCTCAGCATAATTGCTTCCCATTTGGCGTACCCTCCTTGAATGATCATTAAGAAGAGCCATGT

AAATGTTTCAGATTCTGATGATGGAGATGATTATCTTCCTGCAGATTTTGACACACGTCATACAACCTTACAAATAACAG

CAAGATATGTCCCACTGGCACTGTGGTTTCTTTTGCCCATACTGGTGGAAACATTTCCATTTGTTCAATCAGAGAGAACA

CTGGAATGTTACATTCATAACTTACTAAAGATTAGTATATACTTTCCAACCTTGAGGAATGAAATTCTGAAGCTTATTAT

TAAAAATCTATTCAAATTGGATGTGAATACATTCTGGCATGATATTGAAGATGCTGAGGAAACAGCAGCTCAAACTTGT

…….

Page 8: BIOINFORMATYKA - THETAtheta.edu.pl/.../2019/10/bioinformatics2_lecture3.pdfBIOINFORMATYKA 1. Wykład wstępny 2. Biologiczne bazy danych 3. Bazy danych: projektowanie i struktura 4

KONIECZNOŚĆ ZARZĄDZANIA I MANIPULOWANIA DANYMI

Baza danych o unasiennianiu bydła dynamiczne zmiany

Copyright ©2019, Joanna Szyda

Nazwa

buhajaNr buhaja Data prod 1 Obj 1 Rm 1 Rpl 1 Konc

1 Po

rozm1 Dyskw 1 Morf 2 Obj 2 Rm 2 Rpl 2 Konc

2 Po

rozm2 Dyskw 2 Morf

LEGINS PL005062430529 02/01/2003 7 2 70 1463 50 0 0 0 0 0 0 0

LEGINS PL005062430529 03/01/2003 7.5 3 80 1306 60 0 0 0 0 0 0 0

LEGINS PL005062430529 03/02/2003 5 3 80 1330 50 0 5 3 80 1144 0 0

LEGINS PL005062430529 06/02/2003 5 3 80 1257 50 0 3.5 2 70 695 0 0

LEGINS PL005062430529 10/02/2003 6 3 80 1647 60 0 6 3 80 841 0 0

LEGINS PL005062430529 13/02/2003 3 0 0 0 0 NAS.B. RZADKIE 0 2 0 0 0 0NAS.B.

RZADKIE0

LEGINS PL005062430529 17/02/2003 6 3 80 1365 50 0 4.5 3 80 726 0 0

LEGINS PL005062430529 21/02/2003 5 3 80 1483 60 0 5 2 70 668 0 0

LEGINS PL005062430529 24/02/2003 4 3 80 1600 50 0 4 3 80 1119 0 0

LEGINS PL005062430529 27/02/2003 5 3 80 1543 60 0 4 3 80 766 0 0

LEGINS PL005062430529 03/03/2003 5.5 3 80 983 50 0 4 2 70 1077 0 0

LEGINS PL005062430529 06/03/2003 9 3 80 1237 60 0 6 2 70 872 0 0

Page 9: BIOINFORMATYKA - THETAtheta.edu.pl/.../2019/10/bioinformatics2_lecture3.pdfBIOINFORMATYKA 1. Wykład wstępny 2. Biologiczne bazy danych 3. Bazy danych: projektowanie i struktura 4

KONIECZNOŚĆ ZARZĄDZANIA I MANIPULOWANIA DANYMI

Baza danych o mastitis identyfikacja i usunięcie błędów

Copyright ©2019, Joanna Szyda

nrkr ltf_2 tnf_2 lyz_2 def_2 dabadakod_chor

oby

dni_chor

obylaktacja sire dam byear bmon bday

5100044824 AB CC CC A1A2/B1B2/C1 2006.04.22 INNA 1 1 5061906452 5003386953 2004 3 1

5100044824 AB CC CC A1A2/B1B2/C1 2006.09.09 MA 2 1 5061906452 5003386953 2004 3 1

5100044824 AB CC CC A1A2/B1B2/C1 2008.02.23 MA 3 2 5061906452 5003386953 2005 3 1

5003384942 AA CC CC A1A2/B1B2/C1C2 2003.10.21 ZPOA 1 2 607296446 763700797 1999 7 27

5003384942 AA CC CC A1A2/B1B2/C1C2 2005.01.01 MA 5 4 607296446 763700797 1999 7 27

5003384942 AA CC CC A1A2/B1B2/C1C2 2005.01.11 MA 9 4 607296446 763700797 1999 7 27

5003384942 AA CC CC A1A2/B1B2/C1C2 2005.01.30 MC 19 4 607296446 763700797 1999 7 27

5003384942 AA CC CC A1A2/B1B2/C1C2 2005.02.24 MC 12 4 607296446 763700797 1999 7 27

5064432255 AB CT CC A1A2/B1B2/C1C2 2000.08.22 ZPOA 1 1 609337741 5002795503 2000 11 26

5064432255 AB CT CC A1A2/B1B2/C1C2 2004.12.20 MA 2 2 609337741 5002795503 2000 11 26

5064432255 AB CT CC A1A2/B1B2/C1C2 2006.03.08 ZPOA 1 2 609337741 5002795503 2000 11 26

5064432255 AB CT CC A1A2/B1B2/C1C2 2006.05.11 INNA 1 3 609337741 5002795503 2000 11 26

Page 10: BIOINFORMATYKA - THETAtheta.edu.pl/.../2019/10/bioinformatics2_lecture3.pdfBIOINFORMATYKA 1. Wykład wstępny 2. Biologiczne bazy danych 3. Bazy danych: projektowanie i struktura 4

KONIECZNOŚĆ ZARZĄDZANIA I MANIPULOWANIA DANYMI

Baza danych o mastitis usuwanie niepotrzebnych informacji

Copyright ©2019, Joanna Szyda

nrkr ltf_2 tnf_2 lyz_2 def_2 dabadakod_chor

oby

dni_chor

obylaktacja sire dam byear bmon bday

5100044824 AB CC CC A1A2/B1B2/C1 2006.04.22 INNA 1 1 5061906452 5003386953 2004 3 1

5100044824 AB CC CC A1A2/B1B2/C1 2006.09.09 MA 2 1 5061906452 5003386953 2004 3 1

5100044824 AB CC CC A1A2/B1B2/C1 2008.02.23 MA 3 2 5061906452 5003386953 2005 3 1

5003384942 AA CC CC A1A2/B1B2/C1C2 2003.10.21 ZPOA 1 2 607296446 763700797 1999 7 27

5003384942 AA CC CC A1A2/B1B2/C1C2 2005.01.01 MA 5 4 607296446 763700797 1999 7 27

5003384942 AA CC CC A1A2/B1B2/C1C2 2005.01.11 MA 9 4 607296446 763700797 1999 7 27

5003384942 AA CC CC A1A2/B1B2/C1C2 2005.01.30 MC 19 4 607296446 763700797 1999 7 27

5003384942 AA CC CC A1A2/B1B2/C1C2 2005.02.24 MC 12 4 607296446 763700797 1999 7 27

5064432255 AB CT CC A1A2/B1B2/C1C2 2000.08.22 ZPOA 1 1 609337741 5002795503 2000 11 26

5064432255 AB CT CC A1A2/B1B2/C1C2 2004.12.20 MA 2 2 609337741 5002795503 2000 11 26

5064432255 AB CT CC A1A2/B1B2/C1C2 2006.03.08 ZPOA 1 2 609337741 5002795503 2000 11 26

5064432255 AB CT CC A1A2/B1B2/C1C2 2006.05.11 INNA 1 3 609337741 5002795503 2000 11 26

Page 11: BIOINFORMATYKA - THETAtheta.edu.pl/.../2019/10/bioinformatics2_lecture3.pdfBIOINFORMATYKA 1. Wykład wstępny 2. Biologiczne bazy danych 3. Bazy danych: projektowanie i struktura 4

KONIECZNOŚĆ ZARZĄDZANIA I MANIPULOWANIA DANYMI

Baza danych NCBI szybkie wyszukiwanie

Copyright ©2019, Joanna Szyda

Page 12: BIOINFORMATYKA - THETAtheta.edu.pl/.../2019/10/bioinformatics2_lecture3.pdfBIOINFORMATYKA 1. Wykład wstępny 2. Biologiczne bazy danych 3. Bazy danych: projektowanie i struktura 4

KONIECZNOŚĆ ZARZĄDZANIA I MANIPULOWANIA DANYMI

Baza danych Ensembl szybka wizualizacja

Copyright ©2019, Joanna Szyda

Page 13: BIOINFORMATYKA - THETAtheta.edu.pl/.../2019/10/bioinformatics2_lecture3.pdfBIOINFORMATYKA 1. Wykład wstępny 2. Biologiczne bazy danych 3. Bazy danych: projektowanie i struktura 4

KONIECZNOŚĆ ZARZĄDZANIA I MANIPULOWANIA DANYMI

Baza danych Ensembl Udostępnianie plików wynikowych w określonym formacie

Copyright ©2019, Joanna Szyda

Page 14: BIOINFORMATYKA - THETAtheta.edu.pl/.../2019/10/bioinformatics2_lecture3.pdfBIOINFORMATYKA 1. Wykład wstępny 2. Biologiczne bazy danych 3. Bazy danych: projektowanie i struktura 4

KONIECZNOŚĆ ZARZĄDZANIA I MANIPULOWANIA DANYMI

Udostępnianie plików wynikowych w określonym formacie

PLINK format .bim: chromosom, SNP, ?, position, alleles

1 rs1539637 0 1070788 G C

1 rs9442380 0 1077546 T C

1 rs4970358 0 1079125 A G

1 rs4970362 0 1084601 A G

1 rs9442385 0 1087198 T G

1 rs9660710 0 1089205 A C

1 rs1891905 0 1090080 C T

PLINK format .fam: FID, IID, FID, MID, SEX (1=m,2=f), fenotyp (1=case,2=control,-9=missing)

1341 NA06985 0 0 2 -9

1341 NA06993 0 0 1 -9

1340 NA06994 0 0 1 -9

1340 NA07000 0 0 2 -9

1340 NA07022 0 0 1 -9

1341 NA07034 0 0 1 -9 Copyright ©2019, Joanna Szyda

Page 15: BIOINFORMATYKA - THETAtheta.edu.pl/.../2019/10/bioinformatics2_lecture3.pdfBIOINFORMATYKA 1. Wykład wstępny 2. Biologiczne bazy danych 3. Bazy danych: projektowanie i struktura 4

SCHEMAT BAZY DANYCH

prosta pola umieszczone w pojedynczym pliku

10084 10000089 10000526 10000031 F 1 1 0 30 6 5 16 5 18 24 2 17.000

10084 10000758 10000526 10000031 F 0 1 0 31 6 5 30 5 30 12 2 16.000

10084 10001094 0 0 M 0 0 0 0 0 0 0 0 0 -9 0 -9.000

10084 10000133 10001094 10000758 M 0 1 0 18 6 3 0 3 0 18 1 0.450

10084 10001039 10000526 10000031 M 0 1 0 28 6 5 16 5 17 40 1 0.000

10084 10000194 10000526 10000031 F 0 1 0 24 6 3 0 3 0 20 2 8.000

10084 10000526 0 0 M 0 1 0 60 6 5 38 5 38 24 2 42.000

10084 10000031 0 0 F 0 1 0 60 6 3 0 3 0 7 2 58.500

10130 10001565 10001436 10001364 F 1 1 0 38 6 5 18 5 20 75 2 30.000

10130 10000919 10001436 10001364 M 0 1 0 40 6 5 33 5 33 48 1 0.000

10130 10000299 10001436 10001364 F 0 1 0 32 6 5 17 5 19 36 2 32.000

10130 10000489 10001436 10001364 M 0 1 0 27 6 3 0 3 0 12 1 0.000

10130 10001436 0 0 M 0 1 0 62 6 3 0 3 0 10 2 42.000

10130 10001364 0 0 F 0 1 0 61 6 1 0 1 0 5 1 0.125

10038 10000572 10001250 10001511 F 1 1 0 28 6 5 15 5 15 48 1 12.000

10038 10000272 10001250 10001511 M 0 1 0 26 6 3 0 3 0 10 1 0.000

10038 10001295 10001250 10001511 F 0 1 0 25 6 1 0 1 0 3 1 0.000

10038 10000598 10001250 10001511 M 0 1 0 22 6 5 15 5 22 71 2 12.000

Copyright ©2019, Joanna Szyda

Page 16: BIOINFORMATYKA - THETAtheta.edu.pl/.../2019/10/bioinformatics2_lecture3.pdfBIOINFORMATYKA 1. Wykład wstępny 2. Biologiczne bazy danych 3. Bazy danych: projektowanie i struktura 4

SCHEMAT BAZY DANYCH

relacyjna złożona z kilku powiązanych tabel

EKSPERYMENTkod eksperymentudatanazwisko wykonawcynr próbkinr mikromacierzy

WYKONAWCAnazwiskoemailjednostka

PRÓBKAnr próbkigatunekźródło RNAstatus

GENkod genusekw. DNA

EKSPRESJAkod eksperymentukod genuwartość ekspresji

relacja 1:1

relacja 1:wielu

relacja ?

relacja ?

Copyright ©2019, Joanna Szyda

Page 17: BIOINFORMATYKA - THETAtheta.edu.pl/.../2019/10/bioinformatics2_lecture3.pdfBIOINFORMATYKA 1. Wykład wstępny 2. Biologiczne bazy danych 3. Bazy danych: projektowanie i struktura 4

KONIECZNOŚĆ ZARZĄDZANIA I MANIPULOWANIA DANYMI

Podstawowe zadania bazy danych

1. Przechowywanie

2. Zarządzanie / Edycja

3. Wyszukiwanie

4. Udostępnianie / Wizualizacja

Copyright ©2019, Joanna Szyda

Page 18: BIOINFORMATYKA - THETAtheta.edu.pl/.../2019/10/bioinformatics2_lecture3.pdfBIOINFORMATYKA 1. Wykład wstępny 2. Biologiczne bazy danych 3. Bazy danych: projektowanie i struktura 4

narzędzia tworzenia baz danych

Page 19: BIOINFORMATYKA - THETAtheta.edu.pl/.../2019/10/bioinformatics2_lecture3.pdfBIOINFORMATYKA 1. Wykład wstępny 2. Biologiczne bazy danych 3. Bazy danych: projektowanie i struktura 4

PRZYKŁADOWE NARZĘDZIA TWORZENIA BAZ DANYCH

1. MS Excel – znane narzędzie, najprostsze bazy danych, Windows

2. MS Access – przyjazny dla użytkownika, komponent MS Office Professional,

Windows

3. MySql – przyjazny dla użytkownika, Windows + Linux, darmowy:

http://dev.mysql.com/

4. SAS – profesjonalny pakiet zarządzania danymi, drogi, różne systemy operacyjne

5. Oracle – profesjonalny pakiet, wszystkie systemy operacyjne

Copyright ©2019, Joanna Szyda

Page 20: BIOINFORMATYKA - THETAtheta.edu.pl/.../2019/10/bioinformatics2_lecture3.pdfBIOINFORMATYKA 1. Wykład wstępny 2. Biologiczne bazy danych 3. Bazy danych: projektowanie i struktura 4

narzędzia do manipulowania danymi

Page 21: BIOINFORMATYKA - THETAtheta.edu.pl/.../2019/10/bioinformatics2_lecture3.pdfBIOINFORMATYKA 1. Wykład wstępny 2. Biologiczne bazy danych 3. Bazy danych: projektowanie i struktura 4

PRZYKŁADOWE NARZĘDZIA DO MANIPULOWANIA DANYMI

1. SAS – przyjazny dla użytkownika, wszystkie systemy operacyjne

2. Pakiet R – popularny, szeroka gama możliwości manipulowania i wizualizacji danych, darmowy• www.r-project.org

3. Perl (bioPerl) i Python – bardzo popularne wśród bioinformatyków, dość proste, wszystkie systemy operacyjne, specjalne biblioteki do analiz bioinformatycznych, darmowe:• www.perl.org• www.python.org

4. Kompilowane języki programowania – Fortran, C, C++

Copyright ©2019, Joanna Szyda

Page 22: BIOINFORMATYKA - THETAtheta.edu.pl/.../2019/10/bioinformatics2_lecture3.pdfBIOINFORMATYKA 1. Wykład wstępny 2. Biologiczne bazy danych 3. Bazy danych: projektowanie i struktura 4

Excel

Page 23: BIOINFORMATYKA - THETAtheta.edu.pl/.../2019/10/bioinformatics2_lecture3.pdfBIOINFORMATYKA 1. Wykład wstępny 2. Biologiczne bazy danych 3. Bazy danych: projektowanie i struktura 4

PRZYKŁADOWE ZASTOSOWANIE – EXCEL

1. Najprostsza „baza danych”

2. Windows

3. Zastosowanie filtrów

4. Poprawność danych

Copyright ©2019, Joanna Szyda

Page 24: BIOINFORMATYKA - THETAtheta.edu.pl/.../2019/10/bioinformatics2_lecture3.pdfBIOINFORMATYKA 1. Wykład wstępny 2. Biologiczne bazy danych 3. Bazy danych: projektowanie i struktura 4

PRZYKŁADOWE ZASTOSOWANIE – EXCEL

Copyright ©2019, Joanna Szyda

Page 25: BIOINFORMATYKA - THETAtheta.edu.pl/.../2019/10/bioinformatics2_lecture3.pdfBIOINFORMATYKA 1. Wykład wstępny 2. Biologiczne bazy danych 3. Bazy danych: projektowanie i struktura 4

PRZYKŁADOWE ZASTOSOWANIE – EXCEL

Copyright ©2019, Joanna Szyda

Page 26: BIOINFORMATYKA - THETAtheta.edu.pl/.../2019/10/bioinformatics2_lecture3.pdfBIOINFORMATYKA 1. Wykład wstępny 2. Biologiczne bazy danych 3. Bazy danych: projektowanie i struktura 4

PRZYKŁADOWE ZASTOSOWANIE – EXCEL

family ID individual ID ID of Father {0 = not in pedigree}ID of Mother {0 = not in pedigree}sex Age (at interview) {No Info = 0}Ethnicity {0=No Info;1=American Indian;2=Asian;3=Pacific Islander;4=Black, non-Hispanic;5=Black, Hispanic;6 = White, non-Hispanic;7=White Hispanic;8=Other}alcohol dependence {0 = No Info : 1 = "Pure Unaffected" : 2 = Never Drank : 3 = Unaffected with some symptoms : 5 = Affected}Age of OnsetMaximum number of drinks in a 24 hour period {No Info = -9}(# packs per day for 1 year) {No Info = -9}

10084 10000089 10000526 10000031 F 30 6 5 16 24 17

10084 10000758 10000526 10000031 F 31 6 5 30 12 16

10084 10001094 0 0 M 0 0 0 0 -9 -9

10084 10000133 10001094 10000758 M 18 6 3 0 18 0.45

10084 10001039 10000526 10000031 M 28 6 5 16 40 0

10084 10000194 10000526 10000031 F 24 6 3 0 20 8

10084 10000526 0 0 M 60 6 5 38 24 42

10084 10000031 0 0 F 60 6 3 0 7 58.5

10130 10001565 10001436 10001364 F 38 6 5 18 75 30

10130 10000919 10001436 10001364 M 40 6 5 33 48 0

10130 10000299 10001436 10001364 F 32 6 5 17 36 32

10130 10000489 10001436 10001364 M 27 6 3 0 12 0

10130 10001436 0 0 M 62 6 3 0 10 42

10130 10001364 0 0 F 61 6 1 0 5 0.125

10038 10000572 10001250 10001511 F 28 6 5 15 48 12

10038 10000272 10001250 10001511 M 26 6 3 0 10 0

10038 10001295 10001250 10001511 F 25 6 1 0 3 0

10038 10000598 10001250 10001511 M 22 6 5 15 71 12

10038 10001250 0 0 M 68 6 3 0 10 0

10038 10001511 0 0 F 52 6 3 0 14 31

10006 10000264 10000130 10000650 M 34 6 5 16 26 0

10006 10000025 10000130 10000650 M 35 6 5 18 36 13

10006 10000707 10000130 10000650 M 26 6 5 20 15 6

10006 10001405 10000130 10000650 F 28 6 5 23 10 0

10006 10000130 0 0 M 58 6 5 30 24 -9

10006 10000650 0 0 F 59 6 1 0 3 0

10027 10000398 0 0 M 58 6 5 24 42 41

N=1 615Copyright ©2019, Joanna Szyda

Page 27: BIOINFORMATYKA - THETAtheta.edu.pl/.../2019/10/bioinformatics2_lecture3.pdfBIOINFORMATYKA 1. Wykład wstępny 2. Biologiczne bazy danych 3. Bazy danych: projektowanie i struktura 4

PRZYKŁADOWE ZASTOSOWANIE – EXCEL

1. Otworzyć dane gawdata.txt w edytorze tekstu ASCII

2. Otworzyć w Excelu (rozdzielane tabul. / importować wybrane kolumny)

3. Utworzyć prostą bazę danych

• Nadać nazwy kolumn

• W kolejnym arkuszu opisać nazwy kolumn = utworzyć dokumentację

• Przekodować brakujące dane (znajdź - zamień)

• Zaznaczyć kolorem wybrane dane (formatowanie warunkowe)

• Filtry

o Ustawić filtr dla kolumny z płcią

o Zaznacz danedanefiltruj

o Przykładowe filtry tekstu np. kobiety

o Ustawić filtr dla kolumny z liczba drinków

o Przykładowe filtry liczbowe np. powyżej średniej

o Filtr zaawansowany (kombinacje filtrów dla jednej kolumny)

• Zdefiniować poprawność danych

o Danepoprawność np. granice wieku wystąpienia choroby alkoholowej - wykorzystanie opcji "pełna liczba między"; smoking status - "wykorzystanie listy", zakreśl niepoprawne dane

o Wprowadzić próbne dane: poprawne i niepoprawne

4. Utworzyć tabelę przestawną i raport danych

Copyright ©2019, Joanna Szyda

Page 28: BIOINFORMATYKA - THETAtheta.edu.pl/.../2019/10/bioinformatics2_lecture3.pdfBIOINFORMATYKA 1. Wykład wstępny 2. Biologiczne bazy danych 3. Bazy danych: projektowanie i struktura 4

MySQL

Page 29: BIOINFORMATYKA - THETAtheta.edu.pl/.../2019/10/bioinformatics2_lecture3.pdfBIOINFORMATYKA 1. Wykład wstępny 2. Biologiczne bazy danych 3. Bazy danych: projektowanie i struktura 4

PRZYKŁADOWE ZASTOSOWANIE – MySQL

1. Windows, linia komend

2. Tworzenie bazy danych

3. Tworzenie tabel

4. Operacje na kolumnach danych

5. Wprowadzanie danych do bazy

6. Wybieranie rekordów danych

7. Podstawowe obliczenia

Copyright ©2019, Joanna Szyda

Page 30: BIOINFORMATYKA - THETAtheta.edu.pl/.../2019/10/bioinformatics2_lecture3.pdfBIOINFORMATYKA 1. Wykład wstępny 2. Biologiczne bazy danych 3. Bazy danych: projektowanie i struktura 4

PRZYKŁADOWE ZASTOSOWANIE – MySQL

http://dev.mysql.com/downloads

Copyright ©2019, Joanna Szyda

Page 31: BIOINFORMATYKA - THETAtheta.edu.pl/.../2019/10/bioinformatics2_lecture3.pdfBIOINFORMATYKA 1. Wykład wstępny 2. Biologiczne bazy danych 3. Bazy danych: projektowanie i struktura 4

PRZYKŁADOWE ZASTOSOWANIE – MySQL

1. Create database alcohol;

2. Create database bioinfo;

3. Show databases ;

4. Drop database bioinfo;

Copyright ©2019, Joanna Szyda

Page 32: BIOINFORMATYKA - THETAtheta.edu.pl/.../2019/10/bioinformatics2_lecture3.pdfBIOINFORMATYKA 1. Wykład wstępny 2. Biologiczne bazy danych 3. Bazy danych: projektowanie i struktura 4

PRZYKŁADOWE ZASTOSOWANIE – MySQL

1. Use alcohol ;

2. Create table drinks (family int , individual int ,father int, mother int, sexchar(1), agei int, ethnicity int, alc int, ageo int, maxdrink int, cigarets int) ;

3. Desc drinks ;

4. Create table tmp (nr varchar(14));

5. Show tables ;

6. Drop table tmp ;

Copyright ©2019, Joanna Szyda

Page 33: BIOINFORMATYKA - THETAtheta.edu.pl/.../2019/10/bioinformatics2_lecture3.pdfBIOINFORMATYKA 1. Wykład wstępny 2. Biologiczne bazy danych 3. Bazy danych: projektowanie i struktura 4

PRZYKŁADOWE ZASTOSOWANIE – MySQL

1. Alter table drinks add column age int ;

2. Alter table drinks drop column age ;

Copyright ©2019, Joanna Szyda

Page 34: BIOINFORMATYKA - THETAtheta.edu.pl/.../2019/10/bioinformatics2_lecture3.pdfBIOINFORMATYKA 1. Wykład wstępny 2. Biologiczne bazy danych 3. Bazy danych: projektowanie i struktura 4

PRZYKŁADOWE ZASTOSOWANIE – MySQL

1. Load data infile ‘C:\ASIA\CLASS\bioinformatics2\lectures\gaw.txt’ into table drinksfields terminated by ‘ \t’ ;

2. Insert into drinks set individual=42, sex='M' ;

Copyright ©2019, Joanna Szyda

Page 35: BIOINFORMATYKA - THETAtheta.edu.pl/.../2019/10/bioinformatics2_lecture3.pdfBIOINFORMATYKA 1. Wykład wstępny 2. Biologiczne bazy danych 3. Bazy danych: projektowanie i struktura 4

PRZYKŁADOWE ZASTOSOWANIE – MySQL

1. Select * from drinks;

2. Select * from drinks where sex=‘M’ ;

3. Select * from drinks where maxdrink>50 ;

Copyright ©2019, Joanna Szyda

Page 36: BIOINFORMATYKA - THETAtheta.edu.pl/.../2019/10/bioinformatics2_lecture3.pdfBIOINFORMATYKA 1. Wykład wstępny 2. Biologiczne bazy danych 3. Bazy danych: projektowanie i struktura 4

PRZYKŁADOWE ZASTOSOWANIE – MySQL

1. Select avg(agei) from drinks;

2. Select avg(agei) from drinks group by sex ;

3. Select sex, avg(agei) from drinks group by sex ;

Copyright ©2019, Joanna Szyda

Page 37: BIOINFORMATYKA - THETAtheta.edu.pl/.../2019/10/bioinformatics2_lecture3.pdfBIOINFORMATYKA 1. Wykład wstępny 2. Biologiczne bazy danych 3. Bazy danych: projektowanie i struktura 4

1. Konieczność zarządzania i manipulowania danymi w bioinformatyce

2. Przykładowe narzędzia tworzenia baz danych

3. Przykładowe narzędzia do manipulowania danymi

4. Przykładowe zastosowanie – Excel

5. Przykładowe zastosowanie - MySQL