View
265
Download
0
Embed Size (px)
Citation preview
機器學習
指導教授 : 歐昱言教授 961456 闕裕峰 961536 黃茱
纓
Directory
Motivation Target Flow Chart Tissue Specific Properties Combination Promoter Process Classifier Results Reference Q & A
Motivation
越來越多的基因體資料被發現而被定序
有如此大量的資訊卻不知道該基因體的作用或者是在組織的表現為何
能透過機器學習的方式,在初步找出基因體與組織的關連性
What is Promoter ? 啟動子 (promoter) 是一個基因轉訊開端的訊息提供者
Target
Promoter在模型內會有高度的跨組織的表現性,很容易指出這些 promoter擁有的共同的結構模式
藉由探討 Promoter,透過機器學習的方式,在初步找出老鼠基因體與組織的關連性
Flow Chart
Tissue-Specific
屬性結合
Promoter 處理
分類器
Tissue-Specific
STEP 1 先由多個 Sample ID 計算出, 61 個組織後,再算出每個基因的 Z-Score ,當 Z-Score 高過 於 3 時,才算 tissue specific ,也就是分類後有表現,我們把它設成為 TRUE ,小於三的則設為 FALSE 。
STEP 2 要有 50 個以上的 tissue specific 才是我們要當作分類的組織。
Tissue-Specific
( 圖一 Sample id)
Tissue-Specific
( 圖二 Subset 形式 )
Tissue-Specific
( 圖三 Z-Score)
Properties Combination
將 tissue specific 的條件化作為一個表格後,開始做屬性的結合
我們在論文中所抓的檔案是可以得到 Affy probe ID ,屬性則是要從 Entrez ID 來做連結才能找到基因序列,這時就需要到生物的資料庫來找尋,我們使用的是 DAVID 以 BioGPS來做我們的搜尋依據。
Properties Combination
Affy probe ID
Entrez ID
ATCGDNA
Gene ID Converton
Mouse Promoter
( 圖四 屬性結合步驟 )
Properties Combination
( 圖五 DAVID ID Conversion tool)
( 圖六 BioGPS ID Conversion tool)
Promoter Process
STEP 1 promoter 長 1201 個 DNA 以一條 promoter 來說,計算在 promoter中, A 的數量有幾個除以總長度 1201 設為第一個屬性, T 的數量有幾個除以總長度 1201設為第二個屬性,以此類推。
一個單位 (ex A) 的有四個屬性,兩個單位 (ex AA) 的有十六個屬性,三個單位 (ex AAA) 的有六十四個屬性,共有八十四個屬性。
Promoter Process
( 圖七 屬性表 )
Promoter Process
STEP 2 最後加上 0,1 即為先前 Z-Score 所判斷是否為
tissue specific 的 TRUE 、 FALSE 值,將之存成 .CSV 檔,之後要放入分類器做分析
Promoter Process
( 圖八 共 84 個屬性的 .csv 檔 )
Classifier
使用的流程: 啟動 WEKA → Open file( 選擇我們圖八處理完
的 .csv 檔 ) →Classify 點擊 Choose 選擇 RandomForest → Start
Classifier
( 圖九 裡面參數的用途 )
Classifier
( 圖十 WEKA 分類結果 )
Results
F (FALSE) T (TRUE) <-- classified as
136 21 | N (Negative)
95 7 | P (Positive)
Accuracy : 0.55212 Precision : 0.06862 Recall : 0.04895
Reference
Su,A.I., Wiltshire,T., Batalov,S., Lapp,H., Ching,K.A., Block,D.,Zhang,J., Soden,R., Hayakawa,M., Kreiman,G. et al. (2004)
A gene atlas of the mouse and human protein-encoding transcriptomes. Proc. Natl Acad. Sci. USA, 101, 6062–6067.
http://ims.tw/archives/553 http://mypaper.pchome.com.tw/ciliate/post/205172 http://david.abcc.ncifcrf.gov/conversion.jsp http://biogps.gnf.org/#goto=welcome Modeling tissue-specific structural patterns in human and mouse
promoters(Alexis Vandenbon1 and Kenta Nakai1,2,3,*) http://www.scfbio-iitd.res.in/tutorial/promoter.html
Q & A
Thanks for your
Attention