13
Donuts, Scratches and Blanks: Robust Model- Based Segmentation of Microarray Images Qunhua Li, Chris Fraley, Roger E. Bumgarner, Ka Yee Yeung, Adrian E. Raftery January 2005

Donuts, Scratches and Blanks: Robust Model-Based Segmentation of Microarray Images Qunhua Li, Chris Fraley, Roger E. Bumgarner, Ka Yee Yeung, Adrian E

Embed Size (px)

Citation preview

Page 1: Donuts, Scratches and Blanks: Robust Model-Based Segmentation of Microarray Images Qunhua Li, Chris Fraley, Roger E. Bumgarner, Ka Yee Yeung, Adrian E

Donuts, Scratches and Blanks: Robust Model-Based

Segmentation of Microarray Images

Qunhua Li, Chris Fraley, Roger E. Bumgarner, Ka Yee Yeung, Adrian E. Raftery

January 2005

Page 2: Donuts, Scratches and Blanks: Robust Model-Based Segmentation of Microarray Images Qunhua Li, Chris Fraley, Roger E. Bumgarner, Ka Yee Yeung, Adrian E

Método: Diagrama de Flujo

Aplicación automática de una grilla

Suma de las intensidades para cada pixel.

Clustering de pixels con, a lo sumo, 3 grupos

Encontrar componentes de cada cluster conectados espacialmente

Umbral de componentes conectados por tamaño: menor o igual a 100 pixels

Un grupo?

Foreground: componente conectado más brillante

Background: componente conectado más oscuro

El spot es un blanco,

Foreground: background

Background: media del grupo

No Si

Page 3: Donuts, Scratches and Blanks: Robust Model-Based Segmentation of Microarray Images Qunhua Li, Chris Fraley, Roger E. Bumgarner, Ka Yee Yeung, Adrian E

Aplicación Automática de una Grilla

• Identificar la ubicación de cada spot.

• Para ubicar los spots, no se necesita encontrar los centros, sino los bordes del target mask, es decir, el rectángulo que contiene al spot.

• Siempre que el rectángulo contenga sólo los pixels de un único spot, el target mask es válido.

• El algoritmo es:

• Sumar las intensidades de los pixels en cada fila y en cada columna.

• Determinar el mínimo local de la suma de las intensidades utilizando una ventana deslizable con un paso aproximadamente igual al ancho de un spot típico.

• Los únicos parámetros a especificar son: el número de spots en cada fila o columna, y el tamaño de la ventana deslizable.

Page 4: Donuts, Scratches and Blanks: Robust Model-Based Segmentation of Microarray Images Qunhua Li, Chris Fraley, Roger E. Bumgarner, Ka Yee Yeung, Adrian E

Aplicación Automática de una Grilla

Page 5: Donuts, Scratches and Blanks: Robust Model-Based Segmentation of Microarray Images Qunhua Li, Chris Fraley, Roger E. Bumgarner, Ka Yee Yeung, Adrian E

ColumnasFilas

Aplicación Automática de una Grilla

Page 6: Donuts, Scratches and Blanks: Robust Model-Based Segmentation of Microarray Images Qunhua Li, Chris Fraley, Roger E. Bumgarner, Ka Yee Yeung, Adrian E

Clustering de Pixels basado en el Modelo

• El nivel de expresión de un gen es proporcional a las intensidades de los pixels de un spot.

• Los pixels de un artefacto, como ser un “scratch”, tendrán intensidades distintas a los del background o foreground.

• En clustering basado en el modelo, los datos de intensidades se consideran como provenientes de una mezcla de densidades:

• Para un número fijo de clusters, K, los parámetros pueden estimarse utilizando el algoritmo EM del clustering jerárquico basado en el modelo.

Page 7: Donuts, Scratches and Blanks: Robust Model-Based Segmentation of Microarray Images Qunhua Li, Chris Fraley, Roger E. Bumgarner, Ka Yee Yeung, Adrian E

Clustering de Pixels basado en el Modelo

• El número de clusters, K, puede estimarse maximizando el Criterio de Información de Bayes (BIC).

• Para combinar las señales de dos canales, se suman las intensidades roja y verde.

• En la mayoría de los casos se espera que el número de grupos, K, sea a lo sumo 3. Utilizamos el BIC para determinar el K, pero restringimos las posibles opciones a K menor o igual a 3.

• K = 1, no hay spot, es un blanco.

• K = 2, hay un spot y el background.

• K = 3, hay un spot, un artefacto o agujero interno y background.

Page 8: Donuts, Scratches and Blanks: Robust Model-Based Segmentation of Microarray Images Qunhua Li, Chris Fraley, Roger E. Bumgarner, Ka Yee Yeung, Adrian E

Extracción del Componente Conectado Espacialmente

• Los artefactos, por lo general, se encuentran en grupos pequeños inconexos. Por este motivo, establecer una tamaño límite de componentes conectados en un cluster permite identificar clusters formados por artefactos.

• Para dividir a los clusters en componentes conectados espacialmente, se utiliza el procedimiento de etiquetado de los 4 componentes vecinos conectados (4-neighbor connected component labeling procedure).

• Por defecto, sólo se conservan los componentes conectados con un tamaño mayor a los 100 pixels, que representa la sexta parte del tamaño típico de un spot.

• Los clusters más brillantes y más oscuros que pasen el tamaño límite se clasifican como foreground y background, respectivamente.

• Si sólo un cluster pasa el tamaño límite, se concluye que no hay spot y que esa ubicación está en blanco.

Page 9: Donuts, Scratches and Blanks: Robust Model-Based Segmentation of Microarray Images Qunhua Li, Chris Fraley, Roger E. Bumgarner, Ka Yee Yeung, Adrian E

Estimación de la Intensidad

•La estimación de la intensidad del foreground en el canal Cy3 es el promedio de los pixels en el cluster foreground. Lo mismo ocurre para el canal foreground Cy5, donde los mismos pixels están en el cluster para ambos canales.

• Las intensidades del background para los dos canales se estiman de la misma manera.

• Cuando se identifican 3 clusters, el cluster intermedio también se descarta, pues generalmente consiste en pixels “sospechosos, como por ej., un agujero interno, un artefacto, o un borde difuso.

• La señal estimada es: Is = If – Ib, donde If e Ib son las intensidades medias del foreground y background, respectivamente. La señal verdad es siempre >0, pero ocasionalmente, la señal estimada puede ser < 0. En este caso se asume que la intensidad verdadera es pequeña pero positiva, y se setea Is como el 5to percentil de las señales del spot en el arreglo.

Page 10: Donuts, Scratches and Blanks: Robust Model-Based Segmentation of Microarray Images Qunhua Li, Chris Fraley, Roger E. Bumgarner, Ka Yee Yeung, Adrian E

Estabilidad entre Replicados

• La estabilidad en la estimación de las intensidades se evalúa como la variación en el estimador del logaritmo del cociente, l = log2 I1 / I2, sobre los replicados, donde y son los estimadores de las señales de los canales 1 y 2, respectivamente.

• La estabilidad se mide como la suma de las diferencias al cuadrado, según:

donde N = número total de spots en el arreglo.R = número total de réplicasli,r = log-cociente del i-ésimo spot en el r-ésimo replicado

= promedio de los log-cocientes dentro de todos los replicados para el i-ésimo spot.

• Si no se logra identificar un foreground, I1 / I2 = 1

Page 11: Donuts, Scratches and Blanks: Robust Model-Based Segmentation of Microarray Images Qunhua Li, Chris Fraley, Roger E. Bumgarner, Ka Yee Yeung, Adrian E

Software

• Se utiliza el paquete spotSegmentation del lenguaje R, que consiste en dos funciones básicas. La primera:

• spotgrid: determina rectángulos dentro de los arreglos de cDNA en los cuales se ubican los spots.

- Aplica un grillado al arreglo, separando los spots individuales.

-Toma como datos a las intensidades de los dos canales, los números de filas y columnas de spots en el arreglo.

- La salida da las ubicaciones de filas y columnas que definen una grilla que separa los spots individuales.

- Tiene la opción de mostrar la grilla superpuesta sobre la imagen.

Page 12: Donuts, Scratches and Blanks: Robust Model-Based Segmentation of Microarray Images Qunhua Li, Chris Fraley, Roger E. Bumgarner, Ka Yee Yeung, Adrian E

Software

• La segunda:

• spotseg: determina las señales foreground y background dentro de los spots.

-Segmenta los spots individuales.

- Toma como datos a las intensidades de los dos canales, los delimitadores de filas y columnas de los spots dentro de un bloque.

- La media y mediana de las intensidades de los pixels del foreground y background para cada canal y cada spot, puede recuperarse mediante la función summary aplicada a la salida de spotseg.

- La función spotseg requiere el paquete MCLUST para la fase de clustering.

• El paquete spotSegmentation está disponible por BioConductor.

Page 13: Donuts, Scratches and Blanks: Robust Model-Based Segmentation of Microarray Images Qunhua Li, Chris Fraley, Roger E. Bumgarner, Ka Yee Yeung, Adrian E

Discusión

• Se describió un método de dos pasos para segmentar imágenes de microarreglos y estimar intensidades: clustering de intensidades de pixels basado en el modelo, y extracción de componentes conectados espacialmente.

• El método provee los principios de la base estadística para determinar si un gen se expresa o no en un spot, y por lo tanto, encara a spots blancos.

• También maneja efectivamente los spots con forma de donuts, con agujeros internos y con artefactos.

• En experimentos replicados se lograron resultados más estables que la segmentación por círculo fijo o por forma variable, sin introducir sesgo apreciable en los niveles de expresión estimados de los genes expresados diferencialmente.

• Antes de utilizar el método es necesario realizar un grillado automático. Cualquier grillado es aplicable pero el propuesto es más simple.