Tesis Luis de La Torre Zevallos

Embed Size (px)

DESCRIPTION

PROYECTO DE TESIS

Citation preview

[Escriba aqu]

UNIVERSIDAD PARA EL DESARROLLO ANDINO

Anti hatun yachay wasi, iskay simi yachachiypi umalliqR.N148-2002-CONAFU/Rest. R.N112-2003 CONAFUUNIVERSIDAD PARA EL DESARROLLO ANDINOAnti hatun yachay wasi iskay simikuna yachachiypi umalliq

R.N148-2002-CONAFU/Rest. R.N112-2003 CONAFU

FACULTAD DE CIENCIAS E INGENIERAESCUELA PROFESIONAL DE INGENIERA INFORMTICA

ANLISIS, DISEO E IMPLEMENTACIN DE UNA BASE DE DATOS BIOESTADSTICA EN LA UNIVERSIDAD PARA EL DESARROLLO ANDINO.

PRESENTADO POR:DE LA TORRE ZEVALLOS, Luis Gustavo. LIRCAY - ANGARAES HUANCAVELICA 2015

I. DATOS INFORMATIVOS1.1. Institucin : Universidad para el Desarrollo Andino.

1.2. Facultad : Ciencias e Ingeniera.

1.3. Escuela profesional: Ingeniera Informtica.

1.4. Ttulo : Anlisis, Diseo e Implementacin de una Base de Datos Bioestadstica en la Universidad Para el Desarrollo Andino.

1.5. Investigador : DE LA TORRE ZEVALLOS, Luis Gustavo.

1.6. Asesor : Ing. BENDEZ URETA, Rolando Yossef.

1.7. Co-asesor : Dra. MORENO VIGO, Margoth Mitchela.

1.8. Duracin Inicio :

Fin :

II. PLANTEAMIENTO DEL PROBLEMA 2.1. Descripcin de la situacin problemtica.Cuando en 1953 Watson y Crick propusieron el modelo de la doble hlice para explicar la estructura del ADN, no vislumbraron el formidable volumen de informacin que en forma exponencial se generara a partir de ese momento (Gamow., 1956) y que dara origen a problemas algortmicos susceptibles de un manejo altamente cuidadoso y organizado. En forma venturosa, en las dcadas siguientes hicieron su aparicin herramientas computacionales que hicieron posible el anlisis y la resolucin de interrogantes que ya estaban planteados en la propia estructura del ADN, en la informacin gentica codificante de las protena (EH., 1969), en las propiedades estructurales de stas y en los factores que las regulan (SM., 2000) (M., 1969.), as como en los sucesos asociados con la regulacin gnica, las bases moleculares del desarrollo embrionario y la evolucin de las vas metablicas bioqumicas (Dayhoff, 1925 - 1983) (Dayhoff, 1925 - 1983), (http://www.ncbi.nlm.nih.gov/GenBank/index.html, 2007). En forma contraria a lo que podra suponerse, las herramientas computacionales comenzaron a aplicarse en la biologa molecular mucho antes del comienzo de la era de Internet o de los proyectos de secuenciacin del genoma. Hacia 1960, la creciente cantidad de datos referentes a la qumica de las protenas llev a los cientficos a combinar las estrategias de la biologa molecular, las matemticas y los computadores, para enfrentar con xito el desafo que ello representaba. Y en este punto aparecen la bioinformtica y la biologa computacional como disciplinas ntimamente relacionadas, donde la primera, de acuerdo con la definicin de la NCBI (National Center for Biotechnology Information de los Estados Unidos de Amrica), busca y utiliza patrones y estructura inherente en datos biolgicos como secuencias gnicas, as como el desarrollo de nuevas metodologas para acceso y bsquedas en bases de datos (JB, 2000), mientras que la segunda se refiere a la simulacin fsica y matemtica de los procesos biolgicos (NH, 1945).Brown en el ao 2000, defini la bioinformtica como el uso de computadores para la adquisicin, manejo y anlisis de la informacin biolgica, de modo que la contextualiza en la interseccin de la biologa molecular, la biologa computacional, la medicina clnica, las bases de datos informticas, el Internet y el anlisis de secuencia (Kanehisa M, 2003).Segn el Weizmann Institute of Science de Israel, aunque el trmino bioinformtica no puede ser bien definido, se podra afirmar que es el campo de la ciencia que se ocupa del manejo computacional de todas las clases de informacin biolgica, bien sea de genes o sus productos, de organismos o aun de ecosistemas (Ledley, 1959). La bioinformtica es pues una ciencia de naturaleza interdisciplinaria, cuya historia se parti en dos despus que por vez primera se secuenci en forma completa una protena, la insulina, por parte de Frederick Sanger y sus colegas en la Universidad de Cambridge, durante la dcada comprendida entre 1945 y 1955 (Martnez-Barreneche, 2007), (http://www.ncbi.nlm.nih.gov/About/primer/bioinformatics.html., 2007). Sanger y su equipo, mediante un laborioso proceso analtico, separaron e identificaron los fragmentos de la degradacin de la protena y determinaron el orden de aparicin de los aminocidos, algo que nadie hasta ese momento haba sido capaz de hacer.Gracias al hallazgo de que cada protena posee una estructura primaria nica, Sanger obtuvo el Premio Nobel de qumica en 1958. Con posterioridad se desarrollaron otros mtodos de secuenciacin menos dispendiosos y ms eficientes que el de Sanger, como la creacin de degradacin de Edman, las columnas de intercambio inico y la electroforesis, que contribuyeron a la automatizacin de la secuenciacin y al desarrollo de libreras de aminocidos (Pauling L, 1951), (Piast M, 2007). Sin embargo, el logro alcanzado por Sanger fue el factor determinante en el rumbo que tomara la bioinformtica, pues hizo evidente la necesidad de interpretar la informacin contenida en las secuencias de ADN, ARN y protenas. Por este motivo, se ha propuesto la existencia de dos eras consecutivas en la historia de la bioinformtica: Era pre-secuenciacin. Era post-secuenciacin (http://pir.georgetown.edu.home.shtml, 2007), (Roberts, 2000).Pero la emergencia de la nueva ciencia no hubiera sido posible sin el concurso de los computadores digitales de alta velocidad. Inventados en el marco de programas de investigacin para disear armamento blico durante la segunda guerra mundial, los computadores slo estuvieron al alcance de los investigadores a comienzos de la dcada de 1970, aunque con una disponibilidad muy limitada, 15% del total de centros de investigacin y universidades de los Estados Unidos de Amrica (Pauling L, 1951). Dos hechos pertinentes fomentaron el desarrollo de la informtica acadmica en la investigacin biolgica: por una parte el advenimiento de FORTRAN (del ingls formula translation), lenguaje de programacin de alto nivel, de relativo fcil aprendizaje (Piast M, 2007), y por otra los esfuerzos que efectuaron en tal sentido las agencias gubernamentales y la industria de los computadores de esa nacin (Sanger F, 1952).La difusin de las nuevas tcnicas para secuenciar el ADN y las protenas, as como el volumen cada vez mayor de secuencias almacenadas en los bancos de datos, hicieron necesaria la creacin de algoritmos a fin de catalogar y comparar secuencias, en los que se reconoce como pionera a Margaret Oakley Dayhoff (1925-1983), connotada investigadora del Centro Mdico de la Universidad de Georgetown. La doctora Dayhoff desarroll mtodos computacionales que le permitieron comparar secuencias proteicas y a partir de los alineamientos entre ellas investigar las relaciones y por tanto la historia evolutiva entre los diferentes reinos, phyla y taxa biolgicos. Su monumental trabajo, que recopilaba todas las secuencias proteicas entonces conocidas, se public en 1965 en un pequeo libro titulado Atlas de secuencia y estructura de protenas (Sanger, 1959), (Szent-Gyrgyi, 1957).La primera edicin del Atlas contena las secuencias de 65 protenas. Las siguientes ediciones se citan ms de 4,500 veces y constituyen una fuente invaluable de referencia para cientficos del mundo entero.En 1980, la doctora Dayhoff cre la primera base de datos computadorizada de la que se tiene noticia, con secuencias de cidos nucleicos y de protenas, en un computador casero al que los usuarios externos podan conectarse por va telefnica. Para 1983 la Protein Sequence Database (PSD) era la base de datos ms grande del mundo, con ms de 2000,000 de nucletidos secuenciados, con sus respectivas referencias y anotaciones19. Sin embargo, este avance no hubiera sido posible sin la llegada de Internet. La red provey las facilidades de acceso para los usuarios as como tambin para el desarrollo del software necesario en el manejo y el anlisis de inmensurables cantidades de datos (Roberts, 2000).Aos despus de la muerte de la doctora Dayhoff, su sueo de poner en funcionamiento un sistema en lnea (online) consistente en programas y bases de datos accesibles a toda la comunidad cientfica mundial, comenz a hacerse realidad. Mediante este sistema, conocido como Protein Identification Resource (PIR) (Turing, 1952), cualquiera poda identificar protenas a partir de los datos de composicin de aminocidos o de secuencias, como tambin efectuar predicciones con base en stas, o sencillamente buscar informacin (Sanger, 1959). A lo largo de ms de 40 aos de existencia, PIR provee acceso a muchas bases de datos de protenas entre las que estaba incluida PSD. A partir del ao 2002, PIR-PSD se asoci con EBI (European Bioinformatics Institute) y SIB (Swiss Institute of Bioinformatics), para dar origen a una nica base de datos de secuencia y funcin de protenas, conocida en la actualidad como UniProt (http://www.ebi.ac.uk/swissprot, 2007), (Wu CH, 2003). A finales de la dcada de 1980 y comienzos de la de 1990, el trabajo de Margaret Oakley Dayhoff impuls la generacin de bases de datos primarias como GenBank, FASTA y BLAST (Basic Local Alignment Tool). Mientras GenBank almacenaba y catalogaba las secuencias de ADN y de protenas, BLAST permita comparar con mayor rapidez que su predecesor FASTA las secuencias de inters contra cada una de las secuencias contenidas dentro de la enorme base de datos.Estuvo pues la bioinformtica caracterizada en la dcada de 1990 por la utilizacin de bases de datos primarias que contenan informacin experimental en gran escala en las reas de genmica y protenica, lo que permiti comprender las funciones de los genes y de las protenas. En la actualidad, existen bases secundarias, llamadas tambin bases de conocimiento porque contienen el conocimiento biolgico acumulado necesario para comprender el funcionamiento y la utilidad en todos los niveles de organizacin de un ser vivo (molecular, celular, organismo). As por ejemplo, estas bases incluyen todas las familias de protenas con sus dominios funcionales y sus estructuras tridimensionales, as como tambin las diferentes vas de sealizacin.Para el futuro, se espera disponer de una representacin computacional completa de la clula y del organismo con el fin de entender los principios que determinan el elevado nivel de complejidad de los sistemas biolgicos (Roberts, 2000).2.2. Formulacin del problema 2.2.1. Problema general De qu manera influye el anlisis, diseo e implementacin de una base de datos bioestadstica en la recoleccin, organizacin, resumen, anlisis, interpretacin y comparacin de los datos biolgicos obtenidos del sistema de informacin bioestadstica?2.2.2. Problema especfico a) Cules son las distribuciones resaltantes y/o compatibles en la recoleccin, organizacin, resumen, anlisis e interpretacin de los datos biolgicos?b) Cules son los datos biolgicos y resultados obtenidos del sistema de informacin bioestadstica indispensables a almacenar en la base de datos?c) Cmo es el proceso para el correcto almacenado de los datos biolgicos y de resultados obtenidos del sistema de informacin bioestadstica para la eficaz administracin?d) Cules son los beneficios de la implementacin de una base de datos que albergue el historial de los datos biolgicos y la informacin obtenida del sistema de informacin bioestadstica?2.3. Objetivos de la investigacin.2.3.1. Objetivo general.Determinar la influencia del anlisis, diseo e implementacin de una base de datos bioestadstica en la recoleccin, organizacin, resumen, anlisis, interpretacin y comparacin de los datos biolgicos obtenidos del sistema de informacin bioestadstica.2.3.2. Objetivos especficos.a) Seleccionar las distribuciones resaltantes y/o compatibles en la recoleccin, organizacin, resumen, anlisis e interpretacin de los datos biolgicos.b) Determinar los datos biolgicos y resultados obtenidos del sistema de informacin bioestadstica indispensables a almacenar en la base de datos.c) Determinar el correcto almacenado los datos biolgicos y resultados obtenidos del sistema de informacin bioestadstica para la eficaz administracin. d) Evaluar la implementacin de una base de datos que albergue el historial de los datos biolgicos y la informacin obtenida del sistema de informacin bioestadstica.2.4. Justificacin del estudio.Durante los ltimos 20 aos se ha determinado que muchas protenas de diverso origen con una funcin similar, tambin tienen secuencias similares de los aminocidos. As, existen las secuencias correspondientes del DNA que son similares aunque la protena bajo anlisis ocurre en diversas especies tales como ratones y seres humanos. As pues, se han buscado diferencias y semejanzas en el nivel del DNA entre un ratn y un ser humano para muchas secuencias similares.Desde el principio de los aos 90, muchos laboratorios han estado analizando el genoma completo de varias especies tales como bacterias, levaduras, ratones y seres humanos. Durante estos esfuerzos de colaboracin, se han generado cantidades enormes de datos los cuales se recogen y se almacenan en grandes bases de datos, la mayora de las cuales son publicadas y accesibles. Adems de recopilar todos estos datos, es necesario comparar estas secuencias de nucletidos o de aminocidos a las semejanzas y a las diferencias de cada hallazgo. Puesto que no es muy conveniente comparar las secuencias de varios (cientos) nucletidos o aminocidos de manera manual, varias tcnicas de cmputo fueron desarrolladas para solucionar este problema. Adems, stos tienen menos errores que un acercamiento de manera manual. El uso de tcnicas de cmputo para analizar datos biolgicos se refiere como Bioinformtica. Con el incremento en complejidad y capacidad tanto de las computadoras como de las tcnicas de investigacin, se necesitan "puentes" humanos que puedan entender ambas disciplinas y sean capaces de comunicarse con los expertos de los dos campos.Manejar las grandes cantidades de datos que se genera en un solo anlisis disminuye a gran escala su manejo, almacenamiento y comparacin de forma manual, y el resultado, comparacin y prximas consultas tomara demasiado tiempo. Para disminuir significativamente estos procesos de almacenamiento, comparacin y manipulacin del resultado lo ms conveniente sera hacerlas en una base de datos que albergue toda la informacin obtenida por cada proceso del sistema de informacin de bioestadstica.2.4.1. Novedoso En la Universidad para el Desarrollo Andino se implementar por primera vez este tipo de proyecto, y ser un gran reto para los ejecutores del proyecto, lo cual justifica lo novedoso del proyecto. 2.4.2. Importante Actualmente la aplicacin de los datos biolgicos en las distribuciones estadsticas se maneja manualmente, por lo cual retrasa significativamente su interpretacin de los datos, de ah para ser consultadas posteriormente son muy difciles de ubicarlas debido a la gran cantidad de datos que se generan en cada investigacin. Con la implementacin de una base de datos se agilizara la administracin de dichos datos biolgicos significativamente, reduciendo as material fsico para su almacenamiento y recursos humanos.2.4.3. Verificable Se podr verificar por la observacin lgica, por parte de los usuarios finales y por la investigacin, porque podr ser probado por especialistas y por el sistema de informacin misma, para comprobar si los datos y resultados almacenados son los correctos. 2.4.4. Factible La Universidad para el Desarrollo Andino cuenta con un laboratorio de biologa de la misma manera con escuela de Ingeniera Informtica e Ingeniera Agrarias las cuales facilitan el desarrollo de este proyecto.2.4.5. De la especialidad Siendo bioinformtica un puente entre biologa e Informtica, la universidad para el desarrollo Andino cuenta con una especialista en biologa, y con una escuela profesional de Ingeniera informtica. La unin de ambas especialidades dara lugar al desarrollo de este proyecto.III. MARCO TERICO 3.1. Antecedentes del problema.La Bioinformtica es el campo de la ciencia en donde la biologa, la informtica y la tecnologa se fusionan en una sola disciplina. ltima meta: descubrimiento de nuevas penetraciones biolgicas as como crear una perspectiva global que permita analizar los principios de unificacin en Biologa. Dentro de bioinformtica, existen tres subdisciplinas:a) El desarrollo de nuevos algoritmos y estadsticas para establecer relaciones entre miembros de grandes grupos de datos.b) El anlisis y al interpretacin de varios tipos de datos incluyendo secuencias de nucletidos y aminocidos, dominios proteicos y estructuras de protenas. c) El desarrollo y la implementacin de herramientas que permitan acceso y manejo eficientes de diferentes tipos de informacin. Los avances de la biologa molecular permiten la generacin de una gran cantidad de informacin cuyo anlisis requiere el uso de herramientas de clculo altamente especializadas. Desarrollar estas herramientas tiene por nombre bioinformtica y es considerada una de las grandes revoluciones en la biologa y la computacin. La bioinformtica, ha tenido expansin notoria en sus aplicaciones los ltimos cinco aos. Esta disciplina est siendo aplicada en problemas que implican evaluar y entender la dispersin y la variacin de marcadores genticos, modelaje molecular, genmica, protemica, y minera de datos biolgicos. Se pueden citar ejemplo de aplicaciones en medicina forense, antropologa, manejo y control de plagas, conservacin, desarrollo de vacunas y drogas, mejoramiento gentico de animales y plantas, entre otros. El pas ha contado con pocos recursos bien formados que permitan realmente abordar los problemas genticos poblaciones y de sistemtica molecular relacionados con reas como la epidemiologa, la conservacin y manejo de la biodiversidad, la biotecnologa y las ciencias biomdicas en general.

En la ciudad de Lircay Angaraes Huancavelica, a la fecha no se han realizado estudios concretos sobre sistemas informticos aplicables a datos bilgicos. Para el presente estudio, se tiene el presente marco de referencia:

16 REUNIN DEL RGANO DE GOBIERNO DE LA INFRAESTRUCTURA GLOBAL PARA DATOS DE BIODIVERSIDAD (GBIF).La 16ta. Reunin del rgano de Gobierno de la Infraestructura Global para datos de Biodiversidad (GBIF) se realiz en Copenhague, Dinamarca, del 3 al 9 de octubre. CAPACITACION DEL GBIF.Los das 14 y 15 de setiembre de 2009, el encargado de Nodos del Global Biodiversity Information Facility (GBIF), Dr. Juan Carlos Bello, dict una capacitacin sobre informtica de la biodiversidad y los desafos y oportunidades de la creacin de un sistema de datos biolgicos a nivel nacional.La capacitacin se realiz en el Saln de las Banderas del Ministerio de Ciencia, Tecnologa e Innovacin Productiva, para los miembros del Consejo Asesor y el personal del Nodo Central. SE CRE EL SISTEMA NACIONAL DE DATOS BIOLOGICOS (SNDB).El 10 de junio de 2009 se constituy formalmente el Sistema Nacional de Datos Biolgicos a travs de la Resolucin MINCyT 245/09.A lo largo de este ao, el Consejo Asesor se ha reunido en forma peridica para discutir el diseo de una base de datos unificada de informacin biolgica, a partir de datos taxonmicos, ecolgicos, cartogrficos, bibliogrficos, etnobiolgicos, de uso y de catlogos sobre recursos naturales y otros temas afines, as como las polticas referidas al fortalecimiento de las bases de datos ligadas a colecciones de todo el pas.3.2. Bases tericas3.2.1. Base de datos.Una base de datos o banco de datos es un conjunto de datos pertenecientes a un mismo contexto y almacenados sistemticamente para su posterior uso. En este sentido; una biblioteca puede considerarse una base de datos compuesta en su mayora por documentos y textos impresos en papel e indexados para su consulta. Actualmente, y debido al desarrollo tecnolgico de campos como la informtica y la electrnica, la mayora de las bases de datos estn en formato digital, siendo este un componente electrnico, y por ende se ha desarrollado y se ofrece un amplio rango de soluciones al problema del almacenamiento de datos.3.2.1.1. Elementos que conforman una base de datos Los Sistemas de Gestin de Base de Datos.Son un tipo de software muy especfico, dedicado a servir de interfaz entre la base de datos, el usuario y las aplicaciones que la utilizan. Se compone de un lenguaje de definicin de datos, de un lenguaje de manipulacin de datos y de un lenguaje de consulta. Control sobre la redundancia de datos.Los sistemas de ficheros almacenan varias copias de los mismos datos en ficheros distintos. Esto hace que se desperdicie espacio de almacenamiento, adems de provocar la falta de consistencia de datos. En los sistemas de bases de datos todos estos ficheros estn integrados, por lo que no se almacenan varias copias de los mismos datos. Sin embargo, en una base de datos no se puede eliminar la redundancia completamente, ya que en ocasiones es necesaria para modelar las relaciones entre los datos.

Consistencia de datos.Eliminando o controlando las redundancias de datos se reduce en gran medida el riesgo de que haya inconsistencias. Si un dato est almacenado una sola vez, cualquier actualizacin se debe realizar slo una vez, y est disponible para todos los usuarios inmediatamente. Si un dato est duplicado y el sistema conoce esta redundancia, el propio sistema puede encargarse de garantizar que todas las copias se mantienen consistentes.

Comparticin de datos.En los sistemas de ficheros, los ficheros pertenecen a las personas o a los departamentos que los utilizan. Pero en los sistemas de bases de datos, la base de datos pertenece a la empresa y puede ser compartida por todos los usuarios que estn autorizados. Mantenimiento de estndares.Gracias a la integracin es ms fcil respetar los estndares necesarios, tanto los establecidos a nivel de la empresa como los nacionales e internacionales. Estos estndares pueden establecerse sobre el formato de los datos para facilitar su intercambio, pueden ser estndares de documentacin, procedimientos de actualizacin y tambin reglas de acceso. La integridad de datos.La integridad de la base de datos se refiere a la validez y la consistencia de los datos almacenados. Normalmente, la integridad se expresa mediante restricciones o reglas que no se pueden violar. Estas restricciones se pueden aplicar tanto a los datos, como a sus relaciones, y es el SGBD quien se debe encargar de mantenerlas. La SeguridadLa seguridad de la base de datos es la proteccin de la base de datos frente a usuarios no autorizados. Sin unas buenas medidas de seguridad, la integracin de datos en los sistemas de bases de datos hace que stos sean ms vulnerables que en los sistemas de ficheros. La accesibilidad a los datosMuchos SGBD proporcionan lenguajes de consultas o generadores de informes que permiten al usuario hacer cualquier tipo de consulta sobre los datos, sin que sea necesario que un programador escriba una aplicacin que realice tal tarea.3.2.1.2. Tipos de bases de datosLas bases de datos pueden clasificarse de varias maneras, de acuerdo al contexto que se est manejando, la utilidad de las mismas o las necesidades que satisfagan. a) Segn la variabilidad de la base de datos son: Bases de datos estticas. Son bases de datos de solo lectura, utilizadas primordialmente para almacenar datos histricos que posteriormente se pueden utilizar para estudiar el comportamiento de un conjunto de datos a travs del tiempo, realizar proyecciones, tomar decisiones y realizar anlisis de datos para inteligencia empresarial. Bases de datos dinmicas.stas son bases de datos donde la informacin almacenada se modifica con el tiempo, permitiendo operaciones como actualizacin, borrado y edicin de datos, adems de las operaciones fundamentales de consulta. Un ejemplo de esto puede ser la base de datos utilizada en un sistema de informacin de un supermercado, una farmacia, un videoclub o una empresa.

b) Segn el contenido son: Bases de datos bibliogrficas. Slo contienen un subrogante (representante) de la fuente primaria, que permite localizarla. Un registro tpico de una base de datos bibliogrfica contiene informacin sobre el autor, fecha de publicacin, editorial, ttulo, edicin, de una determinada publicacin, etc. Puede contener un resumen o extracto de la publicacin original, pero nunca el texto completo, porque si no, estaramos en presencia de una base de datos a texto completo (o de fuentes primarias ver ms abajo). Como su nombre lo indica, el contenido son cifras o nmeros. Por ejemplo, una coleccin de resultados de anlisis de laboratorio, entre otras. Bases de datos de texto completo. Almacenan las fuentes primarias, como por ejemplo, todo el contenido de todas las ediciones de una coleccin de revistas cientficas. 3.2.2. La bioinformtica.Bioinformtica es una disciplina que utiliza las tecnologas de la informacin para captar, organizar, analizar y distribuir informacin biolgica con el propsito de responder preguntas complejas en biologa. La bioinformtica se ocupa del tratamiento de los datos en el campo de las biociencias moleculares: biologa molecular, bioqumica, medicina y biotecnologa.Segn la definicin del Centro Nacional para la Informacin Biotecnolgica National Center for Biotechnology Information (NCBI por sus siglas en ingls): la Bioinformtica es un campo de la ciencia en el que confluyen varias disciplinas: la biologa, la computacin y las tecnologas de la informacin. Su fin es facilitar el descubrimiento de nuevos conocimientos y el desarrollo de perspectivas globales a partir de las cuales puedan discernirse principios unificadores en el campo de la biologa. La bioinformtica, por tanto, se ocupa de la adquisicin, almacenamiento, procesamiento, distribucin, anlisis e interpretacin de informacin biolgica, mediante la aplicacin de tcnicas y herramientas procedentes de las matemticas, la biologa y la informtica, con el propsito de comprender el significado biolgico de una gran variedad de datos. Al comienzo de la "revolucin genmica", el concepto de bioinformtica se refera slo a la creacin y mantenimiento de base de datos donde se almacenaba informacin biolgica, como son las secuencias de nucletidos y aminocidos. El desarrollo de este tipo de base de datos no slo significaba su diseo, sino tambin el desarrollo de interfaces complejas donde los investigadores pudieran acceder los datos existentes y suministrar o revisar datos. Luego toda esa informacin deba combinarse para formar una idea lgica de las actividades celulares normales, de tal manera que los investigadores pudieran estudiar cmo estas actividades se vean alteradas. De ah surgi el campo de la bioinformtica que se encarga del anlisis e interpretacin de varios tipos de datos, incluidas las secuencias de nucletidos y aminocidos, los dominios de protenas y su estructura.3.2.3. La bioestadstica.La bioestadstica es la aplicacin particular de la estadstica a las ciencias biolgicas y de la salud. Es decir, la obtencin y el anlisis de datos biolgicos o de salud mediante la utilizacin de mtodos estadsticos. Por ejemplo, la bioestadstica se puede usar para ayudar a comprender las posibles causas de un cncer o con qu frecuencia se presenta una enfermedad en un determinado grupo de personas. En algunos mbitos tambin se denomina biometra (SM., 2000). 3.3. Definicin de trminos bsicos.3.3.1. Datos.Representacin formal de hechos, conceptos o instrucciones adecuada para su comunicacin, interpretacin y procesamiento por seres humanos o medios automticos.3.3.2. Informacin.Son datos ya procesados previamente que se pueden interpretar positiva o negativamente.3.3.3. Minera de datos.Laminera de datosoexploracin de datos(es la etapa de anlisis de "Knowledge Discovery in Databases" o KDD) es un campo de lasciencias de la computacinreferido al proceso que intenta descubrir patrones en grandes volmenes de conjuntos de datos. Utiliza los mtodos de lainteligencia artificial,aprendizaje automtico,estadsticay sistemas debases de datos. El objetivo general del proceso de minera de datos consiste en extraer informacin de un conjunto de datos y transformarla en una estructura comprensible para su uso posterior (Oded Maimon and Lior Rokach (2010).3.3.4. Protenas.Las protenas son biomolecular formadas por cadenas lineales de aminocidos. El nombre protena proviene de la palabra griega ("proteios"), que significa "primario" o del dios Proteo, por la cantidad de formas que pueden tomar (Medina Walteros Jennifer, 2012).Las protenas desempean un papel fundamental para la vida y son las biomolculas ms verstiles y ms diversas. Son imprescindibles para el crecimiento del organismo. Realizan una enorme cantidad de funciones diferentes, entre las que destacan (Medina Walteros Jennifer, 2012): Estructural. sta es la funcin ms importante de una protena. Inmunolgica (anticuerpos). Enzimtica (sacarosa y pepsina). Contrctil (actina y miosina). Homeosttica: colaboran en el mantenimiento del pH. Transduccin de seales (rodopsina). Protectora o defensiva (trombina y fibringeno).3.3.5. El ADN.El ADN es una doble hlice de 2 cadenas de ncleo nucletidos y cada uno contiene: 1. Grupo fosfato 2. Pentosa (azcar de 5 carbonos) 3. Bases nitrogenadas ya sean Adenina, Guanina, Citosina y Timina (*hay 4 tipos de nucletidos ya que hay 4 tipos de bases nitrogenadas, estas diferencian a cada uno de los nucletidos) (Medina Walteros Jennifer, 2012).

Nucletido: Compuesto (Azcar, base, fosfato). Azcar: cumple la funcin de estructura, es como la columna vertebral (siempre igual). Fosfato: Cumple la funcin de enlace (se mantiene siempre igual). Base: Da estabilidad a la molcula. Esta cambia encontramos cuatro tipos de bases:|- Adenina |- Timina |- Citosina |- GuaninaNuestro cuerpo trabaja en cdigo (ATCG) base 4: 0 A Sirve para 00 1 T codificar en 01 2 C dos bits 10 3 G 11Nuestro ADN codifica nuestra informacin en cuatro (4) bits. El ADN codifica la informacin en ATCG (Medina Walteros Jennifer, 2012).3.3.6. Genoma. El proyecto Genoma Humano alcanza en 1999, la descripcin completa del cromosoma 22uno de los 24 que caracterizan a la especie humana (23 en cada individuo, con una diferencia en el ltimo, segn el sexo). El 6 de Abril de 2000 la empresa PE Celera Corporacin anuncio que haba finalizado la secuencia completa del ADN. En Abril de 2003, el Consorcio Pblico integrado por veinte centros de investigacin de varios pases y la empresa privada Celera anunciaron que haban descifrado de forma completa y ordenada todos los genes del ser humano. 3.3.7. Entidad.Una entidad es una componente que tiene atributos y propiedades.3.3.8. Atributo.Son las caractersticas que contiene una entidad.3.3.9. Clase.Es la clase a la que una entidad o un conjunto de entidades pertenecen.3.3.10. Relacin.Es la cualidad en la que una entidad hereda todos sus atributos y clases a una entidad hija.3.4. Hiptesis 3.4.1. Hiptesis general El anlisis, diseo e implementacin de una base de datos mejora significativamente la recoleccin, almacenamiento, organizacin, resumen, anlisis, interpretacin y comparacin de los datos e informaciones biolgicas ingresados/obtenidos del sistema de informacin bioestadstica.3.4.2. Hiptesis especificas a) Las distribuciones resaltantes y/o compatibles en la recoleccin, organizacin, resumen, anlisis e interpretacin de los datos biolgicos son: Distribucin Chi cuadrado. Distribucin Lineal. Distribucin T Student.b) Los datos a ser almacenados en la base de datos son: La probabilidad de xito. La probabilidad de fracaso. El cdigo de identificacin de cada proceso o consulta Y los resultados que se obtenga de cada proceso que se ejecute en el sistema de informacin bioestadistico.c) El correcto almacenado de los datos son: Los datos ingresados al sistema con un cdigo de identificacin (cdigo padre) en una tabla especfica. La informacin obtenida por el tratada por sistema de informacin previamente identifica(cdigo padre, cdigo hijo) La comparacin, interpretacin, deduccin conclusin de las informaciones resultantes identificadas por la informacin obtenida(cdigo hijo)d) La influencia es muy significativa porque se almacenan datos sin importar el lmite de la capacidad. Y su posterior consulta se hace ms sencilla y eficaz al momento de necesitarlas.3.5. Variables a) Variable independiente La base de datos bioestadstica.b) Variable dependiente La recoleccin, organizacin, resumen, anlisis, interpretacin y comparacin de los datos biolgicos obtenidos del sistema de informacin bioestadstica.

IV. METODOLOGA4.1. Tipo y nivel de investigacin.4.1.1. Tipo de investigacin. Es una investigacin aplicada, debido a que nos proponemos transformar el conocimiento puro en conocimiento til, para el enriquecimiento del acervo cultural y cientfico.Tambin ser tecnolgica porque utilizaremos el conocimiento til para resolver un problema concreto.4.1.2. Nivel de investigacin.El nivel de investigacin es analtica, puesto que implica la sntesis posterior de lo analizado, ya que trata de entender las situaciones en trminos de sus componentes, debido a que pretende descubrir los elementos que conforman la totalidad de las partes as como las interconexiones que aplican su integracin.

4.2. Mtodo de la investigacin.El mtodo de investigacin ser experimental debido a que se ejercer mximo control de las variables independiente y dependiente.4.3. Diseo de la investigacin.Para fines del estudio se aplicar la Investigacin experimental porque se manipulara la base de datos y se modificara todas las veces que necesite hasta concluir en una base de datos esperada.

4.4. Poblacin y muestra4.4.1. Poblacin.La poblacin del siguiente proyecto de investigacin ser todo ser vivo de la que se puede extraer un dato biolgico, existentes en el distrito de Lircay.4.4.2. Muestra.La muestra ser tomada de la produccin de datos biolgicos que realiza la universidad para el desarrollo andino.4.5. Tcnicas e Instrumentos de recoleccin de datos.Para obtener los datos de las variables consideradas, se ha necesita aplicar o recurrir a las siguientes tcnicas e instrumentos de recoleccin de datos:TCNICAINSTRUMENTO

EntrevistaCuestionario.

EncuestaCuestionario.

Observacin Apunte, Bitcora.

ExperimentoComprobacin (consistente o no)

AnlisisRecoleccin de datos.

InternetMedios Electrnicos.

V. ASPECTOS ADMINISTRATIVOS5.1. PresupuestoCOSTOS

UNDMESESDESCRPCINMONTO UNITARIOMONTO TOTAL

SERVICIOS

16PersonalS/. 1,500.00S/. 9,000.00

BIENES

1Software con licencia (BD)S/. 200.00S/. 200.00

OTROS GASTOS

6InternetS/. 70.00S/. 420.00

4ManualesS/. 80.00S/. 320.00

ImpresionesS/. 100.00S/. 100.00

CopiasS/. 50.00S/. 50.00

TOTAL GASTOSS/. 10,090.00

5.2. CronogramaACTIVIDADESMESES

1er Mes2Mes3 Mes4 Mes5 Mes6 Mes

123412341234123412341234

Desarrollo del plan del proyecto de investigacin.XXXX

Revisin y aprobacin del plan.XXXX

Desarrollo del proyecto de investigacin.XXXX

Diseo de la base de datos.XXXX

Prueba y correccin de errores de la base de datos.XXXX

Informe final del proyecto de investigacin.XX

Sustentacin del proyecto de investigacin.XX

REFERENCIASDayhoff, D. M. (1925 - 1983). Biography. EH., B. R. (1969). Gene regulation for higher cells. Gamow. (1956). The problem of information transfer from nucleic acids to proteins. Adv Biol Med Phys. http://bip.weizmann.ac.il. (2007). Bioinformatics & Biological Computing. http://pir.georgetown.edu.home.shtml. (2007). PIR Protein Information Resource. http://www.ebi.ac.uk/swissprot. (2007). UniProt/Swiss-Prot. http://www.ncbi.nlm.nih.gov/About/primer/bioinformatics.html. (2007). NCBI Bioinformatics. http://www.ncbi.nlm.nih.gov/GenBank/index.html. (2007). GenBank. JB, H. (2000). Hagen JB. The origins of bioinformatics. Kanehisa M, B. P. (2003). Bioinformatics in the post-sequence era. Ledley. (1959). Digital electronic computers in biomedical sciences. M., D. (1969.). Atlas of protein sequence and structure. Martnez-Barreneche. (2007). La bioinformtica como herramienta para la investigacin en salud humana. Mexico: Salud Pblica Mex.NH, H. (1945). On the evolution of biochemical syntheses. Pauling L, C. R. (1951). The structure of proteins: two hydrogen-bonded helical configurations of the polypeptide chain. Piast M, K.-W. I.-K. (2007). Bioinformatics: From arduous beginnings to molecular databases. Roberts, 1. (2000). The early days of bioinformatics publishing. Sanger. (1959). Sanger F. Chemistry of insulin. Sanger F, T. E. (1952). The aminoacid sequence in the glycyl chain of insulin. Biochem J.SM., B. (2000). Get your bioinformatics on the Web! Biotechniques. Szent-Gyrgyi. (1957). Role of proline in polypeptide chain configuration of proteins. Turing. (1952). The chemical basis for morphogenesis. Londres: PhilTrans R Soc London B.Wu CH, Y. L.-A. (2003). The protein information resource. Nucl Acids Res.

VI. ANEXOSOperacionalizacin de variables Con el propsito de verificar y contrastar las hiptesis planteadas, se ha operacional izado las variables de las mismas, lo que ha implicado desglosar las variables en indicadores y stos han permitido definir la informacin bsica para contrastar la hiptesis. Para las variables anteriores, se ha determinado los indicadores de la forma siguiente: VARIABLESINDICADORESRANGOS DIMENSION

VariableIndependienteBase de Datos bioestadstica

Capacidad. Numero de datos almacenados

Seguridad. Administrador, invitado, etc.

Fiabilidad. Precisin en los datos. Imprecisin en los datos.

Redundancia. Datos repetidos innecesariamente.

VariableDependienteLa recoleccin, organizacin, resumen, anlisis, interpretacin y comparacin de los datos biolgicos obtenidos del sistema de informacin bioestadstica. Tipo y tamao del dato. Carcter, numero, real, binario, etc.

Tipo de almacenamiento. Entidad a la que pertenece.

Identificacin del dato. Padre, hijo

20

luis de la torre zevallos

32