UNIVERSIDADE TECNOLOGICA FEDERAL DO PARANACAMPUS CORNELIO PROCOPIO
DIRETORIA DE PESQUISA E POS-GRADUACAOPROGRAMA DE POS-GRADUACAO EM INFORMATICA
JOAO VITOR FERRARI DA SILVA
FACIL BULA: SISTEMA QUE ESTRUTURA O BULARIOELETRONICO DA ANVISA
DISSERTACAO DE MESTRADO
CORNELIO PROCOPIO
2016
JOAO VITOR FERRARI DA SILVA
FACIL BULA: SISTEMA QUE ESTRUTURA O BULARIOELETRONICO DA ANVISA
Dissertacao de Mestrado apresentada ao Programade Pos-Graduacao em Informatica da UniversidadeTecnologica Federal do Parana - UTFPR como requi-sito parcial para a obtencao do tıtulo de “Mestre emInformatica”.
Orientador: Prof. Dr. Andre Yoshiaki Kashiwabara
Coorientador: Prof. Dr. Carlos Nascimento Silla Junior
CORNELIO PROCOPIO
2016
Dados Internacionais de Catalogação na Publicação
S586 Silva, João Vitor Ferrari da
Fácil bula : sistema que estrutura o bulário eletrônico da ANVISA / João Vitor Ferrari da Silva . – 2016.
139 f. : il. ; 30 cm
Orientador: André Yoshiaki Kashiwabara.
Coorientador: Carlos Nascimento Silla Junior
Dissertação (Mestrado) – Universidade Tecnológica Federal do Paraná. Programa de Pós- graduação em Informática. Cornélio Procópio, 2016.
Referências: p.115 -121.
1. Mineração de dados (Computação). 2. Medicamentos - Interações. 3. Farmacologia. 4.
Informática - Dissertações. I. Kashiwabara, André Yoshiaki, orient. II. Silla Junior, Carlos Nascimento, coorient. III. Universidade Tecnológica Federal do Paraná. Programa de Pós-
Graduação em Informática. IV. Título.
CDD (22. ed.) 004
Biblioteca da UTFPR, Câmpus Cornélio Procópio
Ministério da Educação Universidade Tecnológica Federal do Paraná
Câmpus Cornélio Procópio Programa de Pós-Graduação em Informática
Av. Alberto Carazzai, 1640 - 86.300-000- Cornélio Procópio – PR. Tel. +55 (43) 3520-4055 / e-mail: [email protected] / www.utfpr.edu.br/cornelioprocopio/ppgi
Título da Dissertação Nº 19:
“FÁCIL BULA: SISTEMA QUE ESTRUTURA O BULÁRIO
ELETRÔNICO DA ANVISA”.
por
João Vitor Ferrari da Silva
Orientador: Prof. Dr. André Yoshiaki Kashiwabara Esta dissertação foi apresentada como requisito parcial à obtenção do
grau de MESTRE EM INFORMÁTICA – Área de Concentração: Computação Aplicada, pelo Programa de Pós-Graduação em Informática – PPGI – da Universidade Tecnológica Federal do Paraná – UTFPR – Câmpus Cornélio Procópio, às 10h do dia 25 de maio de 2016. O trabalho foi _____________ pela Banca Examinadora, composta pelos professores:
__________________________________ Prof. Dr. André Yoshiaki Kashiwabara
(Presidente – UTFPR-CP)
__________________________________ Prof. Dr. Carlos Nascimento Silla Junior
(Coorientador – UTFPR-CP)
__________________________________ Prof. Dr. Alessandro Botelho Bovo
(UTFPR-LD)
__________________________________ Profa. Dra. Gabrielle Jacklin Eler
(IFPR-LD)
Visto da coordenação:
__________________________________ André Takeshi Endo
Coordenador do Programa de Pós-Graduação em Informática UTFPR Câmpus Cornélio Procópio
A Folha de Aprovação assinada encontra-se na Coordenação do Programa.
AGRADECIMENTOS
Agradeco a Deus e a MTA, por sempre me abencoarem com saude, forca e protecao.
Agradeco a toda minha famılia, em especial aos meus pais, Joao e Marli, por me
educarem e serem exemplos de dedicacao e honestidade. Agradeco a minha namorada Tatiane
por ter me apoiado e compreendido minha ausencia para elaboracao deste trabalho.
Ao professor orientador Andre Kashiwabara pelos conselhos, por toda ajuda desempe-
nhada, pela motivacao e auxılio na organizacao do trabalho, ao professor coorientador Carlos
Silla com dicas valiosas de pesquisa e conhecimento em alternativas para elaboracao dos desa-
fios do trabalho, e a todos os outros professores que contribuıram para elaboracao do presente
trabalho e aos outros colaboradores da UTFPR.
Agradeco aos meus amigos, em especial ao grupo COMBO, por serem companhia
constante em minha vida, juntamente com meus colegas de trabalho, principalmente ao Bruno,
Gabriel, Felipe, Higor, Thiago, Raul, Eduardo, Cristiano e Gustavo que contribuıram para o
desenvolvimento deste trabalho.
RESUMO
DA SILVA, Joao Vitor Ferrari. FACIL BULA: SISTEMA QUE ESTRUTURA O BULARIOELETRONICO DA ANVISA. 137 f. Dissertacao de Mestrado – Programa de Pos-Graduacaoem Informatica, Universidade Tecnologica Federal do Parana. Cornelio Procopio, 2016.
O trabalho desempenhado pelos profissionais da area de saude quando voltado ao cuidado daspessoas consiste, por vezes, na escolha dos melhores medicamentos para o sucesso terapeuticono tratamento de pacientes. Existem varios medicamentos disponıveis no mercado brasileiro,assim para que o profissional encontre as informacoes sobre o medicamento que pode ser melhorindicado para o paciente ha aplicativos e ferramentas que facilitam a pesquisa dos medicamentose auxiliam o trabalho deste especialista. Contudo em nossa busca nao foram encontrados siste-mas que possuem a identificacao de reacoes adversas, contraindicacoes, interacoes medicamen-tosas, advertencias e precaucoes entre a associacao conjunta de medicamentos regulamentadospela Agencia Nacional de Vigilancia Sanitaria (ANVISA). Nesse contexto, o Bulario Eletronicoda ANVISA disponibiliza um conjunto de 6.961 bulas profissionais em formato PDF, contudoas informacoes nelas contidas nao estao estruturadas. Um dos desafios deste trabalho consistiuem extrair automaticamente as informacoes presentes nesse conjunto de bulas. Este trabalhoapresenta uma metodologia semiautomatica de mineracao de textos para mapear as bulas daANVISA nas redes de interacoes entre farmacos da base de dados DrugBank, juntamente comas doencas encontradas na base SNOMED-CT. Os medicamentos, as doencas, os farmacos esuas relacoes foram estruturadas e armazenadas em um banco de dados em grafos utilizando atecnologia Neo4j. Por meio dos resultados obtidos foi desenvolvido o Facil Bula, website comobjetivo de desenvolver ferramentas que facilitem a pesquisa de medicamentos e doencas paraprofissionais da area de saude. Desse modo, teve seu projeto aceito no processo de incubacaodo Hotel Tecnologico da Incubadora de Inovacoes da Universidade Tecnologica (IUT). O portalweb do Facil Bula contabilizou acessos por todo territorio brasileiro, principalmente em gran-des capitais como Sao Paulo e Rio de Janeiro, alem de conquistar um bom posicionamento naspesquisas organicas do Google relacionadas a algumas palavras-chave de medicamentos e daClassificacao Internacional de Doencas (CID).
Palavras-chave: mineracao de textos, bulas, interacoes, farmaco, doenca
ABSTRACT
DA SILVA, Joao Vitor Ferrari. FACIL BULA: SYSTEM THAT STRUCTURE TO THE AN-VISA’S “BULARIO ELETRONICO”. 137 f. Dissertacao de Mestrado – Programa de Pos-Graduacao em Informatica, Universidade Tecnologica Federal do Parana. Cornelio Procopio,2016.
The work done by health area professionals when facing the care of people consists on choo-sing the best medications for the success of the treatment of them. There are many medicationsavailable on the brazilian market, so for this professional find the information about the medi-cation which could be the best match for the pacient there is which applications and tools makeeasier the search of drugs and helps this specialist. However, none of these systems had drugadverse reaction identification, contraindications, medical interactions, warnings and precauti-ons between the overall association of drugs regulated by the “Agencia Nacional de VigilanciaSanitaria” (ANVISA). In this context, the ANVISA’s “Bulario Eletronico” offers a collectionof 6,961 professional medication guides in PDF file format. However, the information availa-ble in these guides are in an unstructured format. One of challenges of this work consisted inthe automatic retrieval of information from ANVISA’s medication guides. This paper presents asemiautomatic procedure that maps ANVISA’s medication guides to DrugBank and SNOMED-CT. The medications, the diseases, the drugs, and their relations were structured and stored ona graph database using the Neo4j technology. Facil Bula, was developed through results ofstudies, it is a website which goals to conceive tools to facilitate the medication and diseasesearch for health professionals, it hits all the brazilian territory, mainly big capitals like SaoPaulo and Rio de Janeiro, as well as gain a good position in organic Google searches related tosome keywords medicines and International Classification of Diseases (ICD).
Keywords: text mining, drug information, interactions, drug, disease
LISTA DE FIGURAS
–FIGURA 1 Termo demencia de Alzheimer encontrado no topico de indicacoes domedicamento Eranz. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31–FIGURA 2 Topico de contraindicacoes do medicamento Kolantyl, que e contraindi-cado para pacientes em tratamento da doenca de Alzheimer. . . . . . . . . . . . . . 32–FIGURA 3 Topico indicacao do medicamento Furp-Estreptomicina destinado ao tra-tamento de tuberculose e o topico advertencias e precaucoes do medica-mento Mud Oral que informa o cuidado para pacientes com tuberculose. . . 33–FIGURA 4 A carbamazepina interage com o cloridrato de ioimbina, princıpio ativodo Yomax. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34–FIGURA 5 O farmaco fenobarbital encontrado na composicao do medicamento Gar-denal tem reacao adversa com o medicamento Dacarbazina. . . . . . . . . . . . . . 35–FIGURA 6 Alguns topicos encontrados na bula do medicamento Cataflam. . . . . . . . . 37–FIGURA 7 Variacoes de tıtulos encontrados para o topico superdose dos medica-mentos Betnovate, Brilinta e Ozonyl. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38–FIGURA 8 Erro ortografico encontrado no medicamento Setronax. . . . . . . . . . . . . . . . 38–FIGURA 9 Topico do medicamento Ebastel escrito no plural, mas para o medica-mento Norfloxacino foi encontrado no singular. . . . . . . . . . . . . . . . . . . . . . . . . 39–FIGURA 10 Topico do medicamento Finagripe escrito conforme o novo acordo or-tografico da Lıngua Portuguesa, diferente do topico encontrado no medica-mento Gretivit que esta escrito segundo o antigo acordo. . . . . . . . . . . . . . . . . 39–FIGURA 11 Imagem da bula fısica do medicamento Manitol adicionado ao arquivoPDF e nao digitalizado. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40–FIGURA 12 Termos relacionados a farmacos encontrados no topico composicao dabula do medicamento Cataflam. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40–FIGURA 13 Termo doenca cardıaca encontrado no medicamento Afrin que representaum conjunto de doencas relacionadas, diferente do medicamento Cefalivque apresenta o termo infarto do miocardio relacionado a uma doenca maisespecıfica. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41–FIGURA 14 Sentence breaker aplicado ao topico “cuidados de armazenamento” domedicamento Amoxicilina. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51–FIGURA 15 Exemplo de tags utilizadas pelo Part-Of-Speech Tags usado por HeppleTagger em lıngua inglesa. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51–FIGURA 16 Exemplo da tecnica Stemming para obtencao do radical das palavras. . . 52–FIGURA 17 Exemplo de verificacao de similaridade entre “JONES” e “JOHNSON”. 52–FIGURA 18 Integracao ilustrada por flechas direcionais das bases de dados e o BularioEletronico da ANVISA que nao normaliza informacao alguma com as ba-ses relacionadas. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58–FIGURA 19 Representacao grafica da relacao “e um” do SNOMED-CT. . . . . . . . . . . . 61–FIGURA 20 Organizacao da CID para demencia na doenca de Alzheimer de inıcioprecoce. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63–FIGURA 21 Visao geral do workflow de processamento das bulas profissionais comas respectivas etapas que compoem o processo desenvolvido. . . . . . . . . . . . . 65–FIGURA 22 Pagina inicial do Bulario Eletronico da ANVISA e os respectivos filtrosdessa. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66–FIGURA 23 Pagina de resultado da pesquisa do Bulario Eletronico. . . . . . . . . . . . . . . . 67
–FIGURA 24 Conteudo da bula em imagem que esta fora do padrao. . . . . . . . . . . . . . . . 68–FIGURA 25 Etapas do processamento textual para identificacao dos topicos no medi-camento Fluconazol. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75–FIGURA 26 Marcacao dos respectivos topicos no texto da bula do medicamento Flu-conazol. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75–FIGURA 27 Exemplo de integracao das bases ao conteudo das bulas. . . . . . . . . . . . . . . 77–FIGURA 28 Termos relativos as doencas Influenza A e Influenza B, como tambem aofarmaco Oseltamivir presente na bula profissional do medicamento Tamiflu. 77–FIGURA 29 Exemplo ilustrativo do resultado da identificacao dos farmacos no medi-camento Lotanol. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80–FIGURA 30 Estrutura do grafo apresentando as relacoes entre medicamento geradapela ferramenta de consulta do Neo4j. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86–FIGURA 31 Exemplo do banco de dados em grafos gerada pela ferramenta de con-sulta Neo4j. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87–FIGURA 32 Detalhes do medicamento Atrovex disponibilizado pelo website FacilBula. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91–FIGURA 33 Medicamentos indicados para tratamento de Alzheimer. . . . . . . . . . . . . . . 96–FIGURA 34 Relacao entre os termos de doencas. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96–FIGURA 35 Medicamentos que possuem aspirina em sua composicao. . . . . . . . . . . . . . 97–FIGURA 36 Medicamentos que possuem aspirina em sua composicao, porem saocontraindicados para insuficiencia renal. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98–FIGURA 37 Website do Facil Bula. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99–FIGURA 38 Resultado da ferramenta Structured Data Testing Tool em uma pagina deCID do Facil Bula. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100–FIGURA 39 Pagina do aplicativo Facil Bula na App Store. . . . . . . . . . . . . . . . . . . . . . . . 102–FIGURA 40 Quantidade de downloads do aplicativo Facil Bula na App Store. . . . . . . 102–FIGURA 41 Estatısticas do Facil Bula no perıodo de junho a julho. . . . . . . . . . . . . . . . . 103–FIGURA 42 Visao geral de aquisicao no perıodo de junho a julho. . . . . . . . . . . . . . . . . . 104–FIGURA 43 Cobertura geografica de acessos por estados do Brasil entre o perıodojunho a julho. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105–FIGURA 44 Cobertura geografica de acessos por cidades brasileiras entre o perıodojunho a julho. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105–FIGURA 45 Palavras-chave de medicamentos realizadas na pesquisa do Google entreo perıodo junho a julho. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106–FIGURA 46 Anuncio criado para o website Facil Bula. . . . . . . . . . . . . . . . . . . . . . . . . . . . 107–FIGURA 47 Historico de transacoes do AdWords no mes de agosto. . . . . . . . . . . . . . . . 108–FIGURA 48 Historico de transacoes do AdWords no mes de setembro. . . . . . . . . . . . . 108–FIGURA 49 Estatısticas do Facil Bula no perıodo de junho a setembro. . . . . . . . . . . . . 109–FIGURA 50 Palavras-chave com melhor desempenho. . . . . . . . . . . . . . . . . . . . . . . . . . . . 110–FIGURA 51 Mapa com a localizacao de acessos realizados no website Facil Bula. . . 110
LISTA DE TABELAS
–TABELA 1 Comparacao das ferramentas relacionadas pesquisadas. . . . . . . . . . . . . . . 46–TABELA 2 Listagem de banco de dados estudados para o projeto. . . . . . . . . . . . . . . . . 56–TABELA 3 Lista de variacoes e marcadores utilizados para identificacao dos topicos. 72–TABELA 4 Listagem das bases integradas em Lıngua Inglesa. . . . . . . . . . . . . . . . . . . . 78–TABELA 5 Listagem das bases integradas em Lıngua Portuguesa. . . . . . . . . . . . . . . . . 78–TABELA 6 Padroes para identificar farmacos nas bulas. . . . . . . . . . . . . . . . . . . . . . . . . . 82–TABELA 7 Exemplos de como pode ser utilizada a linguagem Cypher. . . . . . . . . . . . 88–TABELA 8 Lista com a quantidade de relacoes identificadas com medicamentos en-tre farmacos e doencas inferidas na base Neo4j. . . . . . . . . . . . . . . . . . . . . . . . . 94
LISTA DE SIGLAS
ANVISA Agencia Nacional de Vigilancia Sanitaria
API Application Programming Interface
AWS Amazon Web Services
CID Classificacao Internacional de Doencas
COSTART Coding Symbols for a Thesaurus of Adverse Reaction Terms
CPC Cost-per-click
CT Clinical Terms
CTD Comparative Toxicogenomics Database
CTR Clickthrough rate
DATASUS Departamento de Informatica do Sistema Unico de Saude
DDS Diseases Database Search
DNS Domain Name System
DO Disease Ontology
DSL Domain-Specific Languages
FDA Food and Drug Administration
HGNC HUGO Gene Nomenclature Committee
HUGO Human Genome Organisation
ICD International Classification of Diseases
IIS Internet Information Services
INPI Instituto Nacional da Propriedade Industrial
IUT Incubadora de Inovacoes da Universidade Tecnologica
KEGG Kyoto Encyclopedia of Genes and Genomes
MedDRA Medical Dictionary for Regulatory Activities
MeSH Medical Subject Headings
MER Modelo Entidade Relacionamento
MS Ministerio da Saude
NoSQL Not Only Structured Query Language
NOTIVISA Sistema Nacional de Notificacoes para a Vigilancia Sanitaria
OCR Optical Character Recognition
OMIM Online Mendelian Inheritance in Man
OMS Organizacao Mundial de Saude
PDF Portable Document Format
PLN Processamento de Linguagem Natural
REST Representational State Transfer
SBSI Simposio Brasileiro de Sistemas de Informacao
SEO Search Engine Optimization
SIDER Side Effect Resource
SNOMED Systematized Nomenclature of Medicine
SQL Structured Query Language
TTD Therapeutic Target Database
UMLS Unified Medical Language System
UniProt Universal Protein Resource
URL Uniform Resource Locator
USP United States Pharmacopeial
UTFPR Universidade Tecnologica Federal do Parana
SUMARIO
1 INTRODUCAO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 211.1 CONTEXTUALIZACAO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 231.2 MOTIVACAO E JUSTIFICATIVA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 251.3 OBJETIVOS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 251.3.1 Objetivo geral . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 251.3.2 Objetivos especıficos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 261.4 ORGANIZACAO DO TRABALHO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 262 CARACTERIZACAO DOS PROBLEMAS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 292.1 BULAS MEDICAS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 292.1.1 Contraindicacoes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 312.1.2 Advertencias e precaucoes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 322.1.3 Interacoes medicamentosas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 332.1.4 Reacoes adversas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 352.2 INTEGRACAO ENTRE BASES . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 352.2.1 Organizacao do texto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 362.2.2 Dificuldades com a fonte de informacao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 372.2.3 Irrelevancia de termos Ontologicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 402.2.4 Classificacao entre os termos de doencas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 413 REFERENCIAL TEORICO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 433.1 TRABALHOS RELACIONADOS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 433.2 FARMACOVIGILANCIA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 483.3 AGENCIA NACIONAL DE VIGILANCIA SANITARIA (ANVISA) . . . . . . . . . . . . . 483.4 FOOD AND DRUG ADMINISTRATION (FDA) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 503.5 TECNICAS DE MINERACAO DE TEXTOS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 503.6 BANCO DE DADOS EM GRAFOS: NEO4J . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 533.7 BANCO DE DADOS DA BIOMEDICINA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 553.7.1 DrugBank . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 593.7.2 Comparative Toxicogenomics Database (CTD) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 593.7.3 Systematized Nomenclature of Medicine - Clinical Terms (SNOMED-CT) . . . . . . . . 603.7.4 Disease Ontology (DO) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 613.7.5 Classificacao Internacional de Doencas (CID) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 623.7.6 ORPHANET . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 633.7.7 Side Effect Resource (SIDER) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 644 MATERIAIS E METODOS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 654.1 VISAO GERAL DO WORKFLOW DE PROCESSAMENTO DAS BULAS PROFIS-
SIONAIS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 654.1.1 Aquisicao das bulas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 664.1.2 Processamento das bulas profissionais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 684.1.2.1 Roteiro para organizacao dos topicos da bula . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 704.1.3 Integracao com outras bases . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 764.1.3.1 Roteiro para identificacao dos farmacos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 794.1.3.2 Roteiro para buscar os termos medicos referentes as doencas . . . . . . . . . . . . . . . . . . . 824.1.4 Desenvolvimento do banco de dados baseado em grafo . . . . . . . . . . . . . . . . . . . . . . . . . . 834.2 INTEGRACAO DO BULARIO ELETRONICO DA ANVISA COM AS BASES DRUG-
BANK E SNOMED-CT . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88
4.3 INFRAESTRUTURA UTILIZADA PARA O FACIL BULA . . . . . . . . . . . . . . . . . . . . . 905 RESULTADOS E DISCUSSAO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 935.1 CONJUNTO DE DADOS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 935.2 EXEMPLOS DE CONSULTAS AO BANCO EM GRAFOS . . . . . . . . . . . . . . . . . . . . . 955.3 IMPLEMENTACAO FACIL BULA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 995.3.1 Application Programming Interface (API) e Negocios . . . . . . . . . . . . . . . . . . . . . . . . . . . 1015.4 ESTATISTICAS DE ACESSO AO FACIL BULA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1035.5 HOTEL TECNOLOGICO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1116 CONCLUSAO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1136.1 TRABALHOS FUTUROS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114REFERENCIAS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115Anexo A -- ARTIGO SBSI 2015 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123Anexo B -- E-MAIL ANVISA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 133Anexo C -- INSCRICAO HOTEL TECNOLOGICO - 1a ETAPA . . . . . . . . . . . . . . . . . . . 135Anexo D -- CONVOCACAO PARA BANCA - 2a ETAPA . . . . . . . . . . . . . . . . . . . . . . . . . . . 137Anexo E -- RESULTADO HOTEL TECNOLOGICO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 139
21
1 INTRODUCAO
A Associacao Brasileira de Redes de Farmacias e Drogarias (ABRAFARMA) foi
criada pelas principais redes de farmacias do paıs para defender interesses e posicoes sobre
legislacoes referentes ao seu campo de atuacao (ABRAFARMA, 2015). Segundo a ABRA-
FARMA, as suas redes associadas, que totalizam 4.941 lojas, foram responsaveis em movi-
mentar cerca de R$ 28 bilhoes no ano de 2013 em medicamentos, um crescimento de 13,48%
quando comparado ao total de vendas realizadas em 2012, este valor em vendas analisado com
a quantidade de cupons fiscais emitidos no ano inferem como se toda a populacao brasileira ti-
vesse passado quatro vezes nas lojas da ABRAFARMA em 2013 (ABRAFARMA, 2015). Este
mercado contem inumeros medicamentos permitidos pela Agencia Nacional de Vigilancia Sa-
nitaria (ANVISA) que devem possuir bulas seguindo as normas da Resolucao-RDC No 47 (AN-
VISA, 2009), entre outras normas vigentes.
E importante que os profissionais da area de saude tenham acesso as informacoes rela-
cionadas aos medicamentos disponıveis comercialmente, para assim contribuir com eficacia no
tratamento dos pacientes.
Contudo, obter informacoes sobre medicamentos e uma tarefa que requer um certo
trabalho devido a dificuldade em acessar e relacionar estes dados divulgados pelas empresas
farmaceuticas responsaveis, visto que, por vezes, as informacoes nao estao centralizadas em
uma unica fonte de dados. Existem inumeros instrumentos que auxiliam os profissionais nesta
tarefa, como livros, aplicativos e a propria internet, na web destacam-se as ferramentas para
pesquisa de medicamentos que contribuem para o trabalho desempenhado pelos profissionais
da saude. Entretanto, muitas das ferramentas de pesquisas presentes na internet nao apresentam
dados detalhados sobre a relacao de medicamentos com outros medicamentos, principalmente
informacoes em relacao as contraindicacoes medicas, advertencias e precaucoes quanto ao seu
uso, reacoes adversas e interacoes medicamentosas, alem de informacoes em relacao a doencas.
Dessa forma, um grande desafio consiste em organizar as informacoes relativas as bulas dos
medicamentos e relacionar estes dados com outras bulas.
As bulas medicas disponıveis gratuitamente pela ANVISA, instituicao vinculada ao
Ministerio da Saude (MS), destacam-se como fonte de informacao sobre medicamentos. As
bulas aprovadas por esta agencia seguem rigorosas normas a respeito das informacoes contidas
sobre os medicamentos e sao disponibilizadas para download no formato Portable Document
Format (PDF). Porem, estes arquivos nao possuem dados estruturados, como a normalizacao
de termos para doencas e farmacos (que sao compostos quımicos utilizados nos medicamentos)
22
relacionados entre os medicamentos, o que implica em uma dificuldade em realizar consultas e
associar as informacoes. A ANVISA nao disponibiliza ferramenta alguma que busque princıpio
ativo (substancia responsavel por exercer o efeito farmacologico do medicamento) ou doencas
e apresentem informacoes relacionadas a outros medicamentos. As informacoes disponıveis
nas bulas sao sobre apresentacao do medicamento, indicacoes, contraindicacoes, advertencias
e precaucoes em relacao ao uso, interacoes medicamentosas. Por vezes, as ferramentas nao
encontram todo este conteudo na bula de forma facil, usual e clara para o profissional da area
de saude.
Esta dissertacao apresenta o Facil Bula, projeto disponibilizado por meio de um web-
site e aplicativo mobile que implementa ferramentas que facilitam a busca de informacoes sobre
medicamentos.
O projeto implementou a estruturacao do conteudo das bulas da ANVISA, por meio da
mineracao textual dos documentos em formato PDF e tambem da integracao dos dados gerados
com outras fontes de informacoes, como bases de dados de farmacos e doencas. Estas bases
sao aplicadas pela identificacao de termos existentes entre farmacos e doencas encontrados no
conteudo das bulas. Assim, foi possıvel a criacao de uma rede de medicamentos-farmacos-
doencas populada na base de dados em grafos. O banco de dados em grafo permite a consulta
de questionamentos frequentemente realizados pelos profissionais da saude durante a realizacao
do trabalho de busca por medicamentos, pois possibilitou a apresentacao de dados atualizados e
interligados entre a pesquisa de varios medicamentos, ou relacao com doencas e farmacos. Este
trabalho gerou um workflow para o processamento do conteudo das bulas. Para disponibilizar
os resultados obtidos pela estruturacao e modelagem do banco de dados em grafos foi imple-
mentado um portal que e conhecido como Facil Bula (www. f acilbula.com.br). O portal do
Facil Bula e amplamente acessado e possui cerca de 5 mil acessos semanais contabilizados em
todos os estados brasileiros, mas principalmente por grandes capitais como Sao Paulo e Rio de
Janeiro. A ideia desenvolvida pelo Facil Bula foi aceita no processo de incubacao do Hotel Tec-
nologico da Incubadora de Inovacoes da Universidade Tecnologica (IUT), em que foi avaliada
por membros de diversas instituicoes, como SEBRAE, FIEP, UTFPR e Prefeitura Municipal de
Cornelio Procopio.
O Facil Bula destaca uma pesquisa com recurso de autocomplete pelo nome do remedio,
a qual desconsidera acentuacao, letras maiusculas e minusculas para encontrar os medicamen-
tos. O conteudo das bulas publicadas no projeto e organizado em topicos respectivos a cada
assunto especıfico referente ao medicamento, como composicao, contraindicacao, indicacao,
posologia, entre outros, desta forma, evita o acesso ao arquivo da bula em PDF da ANVISA para
consulta de informacoes. Desta estruturacao de topicos ha uma pesquisa de medicamentos por
23
meio de farmacos ou de doencas que associam informacoes encontradas em outros remedios,
fornecendo consultas como os farmacos utilizados na composicao, para quais doencas sao in-
dicadas o tratamento com este medicamento, contraindicacoes, reacoes adversas e interacoes
entre outros medicamentos.
1.1 CONTEXTUALIZACAO
A ANVISA foi criada pela Lei no 9.782, no dia 26 de janeiro de 1999 (BRASIL,
1999). E uma autarquia federal vinculada ao MS, com campo de atuacao em atividades de
regulamentacao, normatizacao, controle e fiscalizacao na area de vigilancia sanitaria. Nestas ati-
vidades compete a ANVISA autorizar o funcionamento de empresas de fabricacao, distribuicao,
importacao e comercializacao de medicamentos.
Para os medicamentos regulamentados pela ANVISA serem comercializados ha a ne-
cessidade de que as empresas farmaceuticas elaborem um conjunto de informacoes sobre o
medicamento desenvolvido. As informacoes dizem respeito a composicao do medicamento,
indicacao, advertencias e precaucoes, contraindicacoes, interacoes medicamentosas e reacoes
adversas, e sao redigidas em um texto com caracterısticas completas sobre o medicamento, este
texto e chamado de bula.
A bula e um dos instrumentos que detalham informacoes sobre os medicamentos para
os pacientes e profissionais, ou seja, uma bula possui duas versoes disponıveis. Uma versao
e para os pacientes conhecerem o medicamento por meio de uma linguagem mais simples,
voltada para o publico em geral. A outra versao e para os profissionais das areas de saude
conhecerem todas as especificacoes do medicamento com a finalidade de ver a eficacia desse e
evitar situacoes que prejudiquem o tratamento dos pacientes. Assim, a bula torna-se uma impor-
tante fonte de informacao para estes profissionais, pois sao criadas pelas empresas responsaveis
pelo medicamento e regulamentadas pela ANVISA (mais detalhes sobre o conteudo das bulas
e encontrado no Capıtulo 2).
O conhecimento das informacoes disponibilizadas pelas bulas profissionais e impor-
tante pois o sucesso terapeutico no tratamento de pacientes pode, por vezes, envolver diferentes
profissionais da area de saude, em que cada profissional pode prescrever diversos medicamen-
tos. O uso de diversos medicamentos concomitantes pode ocasionar interacoes medicamento-
sas. Desse modo, os profissionais da saude precisam selecionar, de modo racional, medica-
mentos seguros a cada paciente, baseados em informacoes confiaveis. Em outras palavras, as
decisoes em relacao ao tratamento medicamentoso, dada a prescricao destes profissionais, sao
determinantes para o sucesso de um tratamento (BRASIL, 2012).
24
E importante ressaltar que a ineficacia ou falha terapeutica em certos tratamentos pode
ter relacao com as reacoes adversas, visto que elas estao entre as causas mais comuns de morte
nos paıses industrializados. Estima-se que aproximadamente 2 milhoes de pacientes nos Esta-
dos Unidos sao afetados a cada ano por reacoes adversas graves entre medicamentos, na qual
destes resultam 100.000 mortes por ano (LEAMAN et al., 2010).
No Brasil o tamanho real do problema referente aos erros de medicacao e pouco conhe-
cido, porem dados estimados pela Fundacao Oswaldo Cruz indicam que 24 mil mortes anuais
sao ocasionadas por intoxicacao medicamentosa (CASSIANI, 2005). Ha tambem um estudo
realizado em um hospital de Minas Gerais que apresenta estatısticas consideraveis em relacao
ao tema, ou seja, afirma que em 3.177 (44,5%) dos 7.148 medicamentos de alto risco1, identifi-
cados em 4.026 prescricoes medicas, ocorreu algum tipo de erro relacionado ao medicamento.
Os erros estao relacionados a concentracao do remedio, a prescricao pouco legıvel, a taxa de
infusao duvidosa, a omissao de forma farmaceutica e da via de administracao dos medicamen-
tos (ROSA et al., 2009).
Neste contexto, para contribuir com a tomada de decisao terapeutica dos profissionais
de saude, o MS em parceria com entidades privadas e demais orgaos relacionados a saude vem
promovendo e incentivando o uso racional de medicamentos. Trata-se de um documento tecnico
que apresenta uma compilacao das condutas baseadas em evidencias sobre medicamentos utili-
zados em atencao primaria a saude, constantes no modulo de informacoes do HORUS - Sistema
Nacional de Gestao da Assistencia Farmaceutica (BRASIL, 2012). Este documento aborda a
logica da racionalidade na prescricao, dispensacao e administracao de medicamentos.
Alem desta cartilha elaborada pelo MS, existe um sistema desenvolvido pela ANVISA
que contempla uma colecao de arquivos das bulas em PDF. Este sistema conta apenas com
uma opcao simples de filtros para pesquisa de conteudo especıfico sobre o nome do medica-
mento, industria farmaceutica, data de publicacao, entre outros. O sistema de busca de bulas da
ANVISA nao possui uma opcao de pesquisa diferenciada, como, por exemplo, verificar quais
medicamentos sao indicados para tratamento de Alzheimer, ou quais os farmacos utilizados na
composicao de um determinado medicamento.
Um dos problemas com esse sistema e que a busca por informacoes em arquivos PDF
nao e usual para os profissionais conhecerem os medicamentos, pois ha a necessidade do down-
load e depois a leitura da bula em um visualizador de PDF.
Para organizar das informacoes nas bulas existem no cenario internacional bases de da-
1Medicamentos de alto risco: farmacos com risco inerente de lesar o paciente quando existe falha no processode utilizacao (ROSA et al., 2009).
25
dos que contemplam informacoes estruturadas referentes aos farmacos, como e o caso do Drug-
Bank. A base DrugBank fornece informacoes sobre os farmacos aprovados e nao aprovados
pelo Food and Drug Administration (FDA), e contempla um conjunto de interacoes farmaco-
farmaco suportada pela literatura biomedica (WISHART et al., 2008). Tambem ha bases que
possuem vocabularios sobre doencas, como o Systematized Nomenclature of Medicine - Clinical
Terms (SNOMED-CT). A base SNOMED-CT possui a classificacao das doencas organizadas
utilizando uma ontologia, ou seja, disponibiliza um vocabulario comum da area biomedica or-
ganizado em um grafo dirigido acıclico (COTE; PATHOLOGISTS; ASSOCIATION, 1993).
Contudo, o DrugBank nao permite a busca por farmacos associados a doencas uti-
lizando ontologias medicas, nem por meio da utilizacao do CID (Codigo Internacional de
Doencas), enquanto que o SNOMED-CT nao apresenta os medicamentos que tratam cada uma
das doencas.
1.2 MOTIVACAO E JUSTIFICATIVA
As ferramentas nacionais para consulta de bulas dos medicamentos dao suporte ao
trabalho relacionado a saude executado por profissionais brasileiros, mas nenhuma dessas fer-
ramentas pesquisadas durante a elaboracao deste trabalho apresentam mecanismos de consultas
satisfatorios, pois nao fornecem informacoes relevantes com relacao aos medicamentos permiti-
dos pela ANVISA no sentido de detalhar as associacoes com outros medicamentos, mostrando
a ocorrencia de reacoes adversas, interacoes medicamentosas, contraindicacoes medicas, ad-
vertencias e precaucoes entre eles.
1.3 OBJETIVOS
1.3.1 Objetivo geral
Desenvolver uma metodologia computacional baseada em tecnicas de mineracao de
textos para analisar as bulas disponibilizadas no site da ANVISA, tambem implementar um
sistema web que facilite a busca por medicamentos registrados neste orgao regulador e as
informacoes associadas a eles, como por exemplo, interacoes medicamentosas e contraindicacoes
condicionadas a restricoes de pesquisa dos usuarios.
26
1.3.2 Objetivos especıficos
Os objetivos especıficos deste trabalho sao:
• estudar e utilizar processos para obtencao das bulas dos medicamentos;
• tratamento dos arquivos das bulas, conversao de PDF em arquivo texto e tratar imagens
deste arquivo;
• organizacao dos topicos no texto da bula profissional;
• identificacao de termos relevantes entre os topicos dos medicamentos;
• mapeamento das ontologias biomedicas do SNOMED-CT (COTE; PATHOLOGISTS;
ASSOCIATION, 1993);
• tratamento das redes de interacoes entre farmacos do DrugBank (WISHART et al., 2008);
• elaboracao do modelo de banco de dados baseado em grafos, em que utiliza-se a ferra-
menta Neo4j (NEO4J, 2014).
1.4 ORGANIZACAO DO TRABALHO
Este trabalho esta organizado em 6 capıtulos, sendo que o primeiro capıtulo remete-se
a introducao que apresenta a contextualizacao, motivacao e justificativa, objetivos e organizacao
do trabalho. Os proximos capıtulos estao conforme a seguinte estrutura:
• Caracterizacao dos problemas: neste capıtulo sao apresentados detalhadamente os pro-
blemas e os desafios computacionais deste trabalho. Sao detalhados os problemas en-
contrados ao utilizar bula como fonte de informacao e a integracao de informacoes entre
diferentes bases de dados;
• Referencial teorico: neste capıtulo sao apresentados os estudos e as tecnologias utiliza-
das. Os vocabularios e ferramentas da area de saude, tecnicas de mineracao de textos,
bases de dados da biomedicina e tecnologia aplicada para banco de dados baseado em
grafo;
• Materiais e metodos: neste capıtulo sao apresentadas as etapas do workflow implemen-
tado para a estruturacao das bulas medicas da ANVISA e a integracao dessas com outras
bases de dados;
27
• Resultados e discussao: neste capıtulo sao apresentados os resultados obtidos e a analise
das estatısticas contabilizadas pelos usuarios que utilizaram as ferramentas disponibiliza-
das no Facil Bula;
• Consideracoes finais: neste capıtulo detalham-se as consideracoes finais do trabalho
desenvolvido e os trabalhos futuros planejados para continuidade do projeto Facil Bula.
28
29
2 CARACTERIZACAO DOS PROBLEMAS
Este capıtulo apresenta como a bula medica publicada na ANVISA esta redigida e
organizada seguindo um conjunto de normas tecnicas. A bula e um meio de disponibilizar
informacoes consideradas essenciais sobre os medicamentos tanto para os profissionais quanto
para os pacientes leigos. Nas bulas estao presentes, por exemplo, informacoes que dizem res-
peito aos cuidados sobre contraindicacoes, advertencias e precaucoes, interacoes medicamen-
tosas e reacoes adversas.
O presente capıtulo tambem descreve os problemas que foram abordados, como:
• o processamento textual das bulas;
• a integracao do conteudo das bulas com outras bases de informacoes;
• as dificuldades encontradas por meio da utilizacao da bula profissional como fonte de
informacao.
2.1 BULAS MEDICAS
A bula medica esta disponıvel na ANVISA em duas versoes: (i) paciente e (ii) pro-
fissional. A versao direcionada ao paciente possui uma escrita mais simples voltada para o
entendimento do publico em geral. Para a versao profissional, sao apresentadas informacoes
mais completas e termos mais especıficos da area de saude.
A elaboracao da bula segue varias regras definidas em leis e resolucoes que sao elabo-
radas pelo Governo com participacao dos seus orgaos relacionados. Destacam-se as normas pre-
sentes na Resolucao-RDC No 47, de 8 de setembro de 2009 da ANVISA, criadas para auxiliar
na elaboracao e publicacao da bula medica (ANVISA, 2009). Nestas normas sao apresentadas
as estruturas do conteudo da bula organizadas em topicos, como: composicao, indicacao, resul-
tados de eficacia, caracterısticas farmacologicas, contraindicacao, advertencias e precaucoes,
interacoes medicamentosas, cuidados de armazenamento do medicamento, reacoes adversas,
posologia e superdose. Os topicos da bula tem o objetivo de informar os pacientes quanto ao
medicamento e evitar possıveis riscos que o seu uso incorreto pode ocasionar, informar aos pro-
fissionais a forma de apresentacao do medicamento e as possıveis interacoes deste com outros
medicamentos, alimentos e ate mesmo cuidados relacionados a idade, genero e doencas. Con-
tudo, a quantidade de informacoes disponibilizadas e volumosa e todo este conteudo e de difıcil
30
consulta, ou seja, torna a analise deste conhecimento um processo trabalhoso.
No proprio sıtio web da ANVISA e disponibilizado uma pagina conhecida por Bulario
Eletronico1, em que sao encontrados os arquivos das bulas profissionais dos medicamentos
disponibilizados pelas empresas responsaveis, permitindo o acesso a informacoes sobre os me-
dicamentos ao publico em geral. Apesar do Bulario Eletronico da ANVISA disponibilizar as
bulas profissionais dos medicamentos distribuıdos no Brasil, estas infelizmente possuem pouca
padronizacao. Por exemplo, algumas bulas possuem um determinado padrao de topicos, ja ou-
tras que seguem diferentes padronizacoes, alem de existirem apenas imagens digitalizadas da
versao fısica da bula. Obter conhecimento destas fontes de dados torna-se uma tarefa trabalhosa,
visto os obstaculos gerados pela falta de padronizacao das bulas, por erros ortograficos nos tex-
tos, pluralizacao de palavras ou pelo uso do novo acordo ortografico da Lıngua Portuguesa por
algumas empresas que apresentam alteracoes no nome do topico e pelo uso de imagens da bula
em sua versao fısica, dificultando assim o acesso a informacao.
Alem dos problemas estruturais no arquivo das bulas, e importante conhecer que o
uso concomitante de medicamentos podem causar interacoes medicamentosas (EDWARDS;
ARONSON, 2000). Dessa forma, entende-se, como por exemplo, que a administracao de
um medicamento pode minimizar a eficacia de um outro medicamento, gerando assim uma
possıvel demora no tratamento, alem de poder ocasionar outros problemas como: reacoes
adversas, alergias, agravamento de doencas ja existentes, intoxicacoes, podendo ate levar a
morte (EDWARDS; ARONSON, 2000).
Nesse cenario, ha outras complexidades existentes como a identificacao dos topicos
das bulas, na qual a segmentacao destas informacoes permite identificar possıveis interacoes
medicamentosas alem de informacoes quanto a cuidados especiais na administracao do medi-
camento a alguns pacientes, como para gravidas, criancas, entre outros.
Um dos problemas aqui abordado pode ser exemplificado da seguinte maneira: ima-
gine que uma determinada pessoa de idade avancada utiliza um conjunto de medicamentos,
cada qual responsavel por controlar e/ou tratar determinada(s) doenca(s), ou ainda suprir a falta
de alguma substancia para o organismo. Considerando que esta pessoa seja diagnosticada com
uma nova doenca, como por exemplo, a doenca de Alzheirmer. Como saber se o medicamento
prescrito para essa doenca recem diagnosticada nao afeta ou e afetada pela medicacao ja pres-
crita e sendo utilizada pelo paciente? Como o profissional da area de saude identificara essas
informacoes? Um dos procedimentos mais usuais utilizados por estes profissionais e conhecer
as informacoes presentes nas bulas profissionais dos medicamentos.
1htt p : //www.anvisa.gov.br/ f ila bula/
31
Os topicos contraindicacoes, advertencias e precaucoes, interacoes medicamentosas,
reacoes adversas encontrados nas bulas profissionais do medicamento serao detalhados nas
subsecoes seguintes.
2.1.1 Contraindicacoes
Na redacao da bula ha um topico especıfico para apresentar as contraindicacoes do
medicamento seguindo norma estabelecida pela Resolucao-RDC No 47 da ANVISA. De acordo
com a Secao III, Artigo 4o, Inciso VIII dessa resolucao o topico contraindicacoes tem o objetivo
de mostrar condicoes ou situacoes em que se deve evitar o uso do medicamento, em que caso
estas condicoes nao sejam observadas podera acarretar efeitos a saude do usuario ou mesmo
leva-lo a obito (ANVISA, 2009).
A fim de exemplificar a importancia do topico contraindicacao, da mesma forma que o
conhecimento do conteudo deste e tambem de outros topicos, foram selecionadas as Figuras 1 e
2. Estas figuras apresentam uma situacao em que a utilizacao do medicamento Eranz (indicado
para doenca de Alzheimer) junto ao medicamento Kolantyl (indicado para alıvio de azia e ma
digestao) e contraindicada.
Figura 1 – Termo demencia de Alzheimer encontrado no topico de indicacoes do me-dicamento Eranz.Fonte: Adaptado de (ANVISA, 2013).
Dessa forma, a Figura 1 mostra o topico indicacoes do medicamento Eranz, disponibi-
lizado pela empresa farmaceutica Wyeth Industria Farmaceutica Ltda. Este topico informa para
qual doenca o medicamento e indicado e pela figura identifica-se que o medicamento Eranz e
indicado para tratamento da doenca de Alzheimer.
A identificacao e o conhecimento dos respectivos termos de cada topico da bula medica
dao suporte a criacao do banco de dados baseado em grafos, por serem informacoes altamente
interligadas conforme visualiza-se pela Figura 2.
A Figura 2 apresenta o topico de contraindicacoes do medicamento Kolantyl, disponi-
32
Figura 2 – Topico de contraindicacoes do medicamento Kolantyl, que e contraindi-cado para pacientes em tratamento da doenca de Alzheimer.Fonte: Adaptado de (ANVISA, 2013).
bilizado pela Medley Industria Farmaceutica Ltda. Na Figura 2 identifica-se que o medicamento
Kolantyl e contraindicado para todos que tenham doenca de Alzheimer, por causa do alumınio
que pode agravar a doenca.
Por fim, conclui-se pela analise das informacoes presentes nas Figuras 1 e 2 que nao
se pode administrar o medicamento Kolantyl em qualquer pessoa que tenha Alzheimer, visto o
grifo em azul sobre a contraindicacao do Kolantyl apresentada na Figura 2.
2.1.2 Advertencias e precaucoes
Pela Resolucao-RDC No 47 da ANVISA e indicado a obrigatoriedade do topico ad-
vertencias e precaucoes na redacao das bulas. Conforme diz a Secao III, Artigo 4o, Inciso I desta
resolucao, este topico apresenta cuidados na utilizacao do medicamento para prevenir agravos
a saude e tambem indicar a limitacao do uso desse medicamento, mas que nao o contraindi-
que (ANVISA, 2009).
A Figura 3 apresenta o texto do topico indicacoes do medicamento Furp-Estreptomicina,
disponibilizado pela Fundacao para o Remedio Popular, e o conteudo do topico advertencias e
precaucoes do medicamento Mud Oral, fornecido pela Eurofarma Laboratorios S/A. A Figura 3
33
Figura 3 – Topico indicacao do medicamento Furp-Estreptomicina destinado ao tra-tamento de tuberculose e o topico advertencias e precaucoes do medicamento MudOral que informa o cuidado para pacientes com tuberculose.Fonte: Adaptado de (ANVISA, 2013).
destaca em vermelho que o medicamento Furp-Estreptomicina e indicado para tratamento da
tuberculose, entretanto o termo tuberculose e encontrado no topico advertencias e precaucoes
do medicamento Mud Oral.
Nota-se pelo exemplo da Figura 3 que ha uma limitacao do medicamento Mud Oral
para quem tem tuberculose. Isso porque o Mud Oral tem um corticoide em sua formulacao,
que pode diminuir as defesas do organismo contra os microrganismos, e assim pode favorecer
o desenvolvimento da tuberculose. O uso de Mud Oral deve ser cauteloso em pacientes com
tuberculose, que facam, por exemplo, uso do Furp-Estreptomicina.
2.1.3 Interacoes medicamentosas
Segundo a Resolucao-RDC No 47 da ANVISA, consoante ao que rege a Secao III, Ar-
tigo 4o, Inciso XXVIII, o topico interacoes medicamentosas define um resposta farmacologica
ou clınica causada pela interacao de: (i) medicamento-medicamento; (ii) medicamento-alimento;
34
(iii) medicamento-substancia quımica; (iv) medicamento-exame laboratorial e nao laboratorial;
(v) medicamento-planta medicinal; e (vi) medicamento-doenca, cujo resultado final pode ser
a alteracao dos efeitos desejados pela utilizacao do medicamento ou a ocorrencia de eventos
adversos (ANVISA, 2009).
Desse modo, atende-se que estabelecida a consulta por certos medicamentos para
administracao de um paciente, existe a importancia em verificar se a administracao de um novo
medicamento pode levar a uma interacao medicamentosa, em um paciente que ja faz o uso de
varios medicamentos.
Figura 4 – A carbamazepina interage com o cloridrato de ioimbina, princıpio ativo doYomax.Fonte: Adaptado de (ANVISA, 2013).
O cuidado na administracao de medicamentos e tambem para o tratamento de paci-
entes e exemplificado pela Figura 4 que destaca em vermelho a carbamazepina encontrado na
formula do medicamento Carbamazepina disponibilizado pela Uniao Quımica Farmaceutica
Nacional S/A, que possui interacoes medicamentosas com o medicamento Yomax da Apsen
Farmaceutica S/A. Pela Figura 4 conclui-se que o uso destes medicamentos concomitantemente
nao e indicado, visto as informacoes da bula do medicamento Yomax.
35
2.1.4 Reacoes adversas
Em concordancia a Secao III, Artigo 4o, Inciso XXXI presente na Resolucao-RDC
No 47 da ANVISA, o topico reacoes adversas e destinado a informar sobre respostas a um
medicamento que seja prejudicial ou nao-intencional e que ocorra nas doses normalmente utili-
zadas (ANVISA, 2009).
Com a finalidade de exemplificar o topico reacoes adversas, a Figura 5 destaca em
vermelho o farmaco fenobarbital encontrado no topico composicao do medicamento Gardenal
disponibilizado pela Sanofi-aventis Farmaceutica Ltda., porem este farmaco foi encontrado no
topico de reacoes adversas do medicamento Dacarbazina do Laboratorio Quımico Farmaceutico
Bergamo Ltda.
Figura 5 – O farmaco fenobarbital encontrado na composicao do medicamento Gar-denal tem reacao adversa com o medicamento Dacarbazina.Fonte: Adaptado de (ANVISA, 2013).
Desse modo, identifica-se pela Figura 5 que o uso de fenobarbital em quem faz uso de
dacarbazina, ajuda a diminuir os sintomas de vomito.
2.2 INTEGRACAO ENTRE BASES
O Bulario Eletronico da ANVISA nao disponibiliza a organizacao dos farmacos, nem
das doencas que as bulas informam de uma maneira que facilite a pesquisa pelos profissionais
da area de saude. Dessa forma, ha a necessidade da pesquisa por outras fontes de dados que
36
fornecam termos referentes aos farmacos e tambem as doencas que sao encontrados nas bulas
medicas. O estudo das bases internacionais utilizadas para integracao do Bulario Eletronico
esta presente na Secao 3.7.
Ha diversas dificuldades vinculadas para integracao de outras bases com as bulas do
Bulario Eletronico, como:
• organizacao do texto da bula nao possui uma padronizacao das informacoes disponibi-
lizadas. Algumas empresas farmaceuticas redigem o texto do seu medicamento de uma
maneira diferente do que e exigido pelas normas vigentes da ANVISA;
• dificuldades existentes nos arquivos das bulas em PDF geradas por meio dos erros or-
tograficos, nao adequacao ao novo acordo ortografico da Lıngua Portuguesa, entre outros;
• irrelevancia de termos Ontologicos presentes no conteudo da bula. O texto e composto
por diversas palavras, porem ha muitas que estao no conteudo do texto para dar sentido
ao leitor e nao referenciam termos de doencas, farmacos ou medicamentos;
• classificacao entre os termos de doencas. Identificar desde o termo mais generico ate o
mais especıfico.
Estas dificuldades listadas serao exemplificadas nas subsecoes seguintes.
2.2.1 Organizacao do texto
As bulas possuem informacoes completas sobre os medicamentos fabricados pelas em-
presas farmaceuticas, porem o texto disponibilizado consta num unico arquivo PDF respectivo
a cada medicamento. Os dados presentes nestes arquivos nao estao normalizados, desse modo,
ha na bula varios topicos que dizem respeito a cada assunto especıfico dos medicamentos.
A Figura 6 apresenta a divisao de alguns topicos encontrados no arquivo PDF da bula
profissional do medicamento Cataflam, que e disponibilizado pela empresa farmaceutica No-
vartis Biociencias Ltda. Pela figura, cujo medicamento foi encontrado no Bulario Eletronico da
ANVISA, os seguintes topicos foram identificados e destacados em vermelho: (i) Apresentacao,
(ii) Composicao, e (iii) Indicacoes, que informam respectivamente sobre o nome do medica-
mento e sua forma farmaceutica, sobre quais princıpios ativo e excipientes estao presentes no
medicamento, e sobre para qual tratamento o medicamento e indicado.
37
Figura 6 – Alguns topicos encontrados na bula do medicamento Cataflam.Fonte: Adaptado de (ANVISA, 2013).
2.2.2 Dificuldades com a fonte de informacao
A redacao e publicacao das bulas pelas empresas farmaceuticas devem seguir as leis e
resolucoes criadas pelo governo e pela ANVISA. Estas empresas nao disponibilizam um docu-
mento estruturado e uniforme de suas bulas, dado a quantidade de problemas encontrados com
o processamento desta fonte de informacao, como: falta de padronizacao na nomenclatura dos
topicos, erros ortograficos, pluralizacao dos topicos, novo acordo ortografico da Lıngua Portu-
guesa e disponibilizacao da imagem fısica da bula, ao inves da digitalizacao do documento.
Um exemplo sobre a falta de padronizacao entre os topicos das bulas e apresentada na
Figura 7 e destacada em vermelho. A Figura 7 mostra as diferentes formas de escrita referentes
ao topico de superdosagem encontrada nos medicamentos Betnovate N da GlaxoSmithKline
Brasil Ltda., Brilinta da Astrazeneca do Brasil Ltda. e Ozonyl do Laboratorio Gross S/A. Na
bula Betnovate N, o topico e escrito de maneira enumerada com o tıtulo superdose, ja o me-
dicamento Brilinta possui tambem uma enumeracao de topico, porem o tıtulo e escrito como
superdose, e por fim, em Ozonyl nao e encontrada nenhuma enumeracao e o tıtulo descreve o
significado da palavras superdosagem de maneira interrogativa. Na Figura 7, tambem pode ser
verificada a diferenca na forma de escrita, atrelada a fonte utilizada e no tamanho da letra, como
tambem pelo espacamento utilizado na redacao de cada bula.
Outro problema encontrado e descrito por incoerencias na escrita das bulas do Bulario
Eletronico da ANVISA, conforme visualiza-se pela Figura 8. A Figura 8 mostra um erro or-
38
Figura 7 – Variacoes de tıtulos encontrados para o topico superdose dos medicamentosBetnovate, Brilinta e Ozonyl.Fonte: Adaptado de (ANVISA, 2013).
Figura 8 – Erro ortografico encontrado no medicamento Setronax.Fonte: Adaptado de (ANVISA, 2013).
tografico destacado em vermelho no topico de identificacao do medicamento Setronax elabo-
rado pela Aspen Pharma Industria Farmaceutica Ltda., na qual a palavra medicamento contem
erro em sua escrita.
A Figura 9 exibe em vermelho as diferentes maneiras de escrita do topico de formas
39
Figura 9 – Topico do medicamento Ebastel escrito no plural, mas para o medicamentoNorfloxacino foi encontrado no singular.Fonte: Adaptado de (ANVISA, 2013).
farmaceuticas e apresentacao dos medicamentos Ebastel da Eurofarma Laboratorios S/A e o
Norfloxacino da Uniao Quımica Farmaceutica Nacional S/A, em que respectivamente o topico
e encontrado escrito no plural e para o outro medicamento esta no singular.
Figura 10 – Topico do medicamento Finagripe escrito conforme o novo acordo or-tografico da Lıngua Portuguesa, diferente do topico encontrado no medicamento Gre-tivit que esta escrito segundo o antigo acordo.Fonte: Adaptado de (ANVISA, 2013).
Tambem ha como problema a relacao de algumas empresas utilizarem o novo acordo
ortografico da Lıngua Portuguesa para redacao das bulas, mas em contrapartida por outras em-
presas ainda e aplicado o antigo acordo. Dessa forma, a Figura 10 destaca em vermelho o
topico contraindicacao do medicamento Finagripe da Medquımica Industria Farmaceutica S/A,
40
que esta escrito conforme o novo acordo ortografico, porem no medicamento Gretivit disponi-
bilizado pela Belfar Ltda. esta em conformidade com as regras do antigo acordo.
Figura 11 – Imagem da bula fısica do medicamento Manitol adicionado ao arquivoPDF e nao digitalizado.Fonte: Adaptado de (ANVISA, 2013).
A Figura 11 apresenta a imagem da bula fısica do medicamento Manitol disponibi-
lizado pela Beker Produtos Farmaco Hospitalares Ltda. encontrado no Bulario Eletronico da
ANVISA. Pela Figura 11 verifica-se que apenas a imagem da bula fısica foi adicionada ao ar-
quivo PDF, ao inves desta ser digitalizada, conforme esta disponıvel em outras bulas. Desse
modo, visualiza-se a baixa qualidade para leitura das informacoes deste medicamento, com
letras pequenas de difıcil visualizacao e a falta de alinhamento do texto, alem de requerer a
realizacao de um processo de reconhecimento de caracteres a partir da imagem desta bula para
identificacao de todo o conteudo do medicamento.
2.2.3 Irrelevancia de termos Ontologicos
Figura 12 – Termos relacionados a farmacos encontrados no topico composicao dabula do medicamento Cataflam.Fonte: Adaptado de (ANVISA, 2013).
Identificar os termos relevantes de cada topico da bula profissional do medicamento,
como por exemplo, mapear os farmacos encontrados no topico composicao, e tambem encontrar
termos referentes as doencas, bem como a classificacao destas nesses topicos sao tarefas que
contribuem com a identificacao de termos realmente importantes presentes no texto. Ha no
texto das bulas muitas palavras, como: artigos, adjetivos, adverbios, conjuncoes, numerais,
41
preposicoes, pronomes e verbos, que sao importantes para dar contexto e entendimento para
leitura do conteudo das informacoes do medicamento, porem para a identificacao de termos
relevantes nao e importante que sejam utilizadas estas palavras. O mapeamento dos termos e
tambem util para guiar as consultas aos bancos de dados (MEIJ et al., 2011), pois apresenta a
normalizacao de dados e assim auxilia na estrutura desenvolvida para a base de dados.
A importancia de conhecer os termos relevantes de cada topico e apresentado na Fi-
gura 12 que exemplifica a identificacao de farmacos no topico composicao do medicamento
Cataflam, desenvolvido pela Novartis Biociencias Ltda. Nesta figura encontra-se o farmaco di-
clofenaco acido indicado como princıpio ativo, e informacoes sobre seu farmaco equivalente,
que no caso e o diclofenaco potassico. Tambem sao encontradas informacoes sobre os excipien-
tes, que sao componentes sem acao farmacologica, e que sao utilizadas como veıculo para acao
do princıpio ativo, sendo estes: celulose microcristalina, amidoglicolato de sodio, laurilsulfato
de sodio, dioxido de silıcio, acido estearico e talco.
2.2.4 Classificacao entre os termos de doencas
Figura 13 – Termo doenca cardıaca encontrado no medicamento Afrin que repre-senta um conjunto de doencas relacionadas, diferente do medicamento Cefaliv queapresenta o termo infarto do miocardio relacionado a uma doenca mais especıfica.Fonte: Adaptado de (ANVISA, 2013).
O vocabulario da area de saude e vasto, sendo composto por varios termos medicos
e pela comunicacao dos consumidores em geral (ZENG-TREITLER et al., 2008). Ha nes-
tes termos medicos a especializacao de vocabularios relacionados as doencas que, por vezes,
42
especificam um grupo de doencas relacionadas. Ou seja, quando um termo esta associado a
doenca do sistema respiratorio entende-se que este engloba outras doencas como: pneumonia,
bronquite, asma entre outros.
E identificado que, como por exemplo, se em uma determinada bula conter no topico de
contraindicacao problemas relacionadas as doencas cardıacas, um certo paciente que tenha in-
farto do miocardio nao podera ter este medicamento prescrito em seu historico clınico. Tambem
ha de se identificar nas bulas caso um determinado farmaco possa potencializar a acao de outro
ou minimizar sua eficacia (BIGUETTI; ANDRADE, 2014).
Dessa maneira, a Figura 13 destaca em vermelho os diferentes termos relacionados
as doencas que foram encontrados no medicamento Afrin da Hypermarcas S/A e Cefaliv da
Ache Laboratorios Farmaceuticos S/A. Pela Figura 13 visualiza-se que o medicamento Afrin
e contraindicado para uso por pacientes com doencas cardıacas, este termo tem relacao com
um conjunto de doencas especıficas que e o caso do termo infarto do miocardio, encontrado no
medicamento Cefaliv. Entende-se assim que no caso de um paciente com infarto do miocardio
o uso do medicamento Afrin e contraindicado, pois este termo faz parte do conjunto de doencas
cardıacas.
43
3 REFERENCIAL TEORICO
Este capıtulo apresenta alguns conceitos utilizados para a execucao deste trabalho.
Todas as secoes estao organizadas em:
• na Secao 3.1 sao apresentados os trabalhos relacionados com o projeto desenvolvido;
• na Secao 3.2 sao apresentados os conceitos de farmacia para facilitar o entendimento do
Bulario Eletronico e do conteudo das bulas profissionais;
• as Secoes 3.3 e 3.4 apresentam o estudo sobre os orgaos reguladores de medicamentos dos
Estados Unidos (FDA) e do Brasil (ANVISA). Serao apresentadas as responsabilidades
desses e alguns programas disponibilizados por cada organizacao;
• na Secao 3.5 sao apresentadas as tecnicas de mineracao de textos para o processamento
das bulas profissionais da ANVISA;
• na Secao 3.6 sao apresentadas referencias sobre a aplicacao de banco de dados baseado
em grafos e as caracterısticas da tecnologia Neo4j;
• a Secao 3.7 detalhamento sobre variados bancos de dados da biomedicina, a fim de inte-
grar estas bases com as informacoes processadas das bulas profissionais.
3.1 TRABALHOS RELACIONADOS
O estudo sobre os medicamentos e suas interacoes e relevante, visto que o medica-
mento pode ter tanto o efeito desejavel (benefico), quanto respostas desfavoraveis ou inde-
sejados (efeitos adversos), ou apresentar um pequeno significado clınico para o quadro dos
pacientes (SECOLI, 2001). A importancia do tema interacoes entre medicamentos para o de-
senvolvimento do trabalho e justificado por trabalhos (SEHN et al., 2003; MOURA; RIBEIRO;
STARLING, 2007; JUNIOR et al., 2009; BUENO et al., 2010) que apresentam os problemas
relacionados com a saude e tambem medidas para reducao destes problemas.
Assim, ha dois trabalhos publicados no comeco do ano de 2015 (WALLACE; PA-
AUW, 2015; SUN, 2015), que demonstram o interesse e importancia em relacao ao estudo de
redes de interacoes entre medicamentos. O primeiro apresenta o problema da utilizacao de
varios medicamentos em idosos e aponta a importancia das redes de interacoes entre drogas e
doencas. Este trabalho demonstrou que a quantidade de efeitos adversos aumenta de forma nao
44
linear a medida que novos medicamentos sao adicionados no tratamento (WALLACE; PAAUW,
2015). O segundo descreve uma metodologia para a construcao de uma rede de interacoes
com multiplos nıveis incluindo farmacos, doencas e genes (SUN, 2015), e mostrou algumas
propriedades, como genes relacionados a doencas e a resposta dos medicamentos a determina-
dos genes, na qual a compreensao de conceitos da area de redes complexas representada por
farmacos-doencas-genes influencia na aplicacao farmaceutica e no tratamento de doencas.
Existem tambem alguns trabalhos que fundamentam o uso de tecnicas para mineracao
de dados em aplicacoes voltadas para area de saude, como a abordagem de (YOON et al.,
2012), em que os autores propuseram um roteiro quantitativo para deteccao de reacoes adver-
sas a medicamentos por meio de registros eletronicos de saude dos pacientes. Ja no trabalho
de (LIU et al., 2012), e utilizado um algoritmo de mineracao de dados para identificar regras de
associacoes entre os medicamentos encontrados em conjunto de registros medicos eletronicos.
Definidas estas associacoes sao aplicadas metodologias computacionais para interacoes en-
tre as regras, sendo possıvel descobrir falhas na administracao concomitante de determinados
farmacos. Uma solucao proxima a apresentada em (LIU et al., 2012) e encontrada no trabalho
de (RHO et al., 2013), em que os autores propoem tecnicas de mineracao em banco de dados
de contraindicacoes medicas para apresentar regras de associacoes entre os medicamentos.
Seguindo estas abordagens destacam-se os artigos do PharmGKB1, ambiente web que
disponibiliza varios recursos sobre o impacto de variacoes geneticas humanas em resposta aos
farmacos para conhecimento de clınicos e pesquisadores. Entre as publicacoes apresentadas
pela pagina, detalha-se o trabalho de (COULET et al., 2010), que utiliza Processamento de Lin-
guagem Natural (PLN) para extrair domınios especıficos das publicacoes de uma base de dados
relacionada ao tema Farmacogenomica. O tema Farmacogenomica e o estudo da disposicao e
efeitos dos farmacos em que fornece uma base cientıfica mais solida para otimizar a terapia des-
ses com base na constituicao genetica de cada paciente (EVANS; RELLING, 1999), utilizando
regras definidas a mao e ontologias de domınios especıficos para melhorar o desempenho do
PLN.
Neste contexto, ha o trabalho de (DAVIS et al., 2009) que apresenta uma base gratuita
e curada de nome Comparative Toxicogenomics Database2 (CTD), que fornece a compreensao
de efeitos quımicos na saude humana, mediante interacoes quımicas de genes e os relaciona-
mentos as doencas com base na literatura, todo o conhecimento gerado nesta publicacao forma
uma rede quımica-gene-doenca. Dessa forma, relaciona-se a FDA3, que e um orgao governa-
mental dos Estados Unidos da America responsavel pelo controle de alimentos, medicamentos,1htt ps : //www.pharmgkb.org/2htt p : //ctdbase.org/downloads/3htt p : //www. f da.gov/
45
equipamentos medicos, entre outros. Este orgao oferece uma base de dados de reacoes adversas
concebida por meio do FDA Adverse Event Reporting System (FAERS) (FAERS, 2015).
Por ser uma fonte de informacao brasileira e pouco conhecida internacionalmente, e
pouco provavel que estes projetos utilizem as bulas medicas disponıveis no sıtio web da AN-
VISA. Durante a escrita desta dissertacao nao foram encontrados trabalhos que abordassem
tecnicas para identificar regras de associacoes entre medicamentos utilizando as reacoes ad-
versas, advertencias e precaucoes, contraindicacoes e interacoes medicamentosas constantes no
conteudo destas bulas.
As bulas da ANVISA disponıveis no Bulario Eletronico apresentam informacoes rela-
cionadas ao FDA, porem nao seguem igualmente a organizacao de informacoes sobre farmacos
e doencas entre medicamentos em forma de cruzamento de informacoes. A fim de organi-
zar as informacoes disponibilizadas no Bulario Eletronico, o foco deste projeto estrutura as
informacoes dos medicamentos comercializados e permitidos pela ANVISA por meio de bases
consolidadas (DrugBank e SNOMED-CT) e confiaveis utilizadas pelas ferramentas pesquisa-
das, juntamente com trabalhos estudados, e assim busca atender o trabalho dos profissionais de
saude brasileiros.
46Tabela 1 – Comparacao das ferramentas relacionadas pesquisadas.
Aplicabilidade das ferramentas pesquisadas
NomeInteracoesmedicamentosaspor cruzamentode informacoes
Detalhes demedicamentos
Busca dedoencas
Apresentapreco
Informacoes demedicamentoscomercializadosno Brasil
Informacoes dereacoes adversaspor cruzamentode informacoes
Filtro porclassesterapeuticas
Filtro porprincıpioativo
Indicamedicamentogenericona busca
Multifarmas X X X X
Drugs.com X X X X X
WebMD X X X X
CVS Pharmacy X X X X
SIDER X
Bulario Eletronicoda ANVISA X X
Wikibula X X
iPhone Guiados Remedios X X X X
Netfarma X X X X
Memed X X X X X
BulasMed X X X X
Bulario X X X X X
MedicinaNET X X
Tua Saude X X X
Minha Vida X X X
Localdoc Bulas X X
Alergia aMedicamentos X
InteracoesMedicamentosas.com.br X X
MedSUS X X
47
No contexto comercial, existem varios aplicativos e ferramentas que auxiliam no tra-
balho do profissional da area da saude e tambem na vida dos pacientes. A Tabela 1 elenca
algumas destas ferramentas relacionadas com a busca por medicamentos e possıveis interacoes,
juntamente com reacoes adversas, presentes no mercado. Por meio da Tabela 1 apresentam-se
em nıvel internacional as seguintes ferramentas: (i) Drugs.com4; (ii) WebMD5; (iii) CVS Phar-
macy6; e (iv) SIDER7, que permitem o usuario pesquisar medicamentos e verificar possıveis
interacoes medicamentosas, reacoes adversas e contraindicacoes, porem elas nao atendem ao
publico brasileiro pois nao apresentam informacoes sobre os medicamentos em Lıngua Portu-
guesa.
Ja em ambito nacional exibem-se as ferramentas: (i) Multifarmas8; (ii) Wikibula9;
(iii) Bulario Eletronico da ANVISA; (iv) Guia dos Remedios10; (v) Netfarma11; (vi) Memed12;
(vii) BulasMed13; (viii) Bulario14; (ix) MedicinaNET15; (x) Tua Saude16; (xi) Minha Vida17;
(xii) Localdoc Bulas18; (xiii) Alergia a Medicamentos19; e (xiv) MedSUS 20, na qual permitem
que os usuarios pesquisem pelos nomes dos medicamentos, porem nao apresentam interacoes
medicamentosas, nem contraindicacoes ou reacoes adversas que esses possam ter com outros
medicamentos ou doencas relacionadas por meio de cruzamento de informacoes. A ferramenta
Interacoes Medicamentosas.com.br21 apresenta uma pesquisa de interacoes entre medicamentos
com pouca usabilidade sobre a funcionalidade, alem de que os resultados apresentados nao
mostram as informacoes retiradas do trecho do arquivo da bula para que os usuarios visualizem
com mais detalhes.
Dentre estas ferramentas destaca-se o Drugs.com que apresenta uma busca por medi-
camentos e informa possıveis reacoes adversas com outros medicamentos, porem uma desvan-
tagem deste sistema e que nao atende o publico brasileiro, ja que se trata de uma ferramenta em
4htt p : //drugs.com5htt p : //www.webmd.com/interaction− checker6htt ps : //www.cvs.com/drug/interaction− checker7htt p : //sidee f f ects.embl.de8htt p : //multi f armas.com.br9htt p : //wikibula.com.br
10htt p : //med phone.com.br11htt p : //net f arma.com.br12htt p : //memed.com.br/home13htt p : //www.bulas.med.br/14htt p : //bulario.net/15htt p : //www.medicinanet.com.br/16htt p : //www.tuasaude.com/c/bulas/17htt p : //www.minhavida.com.br/saude/bulas18htt p : //localdoc.com.br/19htt p : //www.imabrasil.com.br/20htt p : //www.datasus.gov.br/21htt p : //interacoesmedicamentosas.com.br/
48
ambito internacional e nao contempla uma base de informacoes sobre medicamentos em Lıngua
Portuguesa. Nesse caso, quem pesquisasse neste website teria que traduzir o princıpio ativo para
ingles, pois os medicamentos usados em outros paıses tem apenas o nome comercial diferente,
mas o princıpio ativo muitas vezes e o mesmo. Diferente do que apresenta o Drugs.com, o
Bulario Eletronico da ANVISA possui informacoes sobre os medicamentos utilizados no Paıs,
mas nao realiza uma pesquisa tao completa e especializada como a ferramenta do Drugs.com.
3.2 FARMACOVIGILANCIA
O termo Farmacovigilancia define o conjunto de atividades que possuem as seguintes
finalidades: (i) identificacao de reacoes adversas previamente desconhecidas; (ii) encontro de
riscos entre estas reacoes; (iii) administracao de medidas reguladoras a respeito das reacoes
adversas; e (vi) informacao aos profissionais de saude e ao publico sobre estas questoes (LA-
PORTE; BAKSAAS; LUNDE, 1993).
Conhecer todas as reacoes adversas de um determinado medicamento e uma tarefa
complexa, visto a quantidade variada de circunstancias que podem ocasiona-las, tanto pela
alteracao de substancias, quanto por um determinado caso isolado de um historico de paci-
ente. Entretanto, registra-las em forma de ocorrencia por meio de um sistema de coleta de
dados, que resulte na organizacao, avaliacao e posterior divulgacao das informacoes adquiridas
e de extrema relevancia para area de saude (CAPASSO et al., 2000).
No Brasil, foi criado o Sistema Nacional de Notificacoes para a Vigilancia Sanitaria
(NOTIVISA), que tem a finalidade de receber informacoes sobre reacoes adversas, cuja estru-
tura representa um banco de dados constituıdo por notificacoes de eventos adversos descritos
por profissionais de saude ou de usuarios cadastrados, por meio de formularios de notificacao
disponıveis no proprio sıtio da ANVISA (NOTIVISA, 2014).
3.3 AGENCIA NACIONAL DE VIGILANCIA SANITARIA (ANVISA)
A ANVISA e uma autarquia Federal sob regime especial criada pela Lei no 9.782, de
26 de janeiro 1999 (BRASIL, 1999), que atua como agencia reguladora que controla efeitos
adversos de medicamentos no Brasil (ANVISA, 2015). Ela esta vinculada ao Ministerio da
Saude e integra o Sistema Unico de Saude (SUS), e tem seu campo de atuacao voltado a todos
os setores relacionados a produtos e servicos que possam afetar a saude da populacao brasi-
leira (ANVISA, 2015). A agencia e responsavel por realizar parcerias com outras instituicoes
a fim de melhorar processos e ferramentas ligadas a saude da populacao brasileira. Uma destas
49
parcerias e apresentada no trabalho de (NEVES et al., 2006) que mostra a concepcao do projeto
“Bulas”.
O Projeto Bulas foi realizado por meio de uma parceria entre a ANVISA, a Organizacao
Pan-Americana da Saude22 (OPAS), o Centro Latino-Americano e do Caribe da Informacao em
Ciencias da Saude23 (BIREME) e a Organizacao Mundial da Saude24 (OMS). Estas entida-
des estiveram envolvidas no mapeamento dos processos de elaboracao, submissao, validacao
e publicacao dos textos de bulas dos medicamentos comercializados no Brasil. Neste traba-
lho, as entidades analisaram crıticas e aperfeicoamento destes processos dentro de um modelo
de gestao de informacao, alem do conhecimento dos respectivos atores responsaveis em cada
processo. Como resultado do Projeto Bulas listam-se tres produtos (NEVES et al., 2006):
• E-Bulas - Sistema de Gerenciamento Eletronico de Bulas: responsavel pela gestao, pro-
cessamento e disponibilizacao dos textos de bula, realizada por meio das industrias far-
maceuticas que submetem seus textos a analise da ANVISA (NEVES et al., 2006);
• Bulario Eletronico da ANVISA: sistema web que apresenta informacoes contidas nos tex-
tos de bula dos medicamentos registrados e comercializados no Brasil para profissionais
de saude e a populacao, inclusive portadores de deficiencia visual (NEVES et al., 2006);
• Compendio de Bulas de Medicamentos (CBN): versao impressa do Bulario Eletronico da
ANVISA (NEVES et al., 2006).
A bula e utilizada como uma das principais fontes de informacao sobre medicamen-
tos. Ela e alterada diversas vezes seguindo as normas elaboradas pelo Governo. Assim, o teu
conteudo possui uma forte evolucao historica, que por vezes, esta vinculada a globalizacao das
informacoes, ao desenvolvimento cientıfico e as diferentes polıticas relacionadas a saude (CAL-
DEIRA; NEVES; PERINI, 2008).
A elaboracao destas normas para alteracao do modelo da bula esta voltado a problemas
relacionados ao tamanho reduzido da letra, a linguagem muito cientıfica e a excessiva quanti-
dade de informacoes utilizadas, alem de outros fatores que dificultam a leitura e interpretacao
da mesma (DA SILVA et al., 2006). Em sıntese e preciso que a bula disponibilize informacoes
mais simples, que permitam ao paciente vislumbrar a importancia do conhecimento de todo o
conteudo do medicamento, assim possibilitando a detectacao de problemas advindos do uso e
sua imediata solucao, promovendo o uso racional do medicamento (DA SILVA et al., 2006).
22htt p : //www.paho.org/23htt p : //www.bireme.br/24htt p : //www.who.int/
50
3.4 FOOD AND DRUG ADMINISTRATION (FDA)
A FDA e um orgao governamental dos Estados Unidos relacionado ao Departamento
de Saude e Servicos Humanos. Ela e responsavel por proteger a saude publica, assegurando a
eficacia e a seguranca dos medicamentos humanos e veterinarios, dos produtos biologicos, dos
dispositivos medicos, do abastecimento alimentar, dos cosmeticos e dos produtos que emitem
radiacao (FDA, 2015). A FDA tambem e responsavel pelo avanco da saude publica, em que
contribui para velocidade de inovacoes que tornam os medicamentos mais eficazes, seguros e
acessıveis. Dessa forma, o trabalho desenvolvido pela FDA ajuda o publico a obter informacoes
precisas e com base cientıfica de quais medicamentos e alimentos precisam utilizar para manter
e melhorar a saude (FDA, 2015).
O trabalho realizado pela FDA para promover a qualidade e a seguranca de medi-
camentos, suplementos alimentares e alimentos e executado juntamente com a United States
Pharmacopeial (USP). A parceria entre a FDA e a USP tem como objetivo estabelecer padroes
para identidade destes produtos e normas para medicamentos, as quais sao impostas pela FDA
de acordo com a Lei Federal de Alimentos, Medicamentos e Cosmeticos dos Estados Uni-
dos (USP, 2015).
Por fim, a FDA garante a seguranca no abastecimento de alimentos e fomenta o desen-
volvimento de produtos medicos, a fim de responder prontamente a deliberadas e emergentes
ameacas a saude publica (FDA, 2015).
3.5 TECNICAS DE MINERACAO DE TEXTOS
A mineracao de textos e o processo de descoberta de informacoes em colecoes de tex-
tos grandes, juntamente com a identificacao automatica de padroes e relacoes em dados textuais
interessantes (FELDMAN; SANGER, 2007). Esta area procura resolver o problema de sobre-
carga de texto por meio da combinacao de tecnicas de mineracao de dados, aprendizado de
maquina, processamento de linguagem natural, recuperacao de informacao e gestao de conhe-
cimento (FELDMAN; SANGER, 2007).
Por meio da mineracao de textos, alguns metodos foram estudados para o desenvolvi-
mento dos algoritmos utilizados no trabalho, os quais tinham a finalidade de auxiliar no proces-
samento das informacoes contidas nas bulas profissionais dos medicamentos.
Uma das diversas tecnicas aplicadas na mineracao de textos e chamada de Sentence
breaker (PIAO, 2014), que consiste na quebra de espaco e pontuacao aplicado em cada conteudo
51
Figura 14 – Sentence breaker aplicado ao topico “cuidados de armazenamento” domedicamento Amoxicilina.Fonte: Autoria propria.
da bula, da qual o texto foi dividido em frases geradas por meio de um separador de sentencas,
responsavel pela divisao do texto por quebras de linhas (\r\n) ou pontuacao (exclamacao,
perguntas e ponto final). A Figura 14 apresenta um exemplo dessa tecnica aplicada ao texto
do topico “cuidados de armazenamento” do medicamento Amoxicilina, em que visualiza-se o
resultado na quebra das sentencas de todo o conteudo.
Figura 15 – Exemplo de tags utilizadas pelo Part-Of-Speech Tags usado por HeppleTagger em lıngua inglesa.Fonte: Adaptado de (CUNNINGHAM et al., 2014).
Em outra abordagem, a tecnica Part-Of-Speech Tags (HEPPLE, 2000) tem a finalidade
52
de verificar classes de palavras. Na Figura 15 sao exibidas as tags utilizadas para identificacao
das classes de palavras, o exemplo esta em lıngua inglesa, porem percebe-se que palavras como
and, but e or, logo na primeira linha do texto da figura, identificam ser classes que quando
traduzidas em lıngua portuguesa representam conjuncoes.
O uso de Stop-words (FOX, 1989) e importante apos a separacao do texto em varias
partes de conteudo (tokens), e importante que a tecnica de palavras eliminadas seja aplicada
a essas partes para remocao de itens nao importantes para texto. Um exemplo para aplicacao
desta tecnica seria no caso de que palavras como doenca, paciente e medico poderiam ser acres-
centadas na lista de stop-words, ja que sao textos que se repetem nos arquivos das bulas.
Figura 16 – Exemplo da tecnica Stemming para obtencao do radical das palavras.Fonte: Autoria propria.
Ja a tecnica Stemming (AGICHTEIN; GRAVANO, 2000) e voltada para obtencao
do radical das palavras (PORTER2, 2014). A Figura 16 exemplifica o uso de Stemming, na
qual entende-se que as derivacoes encontradas para as palavras: quımica, quımicas, quımico e
quımicos, foram iguais para todas as palavras, ou seja, o radical destas palavras foi o mesmo
para todas.
A aplicacao da tecnica Jaro-Winkler (WINKLER, 1999) verifica-se pelo controle de
erros ortograficos e a sequencia de similaridade entre as palavras. A Figura 17 exibe um exem-
plo para verificacao de similaridade entre as palavras “Jones” e “Johson”.
Figura 17 – Exemplo de verificacao de similaridade entre “JONES” e “JOHNSON”.Fonte: Adaptado de (WINKLER, 1999).
Alem das tecnicas Sentence breaker, Part-Of-Speech Tags, Stop-words, Stemming e
Jaro-Winkler, aplica-se o uso de expressao regular para resolucao de problemas relacionados
53
a mineracao sequencial de padroes (GAROFALAKIS; RASTOGI; KYUSEOK, 2002). A ex-
pressao regular no processo de mineracao fornece, por meio de uma simples sintaxe natural
resumida, um termo que especifica uma famılia de sequencia de padroes e tambem uma am-
pla gama de interesses, que, por vezes, representam restricoes de padroes nao-triviais (GA-
ROFALAKIS; RASTOGI; KYUSEOK, 2002). Destaca-se tambem na mineracao de textos a
aplicacao de “Spell Check” responsavel pela correcao de problemas nos textos (RAMASU-
BRAMANIAN; RAMYA, 2013), contribuindo para normalizacao do conteudo desses.
Por fim, no trabalho de (HAN; KAMBER, 2006), o termo mineracao de dados foi con-
siderado improprio, pois nao e feita extracao de dados, mas sim a extracao de conhecimento.
O termo extracao de conhecimento esta ligado ao processo de transformacao de dados bru-
tos em informacoes potencialmente uteis, validas e compreensıveis (FAYYAD; PIATETSKY-
SHAPIRO; SMYTH, 1996). Dessa forma, o sistema desenvolvido gera, pelas tecnicas de
mineracao apresentadas, conhecimento por meio do processamento textual das bulas profis-
sionais da ANVISA.
3.6 BANCO DE DADOS EM GRAFOS: NEO4J
Durante todo o processo de elaboracao de solucoes, verifica-se que, com o passar do
desenvolvimento e a evolucao da complexibilidade das aplicacoes, os dados tendem a ficar cada
vez mais conectados, ate um nıvel que nao se enxergue um dado separado de outro, dificultando
o uso de um modelo especıfico de modelagem de dados (CHERVEN, 2013).
Um destes modelos de dados conceituais mais aceitos e o Modelo Entidade Relaciona-
mento (MER) (ELMASRI; WEELDREYER; HEVNER, 1985). O MER e uma proposta sim-
ples de representacao de dados, que possui uma rica teoria fundamentada em dados dependentes
e normalizados (ELMASRI; WEELDREYER; HEVNER, 1985). No entanto, o MER pode nao
atender totalmente, ou atender de uma maneira menos eficiente aplicacoes que necessitem de
diversas solucoes diferentes e especıficas para um determinado fim (STONEBRAKER, 2010).
Nesse contexto, uma das tendencias na pesquisa de banco de dados e voltada para sistemas que
possam atender a aplicacoes cada vez mais complexas, que vao alem do MER (ATKINSON et
al., 1989).
Dessa forma, surge a utilizacao de modelos de dados nao relacionais, conhecidos por
Not Only Structured Query Language (NoSQL) (HAN et al., 2011). Esses modelos sao capazes
de armazenar e processar grandes conjuntos de dados e desempenham alto poder de leitura e
escrita, sendo eles um desafio para os bancos de dados relacionais (HAN et al., 2011). As
principais vantagens do NoSQL sao a rapida leitura e escrita dos dados, armazenamento em
54
massa dos registros, facilidade de expansao, e baixo custo (HAN et al., 2011).
Ha varios modelos de banco de dados nao relacionais, porem e necessario encontrar o
mais adequado. Devido as diversas relacoes entre os farmacos e doencas, os estudos foram di-
recionados para bancos de dados baseados em grafos. Um grafo descreve relacoes entre varios
conjuntos de entidades simbolizadas por nos interligados pelas arestas que representam dife-
rentes propriedades. Ele pode descrever propriedades, tanto para conjunto de entidades, quanto
para a relacao entre os nos. Este modelo aparece muito em domınios entre remedios (WILLI-
AMS; HUAN; WANG, 2007). O modelo de grafo e de facil entendimento, pois tentam superar
as limitacoes impostas pelos modelos tradicionais por meio da representacao dos dados em
estrutura de conjuntos, tornando-se assim uma modelagem de dados mais flexıvel (ANGLES;
GUTIERREZ, 2008).
Desse modo, o conteudo das bulas segue o modelo de dados em grafos para armazena-
mento dos registros, pois necessita retornar uma resposta rapida e o uso deste modelo de banco
permite manter e reutilizar ricos vetores de comparacao (HARRIS, 2013).
As estruturas de dados numa base de dados em grafos sao mais alinhadas com os for-
matos nativos de dados vinculados. O banco de dados em grafo tambem fornece um repositorio
muito rapido para a recuperacao de dados, como ao contrario de um banco de dados relacional
nao existem ındices ou ligacoes (joins) que sao computacionalmente caros (HARRIS, 2013).
O Neo4j e amplamente utilizado no mercado de banco de dados em grafos (HARRIS,
2013). Os bancos de dados NoSQL cresceram em popularidade por causa da facilidade de
acesso, a velocidade e escalabilidade (LI; MANOHARAN, 2013). A ferramenta Neo4j permite
o armazenamento de registros que sejam interligados em vertices relacionados por arestas, alem
de que, por se tratar de dados semanticos sao facilmente representados em grafos.
Um banco de dados em grafos prove uma abstracao mais natural em relacao ao mo-
delo de banco de dados relacional, pois dao suporte a conectividade de dados (KIVIKANGAS;
ISHIZUKA, 2012). A base em grafo modela dados por meio de nos e arestas. Dessa maneira,
facilita a modelagem de cenarios complexos constantes pelas relacoes entre os dados desta
base (KIVIKANGAS; ISHIZUKA, 2012).
Os bancos de dados em grafo ainda nao tem uma padronizacao de linguagem para
transacao e insercao de registros. Dessa forma, a falta de padronizacao levou o desenvolvimento
de varios implementacoes de interacao de dados (MILLER, 2013). Neste contexto, o Neo4j
disponibiliza um servico Application Programming Interface (API) desenvolvido em Java que
e consumido por meio uma interface Representational State Transfer (REST) disponıvel com
o uso de uma linguagem domain-specific languages (DSL) nomeada Gremlin, e outra chamada
55
Cypher (MILLER, 2013).
De todos estes servicos destaca-se para implementacao do projeto o uso da API para
integracao de informacoes entre as ferramentas Neo4j e o sistema desenvolvido utilizando o
Cypher, que e uma linguagem de consulta em grafo inspirada no SQL (MILLER, 2013). O
Cypher possui suporte aos algoritmos importantes, como o caminho mais curto e reconheci-
mento de padroes entre consultas (MAHDIRAJI; BAUMANN, 2013).
3.7 BANCO DE DADOS DA BIOMEDICINA
Para agregar mais informacoes e opcoes de busca ao sistema Facil Bula, foram estuda-
dos alguns bancos de dados da biomedicina. A Tabela 2 apresenta alguns dos muitos bancos de
dados encontrados, em que as colunas se organizam por nome e referencia do banco de dados,
tipo de informacao que diz respeito (base de farmacos, doencas, genes ou reacoes adversas) e
como foi utilizada ou estudada no projeto.
56Tabela 2 – Listagem de banco de dados estudados para o projeto.Base e referencia Tipo Utilizacao
DrugBank (WISHART et al., 2008) FarmacoTermos relacionados a farmacos encontrados no topico composicao e
interacoes das bulas medicas.
TTD (ZHU et al., 2010) FarmacoBanco de dados que fornece informacoes sobre as proteınas
terapeuticas, a doenca associada, referencia de vias metabolicas, aeficacia dos alvos e os farmacos relacionados.
OMIM (HAMOSH et al., 2005) GenesDestaca uma base de genes humanos e fenotipos geneticos, conteminformacoes sobre desordens mendelianas e mais de 15.000 genes.
KEGG (KANEHISA; GOTO, 2000) Genes
Compreende funcoes de alto nıvel e utilidades do sistema biologico, talcomo a celula, o organismo e o ecossistema, a partir da informacao anıvel molecular, em especial os conjuntos de dados moleculares em
larga escala geradas por sequenciamento do genoma.
CTD (DAVIS et al., 2015)Farmaco, Doenca e
GenesRelacao entre farmacos e doencas encontrados em varios topicos das
bulas de medicamentos.SNOMED-CT (COTE; PATHOLOGISTS;
ASSOCIATION, 1993)Doenca
Termos medicos, procedimentos cirurgicos, doencas entre outrosencontrados nos textos dos topicos do arquivo da bula.
DO (SCHRIML et al., 2012) DoencaOntologia de doencas, disponıvel em Lıngua Inglesa, referente as
informacoes dos medicamentos.DDS (BROWN, 2001) Doenca Pesquisa informacoes sobre doencas, sintomas, entre outros.
ORPHANET (RATH et al., 2012) DoencaDoencas raras, disponıvel em Lıngua Portuguesa, encontrada no topico
indicacao, contraindicacao, precaucoes das bulas.
CID (WHO, 2015a) DoencaClassificacao de doencas vinculadas ao conteudo da bula de
medicamento.
COSTART (HEALTH; SERVICES et al.,1995)
Reacoes adversasUtilizado para codificacao, arquivamento e recuperacao para
pos-comercializacao de reacoes adversas e relatorio de experienciasbiologicas.
SIDER (KUHN et al., 2010) Reacoes adversasTermos que dizem respeito a efeitos colaterais possıveis ou esperados
dos medicamentos.
MeSH (LIPSCOMB, 2000) DoencasApresenta amplo vocabulario de informacoes biomedicas em Lıngua
Inglesa.Fonte: Autoria propria.
57
Pela Tabela 2 visualizam-se as bases especıficas de farmacos DrugBank25 (WISHART
et al., 2008) e Therapeutic Target Database26 (TTD) (ZHU et al., 2010), os termos destas bases
sao utilizados para pesquisa de vocabularios relacionados aos topicos das bulas profissionais,
em especial aos topicos composicao e interacoes de cada medicamento. Ha bases que organizam
informacoes relacionadas a genes, como Online Mendelian Inheritance in Man27 (OMIM) (HA-
MOSH et al., 2005), Kyoto Encyclopedia of Genes and Genomes28 (KEGG) (KANEHISA;
GOTO, 2000) e Comparative Toxicogenomics Database29 (CTD) (DAVIS et al., 2015). A base
CTD se destaca das demais bases de genes pois tambem mantem informacoes de farmacos e
doencas, pois apresenta a relacao entre eles, na qual estes termos sao encontrados em varios
topicos das bulas de medicamentos.
A Tabela 2 lista tambem bases de doencas, como as bases Diseases Database Se-
arch30 (DDS) (BROWN, 2001), Medical Subject Headings31 (MeSH) (LIPSCOMB, 2000) e
Systematized Nomenclature of Medicine - Clinical Terms32 (SNOMED-CT) (COTE; PATHO-
LOGISTS; ASSOCIATION, 1993) que organizam termos medicos, procedimentos cirurgicos,
doencas entre outros que sao vinculados aos textos dos topicos do arquivo da bula profissional.
Outra e base Disease Ontology33 (DO) (SCHRIML et al., 2012) que diz respeito a ontologia
de doencas, disponıvel em Lıngua Inglesa, referente as informacoes dos remedios, enquanto
que a base de Classificacao Internacional de Doencas34 (CID) (WHO, 2015a) representa a
classificacao de doencas vinculadas ao conteudo da bula de medicamento. Do mesmo modo
que a base ORPHANET35 (RATH et al., 2012) apresenta a classificacao de doencas raras, dis-
ponıvel em Lıngua Portuguesa, encontrada no topico indicacao, contraindicacao, advertencias
e precaucoes das bulas.
Por fim, pela Tabela 2 encontram-se a base Side Effect Resource36 (SIDER) (KUHN
et al., 2010) e a base Coding Symbols for a Thesaurus of Adverse Reaction Terms37 (COS-
TART) (HEALTH; SERVICES et al., 1995) que organizam termos que dizem respeito a efeitos
colaterais possıveis ou esperados dos medicamentos encontrados no topico reacoes adversas.
25htt p : //www.drugbank.ca/26htt p : //bidd.nus.edu.sg/group/ttd/T T DDownload.asp27htt p : //www.omim.org/api28htt p : //www.kegg. jp/29htt p : //ctdbase.org/30htt p : //www.diseasesdatabase.com/begin.asp31htt ps : //www.nlm.nih.gov/mesh/32htt p : //www.nlm.nih.gov/snomed/33htt p : //disease−ontology.org/34htt p : //www.datasus.gov.br/cid10/V 2008/cid10.htm35htt p : //www.orpha.net/consor/cgi−bin/index.php36htt p : //sidee f f ects.embl.de/37htt p : //www.nlm.nih.gov/research/umls/sourcereleasedocs/current/CST/
58
As bases COSTART, SIDER, DrugBank, TTD, CTD, OMIM, KEGG, SNOMED-CT,
MeSH, DO, ORPHANET e CID oferecem uma quantidade de termos organizados e curados
por especialistas, alem de serem conhecidas internacionalmente tanto pelo meio academico
quanto pelo comercial (software para area de saude). Estas bases sao publicadas em seus res-
pectivos websites a fim de contribuir com estudo, pesquisa e tambem para desenvolvimento de
ferramentas. Contudo, apenas em algumas bases estes termos sao disponibilizados em Lıngua
Portuguesa, como e o caso das bases ORPHANET e CID. As demais bases estao com todo
seu conteudo em Lıngua Inglesa. Os termos disponıveis em lıngua estrangeira dificultam as
relacoes de estruturacao das informacoes presentes nas bulas medicas encontradas no Bulario
Eletronico da ANVISA, visto que o conteudo descrito na bula encontra-se em Lıngua Portu-
guesa tornando-se um problema para assimilar os termos de farmacos e doencas disponıveis em
outro idioma, ocasionada pela diferenca de vocabularios existentes entre cada lıngua.
Figura 18 – Integracao ilustrada por flechas direcionais das bases de dados e o BularioEletronico da ANVISA que nao normaliza informacao alguma com as bases relacio-nadas.Fonte: Autoria propria.
Na Figura 18 visualizam-se as integracoes que as bases possuem elaboradas por meio
das informacoes que cada uma disponibiliza, na qual listam-se algumas relacoes entre as bases
ilustradas:
• SIDER: utiliza os farmacos da base DrugBank e as reacoes adversas da base COSTART;
• CTD: relaciona os farmacos da base DrugBank, juntamente com os genes das bases
KEGG e OMIM com os termos de doencas da base MeSH;
59
• DO: organiza as informacoes de doencas das bases MeSH, SNOMED-CT e CID;
• ORPHANET: associa as doencas da base CID e com os genes da base OMIM;
A Figura 18 mostra que o Bulario Eletronico da ANVISA nao possue informacoes
estruturadas com relacao as bases COSTART, SIDER, DrugBank, TTD, CTD, OMIM, KEGG,
SNOMED-CT, MeSH, DO, ORPHANET e CID.
Para o projeto as bases TTD, OMIM, KEGG, DDS, COSTART e SIDER foram uti-
lizadas como meio de estudo para visualizar as relacoes delas com outras bases e analisar a
viabilidade destas para integracao de novos vocabularios para vinculacao do conteudo das bulas
profissionais do Bulario Eletronico da ANVISA. Ja as bases DrugBank, CTD, SNOMED-CT,
DO, CID e ORPHANET foram utilizadas no desenvolvimento do trabalho de processamento
das bulas e mapeamento de termos ontologicos.
As bases DrugBank, CTD, SNOMED-CT, DO, CID, ORPHANET e SIDER serao
detalhadas nas secoes seguintes.
3.7.1 DrugBank
O DrugBank refere-se a um banco de dados de farmacos, que apresenta informacoes
sobre as moleculas das drogas, alvos de drogas e as consequencias biologicas ou fisiologicas
das acoes destas drogas. Neste banco existem muitas ferramentas embutidas para visualizacao,
classificacao, pesquisa e extracao de dados de texto, imagem, sequencia ou estrutura (WISHART
et al., 2008).
As associacoes apresentadas pela base do DrugBank sao compostas por algumas li-
teraturas medicas ja consolidadas, como: PubMed38, e-Therapeutics39 e STAT!Ref40 (AHFS),
porem nao ha uma representacao sistematica das indicacoes de medicamento que permita iden-
tificar as relacoes de droga-doenca (VALENTINI; RE, 2013).
3.7.2 Comparative Toxicogenomics Database (CTD)
A primeira versao da base CTD foi desenvolvida pelo Laboratorio Biologico Mount
Desert Island41 com a finalidade de ser um recurso para comunidade genomica dedicada a com-
preender o significado de genes e proteınas no sistema humano (MATTINGLY et al., 2003). A38htt p : //www.ncbi.nlm.nih.gov/pubmed39htt p : //www.etherapeutics.co.uk/40htt p : //www.statre f .com/41htt ps : //mdibl.org/
60
CTD oferece uma combinacao de caracterısticas para facilitar as comparacoes inter-especies
do significado toxicologico42 de genes e proteınas, dessa forma, promove a compreensao da
evolucao molecular, o significado das sequencias conservadas, a base genetica da sensibili-
dade variavel aos agentes ambientas e as complexas interacoes entre o ambiente e a saude
humana (MATTINGLY et al., 2003).
A CTD entende que a etiologia de muitas doencas cronicas envolve interacoes entre
fatores ambientais e genes (DAVIS et al., 2008). Estes fatores modulam processos fisiologicos,
em que o estudo dessas entre as substancias quımicas ambientais, e genes ou proteınas, forne-
cem conhecimento sobre os mecanismos de acao de produtos quımicos, sensibilidade a doenca,
toxicidade e interacoes medicamentosas terapeuticas (DAVIS et al., 2008).
Por fim, a CTD representa uma rede referente a relacao quımica-gene, quımico-doenca
e interacoes gene-doenca. Essa rede utiliza dados que estao curados manualmente a partir da
literatura cientıfica apresentada por co-autores profissionais que utilizam vocabularios contro-
lados, ontologias e notacao estruturada para sua organizacao, que juntos facilitam a construcao
das redes de quımica-gene-doenca desta base (DAVIS et al., 2015).
3.7.3 Systematized Nomenclature of Medicine - Clinical Terms (SNOMED-CT)
O SNOMED-CT e uma biblioteca de terminologias clınicas padronizadas, licenciada
pela National Library of Medicine, a qual inclui uma cobertura abrangente de termos relaci-
onados as doencas, achados clınicos, terapias, procedimentos e resultados, alem de fornecer
terminologias fundamentais para codificar um registro de saude eletronico (ELEVITCH, 2005).
A base SNOMED-CT simplifica a pesquisa de doencas e sintomas, no entanto para uti-
liza-la e necessario identificar a representacao dos dados disponibilizados por meio das relacoes
fornecidas pelos codigos do SNOMED-CT. Estas hierarquias representam somente a organizacao
logica dos dados, um exemplo desta apresentacao dos dados esta presente na Figura 19. Nao
existe indicacao sobre qual seria o melhor caminho para um paciente em uma determinada
situacao atual, ou correlacao entre nıvel superior de codigos do SNOMED-CT (CIOLKO; LU;
JOSHI, 2010).
42Toxicologia: estudo sobre o efeito nocivo proporcionado pela interacao de um agente toxico em um sistemabiologico (MATTINGLY et al., 2003).
61
Figura 19 – Representacao grafica da relacao “e um” do SNOMED-CT.Fonte: Adaptado de (DONNELLY, 2006).
3.7.4 Disease Ontology (DO)
Ontologia e uma tecnica de classificacao e organizacao de informacoes, cujo objetivo
principal diz respeito a representacao formal de conhecimento (GUARINO, 1998). Geralmente
sao criadas por especialistas do respectivo assunto em questao, tendo sua estrutura baseada na
descricao de conceitos e dos relacionamentos semanticos entre eles, as ontologias geram uma
especificacao formal e explıcita de um conceito compartilhado (BERNERS-LEE et al., 2001).
Nesse contexto, a DO43 e uma base de conhecimento sobre doencas humanas, que inte-
gra o significado destas e vocabularios medicos por meio de mapeamento cruzado de termos de
doencas especıficos e codigos identificadores relacionados na integracao entre as bases MeSH,
CID, do NCI thesaurus, SNOMED-CT e OMIM (SCHRIML et al., 2012).
A DO e utilizada por bancos de dados biomedicos para anotacao sobre doencas, na
qual destaca-se como um padrao de base para representacao da doenca humana em ontologias
biomedicas (SCHRIML et al., 2012).
A versao atual da DO possui uma comunidade de pesquisa ampliada e membros que
fornecem orientacao para curadoria especialista da base. Dessa forma, a DO expande sua uti-
lidade em ontologias para ter seu uso vinculado a exames e comparacoes de variacao genetica,
fenotipo, proteına, dados de farmacos e de epıtopos por meio das doencas humanas (KIBBE et
al., 2014).
43htt p : //disease−ontology.org/
62
3.7.5 Classificacao Internacional de Doencas (CID)
A CID e uma ferramenta que prove o diagnostico padrao sobre epidemiologia, gestao
da saude e fins clınicos, atrelado a analise da situacao geral de saude dos grupos populacionais.
Dessa forma exibe a situacao geral de saude dos paıses e populacoes, com a finalidade de
monitorar a incidencia e prevalencia de doencas e outros problemas de saude (WHO, 2015a).
A CID e utilizada por diversos profissionais da area de saude, e tambem por pesquisa-
dores, gestores de informacao e programadores, profissionais de tecnologia da informacao, para
a classificacao de doencas e outros problemas de saude, incluindo certidoes de obito e registros
de saude, a fim de fornecer a base para a elaboracao de estatısticas de mortalidade e morbilidade
nacionais por Estados Membros da OMS (WHO, 2015a).
A classificacao utilizada pela CID esta dividida em 22 capıtulos, nomeados pelo sis-
tema de numeracao romana. Alguns capıtulos representam as seguintes relacoes, conforme
definicao da OMS (WHO, 2015b):
• Capıtulos I ate XVII: referem-se a doencas e outras condicoes morbidas;
• Capıtulo XIX: diz respeito a lesoes, envenenamento e algumas outras consequencias de
causas externas;
• Capıtulo XVIII: abrange sintomas, sinais, achados clınicos e laboratoriais anormais, nao
classificados em outra parte;
• Capıtulo XX: usado para causas externas de morbidade e mortalidade;
• Capıtulo XXI: ligado a fatores que influenciam o estado de saude e o contato com servicos
de saude.
Cada capıtulo mantem um conjunto de doencas especıficas que sao organizadas em
grupos e possuem relacao com o tema abordado pelo capıtulo. Cada doenca dispoe de um
codigo CID unico, que e simbolizado por caracteres, sendo o primeiro caracter uma letra e o
resto uma sequencia numerica (WHO, 2015b). Dessa forma, os registros sao organizados em
termos amplos ate nomes de doencas mais especıficas. Como por exemplo, os registros disponi-
bilizados referente a “demencia na doenca de Alzheimer de inıcio precoce” que e exemplificada
pelo DATASUS44 como sendo uma doenca pertencente ao Capıtulo V, que abrange os Transtor-
nos mentais e comportamentais, dentro do Grupo F00 - F09, que diz respeito aos Transtornos
44htt p : //www.datasus.gov.br/cid10/V 2008/WebHel p/cid10.htm
63
mentais organicos, inclusive os sintomaticos, e por fim e um termo do Codigo F00 que relaci-
onada a Demencia na doenca de Alzheimer. A organizacao destas informacoes e ilustrada pela
Figura 20.
Figura 20 – Organizacao da CID para demencia na doenca de Alzheimer de inıcioprecoce.Fonte: Autoria propria.
No Brasil, o Departamento de Informatica do Sistema Unico de Saude (DATASUS),
orgao que integra a Secretaria de Gestao Estrategica e Participativa do Ministerio da Saude,
que tem como responsabilidade disponibilizar sistemas de informacao e suporte de informatica,
necessarios ao processo de planejamento, operacao e controle aos orgaos do SUS (DATASUS,
2015).
O DATASUS disponibiliza uma pagina referente a CID45 com informacoes atualizadas
em sua 10a Revisao. Esta pagina prove dados normalizados sobre doencas que sao organiza-
dos por capıtulos, grupos e doencas, e tambem possibilita o download de uma ferramenta que
permite a partir de um nome, parte do nome ou codigo, localizar as informacoes sobre a CID.
Nesse contexto, e estabelecido pela Resolucao-RDC No 140, de 29 de maio de 2003 da
ANVISA, a adocao da CID ao se referir a sinais, sintomas e doencas para elaboracao do texto
das bulas (ANVISA, 2003).
3.7.6 ORPHANET
A ORPHANET e um portal46 web multilıngue, constituıdo por um consorcio de cerca
de 40 paıses europeus, que fornece informacoes sobre doencas raras e medicamentos. Possui
uma base de representacao de doencas raras mapeadas por meio de dados da CID, SNOMED-
CT, MeSH, MedDRA e UMLS, alem de cruzar informacoes de genes publicados por meio das
bases especialistas como HUGO que disponibiliza o HUGO Gene Nomenclature Committee, o
UniProt, o OMIM e o GenAtlas (RATH et al., 2012).
A ORPHANET permite a extracao de volumosos conjuntos de dados que geram dife-
rentes pontos de vista, e podem ser usados em bioinformatica para responder questoes comple-45htt p : //www.datasus.gov.br/cid10/V 2008/cid10.htm46htt p : //www.orpha.net
64
xas, com o objetivo de servir as necessidades de pesquisadores e da industria farmaceutica no
desenvolvimento de medicamentos para doencas raras (RATH et al., 2012).
Doencas raras sao pouco representadas em classificacoes internacionais, porem a base
ORPHANET disponibiliza dados para uma das principais necessidades presentes nos sistemas
de informacao de saude e de investigacao, cujo interesse esta voltado ao compartilhamento
e integracao de dados provenientes de maneira heterogenea, com diversas terminologias de
referencia (RATH et al., 2012).
3.7.7 Side Effect Resource (SIDER)
O entendimento das moleculas dos fenotipos causados por farmacos em humanos e
essencial para elucidar os mecanismos de acao e o desenvolvimento de medicamentos persona-
lizados, de modo que os efeitos colaterais sao respostas fenotıpicas do organismo humano ao
tratamento com farmacos (KUHN et al., 2010).
Os efeitos colaterais dos medicamentos (tambem conhecidos como reacoes adversas
a medicamentos) sao uma importante fonte de informacao fenotıpica do organismo humano,
porem o conhecimento de toda as informacoes necessarias para pesquisa e dificultada pela aces-
sibilidade insuficiente de dados (KUHN et al., 2010).
A base SIDER contem 62.269 efeitos adversos relacionados a farmacos, conectados
por meio de 888 farmacos vinculados a 1.450 termos relacionados a efeitos colaterais, obti-
dos da mineracao de textos das bulas de medicamentos disponibilizadas pelo FDA e cruzados
com termos de efeitos adversos disponibilizados pelo banco de dados Coding Symbols for a
Thesaurus of Adverse Reaction Terms (COSTART) (KUHN et al., 2010).
65
4 MATERIAIS E METODOS
Este capıtulo apresenta os metodos desenvolvidos para os problemas apresentados no
Capıtulo 2 utilizando tecnicas e modelos que foram descritos no Capıtulo 3. Os seguintes
assuntos serao abordados:
• visao geral do workflow de processamento das bulas profissionais;
• metodo para aquisicao das bulas profissionais disponıveis no Bulario Eletronico da AN-
VISA;
• processamento do arquivo PDF da bula profissional e tratamento do texto nele contido;
• identificacao e segmentacao dos topicos de cada bula;
• identificacao de termos relevantes no texto de cada regiao segmentada da bula;
• integracao da bula profissional com outras bases de dados;
• construcao da base de dados baseada em grafo.
4.1 VISAO GERAL DO WORKFLOW DE PROCESSAMENTO DAS BULAS PROFISSIO-
NAIS
Figura 21 – Visao geral do workflow de processamento das bulas profissionais com asrespectivas etapas que compoem o processo desenvolvido.Fonte: Autoria propria.
66
A Figura 21 apresenta uma visao geral da metodologia utilizada. O workflow imple-
mentado possui quatro etapas principais, sao elas: (i) obtencao das bulas profissionais do sıtio
web da ANVISA; (ii) pre-processamento, extracao, normalizacao das informacoes das bulas e
seu armazenamento em um banco de dados relacional; (iii) integracao com outras bases para
identificacao do conteudo relevante obtido da normalizacao do texto das bulas e (iv) desenvol-
vimento do banco de dados baseado em grafos.
Nas subsecoes seguintes sao detalhadas as etapas deste workflow.
4.1.1 Aquisicao das bulas
O Bulario Eletronico e um sistema disponıvel no sıtio web da ANVISA responsavel
pela pesquisa de medicamentos comercializados no Brasil e que sao regulamentados por este
orgao federal vinculado ao MS. A Figura 22 apresenta a pagina inicial do Bulario Eletronico
da ANVISA e os filtros permitidos para pesquisa. Estes permitem a busca pelo nome do medi-
camento, empresa responsavel pelo medicamento, numero de expediente para controle da AN-
VISA, perıodo de publicacao da bula e a quantidade de registros por pagina que serao exibidos
apos realizar a pesquisa.
Figura 22 – Pagina inicial do Bulario Eletronico da ANVISA e os respectivos filtrosdessa.Fonte: Adaptado de (ANVISA, 2013).
O retorno de uma pesquisa realizada no Bulario Eletronico da ANVISA disponibi-
liza informacoes para conhecimento do medicamento, como seu respectivo nome, empresa res-
ponsavel, numero de expediente, data de publicacao e arquivos PDF das bulas nas versoes para
o paciente e profissional da area de saude. Um exemplo do resultado da aplicacao do filtro para
67
pesquisa de medicamento na pagina do Bulario Eletronico e apresentado na Figura 23.
Figura 23 – Pagina de resultado da pesquisa do Bulario Eletronico.Fonte: Adaptado de (ANVISA, 2013).
As bulas disponibilizadas pelo Bulario Eletronico da ANVISA sao responsaveis por
informar aos pacientes e aos profissionais da saude sobre as caracterısticas dos medicamentos,
qual a maneira de utiliza-los, para quais tratamentos sao indicados, quais sao suas interacoes,
reacoes, precaucoes, entre outras informacoes organizadas em topicos (conforme a Secao 2.1).
Em uma consulta realizada pelo Bulario Eletronico da ANVISA no dia 22 de outubro
de 2015 foram encontradas 6.961 registros de medicamentos. Com base na Figura 23 visualiza-
se que obter um unico arquivo PDF da bula profissional nao requer muito esforco, visto que
para tal acao basta o clique no link de download do PDF. Porem fazer esta acao para todos os
registros de medicamentos disponıveis na ANVISA e uma tarefa que requer tempo, caso seja
realizada manualmente.
Neste contexto, para obter as bulas profissionais disponıveis no Bulario Eletronico
da ANVISA foi implementado um robo de busca (web crawler (THELWALL, 2001)) para
automatizar a obtencao dos arquivos. O desenvolvimento deste robo foi elaborado na plataforma
Microsoft Windows, em linguagem C Sharp (C#), com a ferramenta IDE Visual Studio 2013
devidamente licenciada. Ele tambem foi responsavel em capturar o nome do medicamento,
68
a empresa responsavel e outras informacoes presentes no HTML. O funcionamento do robo e
visualizado pelo vıdeo1 intitulado “Automatizacao Download Bulas ANVISA”, disponibilizado
no YouTube.
4.1.2 Processamento das bulas profissionais
Esta etapa consistiu em transformar o conjunto de arquivos PDF das bulas em arquivos
no formato de somente texto (“.txt”). Assim, a bula em formato de texto tem o objetivo de
facilitar o processamento e estruturacao do conteudo para possibilitar a execucao das proximas
etapas do workflow.
As bulas em formato texto sao documentos que nao estao estruturados. Isso torna
a busca por alguma informacao uma tarefa trabalhosa, o que requer o processamento para
organizacao das informacoes junto a interpretacao do texto das bulas, algo computacionalmente
custoso (RILOFF; LEHNERT, 1994).
Os problemas encontrados nos arquivos das bulas medicas, versao publicada para pro-
fissionais da area de saude, sao apresentados no Capıtulo 2 e sao destacados como:
Figura 24 – Conteudo da bula em imagem que esta fora do padrao.Fonte: Adaptado de (ANVISA, 2013).
1htt p : //www.youtube.com/watch?v = HdyUJwG9GG0
69
1. Problemas na extracao de texto do arquivo PDF, definido pela falta de formatacao;
2. Topicos das bulas estao diferentes do padrao estabelecido pela ANVISA (ANVISA,
2009);
3. Erros ortograficos no conteudo da bula;
4. PDF com a imagem da foto da versao fısica encontrada na caixa do remedio (ver exemplo
na Figura 24).
Para cada um destes problemas, foi desenvolvida uma solucao ad hoc. Desse modo,
para solucionar estes desafios encontrados nos arquivos PDF da bula profissional, disponibiliza-
dos pelo Bulario Eletronico da ANVISA, foi utilizado para a correcao dos problemas referentes
aos erros ortograficos e tambem sobre a divergencia de escrita nos topicos um verificador or-
tografico (Spell Checking) configurado para o idioma Portugues do Brasil. Isso foi necessario
pois alem dos erros gramaticais, algumas bulas seguiam o novo acordo ortografico da Lıngua
Portuguesa enquanto outras seguiam o antigo acordo ortografico. O Spell Checks foi utilizado
com o arquivo de dicionario do idioma Portugues do Brasil que e disponibilizado pela plata-
forma LibreOffice.
As informacoes corrigidas das bulas e seus respectivos conteudos, como empresa res-
ponsavel, data de publicacao, numero de expediente, foram organizados num banco de dados re-
lacional. Tambem foi necessario organizar o conteudo da bula profissional pelos topicos presen-
tes no texto. Assim, foi desenvolvido um algoritmo (exibido na Subsecao 4.1.2.1) responsavel
por identificar cada topico da bula definido pelas normas da Resolucao-RDC No 47 (ANVISA,
2009). Mesmo com as normas para redacao das bulas, as empresas farmaceuticas nao redigem
seus topicos seguindo o padrao regulamentado por completo, visto que disponibilizam uma lista
de variacoes de nomes que foram encontrados em diferentes topicos dos medicamentos. Estes
topicos sao agrupados em listas de variacoes e utilizados para auxiliar a identificacao de cada
topico da bula profissional.
Por fim, para solucionar o problema elencado de numero 4, exemplificado pela Fi-
gura 24 foi criada uma rotina para recuperar as imagens do PDF, junta-las e alinha-las corre-
tamente, alem de aplicar um tratamento de qualidade nas imagens, ou seja, tornar a imagem
do texto mais nıtida. Finalmente, uma ferramenta de Optical Character Recognition (OCR)
foi utilizada para recuperar o texto. A ferramenta de codigo aberto para OCR utilizada foi o
Tesseract (TESSERACT, 2014).
Com o uso de OCR disponbilizado pelo Tesseract muito do conteudo pode ser iden-
tificado, porem o processo nao garantiu que todas as informacoes fossem detectadas. Por esse
70
motivo nessa etapa foi necessaria a intervencao humana, para que assim todo o conteudo da
bula fosse identificado e pudesse ser utilizado no processo desenvolvido.
O trabalho realizado com estas imagens das bulas e tambem com o tratamento do
conteudo tem o objetivo de alcancar o maior numero de bulas profissionais para construcao das
redes de relacoes entre medicamentos, farmacos e doencas.
4.1.2.1 Roteiro para organizacao dos topicos da bula
A bula medica e descrita pela Secao 2.1 e apresenta informacoes importantes sobre
cada medicamento, sendo composta por varios topicos que auxiliam na busca de medicamentos
por profissionais de saude. De acordo com a Resolucao-RDC No 47 (ANVISA, 2009) os topicos
presentes na bula profissional sao:
• Apresentacao: apresenta o medicamento e a empresa responsavel por sua elaboracao;
• Composicao: mostra os elementos utilizados para composicao do medicamento;
• Indicacao: para que este medicamento e indicado;
• Caracterısticas Farmacologicas: mostra como o medicamento funciona;
• Contraindicacoes: quando nao se pode usar o medicamento;
• Advertencias e precaucoes: o que deve ser sabido antes de usar o medicamento;
• Interacoes medicamentosas: sao alteracoes dos efeitos desejados ou ocorrencias de
eventos adversos;
• Posologia e modo de usar: como deve ser usado o medicamento, onde, como e por
quanto tempo pode-se guardar o medicamento;
• Reacoes adversas: quais os males que este medicamento pode causar;
• Superdose: o que deve ser feito se usar uma quantidade maior do que a indicada pelo
medicamento.
Porem a nomenclatura de topicos apresentada pela Resolucao-RDC No 47 (ANVISA,
2009) nao e seguida na redacao da bula por todas as empresa farmaceuticas, ou seja, um mesmo
topico pode ter diferentes nomes em variados textos das bulas profissionais. Assim, foi ne-
cessario que o roteiro desenvolvido tivesse capacidade de informar sobre novas variacoes de
71
topicos para organizar o texto da bula profissional processado. Na Tabela 3 mostra-se a lista de
topicos e suas variacoes, juntamente com o marcador utilizado para definir o inıcio do topico
no texto da bula.
72
Tabela 3 – Lista de variacoes e marcadores utilizados para identificacao dos topicos.
Ordem Topico Variacoes Marcador
1 Identificacao do medicamento,Apresentacoes
IDENTIFICACAO DO MEDICAMENTO,APRESENTACOES, APRESENTACAO, FORMAS
FARMACEUTICAS E APRESENTACOES, FORMAFARMACEUTICA E APRESENTACAO
=[TOPICO]=[INDE]
2 Composicao COMPOSICAO, COMPOSICOES =[TOPICO]=[COMP]
3 Informacoes ao profissional de saudeINFORMACOES AO PROFISSIONAL DE SAUDE,
INFORMACOES TECNICAS AOS PROFISSIONAIS DESAUDE
=[TOPICO]=[INFO]
4 Indicacoes INDICACOES, INDICACAO =[TOPICO]=[INDI]5 Resultados de eficacia RESULTADOS DE EFICACIA =[TOPICO]=[RESU]
6 Caracterıstica FarmacologicasCARACTERISTICAS FARMACOLOGICAS,CARACTERISTICAS FARMACOLOGICAS,CARACTERISTICAS FARMACOLOGICAS
=[TOPICO]=[CARA]
7 Contraindicacoes CONTRAINDICACOES, CONTRA-INDICACOES =[TOPICO]=[CONT]8 Advertencias e precaucoes ADVERTENCIAS E PRECAUCOES =[TOPICO]=[ADVE]
9 Interacoes medicamentosasINTERACOES MEDICAMENTOSAS, INTERACOES
MEDICAMENTOSAS E OUTRAS FORMAS DEINTERACAO
=[TOPICO]=[INTE]
10 Cuidados de armazenamento domedicamento
CUIDADOS DE ARMAZENAMENTO DOMEDICAMENTO, ONDE, COMO E POR QUANTO TEMPO
POSSO GUARDAR ESTE MEDICAMENTO?=[TOPICO]=[CUID]
11 Posologia e modo de usar POSOLOGIA E MODO DE USAR =[TOPICO]=[POSO]
12 Reacoes adversas REACOES ADVERSAS A MEDICAMENTOS, REACOESADVERSAS, REACOES ADVERSAS
=[TOPICO]=[RECA]
13 Superdose SUPERDOSE, SUPERDOSE OU INGESTAO ACIDENTAL,SUPERDOSAGEM
=[TOPICO]=[SUPE]
73
Nesse contexto, o pseudocodigo apresentado pelo Algoritmo 1 exemplifica o roteiro
que identifica e marca a posicao dos topicos no texto da bula profissional. Este roteiro possui
as seguintes etapas: (i) inicializar a lista de variacoes de cada topico; (ii) buscar por expressao
regular pela lista de variacoes; (iii) aplicar um tratamento de texto; e (iv) realizar a marcacao do
topico.
Algoritmo 1: Algoritmo sobre as etapas do processo de segmentacao dos topicos.Entrada: Texto do medicamento e os topicos com suas as respectivas variacoesSaıda: Segmentacao dos topicos do medicamento
1 Inıcio2 textoMedicamento← texto do medicamento obtido por meio do PDF da bula;3 topico← topico do medicamento;4 variacoes← variacoes do respectivo topico;
//=[TOPIC]=[marca]5 marcaTopico← marca que referencia o respectivo topico do medicamento;
padraoBusca← expressao regular gerado por meio do topico e as variacoes deste;6 se padraoBusca encontrado no textoMedicamento entao7 retornoBusca← texto encontrado;8 qtdRetorno← quantidade de caracteres do texto encontrado;9 qtdSequencia← contador da sequencia de letras;
10 respeitouPadraoTopico← inicia com valor falso;11 Para contadorCaracter← 1 ate qtdRetorno faca12 caracter = retornoBusca[contadorCaracter]← caracter do texto
encontrado;13 se caracter for letra maiuscula entao
//incrementa o contador de sequencia14 qtdSequencia++;15 fim16 se qtdSequencia == 5 entao17 respeitouPadraoTopico← verdadeiro;18 finaliza o contador Para;19 fim20 Fim21 se respeitouPadraoTopico for verdadeiro entao22 indiceQuebraLinha← primeira quebra de linha (\r\n) do retornoBusca se
indiceQuebraLinha >−1 entao23 textoQuebra← parte do texto retornoBusca delimitado pelo
indiceQuebraLinha se padraoBusca encontrado no textoQuebra entao24 acrescenta o texto marcaTopico ao termo textoQuebra e o substitui
por todo texto pesquisado25 fim26 fim27 fim28 fim
//texto respectivamente identificado com a marcacao dotopico
29 Retorne textoMedicamento;30 Fim
74
A etapa de “processamento das bulas profissionais” (visualizada na Secao 4.1.2) tem
a finalidade de retirar os textos desnecessarios, deixando apenas o conteudo de cada topico.
Este processo foi realizado por meio de variacoes identificadas pelos padroes de pesquisa por
expressao regular, que sao selecionados um a um na seguinte sequencia:
1. listagem de cada caractere do texto para verificacao de sequencia de letra maiusculas,
quando os topicos seguem este padrao, o limite definido para esta regra e de 5 caracteres
em sequencia e com letra em caixa alta ja sao identificados como topico;
2. procura pelo ındice do termo identificado na pesquisa por expressao regular, ao encontra-
lo e retornado uma parte do conteudo da bula ate o inıcio do termo achado, por meio desta
parte e pesquisado o valor do ındice ate a ultima quebra de linha;
3. por meio do ındice da quebra de linha e retornado uma nova parte do conteudo da bula,
porem agora com inıcio sendo este ındice;
4. dessa parte do conteudo e procurado um ındice de quebra de linha mais proximo para
corte do texto, assim para encontra-lo e realizado uma verificacao que so para ate satisfa-
zer esta condicao;
5. definido o termo e a sua linha de quebra, uma nova parte e criada em que realiza-se uma
limpeza de caracteres em branco do inıcio e do fim no texto;
6. a parte identificada e submetida a uma verificacao na lista de variacoes para que seja
visualizada se apesar de todo o processo o topico ainda esta contido nesta parte do texto;
7. por fim, a parte e acrescida do respectivo marcador referente ao topico pesquisado, uma
operacao de substituir texto e aplicado no conteudo do medicamento, modificando a parte
encontrada para o termo marcado.
A Figura 25 apresenta um exemplo de marcacao realizada no medicamento Fluconazol
para o topico composicao, na qual elenca-se todas as etapas realizadas pelo algoritmo desen-
volvido. Por meio do tratamento de texto da bula do Fluconazol foi possıvel a identificacao
e marcacao do respectivo topico em que utilizou-se a pesquisa por expressoes regulares para
encontrar o inıcio e termino do texto referente ao topico.
Como resultado final do processo listado, exemplificado pela Figura 25, obtem-se a
marcacao de cada topico respectivo no conteudo da bula profissional dos medicamentos do
Bulario Eletronico da ANVISA. Por este motivo, a Figura 26 mostra a marcacao de alguns
75
Figura 25 – Etapas do processamento textual para identificacao dos topicos no medi-camento Fluconazol.Fonte: Autoria propria.
topicos no texto da bula do medicamento Fluconazol, a fim de demonstrar tambem o processo
realizado pelo Algoritmo 1.
Visualiza-se pela Figura 26 que os topicos presentes no texto da bula do Fluconazol
foram apresentacao, composicao e informacoes tecnicas aos profissionais de saude, em que
estes iniciam pelos prefixos em negrito marcados respectivamente por “=[TOPICO]=[INDE]”,
“=[TOPICO]=[COMP]” e “=[TOPICO]=[INFO]” (conforme Tabela 3).
Figura 26 – Marcacao dos respectivos topicos no texto da bula do medicamento Flu-conazol.Fonte: Autoria propria.
Dessa forma, o processamento textual do conteudo das bulas para identificacao de cada
topico e auxiliada pelo processo de marcacao apresentado pelo Algoritmo 1, pois estrutura os
textos dos topicos das bulas profissionais dos medicamentos encontrados no Bulario Eletronico
da ANVISA.
76
4.1.3 Integracao com outras bases
Um medicamento e formado por um conjunto de farmacos e tem a finalidade de tra-
tar uma ou mais doencas. As bulas representam os remedios, em que o topico referente a
composicao, como por exemplo, apresenta o conjunto de farmacos utilizado para elaboracao do
medicamento. Porem este conjunto de farmacos e suas relacoes estao no DrugBank, que e uma
base de dados para bioinformatica e apresenta informacoes detalhadas sobre drogas (DRUG-
BANK, 2014). Ja a base SNOMED-CT padroniza e facilita a busca por termos medicos e
doencas (IHTSDO, 2014), assim podem-se associa-los ao conteudo das bulas profissionais de
medicamento.
Com a finalidade de encontrar vocabularios referentes aos farmacos e as doencas no
meio do vasto conteudo textual apresentado pelas bulas dos medicamentos foi desenvolvido um
processo de integracao de bases. Nesta etapa foram utilizadas as seguintes bases: (i) DrugBank
e (ii) SNOMED-CT (relacionado com as bases DO, CTD, ORPHANET e CID). Estas bases
possuem informacoes estruturadas com relacao aos farmacos e as doencas. Desse modo, foram
elaborados dois metodos para integracao das bulas da ANVISA com outras bases de dados: (1)
mapeamento da bula com os farmacos do DrugBank; (2) mapeamento de termos SNOMED-CT
com a bula. Os farmacos identificados foram mapeados com seus respectivos drugbank id’s
(codigo chave da base DrugBank), enquanto que as doencas sao associadas aos respectivos
concept id’s (codigo identificador dos termos utilizado pela base SNOMED-CT).
Para realizar a associacao entre os termos do Drugbank e do SNOMED-CT (com as bu-
las profissionais da ANVISA) foi necessario realizar a traducao (automatica) das informacoes
do DrugBank e do SNOMED-CT. Para isso foi utilizada a ferramenta Microsoft Translator,
que e a aplicacao de traducao da plataforma Microsoft Azure Marketplace e permite tradu-
zir 2.000.000 (dois milhoes) de caracteres por mes gratuitamente. Essa aplicacao nao possui
tempo limite para o uso do servico, possibilitando um tempo maior de teste para o processo de
desenvolvimento, alem de que a quantidade de caracteres de traducao disponibilizados de forma
gratuita foi superior a quantidade realmente utilizada pelo processo.
Apos a traducao e possıvel relacionar o conteudo dos textos dos topicos com os vo-
cabularios do DrugBank e SNOMED-CT por meio da uma pesquisa por termos na bula e as-
sim definindo os respectivos drugbank id e concept id para cada topico da bula. Essas
informacoes sao utilizadas para construir a rede de interacoes entre farmacos, doencas e medi-
camentos, exemplificada pela Figura 27.
Ressalta-se pela Figura 27 que os termos Influenza A (concept id C442696006) e
Influenza B (concept id C407480007) presentes na base SNOMED-CT estao relacionados
77
Figura 27 – Exemplo de integracao das bases ao conteudo das bulas.Fonte: Autoria propria.
as doencas, e o termo respectivo ao farmaco Oseltamivir (drugbank id DB00198) constante
na base DrugBank foram retirados do conteudo da bula profissional do medicamento Tami-
flu, disponibilizado pela empresa Produtos Roche Quımicos e Farmaceuticos S/A. A Figura 28
apresenta o texto da bula profissional com destaque em azul para os respectivos termos iden-
tificados pela integracao das bases DrugBank e SNOMED-CT junto ao Bulario Eletronico da
ANVISA.
Figura 28 – Termos relativos as doencas Influenza A e Influenza B, como tambem aofarmaco Oseltamivir presente na bula profissional do medicamento Tamiflu.Fonte: Adaptado de (ANVISA, 2013).
A fim de ampliar o vocabularios de termos utilizados para pesquisa no conteudo dos
topicos das bulas profissionais, outras bases foram integradas ao sistema desenvolvido. As
outras bases utilizadas foram DO2, CTD3, Orphanet4 e a CID5 publicada pela Organizacao
Mundial de Saude6 (OMS). As Tabelas 4 e 5 organizam os bancos pela lıngua que sao disponi-
bilizados e apresentam uma sıntese de cada base integrada no trabalho.
2htt p : //disease−ontology.org/3htt p : //ctdbase.org/4htt p : //www.orpha.net/consor/cgi−bin/index.php5htt p : //www.datasus.gov.br/cid10/V 2008/cid10.htm6htt p : //www.who.int/eportuguese/publications/pt/
78
Tabela 4 – Listagem das bases integradas em Lıngua Inglesa.Nome Descricao
DrugBankCombina dados detalhados sobre drogas, informacoes
quımicas, farmacologicas e farmaceuticas.
SNOMED-CT - UMLS
Colecao de termos medicos que fornecem codigos, termossinonimos e definicoes sobre anatomia, doencas,
descobertas, procedimentos, microrganismos, substancias,entre outros.
DOOntologias de variados termos de doencas que sao
semelhantes e/ou hierarquizados.
CTD
Base de dados que explora informacoes sobre exposicoesambientais que afetam a saude humana, fornece dadoscurados manualmente sobre interacoes genes, doencas,
farmacos e respectivos relacionamentos entre eles.Fonte: Autoria propria.
Tabela 5 – Listagem das bases integradas em Lıngua Portuguesa.Nome Descricao
OrphanetConsorcio formado pela Uniao Europeia e outros paıses
que disponibiliza uma base de doencas raras emedicamentos.
CID - OMS
Conjunto de codigos relativos a classificacao de doencas ede uma variedade de sinais, sintomas, aspectos anormais,
queixas, circunstancias sociais e causas externas paraferimentos ou doencas.
Fonte: Autoria propria.
Entre as bases apresentadas nas Tabelas 4 e 5, destaca-se o uso das doencas disponi-
bilizadas pelo Orphanet e CID que foram utilizados pelo roteiro desenvolvido responsavel por
encontrar medicamentos indicados a determinadas doencas. A escolha destas bases ocorreu
principalmente pela publicacao das informacoes em Lıngua Portuguesa, algo que facilitou a
analise da vinculacao dos registros para validacao da eficacia do roteiro.
Ja as bases DO e CTD integradas sao disponibilizadas em Lıngua Inglesa (ver Tabela 4)
e estruturam informacoes sobre interacoes de genes, sequenciamento do genoma, proteınas
terapeuticas, entre outras. So o uso de termos em Lıngua Inglesa ja encarece o processamento
de inferir termos de doencas nas bulas medicas, pois ha necessidade de traducao dos termos
e validacao desses. Este processo ja e conhecido pelo trabalho relacionado ao uso da base
DrugBank e SNOMED-CT.
Detalha-se uso da base do SNOMED-CT para solucao do problema de inferir termos
no conteudo das bulas, pois imagina-se que em uma determinada bula existe o seguinte texto
“contraindicado para pacientes com problemas cardıacos”, problemas cardıacos e um termo ge-
ral quando comparado a diferentes termos mais especıficos como infarto do miocardio, tumor
79
cardıaco, estenose mitral, angina estavel, entre outros. Para identificacao destes termos foi so-
lucionado por meio do uso de ontologias medicas implementadas pelos registros do SNOMED-
CT relacionado os termos de doencas das bases DO, CTD, ORPHANET e CID.
Por meio das ontologias pode-se pesquisar diferentes termos entre as bulas que po-
dem ser sinonimos ou ter influencia sobre uma mesma contraindicacao, indicacao e ate mesmo
reacao adversa, o que pode ser visto pelo projeto DO (SCHRIML et al., 2012), na qual os au-
tores criam uma estrutura unica para classificacao de doencas a fim de unificar a representacao
da doenca entre muitas e variadas terminologias e vocabularios, juntamente com as relacoes
existente entre as doencas.
Como, por exemplo, imagine uma determinada bula em que sua indicacao e pres-
crita para melhorar a sobrevida apos infarto do miocardio em pacientes clinicamente estaveis.
Porem este medicamento e contraindicado seu uso concomitante e frequente a um outro medi-
camento que deve ser usado com cautela em pessoas com doencas cardiovasculares. Desse
modo, entende-se que infarto do miocardio e uma doenca cardiovascular o que resulta na
contraindicacao do uso concomitante destes medicamentos exemplificados. A ontologia para
doencas visa fornecer uma definicao clara para cada doenca dentro de uma baseada classificacao
etiologica dessa (SCHRIML et al., 2012).
4.1.3.1 Roteiro para identificacao dos farmacos
No topico “composicao”, verificam-se dois tipos de substancias: (i) princıpios ati-
vos - PA; (ii) excipiente - EXP. Entende-se pelo princıpio ativo o principal farmaco utilizado
na composicao do medicamento, esse responsavel pelo efeito farmacologico do remedio. Os
excipientes sao substancias utilizadas como veıculo para o princıpio ativo (BIGUETTI; AN-
DRADE, 2014). E possıvel encontrar substancias que sao farmacos na lista de produtos excipi-
entes, mas, em geral, essas substancias (por exemplo, farinha) nao sao farmacos.
O roteiro de identificacao de farmacos foi desenvolvido para analisar o conteudo do
texto referente a composicao do medicamento para identificar aqueles que sao princıpio ativo
ou excipiente. O Algoritmo 2 apresenta o pseudocodigo das etapas que o roteiro realiza para
identificacao dos farmacos, que sao: (i) leitura do conteudo da composicao do medicamento
realizado pela quebra de linha do texto (\r\n); (ii) pesquisa por princıpio ativo e excipiente de-
terminada por respectivos termos que indicam a qual tipo o termo identificado sera vinculado;
(iii) tratamento no termo encontrado para evitar retornar palavras que sao utilizadas apenas na
escrita do texto e nao representam um farmaco necessariamente; (iv) procurar o termo iden-
tificado nas drogas da base DrugBank, traducao da droga e dos sinonimos para pesquisa nos
80
termos; e (v) criar arquivo texto com o mapeamento dos termos identificados com seus respec-
tivos tipos e codigo identificador do DrugBank caso seja encontrado.
Figura 29 – Exemplo ilustrativo do resultado da identificacao dos farmacos no medi-camento Lotanol.Fonte: Autoria propria.
A Figura 29 apresenta um exemplo do processo de identificacao de farmacos realizada
no topico composicao do medicamento Lotanol, em que elenca-se todas as etapas realizadas.
Destaca-se pela Figura 29 a presenca do marcador =[COMP] em vermelho que indica o inıcio
do texto referente a composicao da bula, em que todo o conteudo e separado por meio das
quebras de linhas (\r\n).
O roteiro desenvolvido realiza a leitura linha a linha ate encontrar palavras que indicam
inıcio de um prıncipio ativo ou excipiente, que respectivamente estao exemplicados na figura
pela palavra “CONTEM” na cor azul e “EXCIPIENTES” na cor laranja, e limitados pelos ca-
racteres “....” sombreado em amarelo, quando identificado um prıncipio ativo, e para excipiente
delimitado pelo conjunto de caracteres “:”, “,”, “\” e “E” apresentada na cor roxa. A Tabela 6
apresenta os padroes encontrados por meio da analise realizada no texto das composicoes das
bulas, responsavel por identificar somente os termos referentes aos farmacos.
Detalha-se pela Tabela 6 que a coluna respectiva a palavras quebras serve para encon-
trar parametros de recorte de conteudo no texto, ou seja, tem a finalidade de encontrar palavras
81
Algoritmo 2: Algoritmo referente as etapas do processo de identificacao dos farmacos.Entrada: Texto do topico composicao da bula medicaSaıda: Identificacao dos termos referentes a princıpio ativo e excipiente
1 Inıcio2 textoComposicao← texto do topico composicao identificado na bula;3 linhas← textoComposicao dividido pelas quebras de linha (\r\n);4 totalLinhas← quantidade de linhas divididas;5 termos← lista com os termos identificados, separados pelas propriedades PA e EXP;6 conter← lista: CONTEM e CONTEM;7 quebrasPA← lista: ..., . . . ., -;8 quebraFimPA← valor: MG de;9 encontrouPA← f also;//salva se encontrou princıpio ativo
10 excipiente← lista: EXCIPIENTES, EXCIPIENTE, VEICULOS e VEICULO;11 quebrasEXP← lista: ,, :, (, ), CADA, *, E, +;12 quebraFimEXP← valor: CADA;13 marcarEXP← f also;//salva para marcar excipiente14 Para contadorLinha← 1 ate totalLinhas faca15 linha← linhas[contadorLinha];16 indice← variavel utilizada para armazenar posicao de recorte no texto;17 se nao encontrouPA entao18 encontrouPA← verifica se algo da lista conter acha em linha;19 encontrouEXP← se marcarEXP ou algo da lista excipiente acha em linha;20 se encontrouPA entao21 indice← posicao da letra do item de quebrasPA acha em linha;22 se indice >−1 e nao encontrouEXP entao23 linha← recorte do texto de linha na posicao de indice;24 tratar linha e salva-lo em lista termos com PA;25 fim26 se encontrouEXP entao27 encontrouPA← f also;28 indice← posicao da letra do item quebrasEXP acha em linha;29 se indice >−1 entao30 marcarEXP← verdadeiro;31 fim32 fim33 se indice ==−1 e nao PA em termos entao34 valor← divide linha por , ate quebraFimAP;35 se encontrou valor entao36 tratar valor e salva-lo em lista termos com PA;37 fim38 fim39 fim40 fim41 leitura linha ate quebraFimEXP e para salvar termos em lista termos com EXP;42 pesquisa dos termos na base DrugBank para possıvel vinculacao entre bases;43 Fim44 Retorne termos;//termos identificados
45 Fim
82
Tabela 6 – Padroes para identificar farmacos nas bulas.Tipo Palavras quebras Caracteres
Princıpio ativo CONTEM, CONTEM ..., . . . ., -, MG de
ExcipienteEXCIPIENTES,
EXCIPIENTE, VEICULOS,VEICULO
,, :, (, ), CADA, *, E, +
Fonte: Autoria propria.
que aparecem antes do farmaco. Encontrar o item da linha que apresenta algumas destas pa-
lavras significa que ela podera ser princıpio ativo ou se trata de um excipiente. Ja a coluna
referente aos caracteres, sao padroes responsaveis para verificar o fim do farmaco e ate mesmo
divisao de farmacos que aparecem juntos em um item da lista.
Por fim, entende-se pela Figura 29 que os valores sombreados em cinza representam os
termos identificados no texto como princıpio ativo e excipente, desta maneira exclui-se palavras
que nao sao necessarias para identificacao dos farmacos na base DrugBank.
4.1.3.2 Roteiro para buscar os termos medicos referentes as doencas
A base SNOMED-CT disponibilizou varios termos relacionados as doencas, porem
estes termos nao estavam organizados conforme a CID, nem possuiam sinonimos de doencas
e a organizacao de informacoes disponibilizadas pelas bases DO, CTD e ORPHANET. Os vo-
cabularios de doencas das bases DO, CTD, ORPHANET e CID foram relacionados com os
termos ja presentes no SNOMED-CT, a fim de formalizar a classificacao de doencas e ampliar
os termos relacionados a essas, assim contribuindo para integracao da bula com os registros de
doencas.
Para ampliar o vocabulario disponıvel na base SNOMED-CT foi realizado um relacio-
namento para integrar novas informacoes constantes nas bases DO, CTD, ORPHANET e CID.
Esta integracao ocorreu por meio dos seguintes processos:
1. os termos da base DO foram relacionados com a base SNOMED-CT por meio do codigo
identificador concept id presente em ambas as bases. A base DO disponibiliza as
ontologias referente ao vocabulario de doencas;
2. a relacao das informacoes presentes na base CTD foi relacionada por meio do codigo
identificador da base MeSH que esta presente na base DO ja relacionada com a base
SNOMED-CT. A base CTD agrega varios termos relacionados as doencas e tambem
apresenta registros que relacionam doencas com farmacos, esses identificados pelo codigo
drugbank id respectivo da base DrugBank;
83
3. a base CID organiza os termos de doencas conforme uma classificacao conhecida pela
area de saude, alem de disponibilizar informacoes em Lıngua Portuguesa. O banco de da-
dos do SNOMED-CT possui o respectivo codigo da CID mas nao organiza as informacoes
por capıtulos, grupos e doencas do mesmo jeito a base CID apresenta;
4. a base ORPHANET disponibiliza termos de doencas em Lıngua Portuguesa e organiza
sinonimos de variadas doencas. Essa base e relacionada com a base SNOMED-CT por
meio do respectivo codigo CID, presente em ambas as bases.
Para integrar os termos medicos do SNOMED-CT foi necessario utilizar uma ferra-
menta de traducao, pois os termos constantes nesta base se encontravam em lıngua inglesa o
que dificultava sua vinculacao com o texto as bulas.
Apos a traducao dos termos foi realizada uma etapa para tratamento destes junto a
busca nos topicos das bulas. Para o tratamento da busca foi utilizado o Sentence breaker e Stop-
words7 da Lıngua Portuguesa, assim, foi responsavel pela segmentacao e remocao de palavras
desnecessarias de todo o texto da bula. Por fim, tem-se a busca destes termos medicos com
os topicos dos medicamentos, que ao serem encontrados, neste texto, foram mapeados aos
respectivos concept id’s.
4.1.4 Desenvolvimento do banco de dados baseado em grafo
A informacao em relacao ao mapeamento dos termos medicos concept id e ao
mapeamento dos drugbank id foram armazenadas num banco de dados baseado em grafos.
O gerenciador de banco de dados escolhido para esta tarefa foi o Neo4j.
Para visualizar os remedios e suas relacoes foi escolhida uma ferramenta disponibili-
zada pelo proprio Neo4j que apresenta o resultado das consultas em grafo. A estruturacao do
grafo Neo4j e composta por nos e arestas que sao apresentados na Figura 30 e descritas como:
• nos: representam os elementos utilizados como fontes de informacoes para o sistema
desenvolvido. Definidos como:
1. empresas: industrias farmaceuticas responsaveis pela elaboracao dos medicamen-
tos;
2. medicamentos: bula profissional encontrada no Bulario Eletronico da ANVISA;
7htt p : //www.ranks.nl/stopwords/portugese
84
3. farmacos: termos de farmacos identificados pelo drugbank id da base Drug-
Bank;
4. doencas: termos de doencas identificados pelo concept id da base SNOMED-
CT.
• arestas: simbolizam as relacoes estabelecidas entre os nos, representadas como:
1. fornece: relacao estabelecida entre as empresas e os medicamentos disponibilizados
por essas. Por exemplo, o medicamento Kolantyl fornecido pela empresa Medley
Industria Farmaceutica Ltda.;
2. interacoes: interacoes entre os farmacos do DrugBank. Como o farmaco Phenobar-
bital (drugbank id DB01174) que possui interacao com o Dextroamphetamine
(drugbank id DB01576);
3. pertence: classificacao entre doencas que representam as ontologias medicas do
SNOMED-CT. Como a doenca Pneumonia (concept id C0032285) pertencente
ao conjunto de doencas abrangidas por Respiratory System Disease (concept id
C0029582);
4. semelhante: semelhancas encontradas entre os significados dos termos de doencas
do SNOMED-CT. Como por exemplo, os sinonimos Loeffler’s pneumonia e Lof-
fler’s syndrome encontrados na doenca Loeffler syndrome (concept idC0242459);
5. indicacoes: informa o objetivo terapeutico do medicamento, ou seja, indica que o
remedio e destinado para o tratamento, diagnostico, auxılio ou prevencao de de-
terminadas doencas. Como o medicamento Eranz, fornecido pela empresa Wyeth
Industria Farmaceutica Ltda., que e indicado para tratamento de Alzheimer’s disease
(concept id C0002395);
6. composicao: descreve os farmacos que sao utilizados como prıncipio ativo defini-
dos na formula do medicamento, tambem apresenta a composicao dos excipientes.
Como o farmaco Carbamazepine (drugbank id DB00564) presente no topico
composicao do medicamento Carbamazepina, disponibilizado pela empresa Uniao
Quımica Farmaceutica Nacional S/A;
7. resultados de eficacia: informa sobre o resultado do grupo tratado pelo medica-
mento com referencias bibliograficas, assim apresenta maior visualizacao da re-
levancia do tratamento deste remedio. Por exemplo, o medicamento Glimepirida
da empresa farmaceutica EMS S/A possui resultados de eficacia para a doenca Dia-
betes mellitus (concept id C0011849);
85
8. contraindicacoes: condicao relativa a uma doenca, a um farmaco ou a uma interacao
medicamentosa, que implique a nao utilizacao do medicamento. Por exemplo, o me-
dicamento Kolantyl , disponibilizado pela empresa Medley Industria Farmaceutica
Ltda., que e contraindicado para pacientes com Alzheimer’s disease (concept id
C0002395);
9. interacoes medicamentosas: respostas farmacologicas ou clınicas causadas pelas
interacoes entre medicamentos com outros que sao encontrados nas bulas, farmacos
ou doencas, cujo resultado final pode ser a alteracao dos efeitos desejados ou a
ocorrencia de eventos adversos. Por exemplo, o medicamento Yomax da Apsen
Farmaceutica S/A que possui interacoes medicamentosas com o farmaco Carbama-
zepine (drugbank id DB00564);
10. advertencias e precaucoes: instrui sobre medidas antecipadas ou avisos que favo-
recem o uso correto do medicamento, ou seja, previne agravos a saude e que possam
indicar a limitacao do uso do remedio, porem que nao o contra-indique. Por exem-
plo, o medicamento Mud Oral, disponibilizado pela Eurofarma Laboratorios S/A,
que possui advertencias e precaucoes para pacientes com a doenca Tuberculosis
(concept id C0041295);
11. reacoes adversas: qualquer resposta a um medicamento que seja prejudicial, nao-
intencional que altere o tratamento de doencas ou modifique uma funcao fisiologica
do remedio. Como o medicamento Dacarbazina, fornecido pelo Laboratorio Quımico
Farmaceutico Bergamo Ltda. tem reacoes adversas com o farmaco Phenobarbital
(drugbank id DB01174).
86
Figura 30 – Estrutura do grafo apresentando as relacoes entre medicamento geradapela ferramenta de consulta do Neo4j.Fonte: Autoria propria.
87
A base Neo4j facilita a busca de medicamentos, pois possibilita a pesquisa de remedios
por meio de farmacos, por exemplo, os remedios que possuem um determinado farmaco em
sua composicao, ou de doencas, como, os remedios que sao indicados para o tratamento de
uma certa doenca. O Neo4j viabiliza tambem consultas por medicamentos que sejam rela-
cionados a um conjunto de doencas, como por exemplo, medicamentos contraindicados para
pacientes em tratamento de doencas cardıacas. Esta base concede aos profissionais da area
de saude informacoes detalhadas sobre os medicamentos, como doencas que o medicamento e
contraindicado, farmacos que causem reacoes adversas, advertencias e precaucoes, e interacoes
medicamentosas a outros remedios.
Figura 31 – Exemplo do banco de dados em grafos gerada pela ferramenta de consultaNeo4j.Fonte: Autoria propria.
Dessa forma, um remedio e composto por farmacos (termos DrugBank) e trata um
conjunto de doencas (termos SNOMED-CT), alem de que ha farmacos que interagem com
outros farmacos, como tambem medicamentos nao indicados para tratamento de certas doencas.
A Figura 31 mostra como as informacoes entre as bulas estao interligadas e apresenta o retorno
de uma consulta no Neo4j que foi desenvolvida pelos dados processados nas etapas anteriores.
Para exemplificar o funcionamento do sistema, foi realizada uma consulta sobre me-
dicamentos, farmacos e doencas. Na Figura 31 e possıvel perceber que o medicamento Para-
cetamol e composto pelo farmaco Paracetamol, mesmo farmaco que possui interacao com o
medicamento Varfarina Sodica, por este motivo entende-se que o uso concomitante de Para-
cetamol e Varfarina Sodica possui interacao medicamentosa. Estas interacoes podem trazer a
perda de eficacia de algum composto, agravamento de alguma doenca, entre outros possıveis
problemas (SEAN, 2002).
O Cypher e a linguagem de consulta inspirada no SQL para descrever padroes em gra-
88
fos utilizada no Neo4j. Ele permite descrever o que usuario deseja selecionar, inserir, atualizar
ou excluir de um banco de dados em grafo do Neo4j sem a necessidade de descrever exata-
mente como faze-lo (NEO4J, 2014). Dessa forma, entende-se que a linguagem Cypher auxilia
nas pesquisas realizadas no banco de dados do Neo4j, pois colabora com a simplificacao de
comandos e rotinas complexas encontradas nesta base.
Tabela 7 – Exemplos de como pode ser utilizada a linguagem Cypher.Pergunta Consulta em Cypher
Ao utilizar o medicamento Euphyllin,quais os medicamentos possuem
contraindicacao a composicao destemedicamento?
MATCH (med:Medicamento{Nome:”EUPHYLLIN”})-[:‘COMPOSICAO‘]-¿(m)¡-
[:‘CONTRAINDICACAO‘]-(contraMeds)RETURN contraMeds
Todos os medicamentos que possuemrelacao com um determinado elemento,
por exemplo Anfetamina?
MATCH(med:Medicamento)-[relacaoCom]-(:Elemento{Conteudo: ”ANFETAMINA”}) RETURN
med, Type(relatedTo), relacaoCom
Todos os medicamentos que saocontraindicados a um determinado
elemento, por exemplo Anfetamina?
MATCH(med:Medicamento)-[relacaoCom]-(:Elemento{Conteudo: ”ANFETAMINA”}) WHERE
Type(relatedTo) =”CONTRAINDICACAO”RETURN med,
Type(relacaoCom), relatedToFonte: Autoria propria.
Algumas perguntas foram realizadas e as respectivas respostas foram exemplificadas
por meio da linguagem Cypher. Os exemplos destas consultas sao visualizadas na Tabela 7 que
apresenta na primeira coluna a pergunta interessada e a segunda coluna demonstra a consulta
Cypher desenvolvida com relacao a pergunta que foi inferida na base Neo4j.
4.2 INTEGRACAO DO BULARIO ELETRONICO DA ANVISA COM AS BASES DRUG-
BANK E SNOMED-CT
O Bulario Eletronico (NEVES et al., 2006) e um importante recurso de informacao,
pois por este sistema sao apresentados os medicamentos comercializados no Brasil, que sao
de interesse dos profissionais da saude pois sao remedios regulamentados pela ANVISA. Pelo
Bulario Eletronico da ANVISA sao disponibilizados um conjunto de arquivos em formato PDF
das bulas com informacoes atualizadas e controladas por esta autarquia federal vinculada ao
MS (BRASIL, 1999). As bulas profissionais sao fontes de informacoes importantes para o
sistema desenvolvido, pois trazem dados completos e atualizados dos medicamentos para os
profissionais da area de saude com a seguranca que a ANVISA proporciona (ANVISA, 2009).
89
Porem, os arquivos PDF das bulas profissionais nao estao estruturados, assim, para
que as informacoes do Bulario Eletronico da ANVISA sejam normalizadas ha a necessidade de
outras fontes de informacoes estruturadas que contribuam para a integracao desses dados.
Dessa forma, destaca-se a base DrugBank (WISHART et al., 2008), banco de da-
dos sobre farmacos aprovados e nao aprovados pela FDA (FDA, 2015). Esta base apresenta
informacoes farmacologicas detalhadas sobre cada farmaco e tambem as interacoes entre ou-
tros farmacos ou alimentos. O DrugBank normaliza termos que sao encontrados nas bulas dos
medicamentos, cujas estruturas sao elaboradas utilizando um conjunto de farmacos.
Outra fonte importante de dados e disponibilizada pela base SNOMED-CT (COTE;
PATHOLOGISTS; ASSOCIATION, 1993), que possui uma lista de procedimentos medicos,
doencas e suas classificacoes. A base fornece um vasto vocabulario de termos relacionados as
doencas, assim, disponibiliza os dados em ontologias medicas que sao encontradas nos topicos
do conteudo da bula profissional.
As informacoes estruturadas disponibilizadas pelo DrugBank e SNOMED-CT propor-
cionam uma facilidade na pesquisa pelos termos organizados por estas bases. Em ambas as
bases sao fornecidos vocabularios especıficos que estao presentes no texto da bula profissional
encontrada no Bulario Eletronico, ou seja, elas possibilitam a normalizacao dos arquivos PDF
das bulas da ANVISA.
Nesse contexto, a integracao do Bulario Eletronico da ANVISA com as bases Drug-
Bank e SNOMED-CT ocorre primeiramente pelo processamento dos arquivos PDF das bulas
profissionais, assim, facilita o tratamento do texto para padronizacao das informacoes obtidas
destes medicamentos.
Logo em seguida, organizam-se as informacoes processadas dos arquivos PDF em
topicos, que sao utilizados para redacao da bula presente em normas da Resolucao-RDC No
47 (ANVISA, 2009). Os topicos das bulas descrevem em textos as caracterısticas dos medi-
camentos, como o tratamento indicado, a composicao do remedio e tambem a contraindicacao
desse. E por meio da organizacao destes textos dos topicos que sao vinculados os vocabularios
presentes nas bases DrugBank e SNOMED-CT. Termos relacionados aos farmacos e as doencas
sao pesquisados nos topicos dos medicamentos a fim de estruturar os dados da bula profissional
com estas bases.
As relacoes obtidas por meio dos topicos das bulas profissionais com as bases Drug-
Bank e SNOMED-CT foram armazenadas em um banco de dados baseado em grafo por meio da
tecnologia Neo4j (NEO4J, 2014). A base Neo4j criada disponibilizou uma rede de medicamento-
farmaco-doenca, em que as informacoes estruturadas desta base fornecem pesquisas que facili-
90
tam a busca de medicamentos por farmacos ou doencas e apresentam informacoes relacionadas
a outros medicamentos, doencas ou farmacos.
4.3 INFRAESTRUTURA UTILIZADA PARA O FACIL BULA
Pelo desenvolvimento do banco de dados baseado em grafo do Neo4j realizado a par-
tir da estruturacao das informacoes disponibilizadas pelas bulas profissionais encontradas no
Bulario Eletronico, juntamente com a integracao entre outras bases de farmacos e doencas, foi
suficiente para disponibilizacao de ferramentas que facilitassem a pesquisa por medicamentos.
Desse modo, o website Facil Bula8 foi criado com o objetivo de desenvolver ferramentas que
auxiliem no trabalho dos profissionais de saude e facilitem a apresentacao de informacoes dos
medicamentos para os pacientes.
O Facil Bula permite uma pesquisa por nome do medicamento e pela empresa res-
ponsavel, a pesquisa por nome do remedio e facilitada por meio de um campo aberto com
autocomplete. A pesquisa ignora acentos e tambem se o nome do medicamento esta em letras
maiusculas ou minusculas, nao ha a necessidade de escrever o nome completo do remedio, basta
informar uma pequena parte do texto para que a pesquisa seja realizada.
A apresentacao do conteudo da bula disponibilizada pelo Facil Bula facilita a pesquisa
por informacoes especıficas de interesses dos profissionais e pacientes, pois organiza todo o
texto da bula em topicos definidos pela Resolucao-RDC No 47 (ANVISA, 2009). Na mesma
pagina referente aos detalhes do medicamento sao apresentadas informacoes como nome do
medicamento, empresa responsavel, data de publicacao e acesso para as duas versoes (paciente
e profissional) de bulas disponıveis em PDF.
A Figura 32 apresenta a organizacao das informacoes do medicamento Atrovex9, dis-
ponibilizado pela Medquımica Industria Farmaceutica S/A, encontrada no website Facil Bula.
Nota-se que a apresentacao do medicamento publicada pelo Facil Bula proporciona melhor usa-
bilidade do que o modo de visualizacao do Bulario Eletronico da ANVISA (ver Figura 23), pois
pelo sistema desenvolvido o profissional ou o paciente nao tem necessidade de abrir o PDF e
pesquisar as informacoes de dentro deste arquivo, basta que ele navegue pela opcao de versao
da bula desejada e escolha os respectivos topicos de seu interesse.
Para o desenvolvimento do website Facil Bula foi utilizada a plataforma ASP.NET
MVC (model-view-controller) e a linguagem de programacao C# (C Sharp), juntamente com
a IDE Visual Studio 2013, da Microsoft, devidamente licenciada para uso. A organizacao dos8htt p : //www. f acilbula.com.br/9htt p : //www. f acilbula.com.br/medicamento/561/atrovex
91
Figura 32 – Detalhes do medicamento Atrovex disponibilizado pelo website Facil Bula.Fonte: Autoria propria.
topicos fornecida pelo processamento das bulas foi armazenada no banco de dados relacional
MySQL.
Como hospedagem para o sistema desenvolvido foi utilizada a infraestrutura forne-
cida pela Amazon Web Services10 (AWS). A AWS possui uma estrutura totalmente escalavel e
fornece um conjunto de servicos de computacao remotos oferecidos pela internet que formam
uma plataforma de computacao em nuvem (AWS, 2015). Os servicos utilizados para gerir a
infraestrutura do Facil Bula sao:
• Amazon EC2: fornece acesso para instancias de servidores, permite que sejam criadas
varias imagens de servidores pelos usuarios. No projeto foi utilizada uma instancia Win-
dows Server para instalacao do Internet Information Services (IIS) responsavel por hos-
pedar o website e configuracao do Elastic IP da AWS para que a instancia tivesse um IP
fixo, assim facilitando as configuracoes de DNS e rotas para o site;
• Amazon S3: permite armazenar grandes quantidades de dados, que no projeto foi utili-
zado para armazenar os arquivos PDF das bulas da ANVISA;
• Amazon RDS: e um servico de banco de dados que fornece acesso ao MySQL. Base
relacional utilizada para armazenar todas as informacoes dos medicamentos e o resultado
10htt p : //aws.amazon.com/pt/
92
do processamento destes;
• Amazon Route 53: e um servico web de Domain Name System (DNS). Este servico
conecta as solicitacoes de usuarios a instancia Windows Server do Amazon EC2 com
IIS que hospeda o website Facil Bula.
Desde a primeira versao publicada do website Facil Bula a ferramenta Google Analy-
tics11 ja havia sido configurada. Esta ferramenta e responsavel por colher informacoes relacio-
nadas a navegacao dos usuarios, termos de pesquisa utilizados, local, tempo e forma de acesso,
tecnologia usada, entre outras, sobre o sıtio da web ou aplicativo associado.
As metricas geradas pelo Google Analytics sao importantes para o desenvolvimento
das paginas do Facil Bula, pois durante toda a programacao do site algumas tecnicas de Search
Engine Optimization (SEO) foram analisadas e aplicas, como Uniform Resource Locator (URL)
amigavel, estruturacao do HTML, uso de meta tags, entre outras praticas que contribuem para
a elevacao do numero de acessos relacionados com a pesquisa organica dos motores de buscas,
como Google, Bing e Yahoo.
11htt ps : //www.google.com/analytics/
93
5 RESULTADOS E DISCUSSAO
Este capıtulo descreve os resultados obtidos por meio do processamento realizado no
texto das bulas profissionais do Bulario Eletronico da ANVISA e a integracao desses com os ter-
mos relacionados aos farmacos do DrugBank e doencas do SNOMED-CT. Apresenta tambem
os registros encontrados nas bases DO, CTD, ORPHANET e CID utilizados para auxılio na
classificacao de doencas e no vocabulario de sinonimos dessas. Outros resultados listam-se por:
• conjunto e integracao de dados responsaveis pela criacao de uma base de dados baseada
em grafos, utilizando a tecnologia fornecida pelo Neo4j;
• exemplos de consultas inferidas na base Neo4j utilizando a linguagem Cypher;
• implementacao do website Facil Bula, juntamente com a analise de acessos desse, a
disponibilizacao de ferramentas e o aplicativo mobile desenvolvido;
• processo de incubacao do Facil Bula no Hotel Tecnologico da Incubadora de Inovacoes
da Universidade Tecnologica (IUT).
Alem destes resultados, o trabalho tambem apresenta resultados de carater social, pois
o projeto desenvolvido contribui com o trabalho do profissional da area de saude e disponibiliza
informacoes importantes para os pacientes. Neste contexto, estas pessoas poderao consultar
se um determinado medicamento pode ser prescrito juntamente com outros, dadas as restricoes
informadas sobre a situacao de cada tratamento, desse modo, auxilia o trabalho destes profissio-
nais para tomada de decisao. Aperfeicoara, assim, os custos com tratamento de saude e mitigara
as possıveis interacoes entre medicamentos que gerem reacoes adversas, alergias, agravamento
de doencas ja existentes, que causem intoxicacoes, podendo ate levar a morte.
A tecnologia empenhada neste projeto se resume na utilizacao de fontes de dados nao
estruturados de medicamentos da ANVISA, que passam por um processo de organizacao de
informacao e identificacao de termos relevantes, a fim de estruturar este processo em banco de
dados baseado em grafo, visto que os medicamentos possuem informacoes interligadas entre o
texto de cada bula medica, com isto foi possıvel obter os resultados apresentados.
5.1 CONJUNTO DE DADOS
Foram obtidos do banco de dados DrugBank 7.758 farmacos, com um total de 13.367
sinonimos e 24.059 registros de interacoes entre eles. Do SNOMED-CT foram adquiridos
94
1.521.854 termos medicos, processos cirurgicos, doencas entre outros textos relacionados a
saude, em que estes termos estao interligados em 4.658.377 relacoes apresentadas por esta
base. Ja na base DO foram encontrados 8.782 doencas, com 16.756 sinonimos. A estrutura do
CID contabilizou 22 capıtulos, 276 grupos de doencas e 12.489 termos relacionados a doencas.
Ja a base ORPHANET classificou 12.034 termos relacionados a doencas e seus respectivos
sinonimos em Lıngua Portuguesa. Por fim, pela base CTD foram mapeados 13.749 relacoes
farmaco-doenca.
Todos estes registros foram obtidos respectivamente pelo download das bases de dados
realizado entre os meses de janeiro ate maio de 2015. Os termos identificados nestas bases
foram utilizados para formar os vocabularios direcionados para identificacao de farmacos e
doencas.
Por meio do Bulario Eletronico da ANVISA foram adquiridos 6.961 arquivos PDF
das bulas profissionais. Estas bulas foram processadas e relacionadas aos termos de farmacos e
doencas obtidos dos bancos de dados que foram integrados para desenvolvimento de uma base
baseada em grafos, chamada Neo4j, em que foi possıvel demonstrar a rede entre medicamentos-
farmacos-doencas.
Pelo processo de elaboracao da base no Neo4j destaca-se a quantidade de relacoes
realizadas entre medicamentos, farmacos e doencas, totalizando 74.026 associacoes que sao
distribuıdas entre os seguintes topicos das bulas profissionais: composicao, indicacoes, ad-
vertencias e precaucoes, contraindicacoes, interacoes medicamentosas e resultados de eficacia.
A distribuicao destes valores e visualizada na Tabela 8 que apresenta os topicos das bulas pro-
fissionais e a quantidade de relacoes identificadas respectivamente divididas entre termos de
farmacos e doencas.
Tabela 8 – Lista com a quantidade de relacoes identificadas com medicamentos entre farmacos edoencas inferidas na base Neo4j.
Topico Relacao Farmaco DoencaComposicao 14.917 14.486 431Indicacoes 27.242 713 26.529
Advertencias eprecaucoes
4.085 371 3.714
Contraindicacoes 11.726 1.309 10.417Interacoes
medicamentosas5.659 3.639 2.020
Resultados de eficacia 3.970 1.197 2.773Fonte: Autoria propria.
Na Tabela 8, visualiza-se que o topico composicao da bula profissional deveria ser
composto apenas com informacoes relacionadas aos farmacos, porem dos 14.917 relaciona-
95
mentos identificados, 431 desses foram encontrados em termos que dizem respeito a doencas.
Tambem mostra-se pelo topico indicacoes, que diz respeito ao tratamento de doencas que o
medicamento esta associado, das 27.242 relacoes encontrados, 713 foram relacionadas com
termos de farmacos. Desse modo, entende-se que ha termos de farmacos que sao similares ao
vocabulario de doencas, igualmente como ha doencas que tambem estao constantes nos termos
relacionados aos farmacos.
5.2 EXEMPLOS DE CONSULTAS AO BANCO EM GRAFOS
Para testar a base de dados baseada em grafos do Neo4j, que foi desenvolvida para
relacionar as bulas profissionais com termos de farmacos e doencas, foram analisadas e elabo-
radas algumas perguntas. Estas perguntas tinham o objetivo de verificar a eficacia do modelo
criado, em que as respectivas respostas destas questoes foram obtidas por meio de consultas
realizadas na base Neo4j. As consultas foram elaborados pela linguagem Cypher que tem ca-
racterısticas diferentes de uma linguagem de consulta estruturada, porem quando comparada
com o formato de uma consulta em sintaxe SQL de um banco relacional se mostrou de facil
compreensao (NEO4J, 2014).
Para ilustrar algumas das funcionalidades do sistema, juntamente com as consultas
inferidas por meio da linguagem Cypher, algumas perguntas foram realizadas e os respectivos
exemplos serao descritos a seguir:
1. Quais medicamentos sao indicados para tratamento da doenca de Alzheimer?;
2. A qual tipo de doencas o Alzheimer pertence?;
3. Quais medicamentos possuem aspirina em sua composicao?;
4. Quais medicamentos possuem aspirina em sua composicao, porem sao contraindicados a
pacientes com insuficiencia renal?.
Com base na primeira pergunta foi elaborada a consulta em linguagem Cypher que
mostra os medicamentos indicados para tratamento da doenca de Alzheimer. A Figura 33 apre-
senta a estrutura da consulta desenvolvida em Cypher e o grafo que retornou 20 medicamentos
indicados para o tratamento de Alzheimer, que no exemplo elenca-se por: Exelon, Reminyl,
Hazol, entre outros.
Ja para a segunda pergunta foi resolvida por meio de uma consulta que apresentou a
relacao sobre termos entre as doencas inferidas na base Neo4j desenvolvida. A Figura 34 apre-
96
Figura 33 – Medicamentos indicados para tratamento de Alzheimer.Fonte: Autoria propria.
Figura 34 – Relacao entre os termos de doencas.Fonte: Autoria propria.
senta a consulta e o resultado das hierarquias entre os termos referentes a doenca de Alzhei-
mer. Pela Figura 34 visualiza-se que Alzheimer’s disease (concept id C26929004) per-
tence aos termos medicos tauopathy (concept id C111479008) e dementia (concept id
C52448006).
Para a terceira questao elaborada foi desenvolvida uma consulta que representa os me-
97
Figura 35 – Medicamentos que possuem aspirina em sua composicao.Fonte: Autoria propria.
dicamentos que utilizam aspirina em sua composicao. Na Figura 35 exibe-se o resultado da
consulta realizada utilizando como pesquisa o codigo do drugbank id ao inves de pesqui-
sar pelo nome do farmaco, que no caso da aspirina seria Acetylsalicylic acid (drugbank id
DB00945). Por meio da Figura 35 percebe-se que a consulta retornou 32 medicamentos que se
encaixavam na condicao especificada.
Por fim, a quarta e ultima pergunta foi realizada com relacao a consulta apresenta na
Figura 35, a qual imagina-se que um determinado paciente que possui insuficiencia renal ne-
cessite tomar um medicamento com aspirina em sua composicao. A solucao para esta pergunta
esta representada pela consulta Cypher descrita na Figura 36.
A Figura 36 mostra os medicamentos que possuem aspirina em sua composicao, mas
que sao contraindicados para pessoas que tenham insuficiencia renal, referente ao termo kidney
failure (concept id C192789001) da base SNOMED-CT. Comparando-se o retorno apre-
sentado pela Figura 36 com a Figura 35 visualiza-se que a consulta retornou apenas 13 medi-
camentos, e nao 32 como foi apresentado pela Figura 35. Dessa forma, percebe-se que quanto
mais condicoes sejam inferidas, medicamentos mais especıficos podem ser encontrados pelas
consultas.
98
Figura 36 – Medicamentos que possuem aspirina em sua composicao, porem sao con-traindicados para insuficiencia renal.Fonte: Autoria propria.
Com o banco de dados Neo4j, por meio da linguagem Cypher, possibilitou de ma-
neira simplificada diferentes consultas com varios tipos de cruzamento de informacoes. A
estruturacao de todos esses dados resulta em uma contribuicao para o trabalho dos profissi-
onais brasileiros, pois retorna as interacoes entre medicamentos, possıveis contraindicacoes,
reacoes adversas, medicamentos por doenca, entre outras questoes, o qual oferece informacoes
bem mais completas do que o Bulario Eletronico da ANVISA apresenta atualmente para os
usuarios.
As consultas quando comparadas com a sintaxe SQL de um banco relacional se mos-
traram de compreensao facil e desempenho superior, pois o Neo4j pode ser utilizado como um
substituto de alto desempenho para bases de dados relacionais, especialmente para manipulacao
de dados altamente interligados (HOLZSCHUHER; PEINL, 2013).
Por meio do resultado obtido pelos testes realizados pode-se esclarecer que as simples
consultas desenvolvidas pelo Cypher puderam retornar relacoes complexas entre medicamentos.
As perguntas realizadas puderam exemplificar os questionamentos diarios dos profissionais da
area da saude, que poderao ser auxiliados durante a prescricao medica pelo presente trabalho.
99
5.3 IMPLEMENTACAO FACIL BULA
Figura 37 – Website do Facil Bula.Fonte: Autoria propria.
O website do Facil Bula, representado pela Figura 37, foi desenvolvido na arquitetura
ASP.NET MVC, com linguagem C# e .NET Framework 4.5, na plataforma Microsoft. Utilizou-
se para layout o Bootstrap1 em sua versao 3.0, este arcabouco computacional propoe facilidades
para etapa de implementacao pois possui uma documentacao simples e bem intuitiva, e otimi-
zado para paginas responsivas, e tambem e compatıvel com os principais navegadores utilizados
atualmente, como: Chrome, Safari, Firefox, Internet Explorer e Opera.
As tecnicas de SEO aplicadas nas paginas do Facil Bula contribuem para melhorar o
posicionamento do website nos mecanismos de buscas globais. Destaque para o uso de URLs
amigaveis em todas as paginas do portal, juntamente com a definicao de tıtulos diferenciados
entre estas, a fim de que palavras-chave possam constar no tıtulo, na URL e tambem no conteudo
da pagina.
Tambem foram aplicadas tecnicas de redirecionamento WWW e de canonicalizacao
de IP, que respectivamente direciona www.facilbula.com.br e facilbula.com.br para a mesma
URL, e encaminha o IP do website para o nome do domınio facilbula.com.br. Dessa maneira,
redirecionar solicitacoes de um domınio nao preferencial e importante, pois os motores de busca
1htt p : //getbootstrap.com/
100
verificam a URL com e sem “www” como dois websites diferentes, alem de que e consideravel
que o IP do site nao seja indexado pelos robos de pesquisa.
O uso do arquivo robots.txt contribuiu para impedir os acessos dos robos dos motores
de busca a diretorios e paginas especıficas. Ja o uso do XML Sitemap auxiliou para listagem
de URLs disponıveis para rastreamento e acrescimo de informacoes adicionais, como ultima
atualizacao do site, a frequencia de mudancas e sua importancia. Verifica-se que o uso destes
arquivos permite aos motores de busca rastrear o website de forma mais inteligente.
Outra tecnica aplicada nas paginas esta voltada ao uso de Schema.org, que sao vo-
cabularios de entidades e relacoes com a funcao de modelar esquemas para estruturar dados
na Internet, em paginas da web, mensagens de e-mail, entre outros (SCHEMA.ORG, 2015).
Schema.org e patrocinado pelo Google, Microsoft, Yahoo e Yandex, e ja e utilizado por mais
de 10 milhoes de websites (SCHEMA.ORG, 2015).
Figura 38 – Resultado da ferramenta Structured Data Testing Tool em uma pagina deCID do Facil Bula.Fonte: Adaptado de (DEVELOPERS, 2015).
Dentro da plataforma para desenvolvedores do Google, chamada de Google Develo-
pers (DEVELOPERS, 2015), esta disponıvel a ferramenta Structured Data Testing Tool2, res-
ponsavel por validar se os vocabularios do Schema.org foram aplicados corretamente em uma
pagina da web. A Figura 38 apresenta o resultado obtido na pagina3 do Facil Bula que mostra
informacoes sobre a doenca “Carcinoma in situ do estomago”, pela figura destaca-se o uso dos
vocabularios:
2htt ps : //developers.google.com/structured−data/testing− tool/3htt p : //www. f acilbula.com.br/cid/doenca/914/d002− estomago
101
• BreadcrumbList (SCHEMA.ORG, 2015): representa uma cadeia de paginas da web vin-
culadas, que exemplificada pela figura apresenta a organizacao da CID: Capıtulo, Grupo
e Doenca;
• WebSite (SCHEMA.ORG, 2015): apresenta o nome da pagina e URL do website atrelada
a um domınio;
• MedicalCondition (SCHEMA.ORG, 2015): esquema relacionado a saude que representa
condicoes do corpo humano, em que pela figura representa informacoes de uma determi-
nada doenca.
5.3.1 Application Programming Interface (API) e Negocios
Para concepcao do Facil Bula foi empregada a arquitetura REST (FIELDING, 2000),
que aplica o conceito de servir aplicacoes em rede, e a aplicavel a construcao de API.
A vantagem de utilizar uma API e que a comunicacao entre os dados e realizado de
forma simples, por vezes via Json, com o uso de metodos GET, POST ou PUT dependendo da
requisicao solicitada. Centralizar o acesso as informacoes, neste caso dentro da infraestrutura
de servicos da Amazon Web Services4 (AWS), torna o website uma aplicacao escalavel, pois
caso necessite de melhor desempenho e possıvel requisita-lo via AWS.
Outro caso vem do uso compartilhado das informacoes que ocorre por meio das ferra-
mentas disponibilizadas pelo site Facil Bula, funcionalidades como consulta de medicamentos
e detalhes destes sao apresentadas da mesma maneira pelo aplicativo5 desenvolvido na plata-
forma iOS, ambas aplicacoes realizam as consultas por REST consumindo da API desenvolvida
para retorno dos dados. A Figura 39 mostra a pagina referente ao aplicativo Facil Bula imple-
mentado em parceria com o desenvolvedor mobile Raul Lermen na loja de aplicativos da Apple,
App Store (STORE, 2015).
A Figura 40 apresenta informacoes sobre a quantidade de downloads do aplicativo
Facil Bula realizada na App Store, na qual totaliza-se em 93 unidades instaladas em dispo-
sitivos iPhone. A consulta foi feita no dia 14 de setembro de 2015 por meio da ferramenta
iTunes Connect (APPLE, 2015), que e responsavel por apresentar metricas de desempenho do
aplicativo e tambem recolhe feedback dos usuarios.
Dessa maneira, entende-se que a consolidacao da API facilita a manutencao do codigo,
e a distribuicao de servicos, o que traz para o projeto uma nova maneira de gerar negocios, que
4htt ps : //aws.amazon.com/pt/5htt ps : //appsto.re/br/3Ko98.i
102
Figura 39 – Pagina do aplicativo Facil Bula na App Store.Fonte: Adaptado de (STORE, 2015).
Figura 40 – Quantidade de downloads do aplicativo Facil Bula na App Store.Fonte: Adaptado de (APPLE, 2015).
seja por meio da integracao de servicos via API de parceiros em potencial, ou o desenvolvimento
de novos aplicativos para outras plataformas.
103
5.4 ESTATISTICAS DE ACESSO AO FACIL BULA
O sıtio da web Facil Bula, que tem permissao de vinculacao das bulas pela resposta
da ANVISA presente no Anexo B, foi disponibilizado no dia 20 de maio de 2015 e desde
sua publicacao monitorado por meio do Google Analytics6. Analytics e um servico gratuito
da Google que exibe estatısticas de visitas aos sıtios web e aplicativos. Desse modo, algumas
estatısticas sobre o website Facil Bula elencam-se com base na navegacao dos usuarios coletada
no perıodo dos meses de junho a julho e tambem visualizada pela Figura 41:
• Sessoes: 35.061, na qual sessao e o perıodo em que um usuario permanece no website;
• Usuarios: 31.961 usuarios que realizaram pelo menos uma sessao, sendo esta nova ou
recorrente;
• Visualizacoes de pagina: 61.265 paginas visualizadas, inclui-se exibicao repetida;
• Paginas/sessao: 1,75 e a media de paginas visualizadas por sessao;
• Duracao media da sessao: 53 segundos;
• Taxa de rejeicao: 80,97% das visitas a uma pagina nao possuem interacao do usuario;
• Porcentagem de novas sessoes: 91,10% sao o numero das primeiras visitas.
Com base na Figura 41 mostra-se que no mes de julho o website apresentou em media
1.000 sessoes de segunda a sexta com quedas de aproximadamente 50% aos sabados e domin-
gos, isso sem investimento algum com publicidade, ou seja, nenhum valor foi aplicado com
Google AdWords, Bing Ads, Facebook Ads ou outra ferramenta de marketing. A explicacao
para estes valores se resume a aplicacao de tecnicas de SEO.
Figura 41 – Estatısticas do Facil Bula no perıodo de junho a julho.Fonte: Adaptado de (ANALYTICS, 2015).
O uso de tags HTML corretamente aplicadas e hierarquizadas, ligada a aplicacao de
meta tags como: description e keywords, que definem respectivamente a descricao exibida nos
6htt ps : //www.google.co.uk/intl/pt−BR/analytics/
104
resultados dos motores de busca e palavras-chave utilizadas para interpretar o conteudo das
paginas, contribuem com o desempenho da busca organica do website, o que pode ser visuali-
zado pela Figura 42.
Figura 42 – Visao geral de aquisicao no perıodo de junho a julho.Fonte: Adaptado de (ANALYTICS, 2015).
A Figura 42 mostra a porcentagem dos acessos ao site Facil Bula, em que comprova-se
que todas as tecnicas de SEO aplicadas resultaram em 85,7% (21.547 sessoes) de todo acesso
dado pela pesquisa organica (organic search), na qual destacam-se os motores de busca do
Google, Bing e Yahoo. Em segundo lugar, com 11.8% (2.955 sessoes), apresentam o acesso
direito (direct), que significa o acesso do usuario diretamente pelo endereco do website por meio
do browser. O restante de acessos e totalizado por mıdias sociais como: Facebook, Twitter e
Google Plus, na qual representam 2,4% de todas as sessoes obtidas.
Do total de 35.061 sessoes adquiridas entre o perıodo junho a julho de 2015, apresenta-
se o valor de 32.256 sessoes so no Brasil, o que representa 92% do total que foi alcancado
neste perıodo. Ao analisar a Figura 43 visualiza-se a distribuicao das sessoes entre os estados
brasileiros, na qual destaca-se os valores apresentados no estado de Sao Paulo que totalizam
10.020 sessoes (31,06% de todos os valores mensurados no perıodo), em seguida evidenciam
os valores obtidos pelos estados do Rio de Janeiro, Minas Gerais e Parana, que respectivamente
adquiriram 3.469 (10,75%), 3.276 (10,16%) e 2.726 (8,45%) sessoes.
Os menores resultados alcancados foram obtidos nos estados de Roraima, Amapa e
Acre, que nesta ordem adquiriram 36 (0,11%), 44 (0,14%) e 46 (0,14%) sessoes, e apresenta-
ram valores menores que 100 sessoes adquiridas entre o perıodo junho a julho.
Ja pela Figura 44, mostra-se em nıvel de cidades as sessoes adquiridas por estas, na
qual revela-se a cidade de Sao Paulo com a maioridade de sessoes, 5.400 destas que representam
16,74% do total mensurado no perıodo de junho a julho, seguida por Rio de Janeiro, Belo
105
Figura 43 – Cobertura geografica de acessos por estados do Brasil entre o perıodojunho a julho.Fonte: Adaptado de (ANALYTICS, 2015).
Figura 44 – Cobertura geografica de acessos por cidades brasileiras entre o perıodojunho a julho.Fonte: Adaptado de (ANALYTICS, 2015).
Horizonte e Salvador, que representam respectivamente 2.893 (8,97%), 2.012 (6,24%) e 1.177
(3,65%) sessoes obtidas.
106
Por fim, a Figura 45 lista as 10 palavras-chave de medicamentos mais impressas por
meio das pesquisadas no motor de busca do Google entre perıodo junho a julho de 2015, em
que do total de 450.000 impressoes obtidas neste perıodo, 314.500 foram registradas no Brasil,
o que representa 69,89% deste total.
Figura 45 – Palavras-chave de medicamentos realizadas na pesquisa do Google entreo perıodo junho a julho.Fonte: Adaptado de (ANALYTICS, 2015).
A Figura 45 apresenta uma tabela retirada da ferramenta Google Analytics que apre-
senta em suas colunas informacoes referentes a quantidade de impressoes, cliques efetuados,
posicao media no resultado das pesquisas e taxa de cliques por impressoes (CTR).
Destacam-se os resultados obtidos em algumas palavras, como:
• “suavicid”7: registrou maior numero de impressoes, 4.500 que representa 1,43% do total
registrado;
• “hormoskin”8: registrou segundo maior numero de impressoes, 3.500 do total de 450.000,
o que vale a aproximadamente 1,11% deste total;
• “polaradex”9: registrou 3.000 impressoes e uma posicao media nas pesquisas de 4,1, isto
significa que na maioria das pesquisas realizadas o Facil Bula era exibido na primeira
pagina de busca do Google;
• “betatrinta”10: pior taxa de cliques por impressoes entre as palavras-chave apresentadas,
apenas 1,20% (30 cliques / 2.500 impressoes);
7htt p : //www. f acilbula.com.br/medicamento/5533/suavicid8htt p : //www. f acilbula.com.br/medicamento/3341/hormoskin9htt p : //www. f acilbula.com.br/medicamento/4881/polaradex
10htt p : //www. f acilbula.com.br/medicamento/736/betatrinta
107
• “monessa”11: obteve maior quantidade de cliques, registrando 250 (0,68% do total obtido
no perıodo pesquisado).
De todas estas palavras, a “monessa” foi a palavra-chave de medicamento que obteve
melhor desempenho entre todas as apresentadas pela Figura 45, pois pontuou melhor taxa de
clique por impressao (10,00%), justificada pela quantidade de 2.500 impressoes e 250 cliques,
resultando assim em uma posicao media de 2,7 entre as pesquisas do Google. Este e um re-
sultado importante para o site Facil Bula, pois em um pequeno perıodo de disponibilizacao do
website, conseguiu alcancar uma alta posicao de pesquisa quando comparada a outros sites de
grande vinculacao e que ja estao no disponıveis a muito tempo pela internet.
Dessa forma, conclui-se pela Figura 45 que obter grandes quantidades de impressoes
em uma palavra-chave nao significa possuir muitos acessos, pois sem cliques nestas impressoes
representam que o website nao esta sendo navegado, assim nao passa interesse ao publico.
Um exemplo visualiza-se pela palavra-chave betatrinta que apresentou maior quantidade de im-
pressoes, mas poucos cliques relacionados a estas impressoes, cenario diferente quando com-
parado com a palavra-chave “monessa” que obteve a melhor taxa de cliques por impressoes
apresentada pela figura.
Figura 46 – Anuncio criado para o website Facil Bula.Fonte: Adaptado de (ADWORDS, 2015).
Durante o perıodo de agosto a setembro de 2015 foi realizado um plano de publici-
dade pago por meio do Google AdWords12, ferramenta que permite criar anuncios (visualizado
pela Figura 46) vinculados a termos de pesquisa no Google para mostrar as pessoas o que sao
oferecidos por estes, e um sistema utilizado por mais de um milhao de empresas (ADWORDS,
2015).
Neste plano de publicidade pago foram investidos R$ 160,00 (cento e sessenta reais),
junto a mais dois codigos promocionais no valor R$ 100,00 (cem reais) e R$ 150,00 (cento
e cinquenta reais), assim, totalizando R$ 410,00 (quatrocentos e dez reais) em publicidade do
AdWords para o website Facil Bula gerando aproximadamente 187.589 impressoes, que foi o
11htt p : //www. f acilbula.com.br/medicamento/4154/monessa12htt ps : //www.google.com.br/adwords/
108
numero de pessoas que visualizaram os anuncios criados. Dessas resultam-se em 5.515 cliques,
numero de vezes que as pessoas chegaram ate o website por meio destes anuncios, obtendo
assim um custo medio por clique em anuncio de R$ 0,07 e uma taxa media de cliques de
2,94% (porcentagem de pessoas que visitaram o website apos ver os anuncios).
Figura 47 – Historico de transacoes do AdWords no mes de agosto.Fonte: Adaptado de (ADWORDS, 2015).
Figura 48 – Historico de transacoes do AdWords no mes de setembro.Fonte: Adaptado de (ADWORDS, 2015).
Pela Figura 47 e 48 visualiza-se todo historico de transacao realizada pelo Google
AdWords no perıodo de agosto a setembro, em que apresenta os valores compensados, bem
109
como a quantidade de cliques e o valor debitado por dia com a campanha.
Existem alguns fatores que explicam a variacao entre valores debitados e o total de cli-
ques contabilizados pela atividade dos anuncios por dia, como o valor configurado de orcamento
diario da campanha e o custo por clique das palavras-chave vinculado a lances.
O historico de transacao do mes de agosto mostrado na Figura 47 destaca a atividade
apresentada no dia 31 como a campanha de melhor desempenho, pois obteve 452 cliques debi-
tando o valor de R$29,92. Agora, apresentando pior desempenho esta a atividade registrada no
dia 28 que contabilizou 328 cliques e consumiu R$ 52,57.
Pelo historico de transacao do mes de setembro mostrado na Figura 48 lista-se a ativi-
dade apresentada no dia 4 como a que teve melhor desempenho, pois adquiriu 660 cliques pelo
valor de R$ 29,22. Entretanto, apresentando o pior desempenho esta a atividade registrada no
dia 8 que contabilizou 122 cliques e consumiu R$ 14,60.
A Figura 49 mostra a estatıstica do Facil Bula no perıodo de junho a setembro. Por ela
visualiza-se o aumento na quantidade de acessos durante os meses de agosto e setembro gerado
pelo investimento em publicidade no AdWords, na qual destaca-se o maior numero de sessoes
obtidas no dia 9 de setembro contabilizando o valor de 1.646.
Figura 49 – Estatısticas do Facil Bula no perıodo de junho a setembro.Fonte: Adaptado de (ANALYTICS, 2015).
Pela Figura 50 visualiza-se as palavras-chave que obtiveram melhor desempenho du-
rante o perıodo de anunciado disponibilizados pelo AdWords. Entre estas palavras, ressalta-se
a “bula s” que teve a maior quantidade de cliques, exatos 2.786, totalizou 4,99% de clickth-
rough rate (CTR), o qual representa o numero de cliques que o anuncio recebe dividido pelo
numero de vezes que ele e exibido, com cost-per-click (CPC) de R$ 0,04, que e o valor pago
pelos anuncios dividido pelo total de cliques. A menor quantidade de cliques foi registrada pela
palavra “cid 10 doencas”, com 26 cliques, CTR de 3,22% e CPC de R$ 0,05.
A palavra com CTR mais elevado foi marcado pela palavra “bulas medicas”, com o
valor de 14,43%, somou 217 cliques, CPC de R$ 0,18, que consequentemente foi a palavra
com CPC mais elevado. Ja o menor CTR foi encontrado pela palavra “doencas”, exatos 1,54%
de CTR, com 27 cliques e CPC de R$ 0,04.
110
Figura 50 – Palavras-chave com melhor desempenho.Fonte: Adaptado de (ADWORDS, 2015).
Por fim, o menor ındice de CPC custou R$ 0,03 e foi registrado pela palavra “cid”,
que obteve 134 cliques com CTR de 2,46%.
Figura 51 – Mapa com a localizacao de acessos realizados no website Facil Bula.Fonte: Adaptado de (ANALYTICS, 2015).
Pelo Google Analytics tambem foi possıvel verificar que o Facil Bula foi acessado por
varios paıses, conforme exibe a Figura 51 que mostra em tons de azul os paıses que visitaram
o sıtio da web. Ainda, destaca-se que o website foi acessado em sua maioria pelo Brasil, totali-
zando 141.579 sessoes que representam 95% de todo o perıodo que os usuarios ficaram ativos
111
no site, sendo este perıodo especificado desde sua publicacao em 20 de maio de 2015 ate o dia
18 de novembro do mesmo ano.
5.5 HOTEL TECNOLOGICO
A Incubadora de Inovacoes da Universidade Tecnologica13 tem como objetivo dar su-
porte a empresas que oferecem algum resultado a partir de pesquisas aplicadas, nos quais a
tecnologia e a maneira de apresentar estas informacoes representam alto valor agregado para o
negocio. Resume-se em acelerar o processo de criacao para empresas e aumenta a expectativa
de sobrevivencia desta na sociedade.
A Incubadora da UTFPR Campus Cornelio Procopio atua em duas modalidades de
trabalho:
• Pre-incubacao, tambem chamado por hotel tecnologico;
• Incubacao de empresa.
A oportunidade de inscrever o projeto Facil Bula no edital da UTFPR para processo
de incubacao da ideia no hotel tecnologico esta ligada a parte empreendedora do trabalho re-
alizado. Motivada pela disciplina de empreendedorismo, presente no programa de mestrado
profissional da instituicao, o conceito de criar uma empresa para que o trabalho seja oferecido e
comercializado, gerando empregos e investimentos para uma melhor infraestrutura e tecnologia
foi bem aceita para continuacao do projeto.
A partir da conclusao da primeira etapa do processo de inscricao, comprovada pelo
Anexo C, o programa ja disponibilizou uma trilha de cursos realizados pela UTFPR com par-
ceria do SEBRAE para capacitacao dos inscritos em temas relacionados a planejamento, con-
tabilidade, Startup, empresas, assuntos jurıdicos, entre outros assuntos necessarios para este
ramo.
Por meio dos cursos ministrados pelos consultores do SEBRAE foi desenvolvido o
Plano de Negocio do Facil Bula, na qual evidenciou a proposta de valor do trabalho, identifi-
cou os clientes chave e listou canais de relacionamentos com esses, maneiras de monetizar as
ferramentas, parcerias, entre outros valores. De modo que tambem foi realizada a solicitacao
do registro de marca referente ao website Facil Bula junto ao Instituto Nacional da Propriedade
Industrial (INPI) para proteger a marca desenvolvida.
13htt p : //incubadora.cp.ut f pr.edu.br/site/
112
Ao termino do Plano de Negocio do Facil Bula concebido pelo treinamento realizado
entre a parceria UTFPR e SEBRAE, o projeto foi submetido a uma banca de avaliacao (visto
Anexo D) no dia 5 de novembro de 2015 composta por membros do SEBRAE, FIEP, Prefei-
tura Municipal de Cornelio Procopio, Associacao Comercial de Cornelio Procopio, Camara da
Mulher Empreendedora, professores e tecnicos da UTFPR.
A banca de avaliacao foi a ultima etapa do processo de selecao para o Hotel Tec-
nologico. Apos a realizacao da apresentacao do projeto, os membros da banca fizeram alguns
questionamentos sobre a monetizacao do produto, tambem a questao jurıdica e de seguranca
das informacoes, porem se mostraram favoraveis ao plano apresentado. Dessa forma, o projeto
Facil Bula14 foi aprovado pela presente banca conforme apresenta o Anexo E.
14htt p : //incubadora.cp.ut f pr.edu.br/site/ f acil−bula/
113
6 CONCLUSAO
Esta dissertacao apresentou um novo sistema web chamado de Facil Bula que tem
como objetivo melhorar a usabilidade do Bulario Eletronico da ANVISA. O Facil Bula propor-
ciona uma navegacao com informacoes segmentadas por topicos dos medicamentos ao inves
da bula em PDF, assim contribuindo para indexacao do conteudo dos medicamentos realizada
pela pesquisa dos usuarios nos motores de busca do Google, Bing, Yahoo, entre outros. A fer-
ramenta apresenta uma usabilidade diferente do que e abordada pelo sistema da ANVISA, pois
a experiencia do usuario e melhorada ja que ele consegue ver as informacoes de seu interesse
mais rapidamente e com menos cliques.
Outro aspecto apresentado pelo website do Facil Bula e a capacidade de se ajustar entre
os diferentes modos de acessos dos usuarios, ja que possui um layout responsivo o sıtio da web
se adapta diferentemente para cada tipo de navegacao, como: mobile, tablets e desktop.
Os resultados preliminares foram aceitos no XI Simposio Brasileiro de Sistemas de
Informacao (SBSI), ocorrido na cidade de Goiania-GO entre os dias 26 e 29 de maio de 2015.
A respectiva publicacao e apresentada pelo Anexo A.
Alem disso, pode-se concluir que:
1. A segmentacao dos topicos das bulas foi realizada com sucesso, permitindo a criacao de
outras analises, incluindo anotacao por meio das ontologias biomedicas e tambem pela
classificacao de doencas;
2. A importancia do sistema foi corroborada por meio da quantidade de acessos que e rea-
lizada diariamente, na qual a maioria desses acessos ocorrendo nos estados de Sao Paulo
e Rio de Janeiro. Atrelada a esta estatıstica esta a quantidade de downloads do aplicativo
Facil Bula para iOS ja realizada;
3. O objetivo de conseguir atender a populacao brasileira foi atingida uma vez que segundo
o mapa de acessos, disponibilizado pelo Google Analytics, ocorreram consultas em todos
os estados do Brasil;
4. As tecnicas de SEO utilizadas foram eficientes para o desempenho da indexacao do
Facil Bula, pois em um curto perıodo de disponibilizacao deste na web as palavras-chave
apresentadas por meio da pesquisa organica do Google retornaram, por vezes, uma boa
posicao media de pesquisa.
114
6.1 TRABALHOS FUTUROS
O trabalho futuro incide em investimento para criacao de uma identidade visual para
o Facil Bula, na qual uma nova marca seja criada, para que tanto o website, quanto os aplicati-
vos utilizem os mesmos componentes e layout, assim mantendo para o usuario uma visao que
independente da plataforma a marca se mantem.
Tambem elencam-se: a escrita de artigos por meio do estudo de novas tecnologias se-
guindo a publicacao aceita pelo SBSI (DA SILVA; SILLA JR.; KASHIWABARA, 2015), junta-
mente com a procura por parcerias para o crescimento do projeto, como a UTFPR e o SEBRAE
com cursos, consultoria e estrutura, juntamente com a participacao de eventos relacionados com
saude, empreendedorismo, tecnologias, entre outras areas. A procura por recursos para investi-
mento em infraestrutura, servidores com melhores desempenhos, e marketing, relacionado com
mıdias sociais e tambem com publicidade digital, atrelado ao estudo de tecnicas para melhorar
os ındices de CTR, bem como potencializar a taxa de CPC em anuncios do Google AdWords. O
crescimento do projeto possui como principal objetivo a busca de mais usuarios para o sistema,
ja que nosso plano de negocio aprovado pela Incubadora da UTFPR se resume na aquisicao
de clientes que paguem mensalmente assinatura ao website e assim tenham acesso a todas as
ferramentas que sejam disponibilizadas pela plataforma.
Pretende-se manter um canal aberto por meio de um questionario com os usuarios do
Facil Bula para que esses possam avaliar as ferramentas disponıveis e descrever sobre duvidas,
sugestoes ou melhorias que possam agregar para o sistema. Pelo aspecto social do projeto e de
interesse que se submeta a ferramenta a um Comite de Etica para que se faca uma avaliacao do
projeto como um todo.
Por fim, pretende-se continuar a pesquisa por tecnologias e desenvolver novas ferra-
mentas para o mercado, tambem desenvolver aplicativos para Android e Windows Phone, alem
de disponibiliza-los para o uso em tablets e integracao com outros dispositivos seguindo o con-
ceito da internet das coisas, tıtulo que representa a revolucao tecnologica atualmente.
115
REFERENCIAS
ABRAFARMA. ABRAFARMA - Associacao Brasileira de Redes de Farmacias e Droga-rias. nov. 2015. Disponıvel em: <http://www.abrafarma.com.br/>.
ADWORDS, Google. Vantagens Google AdWords. ago. 2015. Disponıvel em:<https://www.google.com.br/adwords/benefits/>.
AGICHTEIN, E.; GRAVANO, L. Snowball: Extracting relations from large plain-text collecti-ons. In: Proceedings of the Fifth ACM Conference on Digital Libraries. San Antonio, Texas,USA: ACM, 2000. p. 85–94.
ANALYTICS, Google. Analise da Web e relatorios - Google Analytics. abr. 2015. Disponıvelem: <https://www.google.com/analytics/>.
ANGLES, R.; GUTIERREZ, C. Survey of graph database models. ACM Computing Surveys(CSUR), Volume 40, n. Issue 1, p. 1–39, 2008. Article No. 1, ACM New York, NY, USA.
ANVISA. Resolucao-RDC No 140, de 29 de maio de 2003. 2003.
ANVISA. Resolucao-RDC No 47, de 8 de setembro de 2009. 2009.
ANVISA. Como acessar o Bulario Eletronico? out. 2013. Disponıvel em:<http://s.anvisa.gov.br/wps/s/r/f4>.
ANVISA. ANVISA - A Agencia. jul. 2015. Disponıvel em: <http://portal.anvisa.gov.br/>.
APPLE, Inc. iTunes Connect. set. 2015. Disponıvel em: <https://itunesconnect.apple.com/>.
ATKINSON, M. P.; BANCILHON, F.; DEWITT, D. J.; DITTRICH, K. R.; MAIER, D.;ZDONIK, S. B. The object-oriented database system manifesto. In: Deductive and Object-Oriented Databases. Kyoto, Japan: DOOD, 1989. p. 40–57.
AWS. Cloud Solutions - Amazon Web Services (AWS). mar. 2015. Disponıvel em:<https://aws.amazon.com/solutions/>.
BERNERS-LEE, Tim; HENDLER, James; LASSILA, Ora et al. The semantic web. Scientificamerican, New York, NY, USA:, v. 284, n. 5, p. 28–37, 2001.
BIGUETTI, C. C.; ANDRADE, H. L. de. Farmacologia 01 - Como agem osfarmacos: Receptores, Agonista e Antangonistas - Basico. Nov. 2014. Disponıvel em:<https://www.youtube.com/watch?v=eTFpIIuJ8Xg>.
BRASIL. Presidencia da Republica. Lei No 9.782, de 26 de janeiro de 1999. 1999.
BRASIL. Ministerio da Saude. Uso racional de medicamentos: temas selecionados. 2012.1. ed. Brasılia: Editora MS. 156 p.
BROWN, H. Bmj: British medical journal. BMJ, BMJ Group, v. 322, n. 7290, p. 872, 2001.
116
BUENO, C. S.; OLIVEIRA, K. R. DE; BERLEZI, E. M.; EICKHOFF, H. M.; DALLEPIANE,L. B.; GIRARDON-PERLINI, N.; MAFALDA, A. et al. Utilizacao de medicamentos e risco deinteracoes medicamentosas em idosos atendidos pelo programa de atencao ao idoso da unijuı.Revista de Ciencias Farmaceuticas Basica e Aplicada, v. 30, n. 3, p. 331–338, 2010.
CALDEIRA, T. R.; NEVES, E. R. Z.; PERINI, E. Evolucao historica das bulas de medica-mentos no brasil. Cadernos de Saude Publica, SciELO Public Health, v. 24, n. 4, p. 737–743,2008.
CAPASSO, R.; IZZO, A. A.; PINTO, L.; BIFULCO, T.; VITOBELLO, C.; MASCOLO, N.Phytotherapy and quality of herbal medicines. Fitoterapia, v. 71, p. 58–65, 2000.
CASSIANI, S. H. D. B. A seguranca do paciente e o paradoxo no uso de medicamentos. RevistaBrasileira de Enfermagem, SciELO Brasil, v. 58, n. 1, p. 95–99, 2005.
CHERVEN, K. Network graph analysis and visualization with Gephi. : Packt PublishingLtd, 2013.
CIOLKO, E.; LU, F.; JOSHI, A. Intelligent clinical decision support systems based on snomedct. In: Engineering in Medicine and Biology Society (EMBC), 2010 Annual InternationalConference of the IEEE. Buenos Aires: IEEE, 2010. p. 6781–6784.
COTE, R.A.; PATHOLOGISTS, College of American; ASSOCIATION, American Veteri-nary Medical. The systematized nomenclature of human and veterinary medicine: SNO-MED international. United States: College of American Pathologists and Schaumburg, IL:American Veterinary Medical Association, 1993.
COULET, A.; SHAH, N. H.; GARTEN, Y.; MUSEN, M.; ALTMAN, R. B. Using text to buildsemantic networks for pharmacogenomics. Journal of biomedical informatics, Elsevier, v. 43,n. 6, p. 1009–1019, 2010.
CUNNINGHAM, H.; MAYNARD, D.; BONTCHEVA, K.; TABLAN, V.; URSU, C.; DIMI-TROV, M.; DOWMAN, M.; ASWANI, N.; ROBERTS, I.; LI, Y. Developing language proces-sing components with gate. The University of Sheffield, Department of Computer Science,United Kingdom, 2014.
DA SILVA, J. F.; SILLA JR., C. N.; KASHIWABARA, A. Y. Adding structured informationto the anvisa’s ”bulario eletronico”. In: Proceedings of the Annual Conference on BrazilianSymposium on Information Systems: Information Systems: A Computer Socio-TechnicalPerspective. Porto Alegre, Rio Grande do Sul, Brazil: Brazilian Computer Society, 2015. (SBSI2015, v. 1), p. 69:509–69:516.
DA SILVA, M.; ALMEIDA, A. E.; OLIVEIRA, A. M.; CORREIA, C. C.; BENZATTI, F. P.;FERNANDES, J. T.; BARBOSA, G. R.; PIMENTA, C. P.; COSTA, T.; DONEIDA, V. C. Es-tudo da bula de medicamentos: uma analise da situacao. Revista de Ciencias FarmaceuticasBasica e Aplicada, p. 229–236, 2006.
DATASUS. O DATASUS. ago. 2015. Disponıvel em:<http://www2.datasus.gov.br/DATASUS/index.php?area=01>.
DAVIS, A. P.; GRONDIN, C. J.; LENNON-HOPKINS, K.; SARACENI-RICHARDS, C.; SCI-AKY, D.; KING, B. L.; WIEGERS, T. C.; MATTINGLY, C. J. The comparative toxicogenomics
117
database’s 10th year anniversary: update 2015. Nucleic acids research, Oxford Univ Press,v. 43, n. D1, p. D914–D920, 2015.
DAVIS, A. P.; MURPHY, C. G.; ROSENSTEIN, M. C.; WIEGERS, T. C.; MATTINGLY,C. J. The comparative toxicogenomics database facilitates identification and understanding ofchemical-gene-disease associations: arsenic as a case study. BMC medical genomics, BioMedCentral Ltd, v. 1, n. 1, p. 48, 2008.
DAVIS, A. P.; MURPHY, C. G.; SARACENI-RICHARDS, C. A.; ROSENSTEIN, M. C.; WI-EGERS, T. C.; MATTINGLY, C. J. Comparative toxicogenomics database: a knowledgebaseand discovery tool for chemical–gene–disease networks. Nucleic acids research, Oxford UnivPress, v. 37, n. suppl 1, p. D786–D792, 2009.
DEVELOPERS, Google. Google Developers - Explorar os servicos do Google para disposi-tivos moveis. out. 2015. Disponıvel em: <https://developers.google.com/>.
DONNELLY, K. Snomed ct: The advanced terminology and coding system for ehealth. Studiesin Health Technology and Informatics, v. 121, p. 279–290, 2006.
DRUGBANK. DrugBank. nov. 2014. Disponıvel em: <http://www.drugbank.ca/>.
EDWARDS, I. R.; ARONSON, J. K. Adverse drug reactions: definitions, diagnosis, and mana-gement. The Lancet, Elsevier, v. 356, n. 9237, p. 1255–1259, 2000.
ELEVITCH, F. Snomed ct: electronic health record enhances anesthesia patient safety. Ameri-can Association of Nurse Anesthetists, v. 73, p. 361–366, 2005.
ELMASRI, R.; WEELDREYER, J.; HEVNER, A. The category concept: an extension to theentity-relationship model. Data & Knowledge Engineering, Elsevier, v. 1, n. 1, p. 75–116,1985.
EVANS, W. E.; RELLING, M. V. Pharmacogenomics: translating functional genomics intorational therapeutics. science, American Association for the Advancement of Science, v. 286,n. 5439, p. 487–491, 1999.
FAERS. FDA Adverse Event Reporting System (FAERS): Latest Quarterly Data Files. set.2015. Disponıvel em: <http://goo.gl/vYe6BG>.
FAYYAD, U.; PIATETSKY-SHAPIRO, G.; SMYTH, P. From data mining to knowledge disco-very in databases. AI magazine, v. 17, n. 3, p. 37, 1996.
FDA. U.S. Food and Drug Administration - Protecting and Promoting Your Health. jul.2015. Disponıvel em: <http://www.fda.gov/AboutFDA/default.htm>.
FELDMAN, R.; SANGER, J. The text mining handbook: advanced approaches in analy-zing unstructured data. : Cambridge University Press, 2007.
FIELDING, R. Representational state transfer. Architectural Styles and the Design ofNetowork-based Software Architecture, p. 76–85, 2000.
FOX, C. A stop list for general text. SIGIR Forum, ACM, New York, NY, USA, v. 24, n. 1-2,p. 19–21, set. 1989.
118
GAROFALAKIS, M.; RASTOGI, R.; KYUSEOK, S. Mining sequential patterns with regularexpression constraints. Knowledge and Data Engineering, IEEE Transactions on, v. 14, n. 3,p. 530–552, May 2002.
GUARINO, Nicola. Formal ontology and information systems. In: Proceedings of FOIS. 1998.v. 98, n. 1998, p. 81–97.
HAMOSH, A.; SCOTT, A. F.; AMBERGER, J. S.; BOCCHINI, C. A.; MCKUSICK, V. A.Online mendelian inheritance in man (omim), a knowledgebase of human genes and geneticdisorders. Nucleic acids research, Oxford Univ Press, v. 33, n. suppl 1, p. D514–D517, 2005.
HAN, J.; HAIHONG, E.; LE, G.; DU, J. Survey on nosql database. In: PROCEEDINGS OFTHE 6TH INTERNATIONAL CONFERENCE ON. Pervasive Computing and Applications(ICPCA). Port Elizabeth, South Africa, 2011. p. 363–366.
HAN, J.; KAMBER, M. Data mining: Concepts and techiniques. Morgan Kaufmann Pu-blishers, v. 2. ed, 2006. San Francisco.
HARRIS, J. Next generation linkage management system. In: AUSTRALIAN COMPUTERSOCIETY, INC. Proceedings of the Sixth Australasian Workshop on Health Informaticsand Knowledge Management. Adelaide, Australia, 2013. v. 142, p. 7–12.
HEALTH, US Department of; SERVICES, Human et al. Coding symbols for thesaurus of ad-verse reaction terms. rockville (md): Department of health and human services. Food and DrugAdministration, Center for Drug and Biologics, Division of Drug and Biological Experi-ence, 1995.
HEPPLE, M. Independence and commitment: Assumptions for rapid training and execution ofrule-based pos taggers. In Proceedings of the 38th Annual Meeting of the Association forComputational Linguistics, p. 277–278, 2000.
HOLZSCHUHER, F.; PEINL, R. Performance of graph query languages: Comparison ofcypher, gremlin and native access in neo4j. In: Proceedings of the Joint EDBT/ICDT 2013Workshops. New York, NY, USA: ACM, 2013. (EDBT ’13), p. 195–204.
IHTSDO. SNOMED-CT. nov. 2014. Disponıvel em: <http://www.ihtsdo.org/snomed-ct>.
JUNIOR, F. P.; GODOY, D. B.; PIRES, D. F. S.; PIETROBON, E.; ROSA, F. T. A.; SARAIVA,J. S. et al. Potenciais interacoes medicamentosas em prescricoes de um hospital-escola de portoalegre. Rev Assoc Med Rio Grande Do Sul, p. 251–6, 2009.
KANEHISA, M.; GOTO, S. Kegg: kyoto encyclopedia of genes and genomes. Nucleic acidsresearch, Oxford Univ Press, v. 28, n. 1, p. 27–30, 2000.
KIBBE, W. A.; ARZE, C.; FELIX, V.; MITRAKA, E.; BOLTON, E.; FU, G.; MUNGALL,C. J.; BINDER, J. X.; MALONE, J.; VASANT, D. Disease ontology 2015 update: an expandedand updated database of human diseases for linking biomedical knowledge through diseasedata. Nucleic acids research, Oxford Univ Press, p. 1–8, 2014.
KIVIKANGAS, P.; ISHIZUKA, M. Improving semantic queries by utilizing unl ontology anda graph database. In: IEEE. Proceedings of the 2012 IEEE Sixth International Conferenceon Semantic Computing (ICSC). Palermo, 2012. p. 83–86.
119
KUHN, M.; CAMPILLOS, M.; LETUNIC, I.; JENSEN, L. J.; BORK, P. A side effect resourceto capture phenotypic effects of drugs. Molecular systems biology, EMBO Press, v. 6, n. 1,p. 343, 2010.
LAPORTE, J. R.; BAKSAAS, I.; LUNDE, P. K. M. General background. In: Drug Utiliza-tion Studies: Methods and Uses (M. N. G. Dukes, ed.), European Series 45, p. 5–22, 1993.Copenhagen.
LEAMAN, R.; WOJTULEWICZ, L.; SULLIVAN, R.; SKARIAH, A.; YANG, J.; GONZA-LEZ, G. Towards internet-age pharmacovigilance: Extracting adverse drug reactions from userposts in health-related social networks. In: Proceedings of the 2010 Workshop on BiomedicalNatural Language Processing. Uppsala, Sweden: Association for Computational Linguistics,2010. p. 117–125.
LI, Y.; MANOHARAN, S. A performance comparison of sql and nosql databases. In: 2013IEEE PACIFIC RIM CONFERENCE ON. Communications, Computers and Signal Proces-sing (PACRIM). Victoria, BC, 2013. p. 15–19.
LIPSCOMB, C. E. Medical subject headings (mesh). Bulletin of the Medical Library Asso-ciation, Medical Library Association, v. 88, n. 3, p. 265, 2000.
LIU, M.; MATHENY, M. E.; HU, Y.; XU, H. Data mining methodologies for pharmacovigi-lance. ACM SIGKDD Explorations Newsletter, ACM, v. 14, n. 1, p. 35–42, 2012.
MAHDIRAJI, A. R.; BAUMANN, P. Database support for unstructured meshes. Proc. VLDBEndow., VLDB Endowment, v. 6, n. 12, p. 1404–1409, aug 2013.
MATTINGLY, C. J.; COLBY, G. T.; FORREST, J. N.; BOYER, J. L. The comparative toxico-genomics database (ctd). Environmental health perspectives, National Institute of Environ-mental Health Science, v. 111, n. 6, p. 793–795, 2003.
MEIJ, E.; BRON, M.; HOLLINK, L.; HUURNINK, B.; DE RIJKE, M. Mapping queries to thelinking open data cloud: A case study using dbpedia. Web Semantics: Science, Services andAgents on the World Wide Web, Elsevier, v. 9, n. 4, p. 418–433, 2011.
MILLER, J. J. Graph database applications and concepts with neo4j. In: Proceedings of theSouthern Association for Information Systems Conference. Atlanta, GA, USA: AIS, 2013.(SAIS ’13), p. 141–147.
MOURA, C. S.; RIBEIRO, A. Q.; STARLING, S. Avaliacao de interacoes medicamentosaspotenciais em prescricoes medicas do hospital das clınicas da universidade federal de minasgerais. Latin American Journal of Pharmacy, v. 26, n. 4, p. 596–601, 2007.
NEO4J. Intro to Cypher. nov. 2014. Disponıvel em: <http://neo4j.com/developer/cypher-query-language/>.
NEVES, E. R. Z.; CALDEIRA, T. R.; MELO, G.; MURASAKI, R. T. Projeto bulas:Informacao sobre medicamentos on-line. In: ASSOCIATION FOR COMPUTATIONAL LIN-GUISTICS. Congresso Brasileiro de Informatica em Saude. 2006. v. 10, n. 2006, p. 1474–1479.
NOTIVISA. Sistema Nacional de Notificacoes para a Vigilancia Sanitaria - NOTIVISA.dez. 2014. Disponıvel em: <http://www.anvisa.gov.br/hotsite/notivisa/apresenta.htm>.
120
PIAO, S. A Highly Accurate Sentence and Paragraph Breaker – Try It! nov. 2014.
PORTER2, M. The English (Porter2) stemming algorithm. nov. 2014. Disponıvel em:<http://Snowball.tartarus.org/algorithms/english/stemmer.html>.
RAMASUBRAMANIAN, C.; RAMYA, R. Effective pre-processing activities in text miningusing improved porter?s stemming algorithm. International Journal of Advanced Researchin Computer and Communication Engineering, v. 2, n. 12, p. 4536–4538, dec. 2013.
RATH, A.; OLRY, A.; DHOMBRES, F.; BRANDT, M. M.; URBERO, B.; AYME, S. Repre-sentation of rare diseases in health information systems: the orphanet approach to serve a widerange of end users. Human mutation, Wiley Online Library, v. 33, n. 5, p. 803–808, 2012.
RHO, M. J.; KIM, S. R.; PARK, S. H.; JANG, K. S.; PARK, B. J.; CHOI, I. Y. Developmentcommon data model for adverse drug signal detection based on multi-center emr systems. In:IEEE. International Conference on Information Science and Applications (ICISA). Pattaya,Thailand, 2013. p. 1–7.
RILOFF, E.; LEHNERT, W. Information extraction as a basis for high-precision text classifica-tion. ACM Transactions on Information Systems (TOIS), Volume 12, n. Issue 3, p. 296–333,1994.
ROSA, M. B.; PERINI, E.; ANACLETO, T. A.; NEIVA, H. M.; BOGUTCHI, T. Erros naprescricao hospitalar de medicamentos potencialmente perigosos. Revista de Saude Publica,SciELO Brasil, v. 43, n. 3, p. 490–498, 2009.
SCHEMA.ORG. Welcome to Schema.org. jul. 2015. Disponıvel em: <http://schema.org/>.
SCHRIML, L. M.; ARZE, C.; NADENDLA, S.; CHANG, Y. W.; MAZAITIS, M.; FELIX,V.; FENG, G.; KIBBE, W. A. Disease ontology: a backbone for disease semantic integration.Nucleic acids research, Oxford Univ Press, v. 40, n. D1, p. D940–D946, 2012. USA.
SEAN, C. S. Martindale: The Complete Drug Reference. 33rd. ed. London: The Pharma-ceutical Press, 2002.
SECOLI, S. R. Interacoes medicamentosas: fundamentos para a pratica clınica da enfermagem.Revista da Escola de Enfermagem da USP, v. 35, n. 1, p. 28–34, 2001.
SEHN, R.; CAMARGO, A. L.; HEINECK, I.; FERREIRA, M. B. C. Interacoes medicamen-tosas potenciais em prescricoes de pacientes hospitalizados. Infarma, v. 15, n. 9-10, p. 77–81,2003.
STONEBRAKER, M. Sql databases v. nosql databases. Commun. ACM, ACM, New York,NY, USA, v. 53, n. 4, p. 10–11, abr. 2010.
STORE, Apple. Downloads de App Store no iTunes. set. 2015. Disponıvel em:<https://itunes.apple.com/br/>.
SUN, P. G. The human drug–disease–gene network. Information Sciences, Elsevier, v. 306, p.70–80, 2015.
TESSERACT. OCR. nov. 2014. Disponıvel em: <https://code.google.com/p/tesseract-ocr/>.
121
THELWALL, M. A web crawler design for data mining. Journal of Information Science, SagePublications, v. 27, n. 5, p. 319–325, 2001.
USP. Trabalhando com a FDA nos EUA - U. S. Pharmacopeial Convention. ago. 2015.Disponıvel em: <http://www.usp.org/pt/usp/reconhecimento-legal/trabalhando-com-fda-nos-eua>.
VALENTINI, G.; RE, M. Network-based drug ranking and repositioning with respect to drug-bank therapeutic categories. Journal IEEE/ACM Transactions on Computational Biologyand Bioinformatics (TCBB)., v. 10, p. 1359–1371, 2013.
WALLACE, J.; PAAUW, D. S. Appropriate prescribing and important drug interactions in olderadults. Medical Clinics of North America, Elsevier, v. 99, n. 2, p. 295–310, 2015.
WHO. World Health Organization. International Classification of Diseases (ICD). out.2015. Disponıvel em: <http://www.who.int/classifications/icd/en/>.
WHO. World Health Organization. International statistical classification of diseases andrelated health problems - 10th Revision. United Nations: World Health Organization, 2015.
WILLIAMS, D.W.; HUAN, J.; WANG, W. Graph database indexing using structured graphdecomposition. In: ENGINEERING, Data (Ed.). IEEE 23rd International Conference on.Istanbul, 2007. p. 976–985.
WINKLER, W. E. The State of Record Linkage and Current Research Problems. 1999.Statistical Research Division, U.S. Census Bureau.
WISHART, D.S.; KNOX, C.; GUO, A. C.; CHENG, D.; SHRIVASTAVA, S.; TZUR, D.; GAU-TAM, B.; HASSANALI, M. Drugbank: a knowledgebase for drugs, drug actions and drugtargets. Nucleic Acids Research, v. 36, p. D901–D906, 2008.
WISHART, D. S.; KNOX, C.; GUO, A. C.; CHENG, D.; SHRIVASTAVA, S.; TZUR, D.;GAUTAM, B.; HASSANALI, M. Drugbank: a knowledgebase for drugs, drug actions and drugtargets. Nucleic acids research, Oxford Univ Press, v. 36, n. suppl 1, p. D901–D906, 2008.
YOON, D.; PARK, M. Y.; CHOI, N. K.; PARK, B. J.; KIM, J. H.; PARK, R. W. Detection ofadverse drug reaction signals using an electronic health records database: Comparison of thelaboratory extreme abnormality ratio (clear) algorithm. Clinical Pharmacology & Therapeu-tics, Wiley Online Library, v. 91, n. 3, p. 467–474, 2012.
ZENG-TREITLER, Q.; GORYACHEV, S.; TSE, T.; KESELMAN, A.; BOXWALA, A. Esti-mating consumer familiarity with health terminology: a context-based approach. Journal ofthe American Medical Informatics Association, Elsevier, v. 15, n. 3, p. 349–356, 2008.
ZHU, F.; HAN, B.; KUMAR, P.; LIU, X.; MA, X.; WEI, X.; HUANG, L.; GUO, Y.; HAN, L.;ZHENG, C. et al. Update of ttd: therapeutic target database. Nucleic acids research, OxfordUniv Press, v. 38, n. suppl 1, p. D787–D791, 2010.
122
123
ANEXO A -- ARTIGO SBSI 2015
O estudo realizado gerou a publicacao de um artigo no XI SBSI, ocorrido entre o dia 26
ate o dia 29 de maio de 2015, na cidade de Goiania-GO. O tıtulo da publicacao foi “Adicionando
informacoes estruturadas ao Bulario Eletronico da ANVISA” e pode ser visualizado a seguir.
O objetivo deste artigo foi apresentar as tecnicas utilizadas para estruturar as informacoes das
bulas medicas disponıveis na ANVISA e inferi-las em um banco de dados nao relacional base-
ado em grafos, ou seja, Neo4j, e mostrar as consultas por interacoes medicamentosas, reacoes
adversas, ou contraindicacoes desses registros estruturados.
A apresentacao do artigo foi feita no dia 28 de maio de 2015, nesta oportunidade foi
apresentado o website do Facil Bula, juntamente com todas as tecnicas e tecnologias utilizadas
na concepcao do trabalho, ao final perguntas foram feitas com o intuito de sanar duvidas com
relacao a obtencao das bulas, tambem no modo de estruturacao dos dados e notificacoes contra
automedicacao.
Pontos positivos da participacao integral deste evento listam-se pelo network entre
varios pesquisadores de diferentes regioes do paıs, com areas de interesses diversos que na
medida do possıvel foram dispostos a contribuir com melhorias do projeto, oportunidade de
apresentar a ideia do trabalho e colher feedback de pessoas interessadas, juntamente com a
sinalizacao de parcerias com pesquisa e projetos que podem ocorrer com a maturidade deste
trabalho.
Por fim, a cada palestra presenciada, ideias eram adicionadas ao projeto, por mais sim-
ples que fossem, seja uma tecnica de mineracao de textos ou ate mesmo um forma de negocio
para comercializacao e disponibilizacao por exemplo. O evento proporcionou uma palestra
internacional do professor Kevin Crowston, da Syracuse University, que apresentou algo so-
bre sistemas colaborativos, em que trouxe ideias para que o Facil Bula seja um sistema de
colaboracao entre profissionais da area de saude e pacientes.
Adicionando informações estruturadasao Bulário Eletrônico da ANVISA
Alternative Title: Adding structured informationto the ANVISA’s “Bulário Eletrônico”
João Vitor F. da SilvaPrograma de Pós-Graduação
em InformáticaUniversidade Tecnológica
Federal do ParanáCEP 86300-000 – Cornélio
Procópio – PR – [email protected]
Carlos N. Silla Jr.Programa de Pós-Graduação
em InformáticaUniversidade Tecnológica
Federal do ParanáCEP 86300-000 – Cornélio
Procópio – PR – [email protected]
André Y. KashiwabaraPrograma de Pós-Graduação
em InformáticaUniversidade Tecnológica
Federal do ParanáCEP 86300-000 – Cornélio
Procópio – PR – [email protected]
RESUMOO Ministerio da Saude e outros orgaos relacionados preten-dem evitar a automedicacao e incentivar o cuidado do usoconcomitante entre medicamentos, porem estes orgaos naodisponibilizam ferramentas para facilitar este processo. AANVISA disponibiliza um conjunto de 6.076 bulas em for-mato PDF, mas as informacoes nelas contidas nao estao es-truturadas. Um dos desafios deste trabalho consistiu emextrair automaticamente as informacoes presentes nesse con-junto de bulas. Este artigo apresenta uma metodologia se-miautomatica de mineracao de textos para mapear as bulasda ANVISA nas redes de interacoes entre farmacos da basede dados DrugBank, juntamente com as doencas encontra-das na base SNOMED-CT. Os medicamentos, as doencas,os farmacos e suas relacoes foram estruturadas e armazena-das em um banco de dados em grafos utilizando a tecnologiaNeo4j.
Palavras-Chavemineracao de textos, bulas, interacoes, farmaco, doenca
ABSTRACTThe Brazilian Ministry of Health and other related orga-nizations are concerned with the issue of self-medication.Although these organizations warn about the risks of conco-mitantly using different drugs, they do not provide any toolsto facilitate this process. ANVISA offers a collection of 6.076medication guides in PDF file format. However, the informa-tion available in this guides are in an unstructured format.One of challenges of this work consisted in the automatic re-trieval of information from ANVISAS’s medication guides.
Permission to make digital or hard copies of all or part of this work forpersonal or classroom use is granted without fee provided that copies arenot made or distributed for profit or commercial advantage and that copiesbear this notice and the full citation on the first page. To copy otherwise, torepublish, to post on servers or to redistribute to lists, requires prior specificpermission and/or a fee.SBSI 2015, May 26th-29th, 2015, Goiânia, Goiás, BrazilCopyright SBC 2015.
This paper presents a semiautomatic procedure that mapsANVISAS’s medication guides to DrugBank and SNOMED-CT. The medications, the diseases, the drugs, and their rela-tions were structured and stored on a graph database usingthe Neo4j technology.
Categories and Subject DescriptorsJ.3 [Life and Medical Sciences]: Medical information sys-tems; H.2.8 [Database Applications]: Scientific databases
General TermsDesign, Standardization, Human Factors
Keywordstext mining, drug information, interactions, drug, disease
1. INTRODUÇÃOO tratamento de um paciente doente pode envolver varios
medicos com especialidades diferentes e cada medico podeprescrever diversos medicamentos. Desse modo, e impor-tante realizar, de forma cientıfica e racional, a selecao domelhor conjunto de medicamentos considerando prescricoesdos medicos de cada especialidade. Em outras palavras, asdecisoes em relacao ao tratamento medicamentoso e as in-teracoes estabelecidas entre os medicos sao determinantespara o sucesso de um tratamento [5].
No Brasil o tamanho real do problema dos erros de me-dicacao nao e conhecido, porem, dados estimados pela Fun-dacao Oswaldo Cruz indicam que 24 mil mortes anuais saoocasionadas por intoxicacao medicamentosa [3].
No intuito de contribuir para a tomada de decisao terapeu-tica, o Ministerio da Saude vem promovendo e incentivandoo Uso Racional de Medicamentos. Trata-se de um docu-mento tecnico que apresenta uma compilacao das CondutasBaseadas em Evidencias sobre Medicamentos Utilizados emAtencao Primaria a Saude, constantes no Modulo de Infor-macoes do HORUS - Sistema Nacional de Gestao da Assis-tencia Farmaceutica [5], que consiste em abordar a logica daracionalidade na prescricao, dispensacao e administracao demedicamentos.
XI Brazilian Symposium on Information System, Goiania, GO, May 26-29, 2015.
509
Fora a cartilha, existe um sistema desenvolvido que con-templa uma colecao de imagens ou arquivos Portable Do-cument Format (PDF) das bulas1 do Ministerio da Saude.Esse sistema nao e muito complexo, e conta apenas comuma simples opcao de filtros para pesquisa de conteudo es-pecıfico do medicamento, industria farmaceutica, entre ou-tros. O sistema de busca de bulas nao possui uma opcao depesquisa simples para verificar quais remedios sao indicadospara uma determinada doenca.
Dentro do nosso conhecimento, nao ha nenhum trabalhoque descreve a utilizacao das redes de interacoes para melho-rar o processo de pesquisa dos dados disponıveis pela AN-VISA. Existem dois trabalhos [13, 11], publicados no comecode 2015, que mostram o interesse da comunidade medica in-ternacional em relacao ao estudo de redes de interacoes entremedicamentos.
O primeiro aborda o problema da utilizacao de cinco oumais remedios em idosos e aponta a importancia das redesde interacoes entre drogas e doencas [13]. Este trabalhomostrou que a quantidade de efeitos adversos aumenta deforma nao linear a medida que novos medicamentos sao adi-cionados no tratamento [13]. O segundo trabalho apresentauma metodologia para a construcao de uma rede de inte-racoes com multiplos nıveis incluindo farmacos, doencas egenes [11] e mostrou algumas propriedades utilizando con-ceitos da area de redes complexas.
Existem trabalhos que fundamentam o uso de processosde mineracao de dados em aplicacoes voltadas para area desaude, como o trabalho de Yoon et al. [15], em que os au-tores propuseram um roteiro quantitativo para deteccao dereacoes adversas a medicamentos por meio de registros ele-tronicos de saude dos pacientes de um determinado labora-torio.
Ja no trabalho de Liu et al. [6], e utilizado um algoritmode mineracao de dados para identificar regras de associacoesentre os medicamentos encontrados em conjunto de regis-tros medicos eletronicos. Definida essas associacoes e apli-cado um algoritmo para interacoes entre as regras, sendopossıvel descobrir falhas na administracao concomitante dedeterminados farmacos.
Um solucao proxima a apresentada em Liu et al. [6] e en-contrada no trabalho de Rho et al. [8], em que os autorespropoem tecnicas de mineracao em banco de dados de con-traindicacoes medicas para apresentar regras de associacoesentre os medicamentos.
Verifica-se que os trabalhos realizados na area pesquisadaencontram solucao por meio do historico medico dos pacien-tes. Contudo, em nenhum destes trabalhos foram utilizadastecnicas para identificar regras de associacoes entre medica-mentos, tendo como base as contraindicacoes, reacoes adver-sas e interacoes encontradas nas bulas medicas da ANVISA.
No contexto internacional existem alguns aplicativos parao sistema Android que apresentam ferramentas que verifi-cam as interacoes entre drogas, como o aplicativo Medscape,desenvolvido por WebMD, LLC e o aplicativo Drugs.comMedication Guide, implementado por Drugs.com2, ambossao muito bem avaliados por seus usuarios. No cenario na-cional apesar de existirem aplicativos que colaboram como trabalho dos profissionais da area de saude. Contudo,desconhecemos a existencia de um aplicativo que verifique
1http : //www.anvisa.gov.br/datavisa/filabula/index.asp2http : //www.drugs.com/
as interacoes medicamentosas utilizando as informacoes dasbulas medicas da ANVISA. O nosso trabalho tem um focoregional, ou seja, o sistema sera disponibilizado para profis-sionais que atuam no Brasil.
Neste trabalho, foram utilizadas duas bases de dados: (i)DrugBank3 [14]; (ii) SNOMED-CT4 [4].
O DrugBank e uma base de dados que possui informa-coes sobre os farmacos aprovados e nao aprovados pelo FDA(Food and Drug Administration). O DrugBank tambem pos-sui um conjunto de interacoes farmaco-farmaco suportadapela literatura biomedica [14]. Infelizmente, o DrugBanknao permite a busca por farmacos associados a doencas uti-lizando ontologias medicas ou por meio da utilizacao do CID-105 (Codigo Internacional de Doencas).
Ja o SNOMED-CT possui a classificacao das doencas or-ganizadas utilizando uma ontologia, ou seja, disponibilizaum vocabulario comum da area biomedica organizado emum grafo dirigido acıclico. Contudo, o SNOMED-CT naoapresenta os medicamentos que tratam cada uma das doen-cas.
O DrugBank e o SNOMED-CT fornecem juntos uma im-portante fonte de informacao estruturada para este projeto.Este trabalho propoe a utilizacao do DrugBank, SNOMED-CT, e as bulas da ANVISA para melhorar o acesso a in-formacoes para profissionais brasileiros, permitindo que elesvisualizem as redes de interacoes entre farmacos.
Para realizar esta tarefa, foram utilizadas tecnicas de mi-neracao de textos sobre o conjunto do bulario. O sistemaimplementado realiza a extracao semiautomatica dos far-macos (princıpio ativo e excipientes) e as doencas associa-das de cada medicamento. A partir da lista de farmacosidentificados para cada medicamento e possıvel construir arede de interacoes medicamento-medicamento por meio dautilizacao do DrugBank, juntamente com os termos medicosdo SNOMED-CT. Note que um medicamento e formado porum ou mais farmacos e e indicado para o tratamento de umaou mais doencas. Por esse motivo a rede entre os medica-mentos e induzida utilizando as interacoes conhecidas entrefarmacos e doencas. Todas essas informacoes foram arma-zenadas em um banco de dados baseado em grafo chamadoNeo4j.
2. MATERIAIS E MÉTODOSA Figura 1 apresenta uma visao geral do sistema. O sis-
tema proposto possui quatro etapas principais, sao elas: (i)obtencao das bulas do sıtio web da ANVISA; (ii) prepara-cao, extracao e normalizacao das informacoes das bulas paracadastro no banco de dados relacional; (iii) integracao comoutras bases para identificacao do conteudo relevante ob-tido da normalizacao do texto das bulas e (iv) inclusao dasinformacoes no banco de dados nao-relacional desenvolvidopor meio do conteudo relevante encontrado nas bulas, o seurespectivo topico e nome do medicamento.
2.1 Aquisição dos dadosA ANVISA disponibiliza uma pagina, denominada Bula-
rio Eletronico, para a pesquisa de bulas de medicamentos.Na consulta realizada pelos autores deste trabalho em 5 denovembro de 2014, existiam 6.076 bulas disponıveis no Bula-
3http : //www.drugbank.ca/4http : //www.nlm.nih.gov/snomed/5http : //www.datasus.gov.br/cid10/v2008/cid10.htm
XI Brazilian Symposium on Information System, Goiania, GO, May 26-29, 2015.
510
Figura 1: Uma visao geral das etapas que compoem o processo desenvolvido.
rio Eletronico da ANVISA. O mecanismo de consulta destapagina permite utilizar filtros para consultar o nome do me-dicamente, a empresa fabricante, o numero de expediente, operıodo de publicacao e a quantidade de registros por paginaa serem exibidos.
Para obter as bulas disponıveis no Bulario Eletronico daANVISA foi implementado um robo de busca (web crawler).O Robo automatizou a obtencao dos arquivos no sistema daANVISA, realizando o download das bulas medicas por meiode identificacao de conteudo no HTML da pagina do BularioEletronico.
A sua concepcao foi elaborada na plataforma MicrosoftWindows, em linguagem C Sharp (C#), com a ferramentaIDE Visual Studio 2013 devidamente licenciada para uso.Este robo tambem foi responsavel em capturar o nome domedicamento, a empresa responsavel, e outras informacoespresentes no HTML, seu funcionamento pode ser visualizadopelo vıdeo6 disponibilizado no YouTube.
2.2 Preparação das informaçõesA etapa de “preparacao das informacoes” consistiu em
transformar o arquivo em formato PDF para o arquivo emformato texto. Porem, foram encontrados os seguintes pro-blemas tecnicos:
1. Problemas na extracao de texto do arquivo PDF, de-finido pela falta de formatacao;
2. Topicos das bulas estao diferentes do padrao estabele-cido pela ANVISA [2];
3. Erros ortograficos no conteudo da bula;
4. PDF com a imagem da foto da versao fısica encontradana caixa do remedio.
Foi desenvolvida uma solucao ad hoc para cada um dessesproblemas tecnicos. Os pesquisadores interessados podemobter detalhes da implementacao atraves de um contato di-reto com os autores deste artigo.
O objetivo de solucionar o problema elencado de numero4 e alcancar o maior numero de bulas para construcao das
6http : //www.youtube.com/watch?v = HdyUJwG9GG0
redes, sendo que apenas 15 destas estavam com a foto fısicada bula do medicamento.
Desse modo, foi criada uma rotina para recuperar a ima-gem do PDF, junta-las e alinha-las corretamente, alem deaplicar um tratamento de qualidade nas imagens, ou seja,tornar a imagem do texto mais nıtida. Finalmente, umaferramenta de Optical Character Recognition (OCR) foi uti-lizada para recuperar o texto. A ferramenta OCR utilizadafoi o Tesseract [12].
2.3 Roteiro para segmentação dos tópicosNo arquivo da bula profissional e possıvel encontrar infor-
macoes importantes sobre cada medicamento, sendo com-posta por varios topicos que auxiliam na prescricao do pro-fissional de saude. Existem topicos mais importantes queaparecem com uma certa frequencia nos medicamentos e queserao elencados como:
• Apresentacao: apresenta o medicamento e a empresaresponsavel por sua elaboracao;
• Composicao: mostra os elementos utilizados paracomposicao do medicamento;
• Indicacao: para que este medicamento e indicado;
• Caracterısticas Farmacologicas: mostra como omedicamento funciona;
• Contraindicacoes: quando nao se pode usar o medi-camento;
• Interacoes medicamentosas: o que deve saber an-tes de usar o medicamento;
• Posologia e modo de usar: como deve ser usado omedicamento, onde, como e por quanto tempo pode-seguardar o medicamento;
• Reacoes adversas: quais os males que este medica-mento pode causar;
• Superdose: o que deve ser feito se usar uma quanti-dade maior do que a indicada pelo medicamento.
XI Brazilian Symposium on Information System, Goiania, GO, May 26-29, 2015.
511
A fim de encontrar cada topico respectivo em cada bula,foi implementado um roteiro, para identificar e marcar a po-sicao de cada topico, com as seguintes etapas: (i) inicializara lista de variacoes de cada topico; (ii) buscar por expressaoregular pela lista de variacoes; (iii) aplicar um tratamentode texto; e (iv) realizar a marcacao do topico.
Para etapa de pesquisa por expressao regular, foram uti-lizados os registros da lista de variacoes, que juntos forma-vam um padrao de busca no conteudo da bula, desta formaquando o padrao era identificado aplicava-se um tratamentono texto.
A etapa de “tratamento de texto” tinha a finalidade deretirar os textos desnecessarios, deixando apenas o topico, enao todo seu conteudo.
Finalmente, utilizando o texto tratado, foi feita a identifi-cacao e marcacao dos topicos por meio de busca utilizandoexpressoes regulares.
2.4 Integração com outras basesNesta etapa foram utilizada duas outras bases de dados:
(i) DrugBank; (ii) SNOMED-CT. Essas bases possuem in-formacoes bem estruturadas com relacao aos farmacos e asdoencas. Desse modo, foram elaborados dois metodos paraintegracao das bulas com outras bases de dados: (1) mape-amento da bula com os farmacos do DrugBank; (2) mapea-mento de termos SNOMED-CT com a bula.
Para integrar a informacao do DrugBank, foi analisadoo texto da composicao de cada medicamento manualmente.Os farmacos identificados foram mapeados com seus respec-tivos drugbank_id’s.
Nesse contexto, o mesmo procedimento foi realizado aostextos referentes a indicacao, contraindicacao e reacao ad-versa das bulas, vinculando-os com as doencas do SNOMED-CT, na qual eram associados aos respectivos concept_id’s.
Para realizar a associacao entre os termos do Drugbanke do SNOMED-CT (com as bulas da ANVISA) foi neces-sario realizar a traducao (automatica) das informacoes doDrugBank e do SNOMED-CT.
Apos a traducao foi possıvel cruzar as informacoes dessasbases com os textos dos topicos das bulas para encontraros respectivos drugbank_id’s e concept_id’s de cada topicodos medicamentos. Essas informacoes sao entao utilizadaspara construir a rede de interacoes entre farmacos, doencase medicamentos.
2.4.1 Roteiro para identificação dos fármacosNo topico “composicao”, verificam-se dois tipos de subs-
tancias: (i) princıpios ativos; (ii) excipiente. Entende-se peloprincıpio ativo o principal farmaco utilizado na composicaodo medicamento, este responsavel pelo efeito farmacologicodo remedio, enquanto que excipientes sao substancias uti-lizadas como veıculo para o princıpio ativo. E possıvel en-contrar substancias que sao farmacos na lista de produtosexcipientes, mas, em geral, essas substancias (por exemplo,farinha) nao sao farmacos.
O roteiro de identificacao de farmacos foi desenvolvidopara analisar o texto da composicao do medicamento paraidentificar aqueles que sao princıpio ativo ou excipiente.
As etapas que o roteiro realiza para identificacao dos far-macos sao: (i) leitura do conteudo da composicao do medi-camento realizado pela quebra de linha do texto (\r\n); (ii)pesquisa por princıpio ativo e excipiente determinada porrespectivos termos que indicam a qual tipo o termo identi-
ficado sera vinculado; (iii) tratamento no termo encontradopara evitar retornar palavras que sao utilizadas apenas naescrita do texto e nao representam um farmaco necessari-amente; (iv) procurar o termo identificado nas drogas dabase DrugBank, traducao da droga e dos sinonimos parapesquisa nos termos; e (v) criar arquivo texto com o mape-amento dos termos identificados com seus respectivos tipose codigo identificador do DrugBank caso seja encontrado.
Figura 2: Exemplo ilustrativo do resultado da iden-tificacao dos farmacos no medicamento Lotanol.
A Figura 2 apresenta um exemplo do processo de identi-ficacao de farmacos realizada no topico composicao do me-dicamento Lotanol, na qual elenca-se todas as etapas reali-zadas pelo algoritmo desenvolvido.
Destaca-se pela Figura 2 a presenca do marcador =[COMP]em vermelho que indica o inıcio do texto referente a compo-sicao da bula, na qual todo o conteudo e separado por meiodas quebras de linhas (\r\n).
O roteiro desenvolvido realiza a leitura linha a linha ateencontrar palavras que indicam inıcio de um prıncipio ativoou excipiente, que respectivamente estao exemplicados nafigura pela palavra “CONTEM” na cor azul e “EXCIPIEN-TES” na cor laranja, e limitados pelos caracteres “....” som-breado em amarelo, quando identificado um prıncipio ativo,e para excipiente delimitado pelo conjunto de caracteres “:”,“,”, “\” e “E” apresentada na cor roxa.
Por fim, entende-se pela Figura 2 que os valores sombre-ados em cinza representam os termos identificados no textocomo princıpio ativo e excipente, desta maneira exclui-sepalavras que nao sao necessarias para identificacao dos far-macos na base DrugBank.
2.4.2 Roteiro para encontrar os termos médicos re-ferentes às doenças
Para integrar os termos medicos do SNOMED-CT foi ne-cessario utilizar uma ferramenta de traducao, pois os termosconstantes nesta base se encontravam em lıngua inglesa oque dificultava sua vinculacao com o texto as bulas.
Apos a traducao dos termos foi realizada uma etapa paratratamento destes na qual o uso de Stop-words7 da lıngua
7http : //www.ranks.nl/stopwords/portugese
XI Brazilian Symposium on Information System, Goiania, GO, May 26-29, 2015.
512
portuguesa foi responsavel pela remocao de palavras desne-cessarias de todo o texto. Por fim, tem-se a busca destestermos medicos com os topicos dos medicamentos, que aoserem encontrados, neste texto, foram mapeados aos res-pectivos concept_id’s.
2.5 Banco de dados baseado em grafosA informacao em relacao ao mapeamento dos termos me-
dicos concept_id e ao mapeamento dos drugbank_id foramarmazenadas num banco de dados em grafos. O gerenciadorde banco de dados escolhido para esta tarefa foi o Neo4j.
Para visualizar os remedios e suas relacoes, foi escolhidauma ferramenta disponibilizada pelo proprio Neo4j que apre-senta o resultado das consultas em grafo, na qual os verti-ces, tambem chamados de nos, podem representar o medica-mento, os farmacos do DrugBank e os termos do SNOMED-CT, enquanto as arestas representam as relacoes entre esseselementos.
Figura 3: Banco de dados utilizando o Neo4j.
Um remedio e composto por farmacos, e trata um con-junto de doencas (termos SNOMED-CT), alem de quais far-macos interagem com outros farmacos. A Figura 3 mostracomo as informacoes entre as bulas estao interligadas e apre-senta o retorno de uma consulta no Neo4j que foi desenvol-vida pelos dados processados nas etapas anteriores. Paraexemplificar o funcionamento do sistema, foi realizada umaconsulta sobre o medicamento Paracetamol. O Paracetamole composto pelo farmaco Paracetamol, mesmo farmaco quepossui interacao com o medicamento Varfarina Sodica, poreste motivo entende-se que o uso concomitante de Paraceta-mol e Varfarina Sodica possue interacoes medicamentosas.Essas interacoes podem trazer a perda de eficacia de algumcomposto, agravamento de alguma doenca, entre outros pos-sıveis problemas [10].
A linguagem de consulta do Neo4j e denominada Cypher efoi inspirada no SQL para descrever padroes em grafos. Elapermite descrever o que usuario deseja selecionar, inserir,atualizar ou excluir de um banco de dados em grafo sem anecessidade de descrever exatamente como faze-lo [7].
3. RESULTADOS E DISCUSSÃOAlguns experimentos preliminares foram realizados com
a finalidade de analisar as possıveis solucoes para tres pro-blemas propostos no presente trabalho: (i) segmentacao dotexto nos topicos (indicacao, contraindicacao, reacao ad-versa, entre outros) definidos pela ANVISA; (ii) identifi-cacao dos farmacos em particular reconhecer os princıpiosativos e os excipientes utilizados; (iii) mapeamento dos far-
macos com o DrugBank. Para que fosse feita a validacaode cada processo, foi necessario ter um conjunto de bulaspara servirem como referencia para fins comparacao, ou seja,construir um conjunto gold standard. Assim, foram selecio-nadas de maneira aleatoria 100 bulas do total de 6.076, maseliminando 15 (quinze) bulas que apresentaram problemasno processo de reconhecimento do texto da bula utilizandoOCR.
Para cada uma das 100 bulas, foram solucionados de formamanual os problemas propostos, ou seja, os textos das bu-las foram segmentados manualmente nos respectivos topi-cos. Depois foi realizada a analise das composicoes de cadamedicamento com a finalidade de identificar os princıpiosativos e os excipientes para associa-los aos seus respecitvosdrugbank_id’s.
Os experimentos realizados foram utilizados para validaro roteiro de segmentacao e o roteiro de identificacao de far-macos. Nas bulas selecionadas para o experimento, o roteirode segmentacao obteve uma precisao media de 89, 57%, comsensibilidade media de 95, 98% e F-score de 92, 41%. Esteresultado e promissor, porem ainda existe uma grande mar-gem para melhorar a precisao.
Outro experimento foi realizado a fim de encontrar os far-macos utilizados no topico composicao de cada bula do me-dicamento escolhido, por meio dos farmacos presentes nabase do DrugBank. A quantidade total de farmacos nas 100bulas foi de 1.017, das quais 1.017, 185 sao princıpios ativos.O roteiro desenvolvido reconheceu corretamente um total de982 farmacos onde 122 eram princıpios ativos.
3.1 Segmentação de tópicosNo primeiro experimento, foi realizada a segmentacao do
conteudo da bula para realizar a marcacao dos diferentestopicos. Em um primeiro momento, foi desenvolvido umroteiro que converte o texto original de formato PDF emum arquivo de texto puro. Para criar o gold standard, utili-zando o texto original, foi realizada a leitura e identificacaode maneira manual, na qual consistia em ler todo o arquivode texto e realizar a marcacao do topico respectivo, por pa-drao foi utilizado o marcador =[TOPICO]=[inıcio do nome
do topico identificador] que era adicionado ao texto dabula.
Figura 4: Marcacao dos topicos da bula Fluconazol.
Na Figura 4, exibe-se um exemplo de marcacao realizadana bula do medicamento Fluconazol, pode-se visualizar amarcacao do topico Apresentacoes que representa o topicoIdentificacao do medicamento e utiliza o marcador =[TO-
PICO]=[INDE], juntamente com a marcacao do topico Com-posicao que utiliza o marcador =[TOPICO]=[COMP].
XI Brazilian Symposium on Information System, Goiania, GO, May 26-29, 2015.
513
Conforme citado no inıcio deste capıtulo, a marcacao ma-nual foi realizada em 100 arquivos selecionados de maneiraaleatoria. Pode-se perceber na analise destes que os topicoseram apresentados de uma maneira sequencial, na qual se-guem as normas definidas na Resolucao-RDC No 47, de 8 desetembro de 2009 da ANVISA, para elaboracao e publicacaode bulas medicas [2].
A proxima etapa relaciona-se com o roteiro desenvolvidoa fim de automatizar a identificacao dos topicos no conteudoda bula. Os arquivos de texto dos medicamentos foram sub-metidos ao roteiro que realizava uma busca por expressaoregular das variacoes de cada topico, quando alguma partedo texto respeitasse o padrao definido da expressao, este eramarcado com o respectivo topico.
Por meio do arquivo marcado manualmente e o outro mar-cado automaticamente pode-se realizar uma validacao no ro-teiro desenvolvido para identificacao dos topicos das bulas.Para esta tarefa foi implementado um procedimento que re-cebe o texto marcado manualmente com seu respectivo textomarcado automaticamente, na qual cria uma matriz de con-fusao com os valores para calcular a precisao (Precision), asensibilidade (Recall) e por fim o F-escore (ou F-measure).
O experimento foi realizado para todos os remedios se-lecionados de maneira aleatoria, na qual foi realizada umamedia entre os valores encontrados pelos metodos de valida-cao, no qual calculou-se como media de precisao o valor de89, 57%, juntamente com sensibilidade de 95, 98%, e por fimF-score de 92, 41%.
3.2 Identificação dos fármacosEste segundo experimento foi realizado com o objetivo de
identificar os farmacos existentes na bula, para o desenvol-vimento deste roteiro foi necessaria a criacao de um arquivode texto no qual continha apenas as informacoes do topicocomposicao, vale ressaltar que esta tarefa foi realizada demaneira automatizada e o conteudo do topico composicaofoi identificado pelo roteiro desenvolvido de marcacao.
O mesmo experimento e validacoes apresentados foram re-alizados para as 100 bulas selecionadas aleatoriamente, po-rem o resultado obtido nao foi eficaz e necessita de melhoriasna identificacao de farmacos. Somente o uso da base Drug-Bank nao resolveu o problema por completo da identificacaodos farmacos nas bulas, pois alguns termos continuaram semser identificados.
Para que os termos pudessem ser identificados com maiorfacilidade e ate melhor organizados foram utilizadas ontolo-gias, na qual tem como principal vantagem a possibilidadede especificar o correto significado e relacionamento entre ostermos, evitando interpretacoes imprecisas sobre o domınioque esta sendo modelado [1].
Por meio das ontologias pode-se pesquisar diferentes ter-mos entre as bulas que podem ser sinonimos ou que estaona mesma classe de doenca. Alem disso, alguns termos po-dem ser associados a influencia sobre uma contraindicacao,indicacao e ate mesmo reacao adversa, o que pode ser vistopelo projeto Disease Ontology [9]. Na Disease Ontology foicriada uma estrutura unica para classificacao de doencas afim de unificar a representacao da doenca entre muitas evariadas terminologias e vocabularios, juntamente com asrelacoes existente entre as doencas.
Como exemplo, imagina-se um determinado medicamentoem que sua indicacao e prescrita para melhorar a sobrevidaapos infarto do miocardio em pacientes clinicamente esta-
veis. Porem, e contraindicado seu uso concomitante e fre-quente a um outro que deve ser utilizado com cautela empessoas com doencas cardiovasculares. Note que “infarto domiocardio” e uma “doenca cardiovascular” e ambos os ter-mos estao relacionados no SNOMED-CT. A contraindicacaoidentificada para termos mais gerais pode ser tambem uti-lizada em termos mais especıficos [9], melhorando assim aconsulta com relacao a utilizacao concomitante entre reme-dios.
3.3 Exemplos de consultasPara testar o sistema, algumas perguntas foram elabo-
radas e as respectivas respostas foram obtidas por meio deconsultas feitas utilizando a linguagem Cypher [7]. Por meiodo resultado dos testes, pode-se comprovar que as consultasrealizadas retornaram as relacoes entre os medicamentos.
A comparacao entre o formato da consulta com a sintaxeSQL de um banco relacional se mostraram de compreensaofacil.
Para ilustrar algumas das funcionalidades do sistema, al-guns exemplos estao ilustrados a seguir:
• A seguinte consulta mostra os medicamentos indicadospara a doenca de Alzheimer:
MATCH (med:Bula)-[related]-
(:Doenca {NameDisease: "Alzheimer’s disease"})
WHERE Type(related) = "INDICAC~OES"
RETURN med, Type(related), related LIMIT 20
Figura 5: Medicamentos indicados para tratamentode Alzheimer.
A Figura 5 apresenta vinte medicamentos indicadospara o tratamento de Alzheimer, que no exemplo elenca-se por: Exelon, Reminyl, Hazol, entre outros.
• Pela base desenvolvida e possıvel apresentar hierar-quias sobre termos entre as doencas:
XI Brazilian Symposium on Information System, Goiania, GO, May 26-29, 2015.
514
MATCH p=(Doenca { NameDisease:
"Alzheimer’s disease" })-[r]->(b)
RETURN *
Figura 6: Hierarquias entre as doencas.
A Figura 6 apresenta as hierarquias entre os termos re-ferentes a doenca de Alzheimer, pela imagem pode-sevisualizar que Alzheimer’s disease (C26929004) per-tence aos termos medicos tauopathy (C111479008) edementia (C52448006).
• A consulta a seguir representa os medicamentos queutilizam aspirina em sua composicao:
MATCH (med:Bula)-[relatedTo:COMPOSIC~AO]-
(:Droga {DrugBankId: "DB00945"})
RETURN med, Type(relatedTo), relatedTo
Figura 7: Medicamentos que possuem aspirina emsua composicao.
Na Figura 7 e exibido o resultado da consulta realizadautilizando como pesquisa o codigo do drugbank_id ao
inves de pesquisar pelo nome do farmaco, que no casoda aspirina seria Acetylsalicylic acid (DB00945). Pormeio desta imagem percebe-se que a consulta retor-nou 32 medicamentos que se encaixavam na condicaoespecificada.
• Com relacao a consulta anterior, imagina-se que umdeterminado paciente que possui insuficiencia renal ne-cessita tomar um medicamento com aspirina em suacomposicao:
MATCH (dr:Droga {DrugBankId: "DB00945"})<-
[:COMPOSIC~AO]-(m:Bula)-[:CONTRAINDICAC~OES]->
(do:Doenca {ConceptID: "C192789001"})
RETURN m, dr, do
Figura 8: Medicamentos que possuem aspirina emsua composicao, porem sao contraindicados para in-suficiencia renal.
A Figura 8 mostra os medicamentos que possuem as-pirina em sua composicao, mas que sao contraindica-dos para pessoas que tenham insuficiencia renal, re-ferente ao termo kidney failure (C192789001) da baseSNOMED-CT. Comparando-se o retorno apresentadopela atual figura com a Figura 7 visualiza-se que a con-sulta retornou apenas 13 medicamentos, e nao 32 comofoi apresentado anteriormente, face a isso, percebe-seque quanto mais condicoes sejam inferidas, medica-mentos mais especıficos podem ser encontrados pelasconsultas.
A linguagem Cypher possibilita de maneira simplificadadiferentes consultas com varios tipos de cruzamento de in-formacoes, a estruturacao de todas essas informacoes resultaem uma contribuicao para o trabalho dos profissionais bra-sileiros, retornando as interacoes entre medicamentos, pos-sıveis contraindicacoes, medicamentos por doenca, entre ou-tras questoes.
4. CONCLUSÃOO presente trabalho propoe uma estrutura baseada em
grafo para apresentar as correlacoes entre farmaco-doenca-medicamento, na qual seja de facil compreensao e visualiza-cao. O modelo criado integra os dados nao estruturados dosmedicamentos obtidos do Bulario Eletronico da ANVISA,juntamente com as drogas disponibilizadas pelo DrugBanke os termos medicos encontrados na base SNOMED-CT. Por
XI Brazilian Symposium on Information System, Goiania, GO, May 26-29, 2015.
515
meio da estruturacao dos dados e integracao das bases, osresultados apresentados fornecem uma melhoria para a pes-quisa de bulas. Este sistema sera disponibilizado para pro-fissionais brasileiros que precisam identificar rapidamente asinteracoes medicamentosas, contraindicacoes e composicoes.
Nota-se que o uso da tecnologia Neo4j simplifica a com-plexidade das consultas e retorna informacoes necessariaspara auxiliar no trabalho do profissional da saude. O sis-tema de visualizacao disponibilizada pela ferramenta ajudana identificacao de potenciais efeitos adversos causados pelasinteracoes entre medicamentos.
Como trabalho futuro ainda incidira no desenvolvimentoda integracao com outras fontes de informacao, por exemplo,consultas atraves do codigo CID-10 e Disease Ontology.
Alem disso pretendemos apresentar o sistema para analisepor especialistas, medicos e outros profissionais da area desaude.
5. REFERÊNCIAS[1] R. M. d. A. B. J. e. A. d. P. O. A. R. Lamas, J.
L. Filho. Ontologias e web services aplicados aodesenvolvimento de sistemas de informacao geograficamoveis sensıveis ao contexto. Anais do V SimposioBrasileiro de Sistemas de Informacao (SBSI), pages p.157–168, 2009.
[2] ANVISA. Resolucao-rdc no 47, de 8 de setembro de2009, 2009.
[3] S. H. D. B. Cassiani. A seguranca do paciente e oparadoxo no uso de medicamentos. Rev Bras Enferm,58(1):95–99, 2005.
[4] R. A. Cote, C. of American Pathologists, A. V. M.Association, et al. The systematized nomenclature ofhuman and veterinary medicine: SNOMEDinternational. College of American Pathologists;Schaumburg, IL: American Veterinary MedicalAssociation, 1993.
[5] M. da Saude. Uso racional de medicamentos: temasselecionados. 1. ed. Brasılia: Editora MS, 2012. 156 p.
[6] M. Liu, M. E. Matheny, Y. Hu, and H. Xu. Datamining methodologies for pharmacovigilance. ACMSIGKDD Explorations Newsletter, 14(1):35–42, 2012.
[7] Neo4j. Intro to cypher.http://neo4j.com/developer/cypher-query-language/,nov. 2014.
[8] M. J. Rho, S. R. Kim, S. H. Park, K. S. Jang, B. J.Park, and I. Y. Choi. Development common datamodel for adverse drug signal detection based onmulti-center emr systems. In Proceedings of the 2013International Conference on Information Science andApplications (ICISA), pages 1–7. IEEE, 2013.
[9] L. M. Schriml, C. Arze, S. Nadendla, Y.-W. W.Chang, M. Mazaitis, V. Felix, G. Feng, and W. A.Kibbe. Disease ontology: a backbone for diseasesemantic integration. Nucleic acids research,40(D1):D940–D946, 2012.
[10] C. S. Sean and B. Paul. Martindale: the completedrug reference. Pharmaceutical press1Lamberth HighStreet, London SEI, 7:219–599, 2002.
[11] P. G. Sun. The human drug–disease–gene network.Information Sciences, 306:70–80, 2015.
[12] Tesseract. Ocr.https://code.google.com/p/tesseract-ocr/, nov. 2014.
[13] J. Wallace and D. S. Paauw. Appropriate prescribingand important drug interactions in older adults.Medical Clinics of North America, 99(2):295–310,2015.
[14] D. S. Wishart, C. Knox, A. C. Guo, D. Cheng,S. Shrivastava, D. Tzur, B. Gautam, andM. Hassanali. Drugbank: a knowledgebase for drugs,drug actions and drug targets. Nucleic acids research,36(suppl 1):D901–D906, 2008.
[15] D. Yoon, M. Park, N. Choi, B. Park, J. Kim, andR. Park. Detection of adverse drug reaction signalsusing an electronic health records database:Comparison of the laboratory extreme abnormalityratio (clear) algorithm. Clinical Pharmacology &Therapeutics, 91(3):467–474, 2012.
XI Brazilian Symposium on Information System, Goiania, GO, May 26-29, 2015.
516
132
133
ANEXO B -- E-MAIL ANVISA
- ANVISA- Resposta ao protocolo 2015178840.pdf13/09/2015 Gmail - Anvisa- Em resposta ao protocolo: 2015177822.
https://mail.google.com/mail/u/0/?ui=2&ik=9604b75390&view=pt&q=atendimento.central%40anvisa.gov.br&qs=true&search=query&msg=14e3063f84906d… 1/1
João Vitor Ferrari <[email protected]>
Anvisa- Em resposta ao protocolo: 2015177822.Central de Atendimento ao Público - Anvisa <[email protected]> 26 de junho de 2015 12:02Para: "[email protected]" <[email protected]>
Prezado (a) senhor (a),
Em atenção a sua solicitação, informamos que de acordo com o § 2º do Art. 34. da RDC 47/2009:
"A utilização do conteúdo do Bulário Eletrônico é permitida, desde que se façam constar a fonte de ondeforam retiradas as informações, qual seja: a empresa titular do registro do medicamento, bem como a datada respectiva consulta, e sejam respeitados os direitos autorais, sem prejuízo de sanções cíveis e criminaisem eventuais alterações, que são expressamente proibidas."
Atenciosamente,
Anvisa AtendeCentral de AtendimentoAgência Nacional de Vigilância Sanitária0800 642 9782www.anvisa.gov.brSiga a Anvisa: www.twitter.com/anvisa_oficialEste endereço eletrônico está habilitado apenas para enviar e-mails. Caso deseje entrar em contato com acentral, favor ligar no 0800 642 9782 ou acessar o “Fale Conosco”, disponível no portal da ANVISA (link:www.anvisa.gov.br/institucional/faleconosco/FaleConosco.asp). As ligações podem ser feitas de segunda asexta - feira, das 7h30 às 19h30, exceto feriados.
134
135
ANEXO C -- INSCRICAO HOTEL TECNOLOGICO - 1a ETAPA
136
137
ANEXO D -- CONVOCACAO PARA BANCA - 2a ETAPA
138
139
ANEXO E -- RESULTADO HOTEL TECNOLOGICO