Upload
floria
View
25
Download
0
Embed Size (px)
DESCRIPTION
RENCONTRES DES 18 et 19 MAI 2011 ANGERS Institut de Cancérologie de l'Ouest Paul Papin. Data Management en épidémiologie Noémie LEVÊQUE-MORLAIS GRECAN - Centre François Baclesse – CAEN Lyan HOANG INSERM – U1018 – équipe 9 Institut Gustave Roussy - VILLEJUIF 18 mai 2011. 1- Épidémiologie - PowerPoint PPT Presentation
Citation preview
RENCONTRES DES 18 et 19 MAI 2011
ANGERS
Institut de Cancérologie de l'Ouest Paul Papin
Data Management en épidémiologie
Noémie LEVÊQUE-MORLAIS
GRECAN - Centre François Baclesse – CAEN
Lyan HOANG
INSERM – U1018 – équipe 9
Institut Gustave Roussy - VILLEJUIF
18 mai 2011
1- Épidémiologie2- AGRICAN
Milieu agricole : Contexte et études associéesMéthode : le questionnaire et les donnéesRésultats
3- E3NConstitution de la cohorteDonnées (sources, circuits, organisations, DM)
4- Data ManagementVidéocodageProblématiques
SOMMAIRE
2
1- Épidémiologie2- AGRICAN
Milieu agricole : Contexte et études associéesMéthode : le questionnaire et les donnéesRésultats
3- E3NConstitution de la cohorteDonnées (sources, circuits, organisations, DM)
4- Data ManagementVidéocodageProblématiques
1- Épidémiologie2- AGRICAN
Milieu agricole : Contexte et études associéesMéthode : le questionnaire et les donnéesRésultats
3- E3NConstitution de la cohorteDonnées (sources, circuits, organisations, DM)
4- Data ManagementVidéocodageProblématiques
SOMMAIRE
3
1- Épidémiologie2- AGRICAN
Milieu agricole : Contexte et études associéesMéthode : le questionnaire et les donnéesRésultats
3- E3NConstitution de la cohorteDonnées (sources, circuits, organisations, DM)
4- Data ManagementVidéocodageProblématiques
1- Épidémiologie
4
DéfinitionL’épidémiologie est l'étude de la répartition et des déterminants des évènements de santé.
Les 3 branches de l’épidémiologieDESCRIPTIVE : étudier la fréquence et la répartition d'une pathologie dans une population.ETIOLOGIQUE : rechercher les déterminants de cette pathologie.EVALUATIVE : mesurer l'impact d'une politique de santé publique.
COMPRENDREÉp. étiologique
CONNAÎTREÉp. descriptive
EVALUERÉp. évaluative
PolitiqueSANTE PUBLIQUE
Hypothèses Propositions
Actions
1- Épidémiologie : Étiologie
5
L’étiologieL’épidémiologie étiologique (ou analytique, ou explicative) permet rechercher une relation entre exposition(s) et pathologie(s).
Les enquêtesEnquête exposés / non exposés (cohorte) : comparaison de la survenue d’une pathologie dans le temps, dans des groupes de sujets, tous « sains » à T0, exposés ou non exposés à des facteurs de risque.Enquête Cas-Témoins : comparaison de la fréquence et de l’intensité de l’exposition entre des sujets malades et des sujets « sains ».
ObjectifL’identification des facteurs de risque permet la mise en place de politiques de santé publique.
Étude des antécédents
Comparaison des antécédents
1- Épidémiologie : L’enquête de cohorte
6
Etude cas-témoin Cohorte
Essai randomisé
prospectiverétrospective
Etude transversale
Population T0 Exposition ?
État de santé?
Population T1 Exposition ?
État de santé?
Comparaison
Patients
Répartition au
hasard
Comparaison des issues
Suivi
Comparaison
des résultats
Étude des antécédents
Suivi
Groupetraité
Témoin
Suivi
Suivi
Fumeurs
Non fumeursTémoins
sans cancer
Patients avec
cancer
Conclusions
1- Épidémiologie2- AGRICAN
Milieu agricole : Contexte et études associéesMéthode : le questionnaire et les donnéesRésultats
3- E3NConstitution de la cohorteDonnées (sources, circuits, organisations, DM)
4- Data ManagementVidéocodageProblématiques
SOMMAIRE
7
1- Épidémiologie2- AGRICAN
Milieu agricole : Contexte et études associéesMéthode : le questionnaire et les donnéesRésultats
3- E3NConstitution de la cohorteDonnées (sources, circuits, organisations, DM)
4- Data ManagementVidéocodageProblématiques
1- Épidémiologie2- AGRICAN
Milieu agricole : Contexte et études associéesMéthode : le questionnaire et les donnéesRésultats
3- E3NConstitution de la cohorteDonnées (sources, circuits, organisations, DM)
4- Data ManagementVidéocodageProblématiques
SOMMAIRE
8
1- Épidémiologie2- AGRICAN
Milieu agricole : Contexte et études associéesMéthode : le questionnaire et les donnéesRésultats
3- E3NConstitution de la cohorteDonnées (sources, circuits, organisations, DM)
4- Data ManagementVidéocodageProblématiques
2.1- AGRICAN - Milieu agricole : Contexte
9
La population agricoleEffets des expositions professionnelles agricoles peu renseignés France1 million actifs (5-7% des actifs) et 500000 exploitations en France Expositions spécifiques :
chimiques (pesticides, engrais, désinfectants…), physiques (ultraviolets, accidents mécaniques…),biologiques (virus animaux, moisissures…).
Les pesticidesLa France se situe au 4ème rang mondial avec une utilisation de près de 80.000 tonnes par an et au 1er rang européen. Quelques hypothèses liens pesticide et santé :
risques de cancers (hématologiques), troubles de la reproduction (infertilité, avortements, malformations) maladies neurologiques (maladie de Parkinson, troubles neurocomportementaux,…)
Nom EPIBIO
SujetMarqueurs d'endommagement de l'ADN associés à
l’utilisation de pesticides
Qui Agriculteurs
Quoi Enquête de cohorte épidémio et biologique
Où Calvados
Quand Débuté en 1997-2000 + suivi en 2007-2010
Comment Interrogation en face à face + prélèvement urine/sang
Combien 800 inclus
2.1- AGRICAN - Milieu agricole : Études (1)
10
DM : - Outil de saisie (+double saisie) sur Access.
Nom EPI95
Sujet Facteurs de risque du cancer en milieu agricole
Qui Agriculteurs actifs/retraités, salariés agricole actifs
Quoi Enquête de cohorte (préliminaire à AGRICAN)
Où Calvados
Quand Débuté en 1995 + suivi en 2010
CommentAuto-questionnaire courrier + au Suivi enquête par
téléphone pour les NRep
Combien 6000 inclus
2.1- AGRICAN - Milieu agricole : Études (2)
11
DM :- Croisement avec la MSA, le RNIPP, le CépiDC, puis les registres de Cancer- Formulaire de gestion des contacts (Suivi) sur Access- Nouveau modèle de vidéocodage à envisager
Nom AGRICAN
Sujet Facteurs de risque du cancer en milieu agricole
Qui Affiliés à la MSA (agriculteurs, salariés agricoles, tertiaire),
actifs/retraités
Quoi Enquête de cohorte
Où11 départements comprenant un registre du cancer
(21,25,33,38,44,50,67,68,80,81,85)
Quand Débuté en 2005 + 1er suivi prévu en 2012
Comment Auto-questionnaire courrier / 8 pages
Combien 570000 interrogés, 180000 inclus
2.1- AGRICAN - Milieu agricole : Études (3)
12
DM :- contrôles de cohérences (pour validation manuelle)- gestion du "Vidéocodage" - croisement avec la MSA, le RNIPP, le CépiDC, puis les registres de Cancer- calculs de mortalité et d'incidence à partir de ces croisements
1- Épidémiologie2- AGRICAN
Milieu agricole : Contexte et études associéesMéthode : le questionnaire et les donnéesRésultats
3- E3NConstitution de la cohorteDonnées (sources, circuits, organisations, DM)
4- Data ManagementVidéocodageProblématiques
SOMMAIRE
13
1- Épidémiologie2- AGRICAN
Milieu agricole : Contexte et études associéesMéthode : le questionnaire et les donnéesRésultats
3- E3NConstitution de la cohorteDonnées (sources, circuits, organisations, DM)
4- Data ManagementVidéocodageProblématiques
2.2- AGRICAN - Méthode : le questionnaire
14
Activités agricolesUtilisation des pesticides
Etat de santé
Habitudes de vie
2.2- AGRICAN - Méthode : le questionnaire
15
Conception + Test
Dépouillement + Numérisation
+ Stockage
1er Env + Relance + N° vert
Contrôles logiciel & manuels
CohérenceRecodage (DM)Codage (Cim,
Pro)
Bulletin d’infoQuestionnaire
Réception
Envoi
Vidéocodage
Base de données
Compte rendu aux participants
2.2- AGRICAN - Méthode : les données
16
Sources Données Fréq. - Début
Analyses
Quest. Individu (Nais, Fam, Form)Histoire professionnelle (élevage/culture, type de tâches, traitements)
Facteurs de confusion (tabac, alimentation, reproduction)
Tous les 5 ans - 2005
Description répondantsFacteurs de risque
MSA Adresses (Inclusion, Chgt)
Individu (Nais, Com)
Statut Vital, Actif/Retraité+ médicaments ?
Inclusion - 2005Annuel - 2009
Répondants / Non répondants
Mortalité (SMR)Cas-témoins nichée
RNIPP Individu (Nais, Com)
Statut VitalAnnuel - 2009
CépiDC Causes de décès
Registres
Diagnostic de cancer Annuel - 2012 Incidence Cancer (SIR)
1- Épidémiologie2- AGRICAN
Milieu agricole : Contexte et études associéesMéthode : le questionnaire et les donnéesRésultats
3- E3NConstitution de la cohorteDonnées (sources, circuits, organisations, DM)
4- Data ManagementVidéocodageProblématiques
SOMMAIRE
17
1- Épidémiologie2- AGRICAN
Milieu agricole : Contexte et études associéesMéthode : le questionnaire et les donnéesRésultats
3- E3NConstitution de la cohorteDonnées (sources, circuits, organisations, DM)
4- Data ManagementVidéocodageProblématiques
30% de réponse (182 000 personnes) - 5% attendus pour une enquête postaleLa participation est plus importante chez les moins de 75 ans, les femmes et dans le Doubs.
Tabac + faible qu’en pop généraleIMC + en surpoids que pop générale
18
Homme 54% Femme 46%
Âge 61 ans 65 ans
Vie maritale 78% mariés 63% mariées, 28% veuves
Activité 55% actifs, 60% Chef Exp
44% actives, 48% Chef Exp
Tabagisme 42% jamais, 12% actuel
76% jamais, 5% actuel
Santé perçue
64% bonne 55% bonne
IMC 16,2% obèses 14,7% obèses
2.3- AGRICAN – Les résultats – La cohorte
19
Homme Femme
Toutes causes de DC -27%* -25%*
Tous cancers -27%* -19%*
Larynx, trachée, bronches, poumons
-50%* -40%*
Vessie -42% -40%
Œsophage -28%* +8%
Mélanomes malins de la peau +1% +6%
Estomac -2% +5%
Cancers du « Sang » -11% +2%
Sein +123% -25%*
2.3- AGRICAN – Les résultats – La mortalité
* différence significative entre Agrican et la population générale
Liés a
u
tabac
Tendance
excè
s
1- Épidémiologie2- AGRICAN
Milieu agricole : Contexte et études associéesMéthode : le questionnaire et les donnéesRésultats
3- E3NConstitution de la cohorteDonnées (sources, circuits, organisations, DM)
4- Data ManagementVidéocodageProblématiques
SOMMAIRE
20
1- Épidémiologie2- AGRICAN
Milieu agricole : Contexte et études associéesMéthode : le questionnaire et les donnéesRésultats
3- E3NConstitution de la cohorteDonnées (sources, circuits, organisations, DM)
4- Data ManagementVidéocodageProblématiques
1- Épidémiologie2- AGRICAN
Milieu agricole : Contexte et études associéesMéthode : le questionnaire et les donnéesRésultats
3- E3NConstitution de la cohorteDonnées (sources, circuits, organisations, DM)
4- Data ManagementVidéocodageProblématiques
SOMMAIRE
21
1- Épidémiologie2- AGRICAN
Milieu agricole : Contexte et études associéesMéthode : le questionnaire et les donnéesRésultats
3- E3NConstitution de la cohorteDonnées (sources, circuits, organisations, DM)
4- Data ManagementVidéocodageProblématiques
Nom E3N : Etude Epidémiologique auprès de femmes de
l’Education Nationale
Sujet Etude des facteurs de risque de cancer chez la femme
Qui Femmes adhérentes à la MGEN, nées entre 1925 et 1950
Quoi Cohorte prospective
Où France, partie française de l’EPIC
Quand Débuté en 1989
Comment Auto-questionnaire courrier
Combien 500000 femmes interrogées, 98 995 incluses
3.1- E3N – Constitution de la cohorte
22
3.1- E3N – Constitution de la cohorte
23
Données prospectives sur état de santé, anthropométrie, Facteurs reproductifs et hormonaux, mode de vie, alimentation,
L’étude pilote a commencé en 1989 : 2681 retours de questionnaires
En 1990, la MGEN a envoyé à environ 500 000 personnes nées entre 1925-1950
103 089 retours, saisie de l’étiquette pour constituer une base d’adresse.
Le fichier de 500 000 personnes est arrivé 18 mois après
3.1- E3N – Constitution de la cohorte
24
Couple E3N-MGEN sur les critères : nom, prénom, nom de jeune fille, date de naissance, commune de naissance
>> gros problème de discordances entre les saisies de ces 2 bases
Les analyses ne peuvent commencer en 2000 qu’après les travaux de :
vérification des accords
vérification des dates de naissance concordantes entre les déclarations
Ainsi la cohorte fige sa population de 98995 personnes à suivre
3.1- E3N – Constitution de la cohorte
25
1- Épidémiologie2- AGRICAN
Milieu agricole : Contexte et études associéesMéthode : le questionnaire et les donnéesRésultats
3- E3NConstitution de la cohorteDonnées (sources, circuits, organisations, DM)
4- Data ManagementVidéocodageProblématiques
SOMMAIRE
26
1- Épidémiologie2- AGRICAN
Milieu agricole : Contexte et études associéesMéthode : le questionnaire et les donnéesRésultats
3- E3NConstitution de la cohorteDonnées (sources, circuits, organisations, DM)
4- Data ManagementVidéocodageProblématiques
3.2- E3N – Données
27
Auto-questionnaires tous les 2, 3 ans sur :État de santé, mode de vie …
Banque du matériel biologique :25000 prélèvements sanguin
50000 kits salives
Fichiers MGEN : Tous les médicaments prescrits, remboursés
Causes de DC
Compte-rendu anatomopathologiques de cancer
Mammographies du sein
Suivi de tous les contacts avec :Les participantes (questionnaires, mailings, documents médicaux…)
Les médecins (une base d’environ 35000)
Volume important (≈ 10 caisses / jr)
Ouverture
Tri des questionnairesPetits motsÉtiquettes d’identification à enlever éventuellementRayés
Stylo optique pour pouvoir faire les relances au plus viteLes questionnaires prêts pour numériser
3.2.1- E3N – Questionnaires
28
Données prospectives sur état de santé, anthropométrie,
Facteurs reproductifs et hormonaux, mode de vie, alimentation, …
Questionnaires spécifiques, comme les fractures, déclin cognitif, exposoleil …
3.2.1- E3N – Questionnaires
29
3.2.2- E3N – Questionnaires - Facteurs hormonaux
30
Structure des données – Gel des tables à analyserLes répertoires
Les dictionnaires des variables
3.2.2- E3N – Questionnaires
31
Partie quantitative : 8 repas avec la fréquence de consommation de chaque d’aliment,
la quantité consommée à chaque repas…
Partie qualitative : type d’aliment,
mode de cuisson,
régime …
3.2.3- E3N – Questionnaires - Le Qr alimentaire
32
Corrections de la 1ère partie du questionnaire : Transformation des lettres des photos en quantités, en prenant en compte les photos multiples, transformation des fréquences mensuelles en fréquences hebdomadaires, correction des arrondis et des valeurs aberrantes pour les quantités, création d’un compteur permettant de calculer le nombre d’aliments consommés pour chaque personne…
Corrections de la 2nde partie du questionnaire :Convertir la photo en quantité numérique, vérification des cohérences, internes aux blocs, convertir les tableaux qualitatifs en codes, uniformiser les déclarations, décisions pour les multicochages, décomposition des aliments
Calcul des apports alimentairesQuantification des aliments consommés par repas et par jour, quantification des aliments consommés par jour (sans distinction des repas, classification des aliments consommés (groupes EPIC), calcul des apports en nutriments par jour et par femme
3.2.3- E3N – Questionnaires - Le Qr alimentaire
33
3.2.3- E3N – Questionnaires - Le Qr alimentaire
34
Fichiers trimestriels de la population de départ en 1990 : Coordonnées, statut vital
Consommations médicales : médicaments, hospitalisations, actes …
Médecins, établissements hospitaliers …
Les macro SAS sont traitées à chaque réception de ces fichiers (importants de taille)
Des macro SAS sont aussi créées pour extraire les données, par exemple : toutes les personnes qui ont consommé les médicaments traitant l’asthme (en croisant avec la base Thériaque)
3.2.4- E3N – MGEN
35
Toutes les notions concernant le cancer sont ajoutées dans la base de K :
Auto-déclaration ( partie cancer, motifs d’hospitalisations, autres maladies)
Causes de décès
Par la famille
Dans les documents médicaux
3.2.5- E3N – Les cas de cancer
36
Comptes rendus anatomopathologiques (CRA) à récupérer : Saisir les médecins fournis dans les questionnaires
Créer un couple femme-médecin
Mailing au médecin
3.2.5- E3N – Les cas de cancer
37
3.2.5- E3N – Les cas de cancer
38
Codage des CRA reçus
Tableau de bord pour connaitre chaque contact avec les participantes (ACCESS)
3.2.6- E3N – Suivi des contacts
39
1- Épidémiologie2- AGRICAN
Milieu agricole : Contexte et études associéesMéthode : le questionnaire et les donnéesRésultats
3- E3NConstitution de la cohorteDonnées (sources, circuits, organisations, DM)
4- Data ManagementVidéocodageProblématiques
SOMMAIRE
40
1- Épidémiologie2- AGRICAN
Milieu agricole : Contexte et études associéesMéthode : le questionnaire et les donnéesRésultats
3- E3NConstitution de la cohorteDonnées (sources, circuits, organisations, DM)
4- Data ManagementVidéocodageProblématiques
4.1- Vidéocodage
41
LAD : Lecture Automatique de DocumentsA partir de la numérisation et de la reconnaissance de caractères, elle permet de récupérer les informations de documents papiers sur des fichiers informatiques en limitant l’intervention humaine.C’est une Alternative à la saisie pour les grandes quantités de Qr et de variables.
Logiciel : B-Wize (=ICR) développé par EMC
4.1- Vidéocodage
42
Préparation des documents
Numérisation Lecture OCR + contrôles
Validation manuelle
EnregistrementFichiers
Stockage
4.1- Vidéocodage
43
Avant : Le modèleAncresChampsContrôles
Pendant : Le workflow (étapes de production) : Numérisation (10-20)Identification des pages et du code individu (30-40) Lecture des données par le logiciel (60)Si erreur envoi en validation manuelle (70)Transfert des données vers des fichiers (80)
Après : Les bases et les imagesTraitements sur les données exportéesConsultation des imagesAccès aux bases du logiciel
4.1- Vidéocodage – Le modèle
44
Support du modèle
Propriétés de l’objet
Répertoire des objets
Explorateur
Barre d’outils
Vert = Champ
Jaune = Ancre
4.1- Vidéocodage – La validation manuelle
45
Lecture directe de l’image
Lecture des données recueillies
Progression du lot
Bleu ciel = champ en cours de contrôle(Bleu = champ en attente de contrôle)
Vert = Champ validé
Zone de saisie du champ
Lecture du champ sur l’image
Commentaire
Coût d’acquisition très élevéLecture automatique des documents, commence à délivrer un retour sur investissement intéressant au dessus de 500 doc/jour avec comme condition une densité élevée de données pour chaque doc.Scan : rythme de 800 questionnaires de 2 feuilles par heure (soit 3 semaines pour 84 000 questionnaires de 4 pages)Correction à l’écran des informations mal reconnues par l’automate (55 qst de 4 pages / heure, soit 10 personnes-mois)Documents consultables en ligne Consultation des questionnaires :
Évite de trier et ranger les questionnairesÉvite d’aller chercher les questionnaires papiersLibére la place de stockage des papiers
4.1- Vidéocodage – Avantages et inconvénients
46
Avec l’évolution informatique : l’ancien ne peut plus être déployé sur de nouveaux environnements. Le changement de plateforme est en cours à E3N. Nous devons prendre 2 pro logiciels pour remplacer : InputAccel et Documentum. Avec la nouvelle plateforme :
Transfert de tous les anciens questionnairesnumérisation tous nos documents papiers : CRA de K de plus de 21 000 personnes (4 grands armoires), consentements …Nouveaux questionnaires de suivi (le premier sera fin de cette année)
4.1- Vidéocodage – Les perspectives
47
1- Épidémiologie2- AGRICAN
Milieu agricole : Contexte et études associéesMéthode : le questionnaire et les donnéesRésultats
3- E3NConstitution de la cohorteDonnées (sources, circuits, organisations, DM)
4- Data ManagementVidéocodageProblématiques
SOMMAIRE
48
1- Épidémiologie2- AGRICAN
Milieu agricole : Contexte et études associéesMéthode : le questionnaire et les donnéesRésultats
3- E3NConstitution de la cohorteDonnées (sources, circuits, organisations, DM)
4- Data ManagementVidéocodageProblématiques
4.2- Problématiques en Data Management
49
Suivi dans le tempsLa mise à jour non stop des donnéesVérification des déclarations à travers les questionnaires
Structure et organisation des données : Quelle donnée choisir parmi tant ?Quelle table de donnée utiliser dans une analyse ou une autre ?
4.2- Problématiques en Data Management
50
Choix de logiciels adaptés Formulaires de Saisie sur Access (+ qq requêtes) (?)Vidéocodage sur Bwize (?)Requêtes / contrôles / gestion des bases / calculs sur SAS
Sources externesCollecteCroisements des bases sans identifiant commun
Validation des donnéesIdentification des erreurs de remplissage des répondantsRecodages / contrôles de cohérenceSécurisation / pérennité / dynamisation des bases
Suivi des individusChangements adresse, décès, perdus de vue
Gestion de 180 000 individusSeulement 50% de questionnaires validés depuis 2008 : échn 10% pr analyseTemps de chargementStockage sur une base MySQL