51
L3 Mathématiques, Informatique, Statistique Parcours Génie Informatique et Statistique UNIVERSITE DE BRETAGNE-SUD IUP DE VANNES ETUDE POUR L’IMPLANTATION D’UN HYPERMARCHE DANS LE DEPARTEMENT DU HAUT-RHIN Camille LOTTHE Gaëlle PROUX Pierre-François BUSSON Vincent LANGLO

ETUDE POUR L’IMPLANTATION D’UN HYPERMARCHE DANS LE ...fingerabdrucke.free.fr/work/L3-etudeCas.pdf · I.1.5 - Logiciels utilisés Pour l’étude de marché à traiter, nous avons

  • Upload
    others

  • View
    2

  • Download
    0

Embed Size (px)

Citation preview

Page 1: ETUDE POUR L’IMPLANTATION D’UN HYPERMARCHE DANS LE ...fingerabdrucke.free.fr/work/L3-etudeCas.pdf · I.1.5 - Logiciels utilisés Pour l’étude de marché à traiter, nous avons

L3 Mathématiques, Informatique,

Statistique Parcours Génie Informatique et Statistique

UNIVERSITE DE BRETAGNE-SUD – IUP DE VANNES

ETUDE POUR L’IMPLANTATION D’UN HYPERMARCHE DANS LE DEPARTEMENT DU

HAUT-RHIN

Camille LOTTHE Gaëlle PROUX

Pierre-François BUSSON Vincent LANGLO

Page 2: ETUDE POUR L’IMPLANTATION D’UN HYPERMARCHE DANS LE ...fingerabdrucke.free.fr/work/L3-etudeCas.pdf · I.1.5 - Logiciels utilisés Pour l’étude de marché à traiter, nous avons

2

Année universitaire 2006 – 2007

Page 3: ETUDE POUR L’IMPLANTATION D’UN HYPERMARCHE DANS LE ...fingerabdrucke.free.fr/work/L3-etudeCas.pdf · I.1.5 - Logiciels utilisés Pour l’étude de marché à traiter, nous avons

3

SOMMAIRE

INTRODUCTION ................................................................................ 5

I- PRESENTATION GENERALE ................................................................ 6

I.1 - Présentation de l’étude............................................................. 7 I.1.1 - Présentation du Haut-Rhin ...................................................... 7 I.1.2 - Présentation d’une étude de marché ......................................... 7 I.1.3 - Objectifs de l’étude ............................................................. 8 I.1.4 - Cahier des charges ............................................................... 9 I.1.5 - Logiciels utilisés .................................................................10

I.2 – Présentation des données ........................................................ 10 I.2.1 - La population en 1999 ..........................................................10 I.2.2 - L'âge ...............................................................................11 I.2.3 - Les Ménages ......................................................................12 I.2.4 - Les CSP............................................................................13 I.2.5 - Les consommations..............................................................13

II- CLASSIFICATION DES VILLES DU HAUT-RHIN ........................................ 15

II.1 - Nettoyage des données........................................................... 16

II.2 – L’Analyse en Composantes Principales ....................................... 17 II.2.1 - Principe de l’ACP ...............................................................17

a) Les données et leurs caractéristiques .....................................18 b) Espace des individus..........................................................18 c) Espace des variables .........................................................18

II.2.2 - Interprétation ...................................................................19 II.2.2.1 – Interprétation dans le cas général .....................................19 a) Qualité des représentations sur les plans principaux...................19 b) Nombres d’axes à retenir ...................................................19 c) Choix des variables ...........................................................20 d) Choix des individus ...........................................................20

II.2.2.2 - Interprétation dans le cas de notre étude .............................21 a) ACP pour les variables sociodémographique .............................21 b) ACP pour les variables de consommation .................................22 c) ACP générale ..................................................................23

II.3 - La Classification Ascendante Hiérarchique .................................. 26 II.3.1 - Présentation de la CAH ........................................................26 II.3.2 - Interprétation ...................................................................28 II.3.2.1 – Variables socio démographiques ........................................28 II.3.2.2 – Variables de consommation ..............................................29 II.3.2.3 - Conclusion ..................................................................30

II.4 - La méthode des K-moyennes .................................................... 31

Page 4: ETUDE POUR L’IMPLANTATION D’UN HYPERMARCHE DANS LE ...fingerabdrucke.free.fr/work/L3-etudeCas.pdf · I.1.5 - Logiciels utilisés Pour l’étude de marché à traiter, nous avons

4

II.4.1 – Présentation de la méthode...................................................31 II.4.2 – Résultats de la classification..................................................33 II.4.2.1 – Variables socio démographiques ........................................33 II.4.2.2 – Variables de consommation ..............................................35

II.5 - Comparaison des méthodes de classification ............................... 38 II.5.1 – Avantages et inconvénients de la classification par K-moyennes .......38 II.5.2 – Avantages et inconvénients de la classification ascendante hiérarchique.............................................................................................38 II.5.3 - Comparaison des résultats trois méthodes..................................39

III – Choix de la ville d’implantation de l’hypermarché.............................. 41 III.1 – La régression logistique......................................................... 42 III.2 - L’analyse factorielle discriminante .......................................... 44 III.2.1 - Méthode des plus proches voisins............................................45 III.2.2 - Méthode linéaire ...............................................................45 III.2.3 - Méthode quadratique..........................................................46

III.3 - Décision finale..................................................................... 47 III.4 - Partie client ....................................................................... 48

CONCLUSION ................................................................................. 50 TABLE DES TABLEAUX ...................................................................... 51 TABLE DES GRAPHIQUES ................................................................... 51

Page 5: ETUDE POUR L’IMPLANTATION D’UN HYPERMARCHE DANS LE ...fingerabdrucke.free.fr/work/L3-etudeCas.pdf · I.1.5 - Logiciels utilisés Pour l’étude de marché à traiter, nous avons

5

INTRODUCTION

Ce projet a été réalisé dans le cadre de l’obtention de notre licence en

Mathématiques, Informatique et Statistique à l’IUP de Vannes.

Notre étude porte sur l’implantation d’un hypermarché dans le département du

Haut-Rhin (68). Nous avons dû étudier les villes de ce département, afin de

sélectionner celle qui serait la plus apte à recevoir la construction d’un

hypermarché.

La première partie de ce rapport porte sur une présentation de l’étude et des

données. La deuxième partie développe la classification des villes du Haut-Rhin en

plusieurs groupes, et la dernière partie concerne le processus du choix de la ville

d’implantation de l’hypermarché.

Page 6: ETUDE POUR L’IMPLANTATION D’UN HYPERMARCHE DANS LE ...fingerabdrucke.free.fr/work/L3-etudeCas.pdf · I.1.5 - Logiciels utilisés Pour l’étude de marché à traiter, nous avons

6

I- PRESENTATION GENERALE

Page 7: ETUDE POUR L’IMPLANTATION D’UN HYPERMARCHE DANS LE ...fingerabdrucke.free.fr/work/L3-etudeCas.pdf · I.1.5 - Logiciels utilisés Pour l’étude de marché à traiter, nous avons

7

I.1 - Présentation de l’étude

I.1.1 - Présentation du Haut-Rhin

Le département du Haut-Rhin (68) fait partie de la région Alsace. Il est limitrophe

des départements du Bas-Rhin (67), des Vosges (88) et du Territoire de Belfort (90)

mais également de l’Allemagne à l’est et de la Suisse au sud. Sa superficie est de

3 508 km² et sa population en 1999 est de 707 772 habitants. L’évolution de son

nombre d’habitants entre 1990 et 1999 a été de plus de 5%. Les habitants du Haut-

Rhin sont appelés les Haut-rhinois.

Le plus grand bassin de population, mais aussi d’activités commerciales et

industrielles, d’éducation et de services divers, se situe dans l’aire urbaine de

Mulhouse, capitale économique, avec 110 359 habitants. La ville de Colmar, 65 136

habitants est la capitale administrative regroupant les services de la Préfecture et

du Conseil Général.

Le triangle formé par les villes Mulhouse, Guebwiller et Thann développe une zone

attractive marquée, avec l’implantation de commerces, observée surtout dans le

nord de l’agglomération.

Le département dispose d’importantes ressources minières telles que les carrières

de sables ou encore de graviers. L’activité industrielle se développe (industrie

chimique, textile, alimentaire, métallurgie) grâce au Marché commun et à la

navigation sur le Rhin. De plus la production hydroélectrique est devenue une

nouvelle source d’activité importante du département.

I.1.2 - Présentation d’une étude de marché

Page 8: ETUDE POUR L’IMPLANTATION D’UN HYPERMARCHE DANS LE ...fingerabdrucke.free.fr/work/L3-etudeCas.pdf · I.1.5 - Logiciels utilisés Pour l’étude de marché à traiter, nous avons

8

Un marché est le lieu (l’environnement) dans lequel évolue l'entreprise et où se

rencontrent l'offre et la demande d'un bien ou d’un service, c'est à dire

principalement les clients potentiels et la concurrence.

Un marché peut-être national, régional, saisonnier, concentré, diffus, captif,

fermé, ambulant...

Chaque caractéristique du marché entraîne des contraintes et des clefs de

succès spécifiques qu'il est important d'identifier à ce stade.

L’étude de marché est une étape fondamentale qui est un passage obligé pour tout

futur chef d'entreprise, dans la mesure où elle lui permet :

- de mieux connaître les grandes tendances et les acteurs de son marché, et de

vérifier l’opportunité de se lancer à un endroit donné,

- de réunir suffisamment d’informations lui permettant de fixer des hypothèses de

chiffre d’affaires,

- de faire les meilleurs choix commerciaux pour atteindre ses objectifs (déterminer

sa stratégie),

- de fixer, de la manière la plus cohérente possible, sa politique "produit", "prix",

"distribution" et "communication" (mix marketing),

- d’apporter des éléments concrets qui serviront à établir un budget prévisionnel.

Sa vocation est de réduire au maximum les risques en permettant au futur chef

d’entreprise de mieux connaître l'environnement de sa future entreprise, et ainsi

de prendre des décisions adéquates et adaptées.

I.1.3 - Objectifs de l’étude

On souhaite implanter un hypermarché dans une commune du Haut-Rhin. Nous

disposions pour notre travail de différentes bases de données contenant les

caractéristiques sociodémographiques, ainsi que les indices de consommation de

toutes les communes du Haut-Rhin. Notre objectif a été d’appliquer et de

comparer différentes méthodes statistiques qui nous ont permis de distinguer

plusieurs groupes de villes, puis de déterminer dans quelle ville il serait optimal

d’implanter l’hypermarché.

Page 9: ETUDE POUR L’IMPLANTATION D’UN HYPERMARCHE DANS LE ...fingerabdrucke.free.fr/work/L3-etudeCas.pdf · I.1.5 - Logiciels utilisés Pour l’étude de marché à traiter, nous avons

9

Dans ce but, il est possible d’établir un cahier des charges, permettant d’organiser

le déroulement du projet, en termes d’opérations et de délais.

I.1.4 - Cahier des charges

Nous avions 11 semaines pour réaliser ce projet.

12/01/07 : Choix et prise de connaissance du sujet.

Etude et compréhension des différentes variables.

19/01/07 : Grâce au logiciel SAS, concaténation des 3 fichiers Excel en un seul.

Suppressions des variables doublons (exemple : dept).

Analyse variable par variable (recherche de valeurs manquantes ou

aberrantes).

26/01/07 : Fin de l’analyse variable par variable avec la proc univariate sous SAS.

Création des programmes des ACP pour l’étude des variables

sociodémographique et de consommation sous SAS.

02/02/07 : Analyse des résultats des ACP.

Création des programmes des méthodes de classification (CAH et

K-moyennes).

Du 09/02/07 au 09/03/07 : Analyse et interprétation des classifications.

Rédaction des descriptions et des analyses des résultats obtenus grâce

aux différentes méthodes, pour le rapport.

Du 16/03/07 au 23/03/07 : 2ème partie : arbre de décision, régression logistique et

rédaction finale du rapport.

Page 10: ETUDE POUR L’IMPLANTATION D’UN HYPERMARCHE DANS LE ...fingerabdrucke.free.fr/work/L3-etudeCas.pdf · I.1.5 - Logiciels utilisés Pour l’étude de marché à traiter, nous avons

10

I.1.5 - Logiciels utilisés

Pour l’étude de marché à traiter, nous avons utilisé le logiciel SAS (Statistical

Analysis System), qui est un logiciel d’analyse statistique, économétrique et de

recherche opérationnelle qui possède de puissants outils pour la gestion des

données, le calcul matriciel et la programmation d’applications graphiques. Ses

procédures de gestion de données et de calcul matriciel font que SAS est un

véritable langage de programmation.

Nous avons également utilisé le logiciel Excel pour les traitements préliminaires

tels que les analyses descriptives. Ce logiciel est un tableur électronique. Il sert

avant tout à créer des tableaux dans lesquels on peut inscrire des données et

effectuer des calculs. Il est également possible de tracer des graphiques pour

illustrer les valeurs inscrites dans les tableaux.

I.2 – Présentation des données

I.2.1 - La population en 1999

Analysis Variable : RD99PSDC

Minimum Maximum Moyenne Écart-type 1er centile 90e

centile 95e

centile 99e

centile

47 110359 1887 6897.57 136 3108 5581 15026

Tableau 1 : Statistiques descriptives de la population en 1999

Page 11: ETUDE POUR L’IMPLANTATION D’UN HYPERMARCHE DANS LE ...fingerabdrucke.free.fr/work/L3-etudeCas.pdf · I.1.5 - Logiciels utilisés Pour l’étude de marché à traiter, nous avons

11

Figure 1 : Répartition de la population en 1999

En étudiant la population, nous pouvons remarquer que 9 communes sur 10 ont

3000 ou moins de 3000 habitants, la moyenne étant de 1890 habitants par

commune dans le Haut-Rhin. Cet indicateur est à relativiser car l'écart type s'élève

à 6897. Seulement 5% des communes ont plus de 5500 habitants et 1% plus de

15026 habitants. Les villes de plus de 15000 habitants sont : Mulhouse (110359),

Colmar (65136), Saint Louis (19961) et Wittenheim (15026).

I.2.2 - L'âge

Page 12: ETUDE POUR L’IMPLANTATION D’UN HYPERMARCHE DANS LE ...fingerabdrucke.free.fr/work/L3-etudeCas.pdf · I.1.5 - Logiciels utilisés Pour l’étude de marché à traiter, nous avons

12

201511188390

94442

44136

178977178977

0

50000

100000

150000

200000

250000

0-20 ans 20-40 ans 40-60 ans 60-75 ans 75 ans et plus

Figure 2 : Répartition de la population selon l’âge

Nous pouvons dégager de ce graphique une part d’individu similaire dans les

classes 0-20 ans, 20-40 ans et 40-60 ans. 80% de la population a moins de 60 ans.

Les 75 ans et plus représentent seulement 6% de la population totale

I.2.3 - Les Ménages

Page 13: ETUDE POUR L’IMPLANTATION D’UN HYPERMARCHE DANS LE ...fingerabdrucke.free.fr/work/L3-etudeCas.pdf · I.1.5 - Logiciels utilisés Pour l’étude de marché à traiter, nous avons

13

86846

50500

41090

15619

7473

7429474294

0 10000 20000 30000 40000 50000 60000 70000 80000 90000 100000

Ménages de 1 personne

Ménage de 2 personnes

Ménages de 3 personnes

Ménages de 4 personnes

Ménages de 5 personnes

Ménages de plus de 6 personnes

Figure 3 : Répartition de la population selon le nombre de personnes dans le ménage

La majorité des ménages comportent 1, 2 voire 3 personnes (76% du nombre total

de ménages). Il y a seulement 7473 ménages de 6 personnes ou plus, sur 275822

ménages dans le Haut Rhin.

I.2.4 - Les CSP

10304

14540

19572

21424

35500

69828

73084

32003200

0 10000 20000 30000 40000 50000 60000 70000 80000

Agriculteurs, exploitants

Artisants, commerçants, chefs d''entreprise

Autres personnes sans actiités

Cadres

Employés

Professions intermédiaires

Retraités

Ouvriers

Figure 4 : Répartition de la population selon la CSP

Nous pouvons voir que le nombre d'agriculteurs est plus de 20 fois moins important

que celui des ouvriers. Les CSP les plus représentées sont les ouvriers, retraités, et

professions intermédiaires (70% du total). Il faut noter cependant que toute la

population du Haut Rhin n'est pas classée dans ces CSP, seulement 247452

habitants sur 707772.

I.2.5 - Les consommations

Page 14: ETUDE POUR L’IMPLANTATION D’UN HYPERMARCHE DANS LE ...fingerabdrucke.free.fr/work/L3-etudeCas.pdf · I.1.5 - Logiciels utilisés Pour l’étude de marché à traiter, nous avons

14

4,5

-3

7,36

14,5 14,75

0,93

17,27

-8,01-10

-5

0

5

10

15

20

Alim

enta

tion

Repas e

t

consom

mation

exté

rieure

Equip

em

ent

de

la p

ers

onne

Equip

em

ent

de

la m

ais

on

Auto

mobile

s e

t

cycle

s

Culture

et

lois

irs

Tabac e

t

cig

are

ttes

Autr

es

Figure 5 : Indices de consommation par rapport à l’indice national

Les données qui nous sont fournies pour les variables relatives à la consommation

sont en indices de consommation. Nous pouvons donc comparer les habitudes du

Haut Rhin en terme de consommation par rapport aux autres départements

français. Nous pouvons mettre en exergue une plus forte consommation alimentaire

dans ce département vis à vis des autres (4% supérieure à la moyenne). Ceci est

également vrai pour l'équipement de la personne. Nous constatons aussi que la

consommation en équipement de la maison et automobiles et cycles est bien

supérieure aux autres départements (+ 15%). Pour finir, les haut-rhinois

consomment 17,7% de tabac et cigarettes de plus que la moyenne nationale.

Pour la culture et les loisirs (téléphonie, appareils audiovisuels, informatique /

jeux video, audio, video, livres, journaux, papeterie, jouets, sports, camping,

plantes, fleurs, animaux), les habitants du Haut-Rhin ont une consommation

« presque semblable » à la moyenne française (+0,93%).

A l'inverse, nous voyons que les haut-rhinois consomment moins de repas à

l'extérieur du domicile (-3%) que les Français en général. De plus, pour les

consommations telles que les produits de parapharmacie, coiffure, esthétique,

nettoyage, blanchissage, santé, service, etc., les haut-rhinois ont une

consommation bien inférieure à celle des Français (-8%).

Page 15: ETUDE POUR L’IMPLANTATION D’UN HYPERMARCHE DANS LE ...fingerabdrucke.free.fr/work/L3-etudeCas.pdf · I.1.5 - Logiciels utilisés Pour l’étude de marché à traiter, nous avons

15

II- CLASSIFICATION DES VILLES DU HAUT-RHIN

Page 16: ETUDE POUR L’IMPLANTATION D’UN HYPERMARCHE DANS LE ...fingerabdrucke.free.fr/work/L3-etudeCas.pdf · I.1.5 - Logiciels utilisés Pour l’étude de marché à traiter, nous avons

16

II.1 - Nettoyage des données

Afin de pouvoir exploiter correctement les données, nous avons effectué des

analyses préalables afin d’évaluer les valeurs manquantes et aberrantes.

Tout d’abord, nous avons étudié les différentes variables pour les comprendre.

Nous avons donc observé que les variables de consommation étaient des IDC (Indice

de Disparité des Dépenses de Consommation) qui mesurent, par rapport à une

moyenne nationale –indice 100- le niveau des dépenses de consommation des

ménages, selon leur lieu de résidence, pour un produit ou une famille de produits

donnée. Ils permettent également de calculer le potentiel d’achat des ménages.

Nous avons ensuite concaténé les trois fichiers de données en un seul (nommé

projet) à l’aide du logiciel SAS, et nous avons supprimé les variables doublons,

comme le département.

Nous avons également effectué des analyses descriptives simples sur chaque

variable afin de repérer les valeurs aberrantes. Nous avons donc supprimé deux

villes : Magny et St Cosme puisque l’on observait des valeurs aberrantes telles que

le nombre de ménage de 1 personne qui est nul dans une petite commune ou

encore un nombre de ménage de plus de 6 personnes supérieur à 20%. Étant donné

la taille des villes, nous avons considéré que nous pouvions les supprimer.

Nous avons également constaté une valeur aberrante sur la ville de Bellemagny, il y

avait beaucoup de personnes âgées. Une vérification nous a appris qu’il y a une

maison de retraite dans cette ville. Comme Bellemagny est une petite ville, le

pourcentage trouvé est normal, nous avons donc gardé cette ville.

Nous avons également pu constater lors de la concaténation qu’une ville n’était

pas orthographiée de la même façon dans les différentes tables. Cette erreur a été

corrigée, afin d’avoir les bonnes valeurs pour la table projet, afin que les données

ne soient pas faussées.

Page 17: ETUDE POUR L’IMPLANTATION D’UN HYPERMARCHE DANS LE ...fingerabdrucke.free.fr/work/L3-etudeCas.pdf · I.1.5 - Logiciels utilisés Pour l’étude de marché à traiter, nous avons

17

De plus, nous avons supprimé l’effet taille des villes pour toutes les variables

sociologiques, en divisant leur valeur soit par la population en 1999 sans double

compte, soit par le nombre de ménages.

II.2 – L’Analyse en Composantes Principales

II.2.1 - Principe de l’ACP

L’analyse en composante principale est une méthode statistique exploratoire

d’analyse de données permettant une description essentiellement graphique de

l’information contenue dans de grands tableaux de données de type (individu *

variables quantitatives). Son objectif est d’extraire l’essentiel de l’information et

de la structurer. Dans la plupart des applications, il s’agit d’étudier p variables

mesurées sur un ensemble de n individus.

L’analyse en composante principale, notées ACP par la suite, est souvent

considérée comme la méthode de base de l’analyse factorielle des données dont

l’objectif est de déterminer des fonctions des p variables ou facteurs qui serviront

à visualiser les observations de façon simplifiée. En ramenant un grand nombre de

variables, souvent corrélées entre elles, à un petit nombre de composantes

principales (les premières) non corrélées, l’ACP est une méthode de réduction de la

dimension.

Le but de l’ACP est donc de fournir des représentations synthétiques de vastes

ensembles de données numériques, essentiellement sous forme de visualisations

graphiques planes. Les espaces initiaux de représentations des individus et des

variables étant de trop grandes dimensions, il est impossible d’y visualiser le nuage

de points, c’est-à-dire qui respectent le plus possible la configuration initiale.

La méthode consiste à projeter le nuage de points en minimisant les déformations

des distances inhérentes à la projection.

Page 18: ETUDE POUR L’IMPLANTATION D’UN HYPERMARCHE DANS LE ...fingerabdrucke.free.fr/work/L3-etudeCas.pdf · I.1.5 - Logiciels utilisés Pour l’étude de marché à traiter, nous avons

18

a) Les données et leurs caractéristiques

Les données sont généralement représentées sous la forme d’un tableau à n lignes

représentant les individus et à p colonnes correspondant aux variables. Le choix

des individus et des variables est une phase essentielle qui influence, les résultats

d’une ACP. Ce choix doit être fait en fonction des buts de l’étude ; les variables

doivent notamment décrire le plus possible les phénomènes que l’on cherche à

mettre en évidence.

b) Espace des individus

On associe aux données un nuage de points : chaque individu étant défini par p

coordonnées est alors considéré comme un élément d’un espace vectoriel de

dimension p, appelé espace des individus.

Les coordonnées des n individus sur un axe composent un vecteur colonne appelé

composante principale de l’axe.

Le principe de l’ACP est de visualiser le plus fidèlement possible, dans un espace

de faible dimension, ce nuage de points.

c) Espace des variables

Chaque variable est définie par n coordonnées ; on la considère alors comme un

vecteur d’un espace à n dimension appelé espace des variables.

Dans l’espace des variables, on s’intéressera aux angles plutôt qu’aux distances

puisque la représentation des variables se fera à l’aide du cercle des corrélations

de centre 0 et de rayon 1.

Mise en œuvre de l’ACP :

Page 19: ETUDE POUR L’IMPLANTATION D’UN HYPERMARCHE DANS LE ...fingerabdrucke.free.fr/work/L3-etudeCas.pdf · I.1.5 - Logiciels utilisés Pour l’étude de marché à traiter, nous avons

19

Nous avons réalisé la classification sur toutes les variables qui nous intéressaient,

auxquelles nous avions retiré l’effet taille. L’analyse a été réalisée sur SAS, grâce à

la macro ACP qui utilise la procédure proc princomp.

II.2.2 - Interprétation

II.2.2.1 – Interprétation dans le cas général

a) Qualité des représentations sur les plans principaux

L’ACP permet d’obtenir une représentation graphique des individus dans un espace

de dimension plus faible que p mais celle-ci n’est qu’une vision déformée de la

réalité. L’un des points les plus délicats de l’interprétation des résultats d’une ACP

consiste à apprécier cette déformation, autrement dit la perte d’information

engendrée par la réduction de la dimension, et à déterminer le nombre d’axe à

retenir.

Le critère habituellement utilisé pour mesurer la qualité d’une ACP est le

pourcentage d’inertie totale expliquée.

Nous pourrons déterminer le nombre d’axes à retenir de sorte que ce pourcentage

soit le plus significatif.

b) Nombres d’axes à retenir

En général on commence par analyser le premier plan factoriel. Si la qualité de

l’information n’est pas suffisante on doit alors considérer les axes suivants. On a

alors trois critères afin de savoir combien d’axes sont à retenir :

Inertie moyenne :

On conserve tous les axes restituant une inertie supérieur ou égale à l’inertie

moyenne (souvent égale à 1), c’est le critère de Kaiser.

Diagramme des valeurs propres

Page 20: ETUDE POUR L’IMPLANTATION D’UN HYPERMARCHE DANS LE ...fingerabdrucke.free.fr/work/L3-etudeCas.pdf · I.1.5 - Logiciels utilisés Pour l’étude de marché à traiter, nous avons

20

On recherche s’il y a une cassure dans l’évolution des valeurs propres et on

conserve les axes avant cette cassure.

Pourcentage d’inertie à priori

On retient les premiers axes tel que la somme des parts d’inertie restituées par ces

axes soit supérieure à un certain pourcentage fixé.

Ce critère n’est pas le meilleur car il pose le problème du choix du pourcentage, on

l’utilise plutôt en critère d’accompagnement.

c) Choix des variables

L’ACP construit les composantes principales, nouvelles variables artificielles

combinaisons linéaires des variables initiales. Interpréter une ACP, c’est donner

une signification à ces composantes principales (en fonction des variables initiales).

Pour choisir les variables, on se place dans le tableau des corrélations

(variables*facteurs) et on sélectionne les variables dont la valeur de la corrélation

en valeur absolue est supérieure à 0,7.

d) Choix des individus

L’étude des individus consiste à examiner leurs coordonnées et surtout les

représentations graphiques appelées plans principaux qui en résultent – le but

étant de voir comment se répartissent les individus, quels sont ceux qui se

ressemblent ou qui se distinguent.

Inversement, l’utilisation des résultats de l’étude des variables permet

d’interpréter les individus.

Dans cette étude des individus, il est aussi très utile de s’intéresser pour chaque

axe aux différentes contributions qu’ils apportent car elles peuvent aider à

l’interprétation des axes.

On a ainsi deux contributions, la contribution relative et la contribution absolue. La

première mesure la qualité de la représentation de l’individu sur un axe, et la

seconde mesure la part apportée par un individu à la construction de l’axe

On s’intéressera dans notre étude aux contributions relatives importantes c’est-à-

dire celles qui excèdent deux fois la contribution moyenne.

Page 21: ETUDE POUR L’IMPLANTATION D’UN HYPERMARCHE DANS LE ...fingerabdrucke.free.fr/work/L3-etudeCas.pdf · I.1.5 - Logiciels utilisés Pour l’étude de marché à traiter, nous avons

21

Il est à noter que lorsque les poids sont tous égaux, les contributions n’apportent

pas plus d’information que les coordonnées.

II.2.2.2 - Interprétation dans le cas de notre étude

a) ACP pour les variables sociodémographique

On a choisi de garder trois axes, grâce aux méthodes vues précédemment. Les

trois axes représentant seulement 49% de l’information.

De plus, seulement quelques variables sont bien représentés sur le premier cercle

des corrélations.

L’axe 1 restitue seulement 27% de l’information, il oppose les villes qui sont

composées de ménages d’une personne, de ménages vivant dans un immeuble ou

encore de ménages ayant une voiture et, en moindre partie, de ménages locataires

et de ménages n’ayant pas de voiture, avec les villes qui sont composées de

ménages propriétaires vivant dans une maison indépendante, ayant 2 voitures et

composés de 4 personnes.

Le premier groupe, c’est à dire celui caractérisé par les ménages d’une personne,

est composé entre autre de villes telles que Mulhouse, Lucelle, Colmar et le second

groupe est composé de villes telles que Schwoben, Fortschwihr, Hecken.

On constate que le premier groupe contient des villes qui ont soit un hypermarché

soit un supermarché et souvent les personnes qui n’ont pas ou ont une seule

voiture. A l’inverse, toutes les villes du deuxième groupe n’ont ni hypermarché ni

supermarché. On a ainsi les principales caractéristiques sociologiques des villes qui

Page 22: ETUDE POUR L’IMPLANTATION D’UN HYPERMARCHE DANS LE ...fingerabdrucke.free.fr/work/L3-etudeCas.pdf · I.1.5 - Logiciels utilisés Pour l’étude de marché à traiter, nous avons

22

contiennent un hypermarché, à savoir les ménages d’une seule personne, les

ménages vivant dans un immeuble et étant locataires, et également les ménages

possédant 0 ou 1 voiture.

L’axe 2 restitue 9% de l’information, il oppose deux groupes de villes sans

impliquer de variables particulières.

Le premier groupe est composé des villes telles que Buethwiller, Fessenheim ou

Appenwihr, et s’oppose aux villes telles que Lucelle, Rimbach-Pres-Guebwiller,

Bellemagny,…

Cet axe n’est pas vraiment significatif pour l’étude puisque dans aucun des deux

groupes il n’y a une majorité de villes contenant un hypermarché ou un

supermarché.

b) ACP pour les variables de consommation

On a encore choisi de garder deux axes, grâce aux méthodes vues précédemment.

Les trois axes représentant 82% de l’information.

De plus, toutes les variables de consommations sont bien représentées sur le

premier cercle des corrélations.

L’axe 1 restitue plus de la moitié (65%) de l’information, et caractérise un groupe

de ville selon des caractéristiques de consommation.

Le groupe de ville qui est constitué entre autres de Colmar, Mulhouse et

Wittenheim consomme principalement des produits de luxe tel que la parfumerie,

l’hygiène, la beauté, l’horlogerie, bijouterie et maroquinerie, coiffure esthétique,

santé et services ou des produits de loisirs tels que la téléphonie, les appareils

audiovisuels, les livres, cd, cassettes, audio vidéo, jouets, journaux et papeterie.

Ces villes dépensent également pour les arts de la table, les meubles et literie, les

linges de maison, les réparations (sauf automobile) et en tissus, mercerie et

vêtements (prêt à porter, sous-vêtements, lingerie, nettoyage, blanchissage).

Page 23: ETUDE POUR L’IMPLANTATION D’UN HYPERMARCHE DANS LE ...fingerabdrucke.free.fr/work/L3-etudeCas.pdf · I.1.5 - Logiciels utilisés Pour l’étude de marché à traiter, nous avons

23

A l’inverse, elles dépensent moins pour l’alimentation (pain, pâtisserie, fruits et

légumes, surgelés et glaces, boissons alcoolisées), pour l’énergie domestique et

pour les plantes, fleurs, animaux et jardins.

Ainsi le principal de la dépense des ménages de ces villes revient à tous ce qui

permet le bien être des ménages et ils dépensent moins pour tout ce qui concerne

l’alimentation.

Cependant, on constate que 4 des 9 villes qui ont un hypermarché sont dans ce

groupe et seulement 14 des 30 villes (47%) du groupe n’ont ni hypermarché ni

supermarché.

On constate alors que les ménages de ces villes ont un pouvoir d’achat qui est

assez important puisqu’ils peuvent se permettre de consommer de nombreux

produits autres que les produits primaires tels que l’alimentation.

L’axe 2 restitue seulement 17% de l’information.

Le deuxième axe oppose les villes qui consomment des produits d’entretien tels

que des appareils d’équipements ménagers, des produits de lavage, etc., ainsi que

des produits d’épicerie, aux autres villes.

Le groupe des villes qui consomment des produits d’entretien est entre autre

composé de Altkirch, Hirsingue, et le groupe opposé est composé de Saint-louis,

Illzach, Mulhouse, Cernay…

Le premier groupe possède 2 hypermarchés sur les 9 du département contre 7 sur 9

dans le groupe 2, et 40 villes sur 53 (soit 75%) ne possèdent ni supermarché, ni

hypermarché contre 15 sur 37 (soit 40%) dans le groupe 2.

c) ACP générale

On a cette fois choisi de garder trois axes, grâce aux méthodes vues

précédemment. Les trois axes représentant 62% de l’information.

Page 24: ETUDE POUR L’IMPLANTATION D’UN HYPERMARCHE DANS LE ...fingerabdrucke.free.fr/work/L3-etudeCas.pdf · I.1.5 - Logiciels utilisés Pour l’étude de marché à traiter, nous avons

24

De plus, la plupart des variables de consommations sont bien représentées sur le

premier cercle des corrélations.

On constate particulièrement trois groupes sur les axes 1 et 2.

On remarque que le premier groupe est constitué plutôt de grandes villes (9183

habitants en moyenne), la deuxième classe rassemble des villes petites et grandes,

la plus petite comptant 320 habitants et la plus grande, 110 359 habitants

(moyenne de 11 184 habitants) ; la troisième classe comporte plutôt des petites

villes (764 habitants de moyenne).

On a également pu voir qu’il n’y avait quasiment aucune différence de CSP en ce

qui concerne les trois groupes.

L’axe 1 restitue près de la moitié (40%) de l’information, et caractérise un groupe

de ville selon des caractéristiques de consommation.

Le groupe de ville qui est constitué entre autres de Colmar, Mulhouse, Saint Louis

ou Wittenheim, consomme principalement des produits de luxe tel que la

parfumerie, l’hygiène, la beauté et l’horlogerie, bijouterie et maroquinerie,

coiffure esthétique, santé et services ou des produits culturels tels que la

téléphonie, les appareils audiovisuels, les livres, cd, cassettes, audio vidéo, jouets,

journaux et papeterie. Ces villes dépensent également pour les arts de la table, les

meubles et la literie, les linges de maison, les réparations (sauf automobile) et en

tissus, mercerie et vêtements (prêt à porter, sous-vêtements, lingerie, nettoyage,

blanchissage).

A l’inverse, elles dépensent moins pour l’alimentation (pain, pâtisserie, fruits et

légumes, surgelés et glaces, boissons alcoolisées), pour l’énergie domestique et

pour les plantes, fleurs animaux et jardins.

Ainsi le principal de la dépense des ménages de ces villes revient à tout ce qui

permet le bien être des ménages et ils dépensent moins pour tous ce qui concerne

l’alimentation.

Page 25: ETUDE POUR L’IMPLANTATION D’UN HYPERMARCHE DANS LE ...fingerabdrucke.free.fr/work/L3-etudeCas.pdf · I.1.5 - Logiciels utilisés Pour l’étude de marché à traiter, nous avons

25

Cependant, on a constate que 7 des 9 villes qui ont un hypermarché sont dans ce

groupe et seulement 13 des 44 villes (30%) du groupe n’ont ni hypermarché ni

supermarché.

On constate alors que les ménages de ces villes ont un pouvoir d’achat qui est

assez important puisqu’ils peuvent se permettre de consommer de nombreux

produits autres que les produits primaires tels que l’alimentation.

L’axe 2 restitue seulement 13% de l’information.

Le deuxième axe oppose les villes dont les ménages ont 2 voitures et les villes des

ménages d’une personne.

Le groupe des villes des ménages qui ont deux voitures est entre autres composé de

Munster, Colmar, Dietwiller ou Cernay, et le groupe opposé est composé de

Aubure, Battenheim, Bellemagny, Bischwihr…

On constate que les villes qui ont principalement des ménages d’une personne

contiennent rarement un hypermarché ou supermarché (seulement une ville

contient un hypermarché et deux villes contiennent un supermarché soit 8%).

A l’inverse, on retrouve plus d'hypermarchés ou supermarchés dans les villes dont

les ménages ont 2 voitures, mais cela est peu significatif étant donné qu’il y a

moins de la moitié des villes qui en possèdent un (41%).

Cependant cela n’est vraiment pas significatif car quand on ne prend en compte

que les caractères sociologiques on constate l’inverse c'est-à-dire qu’il n’y a ni

hypermarché ni supermarché lorsque les ménages ont 2 voitures et qu’il y a en

majorité des hypermarchés pour les ménages d’une personne.

L’axe 3 restitue seulement 10% de l’information.

Il oppose les villes dont les ménages dépensent en chaussures ou en matériel de

sport et camping et les villes dont les ménages dépensent en Poissons, crustacés et

coquillage, en appareils d’équipements ménagers, en bricolage et en produits de

lavage.

Page 26: ETUDE POUR L’IMPLANTATION D’UN HYPERMARCHE DANS LE ...fingerabdrucke.free.fr/work/L3-etudeCas.pdf · I.1.5 - Logiciels utilisés Pour l’étude de marché à traiter, nous avons

26

Le groupe des villes des ménages qui dépensent en Poissons, crustacés et

coquillage, en appareils d’équipements ménagers, en bricolage et en produit de

lavage est constitué de Ruelisheim, Kiffis, Rixheim…

On constate que beaucoup de villes sont dans ce groupe (98 villes), parmi ces

villes on trouve 6 des 7 villes ayant un hypermarché.

On a également pu voir qu’il n’y avait quasiment aucune différence de CSP en ce

qui concerne les trois groupes (axe 1 et 2).

II.3 - La Classification Ascendante Hiérarchique

II.3.1 - Présentation de la CAH

La classification permet de regrouper les individus d'un jeu de données selon leur

degré de ressemblance, pour former des classes les plus homogènes possible. Nous

avons entre autres utilisé une méthode de classification hiérarchique, la méthode

de Ward.

La classification hiérarchique consiste à construire une suite de partitions en n

classes, n-1 classes, n-2 classes, etc., emboîtées les unes dans les autres de la

manière suivante :

Etape initiale :

- On adopte une partition initiale dans laquelle chaque individu constitue une

classe à lui tout seul.

- On calcule les distances entre chacune des classes de la partition initiale

(correspondant à cette étape aux individus).

- On crée une nouvelle partition en réunissant dans une même classe les deux

classes (ou individus) de la partition initiale les plus proches, selon le critère

d'agrégation retenu.

Page 27: ETUDE POUR L’IMPLANTATION D’UN HYPERMARCHE DANS LE ...fingerabdrucke.free.fr/work/L3-etudeCas.pdf · I.1.5 - Logiciels utilisés Pour l’étude de marché à traiter, nous avons

27

Etapes 1 à m :

- On calcule les distances entre chacune des classes de la partition

précédente.

- On crée une nouvelle partition en réunissant dans une même classe les deux

classes de la partition précédente les plus proches selon le critère

d'agrégation retenu.

- On recommence ce processus jusqu'à ce que le nombre de classes soit égal à

1.

On parle de classification hiérarchique ascendante, car chaque classe d'une

partition est incluse dans une classe de la partition suivante. Elle est dite

ascendante puisque l'analyse remonte de l'individu isolé vers le groupe.

A première vue, cette procédure apparaît contradictoire avec l’objectif fixé

puisque, en fin de parcours, tous les individus se retrouvent dans une seule classe.

En fait, à partir de l’étude des différents niveaux de regroupement, on peut

décider du nombre de groupes qui paraît le plus judicieux à retenir car au-delà les

regroupements seront jugés trop hétérogènes.

Mise en œuvre de la classification ascendante hiérarchique :

Nous avons réalisé la classification sur la plupart des variables, auxquelles nous

avions retiré l’effet taille. La classification a été réalisée sur SAS, grâce à la proc

cluster.

Choix du nombre de classes (clusters) à étudier :

Pour choisir le nombres de classes que l’on va étudier, on se base en général sur le

R2 semi-partiel, qui est fourni par le logiciel lorsque l’on effectue la classification

sous SAS.

Nous nous sommes aidés de cette valeur pour choisir le nombre de classes, mais

nous nous sommes aussi appuyés sur le dendrogramme obtenu sur SAS. On y voit

Page 28: ETUDE POUR L’IMPLANTATION D’UN HYPERMARCHE DANS LE ...fingerabdrucke.free.fr/work/L3-etudeCas.pdf · I.1.5 - Logiciels utilisés Pour l’étude de marché à traiter, nous avons

28

qu’entre trois et quatre classes, le R2 semi-partiel effectue un saut important, et

qu’il commence à devenir assez intéressant. Enfin, le choix du nombre de classes a

été confirmé par les résultats de l’ACP. En effet, on observe, sur le graphe des

axes 1 et 2, trois groupes distincts.

II.3.2 - Interprétation

II.3.2.1 – Variables socio démographiques

La première chose à noter lorsqu’on observe les résultats de la classification est

que la première classe regroupe 45 communes (12% du nombre total), la deuxième

en regroupe 258 (68,8%), et la troisième en compte 72 (19,2%).

On remarque que la première classe est constituée plutôt de grandes villes (9100

habitants en moyenne), la deuxième classe rassemble des villes plutôt petites

(moyenne de 680 habitants), et la troisième classe compte des villes moyennes

(1700 habitants de moyenne). La densité semble suivre la même tendance

puisqu’elle est en moyenne de 674 habitants/km2 dans la première classe, de 98

habitants/km2 dans la deuxième classe et de 190 habitants/km2 dans la troisième.

En revanche, il ne semble pas y avoir de différence entre les trois classes en ce qui

concerne la répartition de la population dans les différentes classes d’âge. La

répartition du nombre de personnes dans les ménages paraît aussi être la même

dans les trois classes.

Le nombre de logements considérés comme résidences principales avoisine les 90%

du nombre total de résidences dans chacune des trois classes. On observe

cependant que plus la population moyenne dans une classe est grande, plus le

nombre de logements en immeuble dans cette classe est grand. Au contraire, plus

la population moyenne dans une classe est grande, plus le nombre de logements

occupés à titre locatif dans cette classe est grand. On remarque que la proportion

de ménages possédant au moins 2 voitures est plus grand dans la classe regroupant

Page 29: ETUDE POUR L’IMPLANTATION D’UN HYPERMARCHE DANS LE ...fingerabdrucke.free.fr/work/L3-etudeCas.pdf · I.1.5 - Logiciels utilisés Pour l’étude de marché à traiter, nous avons

29

les villes à “faible” population que dans les deux autres classes (56% contre 43% et

48%).

On n’observe pas de différence significative de répartition des différentes CSP dans

les trois classes retenues.

II.3.2.2 – Variables de consommation

On peut dégager plusieurs oppositions entre les différentes classes en ce qui

concerne les variables de consommation, quand on regarde les statistiques

descriptives.

On voit tout d’abord que la première classe s’oppose aux deux autres sur le poste

“alimentation”. En effet, la moyenne de l’indice de consommation des villes de la

première classe est de 0,26, contre 5,41 et 3,89 pour les classes 2 et 3. Le poste

“alimentation” comprend plusieurs postes tels que “pain et pâtisserie fraîche”,

“fruits et légumes frais”, “viandes, volailles et charcuterie”, “épicerie”, etc. En

résumé, ce poste correspond à tout ce qui concerne les achats permettant de

préparer à manger chez soi.

La conséquence de l’observation précédente est l’opposition de la classe 1 aux

classes 2 et 3 sur le poste “repas et consommation extérieurs” (indice moyen : 4,81

contre -4,19 et -3,63).

Le poste “équipement de la personne” inclus les postes “prêt à porter”, “sous-

vêtements et lingerie”, “tissus et mercerie”, “chaussures”, “parfumerie, hygiène

et beauté” et “Horlogerie, bijoux et maroquinerie”. On observe sur ce poste une

opposition des classes 1 et 3 (indices moyens de consommation respectif : 14,44 et

10,57) avec la classe 2 (5,23).

Le poste “équipement de la maison” regroupe les postes “énergie domestique”,

“meubles et literie”, “linge de maison”, “appareils d’équipement ménager”, “arts

Page 30: ETUDE POUR L’IMPLANTATION D’UN HYPERMARCHE DANS LE ...fingerabdrucke.free.fr/work/L3-etudeCas.pdf · I.1.5 - Logiciels utilisés Pour l’étude de marché à traiter, nous avons

30

de la table”, “bricolage, peinture, sols et murs”, et “produits de lavage et

entretien”. On remarque plusieurs oppositions sur ces différents postes :

- Les classe 1, 2 et 3 s’opposent sur le poste “énergie domestique” (indices

respectifs : 4,82, 76,75 et 36,75). Elles s’opposent aussi sur le poste

“bricolage, peinture, sols et murs” (indices moyens : -6,12, 4,38 et 19,06).

- Les classes 1 et 3 s’opposent à la classe 2 sur le poste “meubles et literie”

(25,91 pour la classe 1 et 28,97 pour la classe 3 contre 13,33 pour la classe 2).

Ces classes s’opposent aussi sur le poste “arts de la table” (-6,30 et -3,13 pour

les classes 1 et 3 contre -15,99 pour la classe 2).

- Ce sont les classes 1 et 2 qui s’opposent à la classe 3 sur le poste “appareils

d’équipement ménager” (respectivement 10,80 et 11,96 contre 34,14).

- Le poste “produits de lavage et entretien” oppose, quant à lui, les classes 2 et

3 (-0,33 et 0,19) à la classe 1 (-2,72).

On note une opposition des classes 2 et 3 avec la classe 1 sur le poste “automobiles

et cycles” (15,88 et 14,73 contre 8,29).

Le poste “culture et loisirs” semble opposer les classes 1 et 3 à la classe 2

(respectivement 6,75 et 4,51 contre -1,08).

Les classes 1 et 3 s’opposent, enfin, à la classe 2 sur les postes “coiffure et

esthétique” (3,18 et 3,48 contre -4,96), “réparations, sauf automobile” (11,87 et

23,23 contre -13,40) et “santé et services” (6,00 et 6,13 contre 1,21).

II.3.2.3 - Conclusion

On peut dire, en conclusion, que les trois classes que nous avons déterminées se

distinguent sur de nombreux points :

La première classe semble être caractérisée par des villes de grandes tailles, à

forte densité (par rapport aux villes composant les autres classes). C’est dans les

villes de cette classe qu’il y a le plus de logements, pour beaucoup en immeubles

et occupés à titre locatif. Les habitants de ces villes préparent moins de repas chez

Page 31: ETUDE POUR L’IMPLANTATION D’UN HYPERMARCHE DANS LE ...fingerabdrucke.free.fr/work/L3-etudeCas.pdf · I.1.5 - Logiciels utilisés Pour l’étude de marché à traiter, nous avons

31

eux que les habitants des villes composant les autres classes, mais il consomment

plus de repas à l’extérieur. Des villes des trois classes, celles de la première sont

celles qui ont le plus fort taux de consommation (en moyenne) de vêtements,

chaussures, produits d’hygiène et de beauté, bijoux et maroquinerie. En revanche,

elles ont le moins fort taux de consommation d’énergie domestique, de produits de

bricolage et peinture, de produits de lavage et d’entretien et d’automobiles et

cycles.

La seconde classe paraît être composée de villes de petite taille, avec une densité

faible par rapport à celle des autres classes. A l’inverse de la classe précédente,

dans celle-ci c’est la proportion de logements individuels et occupés à titre

propriétaire qui semble être la plus forte. C’est aussi dans la classe 2 que la

proportion de ménages possédant 2 voitures est la plus forte. De tous les ménages

du Haut-Rhin, ce sont ceux qui habitent dans les villes de la deuxième classe qui

ont le moins fort taux de consommation (en moyenne), en ce qui concerne les

vêtements, chaussures, produits d’hygiène et de beauté, bijoux et maroquinerie ;

ainsi qu’en ce qui concerne les meubles, la literie, les équipements d’arts de la

table, la culture, les loisirs, la santé et les services. Par contre, ce sont eux qui

consomment le plus d’énergie domestique.

La troisième classe apparaît comme un intermédiaire entre les deux premières. Les

villes ont tendance à y être de taille et de densité moyennes. Cependant, ces villes

sont celles qui dépensent le plus (en moyenne) en appareils d’équipement ménager

et en produits de lavage et d’entretien. C’est aussi dans ces villes que les dépenses

moyennes de santé et de services sont les plus fortes.

II.4 - La méthode des K-moyennes

II.4.1 – Présentation de la méthode

La classification consiste à partitionner l’ensemble des individus en classes

homogènes à l’intérieur des groupes. L’objectif de la classification est donc

Page 32: ETUDE POUR L’IMPLANTATION D’UN HYPERMARCHE DANS LE ...fingerabdrucke.free.fr/work/L3-etudeCas.pdf · I.1.5 - Logiciels utilisés Pour l’étude de marché à traiter, nous avons

32

d’explorer des données, de les réduire éventuellement, de les valider en infirmant

ou en confirmant une hypothèse soutenue, d’agir sur les individus suivant la nature

du groupe où ils se trouvent. Le regroupement d’objets ou d’individus en classes

peut générer des hypothèses à tester dans une étape ultérieure.

Contrairement aux méthodes de classification hiérarchiques, les méthodes de

partitionnement fournissent une partition unique des éléments à classer. Le

nombre de classes de la partition à construire doit être fixé au départ.

A partir d’un ensemble de n individus, on cherche à constituer des classes

d’individus en nombre k fixé a priori. Une partition optimale peut être obtenue à

condition d’énumérer de façon exhaustive toutes les partions possibles, ce qui est

prohibitif du point de vue du temps de calcul.

Cette méthode de partitionnement est basée sur une distance ou un indice de

similarité entre objets à classer. Se retrouvent dans une même classe les objets qui

sont très proches les uns des autres en termes de distance ou d’indice de

similarité.

Algorithme k-means:

1) Choisir k objets au hasard : ils servent de centres des classes initiales.

2) Affecter chaque objet au centre le plus proche ; il en résulte une

partition en k classes.

3) Recalculer les centres de chacune de ces classes : chaque classe est

représentée par son centre qui, en général, n’est pas un point de

l’échantillon.

4) Répéter les pas 2 et 3 jusqu’à stabilité des centres (les centres ne

bougent plus).

Tout au long de l’algorithme, on mesure 2 composantes de l’inertie du nuage de

point de l’origine, l’inertie interclasse et inertie intra classe :

Page 33: ETUDE POUR L’IMPLANTATION D’UN HYPERMARCHE DANS LE ...fingerabdrucke.free.fr/work/L3-etudeCas.pdf · I.1.5 - Logiciels utilisés Pour l’étude de marché à traiter, nous avons

33

Au fur et à mesure que l’on déroule l’algorithme, l’inertie intra classe diminue (les

individus dans les classes sont de plus en plus homogènes), et donc, l’inertie inter

classe augmente (les groupes sont de plus en plus distincts).

Pour notre étude, nous avons décidé de choisir les k individus selon l’ACP et la CAH

réalisées auparavant. Sur le graphique des individus, nous distinguons 3 groupes,

nous avons donc choisi les 3 individus qui sont au centre de leur groupe respectif.

Ces individus (ici des villes) sont : Niederhergheim, Wuenheim et Guebwiller. Les

centres des classes initiales pour la classification par k-moyennes sont donc ces 3

individus.

II.4.2 – Résultats de la classification

Figure 6 :Diagramme du nombre de villes incluses dans chaque classe (K-moyennes)

Après avoir effectué la procédure fastclus sous SAS, on distingue 3 groupes

(clusters) peu homogènes : un groupe de 45 villes, un groupe de 258 villes et, un

groupe de 72 villes.

II.4.2.1 – Variables socio démographiques

Page 34: ETUDE POUR L’IMPLANTATION D’UN HYPERMARCHE DANS LE ...fingerabdrucke.free.fr/work/L3-etudeCas.pdf · I.1.5 - Logiciels utilisés Pour l’étude de marché à traiter, nous avons

34

Les différences :

Même si la classification n’a pas été effectuée avec les variables RD90PSDC,

RD99PSDC, RD90MEN, RD99MEN, RD99DENS et RL99, pour ne pas avoir un effet

taille, les 3 groupes se distinguent par le nombre d’habitants par ville. En effet, le

premier groupe est constitué de grandes villes (en moyenne, 9000 habitants), le

deuxième regroupe majoritairement des petites communes (700 habitants en

moyenne). Le troisième groupe, quant à lui, rassemble des communes de 1700

habitants en moyenne. Lorsque nous nous intéressons aux nombres de ménages,

nous observons également que le nombre moyen de ménages et le nombre moyen

de logements sont proportionnels au nombre moyen d’habitants. Ceci est

également vrai pour la densité de population. Dans le groupe des grandes villes, la

densité moyenne est de 674 habitants au km², alors que celle dans les petites

communes (deuxième groupe) est de 97 habitants au km².

Le nombre de résidences principales représente 9 logements sur 10 dans les trois

groupes. Nous pouvons tout de même mettre en exergue une proportion plus

élevée de logements en immeubles dans les villes, où le nombre d’habitants est

élevé, que dans les villes où la population est moins importante (36% contre 12%).

Les logements à titre locatif sont plus nombreux dans les grandes villes que dans

les petites communes (30% contre 12% et 20%). On retrouve plus de propriétaires

dans les petites communes (80% contre 64% et 71%). Les habitants des petites

communes sont majoritairement plus nombreux à avoir un logement individuel par

rapport aux habitants des grandes villes (85% contre 62%). Les ménages des

communes à faible population sont 15 % plus nombreux à posséder 2 voitures ou

plus, que les ménages du 1er et 3ème cluster.

Les similitudes :

Les classes d’âges sont représentées de la même façon dans les trois groupes, la

classification ne change rien. Également, la composition des ménages est

semblable dans les 3 clusters, ce sont les ménages de 2 personnes qui sont les plus

Page 35: ETUDE POUR L’IMPLANTATION D’UN HYPERMARCHE DANS LE ...fingerabdrucke.free.fr/work/L3-etudeCas.pdf · I.1.5 - Logiciels utilisés Pour l’étude de marché à traiter, nous avons

35

importants (30% des ménages dans les 3 clusters). Pour finir, il n’y pas de

différences quant à la répartition des CSP dans les trois classes.

II.4.2.2 – Variables de consommation

En s’intéressant aux variables liées à l’alimentation, nous pouvons remarquer que

le premier groupe se distingue des deux autres. En effet l’indice de consommation

est de 0.26 pour le premier groupe contre 5.4 et 3.89 pour le deuxième et

troisième groupe. La variance inter classe pour cette variable représente 94% de la

variance totale. Les classes se distinguent entre elles, et les individus à l’intérieur

des classes sont homogènes.

Les variables présentes dans la rubrique alimentation regroupent les achats

effectués pour l’alimentation à domicile (pain, pâtisserie, fruits et légumes,

viandes, volailles charcuterie, poissons, crustacés, Beurre …). Les individus des

classes 2 et 3 se différencient de la classe 1 pour les repas et consommations pris à

l’extérieur du domicile (indices :-4.192 et –3.63 contre 4.81). En effet, ces

individus consomment moins en alimentation à l’extérieur de leur domicile et plus

à l’intérieur.

Page 36: ETUDE POUR L’IMPLANTATION D’UN HYPERMARCHE DANS LE ...fingerabdrucke.free.fr/work/L3-etudeCas.pdf · I.1.5 - Logiciels utilisés Pour l’étude de marché à traiter, nous avons

36

Figure 7 :Croisement des différentes classes de villes pour les variables Alimentation et

Repas et consommation extérieurs

On observe également un fossé entre le cluster 2 et les clusters 1 et 3 pour

l’ensemble des variables relatives à l’équipement de la personne. Les habitudes

des habitants pour le prêt à porter, les sous vêtements, le tissu, les chaussures, la

parfumerie, la maroquinerie diffèrent selon si ils habitent dans les villes ou non. La

variance inter classe représente 71% de la variance totale.

Pour l’équipement de la maison, les oppositions sont plus dures à cerner, en effet

les oppositions diffèrent de la manière suivante :

Opposition entre les 3 classes pour les variables : énergie domestique (indices :

4.82, 76.747 et 36.75), art de la table (indices : -6.3, –15.987 et –3.13), bricolage,

peinture, sols et murs (indices : –6.12, 4.385 et 19.06) et produits de lavage et

entretien (indices : –2.72, –0.326 et 0.19).

Les classes 1 et 3 se distinguent de la 2ème classe pour les variables : meubles et

literie (indices : 25.91 et 28.97 contre 13.33), linge et maison (indices : 34.08 et

29.46 contre 22.151).

Pour les appareils d’équipement ménager, les clusters 1 et 2 s’opposent au cluster

3 (indices : 10.8 et 11.958 contre 34.14).

Page 37: ETUDE POUR L’IMPLANTATION D’UN HYPERMARCHE DANS LE ...fingerabdrucke.free.fr/work/L3-etudeCas.pdf · I.1.5 - Logiciels utilisés Pour l’étude de marché à traiter, nous avons

37

Figure 7 :Croisement des différentes classes de villes pour les variables Équipement de la

personne et Équipement de la maison

Du côté des loisirs (téléphonie, informatique, journaux, jeux, sports, camping,

plantes, animaux…), des produits de parapharmacie, de la santé et services,

l’esthétique et le nettoyage et blanchissage, les villes appartenant au premier et

troisième groupe se séparent du deuxième groupe. La part des variances inter

classes respectives représente plus de 80% des variances totales.

Pour conclure, nous pouvons admettre que même si la classification permet

d’observer des différences entre les trois classes par rapport aux variables socio

démographiques (surtout en nombre d’habitants), nous pouvons dire qu’elles n’ont

pas un rôle significatif majeur pour diviser la population en trois groupes. En effet,

pour une grande partie de ces variables, la variance intra classe est plus élevée que

la variance inter classe. Ceci étant, nous voyons tout de même que les grandes

villes (groupe 1) se caractérisent par un nombre d’immeubles et de locataires plus

important que dans les petites communes (groupe 2 et 3). Le nombre de

propriétaires dans les grandes villes est inférieur aux deux autres groupes. Les

habitants des petites villes possèdent plus de voitures que les urbains.

Page 38: ETUDE POUR L’IMPLANTATION D’UN HYPERMARCHE DANS LE ...fingerabdrucke.free.fr/work/L3-etudeCas.pdf · I.1.5 - Logiciels utilisés Pour l’étude de marché à traiter, nous avons

38

Pour les variables conso, on peut mettre en exergue une forte disparité des classes

pour chaque variable mais une homogénéité à l’intérieur de celles-ci (forte

variance inter classe et faible variance intra classe). La première classe se

distingue des deux autres pour la consommation alimentaire. Les habitants de ce

groupe mangent moins à l’intérieur de leur domicile et prennent plus de repas à

l’extérieur que les deux autres classes. Ils consomment plus en équipement de la

personne (prêt à porter, sous vêtements, tissus, chaussures…). Pour les loisirs, les

classes 1 et 3 se distinguent de la deuxième classe (petites communes).

Pour ce qui concerne les équipements pour la maison (énergie domestique,

bricolage, meubles, linges de maison, art de la table, appareils ménager…), le plus

grand indice de consommation appartient au groupe 3, c’est à dire les communes

de taille moyenne.

II.5 - Comparaison des méthodes de classification

II.5.1 – Avantages et inconvénients de la classification par K-moyennes

La classification par K-moyennes a l’avantage d’être facile à mettre en œuvre

(l’algorithme est simple), et le nombre de calculs à effectuer à chaque itération

est limité, d’où un coût en temps moindre. De plus, l’algorithme améliore à chaque

itération la qualité des classes (la variance intra-classe diminue). Enfin, le nombre

de classes est connu à l’avance, et défini par l’utilisateur.

Le grand inconvénient de cette méthode de classification est que le résultat final

dépend de la sélection des individus de départ, et il est lié au choix de la fonction

distance. Le fait que le nombre de classes doit être fixé à l’avance peut aussi être

un inconvénient, puisqu’il ne permet pas de déterminer, au vu des résultats, un

nombre de classes optimal.

II.5.2 – Avantages et inconvénients de la classification ascendante hiérarchique

Page 39: ETUDE POUR L’IMPLANTATION D’UN HYPERMARCHE DANS LE ...fingerabdrucke.free.fr/work/L3-etudeCas.pdf · I.1.5 - Logiciels utilisés Pour l’étude de marché à traiter, nous avons

39

L’avantage de la classification ascendante hiérarchique par rapport à la méthode

des k-moyennes est qu’on n’a pas besoin de fixer le nombre de classes que l’on

souhaite obtenir. On pourra le fixer de manière optimale plus tard, au moyen

d’indicateurs comme le R2 semi-partiel.

De plus, l’algorithme est précis, et les résultats sont facilement lisibles, grâce à

leur présentation sous forme de tableau ou de dendrogramme.

L’inconvénient de cette méthode est qu’elle est coûteuse au niveau du nombre de

calculs. En effet, il est de l’ordre de n3 (où n est le nombre d’individus de départ),

ce qui dépasse rapidement les capacités des machines les plus puissantes, quand on

travaille sur de grosses bases de données.

II.5.3 - Comparaison des résultats trois méthodes

On considérera ici l’ACP comme une méthode de classification puisqu’elle permet

de séparer des groupes de villes sur les axes factoriels.

Après mise en oeuvre et analyse des résultats des trois méthodes utilisées, on se

rend compte qu'elles n'induisent pas de différences notables d'interprétation. Il a

été alors décidé de ne pas choisir seulement une des trois méthodes pour

caractériser les différents groupes de villes, mais de s'appuyer sur les résultats des

trois méthodes. De plus, les méthodes de classification par K-moyennes et de

Classification Ascendante Hiérarchique ont donné lieu à des résultats exactement

identiques.

Le premier critère de différenciation des groupes que les différentes méthodes ont

distingué, est la taille des villes composant ces groupes. On observe la présence

d'un groupe de "grandes" villes, d'un groupe de villes "moyennes", et d'un groupe de

"petites" villes ; et cela même si la population moyenne dans chaque groupe diffère

suivant la méthode de classification utilisée.

La répartition des supermarchés et hypermarchés semble avoir un lien avec la taille

des villes, puisque le groupe des grandes villes rassemble la quasi-totalité des

Page 40: ETUDE POUR L’IMPLANTATION D’UN HYPERMARCHE DANS LE ...fingerabdrucke.free.fr/work/L3-etudeCas.pdf · I.1.5 - Logiciels utilisés Pour l’étude de marché à traiter, nous avons

40

hypermarchés du Haut-Rhin, et une grande majorité des villes qui le composent

bénéficient d'un supermarché. La proportion de supermarchés par rapport au

nombre de villes composant la classe des villes de taille moyenne est plus faible, et

peu de petites villes disposent d'un supermarché.

On s'aperçoit aussi qu'il n'y a pas de différence de répartition entre les groupes de

villes, en ce qui concerne l'âge et la CSP.

Les trois méthodes s'accordent pour montrer que les grandes villes ont un plus petit

indice de consommation que les autres groupes dans les postes d'alimentation et

d’énergie domestique, mais que cet indice est plus fort que celui des autres villes

dans les postes d'équipement de la personne, équipement de la maison, loisirs et

culture, santé et services, coiffure et esthétique, réparations (sauf automobiles).

La principale différence que l’on peut noter entre les trois méthodes de

classification est que l’ACP permet de dégager des groupes caractérisés (entre

autres) par la répartition du nombre de voitures par foyer ; alors que les deux

autres méthodes de classification ne mettent pas en évidence ce caractère.

Page 41: ETUDE POUR L’IMPLANTATION D’UN HYPERMARCHE DANS LE ...fingerabdrucke.free.fr/work/L3-etudeCas.pdf · I.1.5 - Logiciels utilisés Pour l’étude de marché à traiter, nous avons

41

III – Choix de la ville d’implantation de l’hypermarché

Page 42: ETUDE POUR L’IMPLANTATION D’UN HYPERMARCHE DANS LE ...fingerabdrucke.free.fr/work/L3-etudeCas.pdf · I.1.5 - Logiciels utilisés Pour l’étude de marché à traiter, nous avons

42

Maintenant que des groupes de villes ont été mis en évidence, on peut tenter de

déterminer quelle ville représenterait l’emplacement idéal pour un hypermarché.

On peut pour ce faire utiliser plusieurs méthodes.

III.1 – La régression logistique

La régression logistique est une technique statistique qui a pour objectif, à partir

d’un fichier d’observations, de produire un modèle permettant de prédire les

valeurs prises par une variable catégorielle, le plus souvent binaire, à partir d’une

série de variables explicatives continues et/ou binaires. On peut la mettre en

concurrence avec l’analyse factorielle discriminante pour trouver le meilleur

modèle, c'est-à-dire celui pour lequel le taux d’individus mal classés sera minimal.

On utilise la procédure logistic pour mettre en œuvre cette méthode sous SAS.

Pour débuter la régression logistique, nous avons sélectionné 1/3 des villes ne

possédant pas d’hypermarché (soit 122 villes) et les 9 villes possédant un

hypermarché. Nous avons donc un échantillon de 131 villes. A partir de cet

échantillon d’apprentissage, nous avons lancé la régression logistique grâce au

logiciel SAS. Nous avons observé que le modèle ne convergeait pas, ce qui signifie

que l’estimateur du maximum de vraisemblance n’existe pas. Cela est dû à la

redondance des variables, c’est-à-dire de la forte corrélation entre elles. Nous

avons donc supprimé les variables redondantes et relancé le modèle jusqu’à

convergence. Cependant, même après convergence, on obtient un mauvais modèle.

Les probabilités d’appartenance à la classe hypermarché (calculé grâce à la

formule P(Y=1|X=x) vu plus haut) étaient incohérentes car de nombreuses villes

ayant moins de 600 habitants avaient des probabilités proches de 1. De plus, dans

cette analyse nous avons constaté qu’il y a un nombre disproportionné entre les

villes possédant un hypermarché et les autres.

Classification Evènement Non évènement Total

Evènement 118 6 124

Non évènement 4 3 7

Page 43: ETUDE POUR L’IMPLANTATION D’UN HYPERMARCHE DANS LE ...fingerabdrucke.free.fr/work/L3-etudeCas.pdf · I.1.5 - Logiciels utilisés Pour l’étude de marché à traiter, nous avons

43

Total 122 9 131

Tableau 2 : Classements pour la variable hypermarché obtenus sous SAS (1)

Nous avons donc décidé de rajouter la variable population, et de compter autant

de fois une ville qu’elle contient d’hypermarchés. En effet, la variable population

est importante dans le choix de la ville où se situe un hypermarché et une ville

contenant plusieurs hypermarchés a plus d’importance dans le modèle. Nous avons

réinterprété les corrélations afin de supprimer les variables redondantes sur le

nouveau jeu de données. Puis nous avons relancé le modèle jusqu’à convergence et

nous l’avons analysé. On obtient de nouveau un mauvais modèle, car il y a un

mauvais classement.

Nous avons ensuite créé un nouvel échantillon avec toutes les villes possédant un

supermarché et toutes celles comprenant un hypermarché (avec doublons pour les

villes possédant plusieurs hypermarchés). Nous avons ensuite relancé la proc corr

pour supprimer les corrélations fortes et nous avons relancé le modèle jusqu’à

convergence. Nous obtenons donc un meilleur modèle avec des résultats cohérents.

Cependant les classements sont assez mauvais puisque seulement 4 villes possédant

un hypermarché sont bien classées.

Classification Evènement Non évènement Total

Evènement 4 46 50

Non évènement 8 6 14

Total 12 52 64

Tableau 3 : Classements pour la variable hypermarché obtenus sous SAS (2)

Grâce à ce modèle, nous avons pu calculer les probabilités d’appartenance à la

classe "hypermarché=1" (c'est-à-dire la probabilité d’avoir un hypermarché). On

obtient donc deux villes ayant de fortes probabilités : Ottmarsheim avec une

probabilité de 69.14% et Volgesheim avec une probabilité de 64.47%. Cependant,

ces villes ont respectivement une population de 1926 et 2382 habitants. Une ville

ayant également une forte probabilité est Colmar avec 52.84% et 65136 habitants.

Page 44: ETUDE POUR L’IMPLANTATION D’UN HYPERMARCHE DANS LE ...fingerabdrucke.free.fr/work/L3-etudeCas.pdf · I.1.5 - Logiciels utilisés Pour l’étude de marché à traiter, nous avons

44

III.2 - L’analyse factorielle discriminante

L’analyse factorielle discriminante se déroule en trois étapes : la première est la

sélection des variables discriminantes, c'est-à-dire celles qui vont jouer un rôle

important dans la construction du modèle. On réalise cela sur SAS en utilisant la

proc stepdisc. En second lieu, la discrimination est la création d’une fonction

discriminante, combinaison linéaire des variables explicatives qui sépare au mieux

les classes à expliquer (ici on tente d’expliquer la présence ou non d’un

hypermarché). La fonction peut être linéaire ou quadratique. La troisième étape

consiste à tenter de reconnaître la classe de chaque individu (ici les villes), à partir

du résultat qu’on obtient lorsqu’on lui applique la fonction déterminée en

deuxième étape. C’est la proc discrim qui permet d’obtenir les résultats de

l’analyse factorielle discriminante sous SAS.

L’idée de l’estimateur des k plus proches voisins consiste à considérer le volume

couvert par les k plus proches voisins d’un point donné, pour lequel on veut estimer

la densité. Le choix de la valeur de k se fait à la main, ou par validation croisée.

On classe chaque individu dans une classe i si parmi ses k plus proches voisins, le

nombre d’individus appartenant à la classe i est supérieur au nombre d’individus

appartenant à toutes les autres classes. Sur SAS, c’est aussi la procédure discrim

qui permet l’application de cette méthode.

Pour effectuer l’analyse factorielle discriminante (AFD), nous avons utilisé les

mêmes individus que lors de la dernière régression logistique (villes possédant un

supermarché ainsi que les villes ayant un hypermarché). Nous avons comparé trois

méthodes de l’AFD pour obtenir le meilleur modèle. Ces trois méthodes sont les

plus proches voisins, l’AFD linéaire et l’AFD quadratique. Pour chacune de ces

Page 45: ETUDE POUR L’IMPLANTATION D’UN HYPERMARCHE DANS LE ...fingerabdrucke.free.fr/work/L3-etudeCas.pdf · I.1.5 - Logiciels utilisés Pour l’étude de marché à traiter, nous avons

45

méthodes, nous avons lancé le modèle sur toutes les variables ainsi que sur les

variables sélectionnées par la procédure stepdisc qui sont RD99PSDC, RD99MEN6P,

CSP5P, RL99GRAP, Sante_et_Services.

III.2.1 - Méthode des plus proches voisins

On obtient donc (avec un nombre de voisins optimal égal à 12) les valeurs

suivantes pour toutes les variables :

Nous observons donc un taux de mal classés dans la population 0 (c’est-à-dire sans

hypermarché) égal à 3.85% et un taux de mal classés dans la population 1 (c’est-à-

dire avec hypermarché) égal à 16.67%, soit un total de 6.25% de mal classés.

Pour le jeu de données avec les variables de la stepdisc, on obtient :

Nous observons donc un taux de mal classés dans la population 0 (c’est-à-dire sans

hypermarché) égal à 5.77% et un taux de mal classés dans la population 1 (c’est-à-

dire avec hypermarché) égal à 75.00%, soit un total de 18.75% de mal classés.

III.2.2 - Méthode linéaire

On obtient les valeurs suivantes pour toutes les variables :

Page 46: ETUDE POUR L’IMPLANTATION D’UN HYPERMARCHE DANS LE ...fingerabdrucke.free.fr/work/L3-etudeCas.pdf · I.1.5 - Logiciels utilisés Pour l’étude de marché à traiter, nous avons

46

Nous observons donc un taux de mal classés dans la population 0 (c’est-à-dire sans

hypermarché) égal à 28.85% et un taux de mal classés dans la population 1 (c’est-à-

dire avec hypermarché) égal à 33.33%, soit un total de 29.69% de mal classés.

Pour le jeu de données avec les variables de la stepdisc, on obtient :

Nous observons donc un taux de mal classés dans la population 0 (c’est-à-dire sans

hypermarché) égal à 5.77% et un taux de mal classés dans la population 1 (c’est-à-

dire avec hypermarché) égal à 58.33%, soit un total de 15.63% de mal classés.

III.2.3 - Méthode quadratique

On obtient donc les valeurs suivantes pour toutes les variables :

Nous observons donc un taux de mal classés dans la population 0 (c’est-à-dire sans

hypermarché) égal à 0.00% et un taux de mal classés dans la population 1 (c’est-à-

dire avec hypermarché) égal à 58.33%, soit un total de 10.94% de mal classés.

Pour le jeu de données avec les variables de la stepdisc, on obtient :

Page 47: ETUDE POUR L’IMPLANTATION D’UN HYPERMARCHE DANS LE ...fingerabdrucke.free.fr/work/L3-etudeCas.pdf · I.1.5 - Logiciels utilisés Pour l’étude de marché à traiter, nous avons

47

Nous observons donc un taux de mal classés dans la population 0 (c’est-à-dire sans

hypermarché) égal à 7.69% et un taux de mal classés dans la population 1 (c’est-à-

dire avec hypermarché) égal à 75.00%, soit un total de 20.31% de mal classés.

Au vu des résultats, on observe que la meilleure méthode est celle des plus proches

voisins (taux de mauvais classement total le plus faible).

Ensuite, avec cette méthode, on calcule les distances de Mahalanobis sous SAS. On

observe ainsi que deux villes classés sans hypermarché (classe 0) sont, après la

procédure, reclassées dans la classe 1. Ce sont donc les deux villes potentiellement

capables d’accueillir un hypermarché.

Ces deux villes sont Volgelsheim et Colmar. Sur la table de sortie « result », on

observe que leurs probabilités d’appartenir à la classe 1 sont respectivement égale

à 61.54% et à 58.33%.

III.3 - Décision finale

Grâce à l’analyse factorielle discriminante, nous avons deux villes potentielles pour

l’implantation d’un hypermarché, Volgelsheim et Colmar. De plus, dans les

Page 48: ETUDE POUR L’IMPLANTATION D’UN HYPERMARCHE DANS LE ...fingerabdrucke.free.fr/work/L3-etudeCas.pdf · I.1.5 - Logiciels utilisés Pour l’étude de marché à traiter, nous avons

48

classifications et analyse des composantes principales, nous avions trois groupes.

Le premier contenait principalement les villes possédant un hypermarché, le

second regroupait les villes ayant principalement des supermarché et le troisième

comprenait les autres villes. Or, Colmar se situe dans le premier groupe pour

chacune des classifications, à l’inverse de Volgelsheim qui se situe dans le

deuxième groupe. On peut ainsi penser que Colmar est plus apte à recevoir un

hypermarché, étant donné que ses habitants ont un profil sensiblement identique à

ceux des villes possédant un hypermarché. De plus, Colmar est une ville importante

dans le Haut-Rhin, avec une population égale à 65136 habitants et pourtant ne

possédant pas d’hypermarché.

C’est pourquoi, au vu de notre étude, nous avons décidé que la ville la plus

susceptible d’avoir un hypermarché est Colmar.

III.4 - Partie client

Afin de répondre au problème, nous avons dans un premier temps classé les villes

du département du Haut-Rhin, dans trois groupes, selon des critères socio

démographiques et de consommation. Le premier groupe est caractérisé par une

forte consommation de produits de bien être (parfumerie, culture, coiffure,

loisirs…) par rapport aux deux autres groupes et à l’inverse, une consommation

moindre en ce qui concerne les produits d’alimentation. Sept des neuf villes du

Haut-Rhin possédant un hypermarché se retrouvent dans ce groupe. Un deuxième

groupe est caractérisé par des villes de taille moyenne possédant un supermarché.

Le dernier groupe représente les petites communes.

Dans un second temps, nous avons utilisé des méthodes statistiques discriminantes

pour déterminer la probabilité de présence d’un hypermarché, pour chaque ville.

Deux des villes possédant des supermarchés mais pas d’hypermarché ont une

probabilité de présence d’un hypermarché supérieure à celle de non présence d’un

hypermarché. Cela signifie que ce sont les deux villes potentiellement aptes à

recevoir un hypermarché. Ces deux villes sont Volgelsheim et Colmar.

Page 49: ETUDE POUR L’IMPLANTATION D’UN HYPERMARCHE DANS LE ...fingerabdrucke.free.fr/work/L3-etudeCas.pdf · I.1.5 - Logiciels utilisés Pour l’étude de marché à traiter, nous avons

49

Nous avons constaté que Colmar se trouvait dans le premier groupe dégagé dans la

première partie tandis que Volgelsheim se situait dans le deuxième groupe. Ainsi

nous préconisons d’implanter un hypermarché dans la ville de Colmar.

Page 50: ETUDE POUR L’IMPLANTATION D’UN HYPERMARCHE DANS LE ...fingerabdrucke.free.fr/work/L3-etudeCas.pdf · I.1.5 - Logiciels utilisés Pour l’étude de marché à traiter, nous avons

50

CONCLUSION

Nous avons vu dans cette étude que les villes du Haut-Rhin peuvent être séparées

en trois groupes, de caractéristiques différentes. En partant de ces

caractéristiques, couplées avec différentes méthodes statistiques de

discrimination, nous avons pu déterminer que la ville dans laquelle il serait optimal

d’implanter un hypermarché est la commune de Colmar.

Ce projet a été très bénéfique pour nous, car il nous a permis de travailler en

groupe, et de mettre en œuvre sur un exemple concret des méthodes statistiques

que nous n’avions utilisées jusqu’ici que sur des jeux de données petits et

« propres ». De plus, ce projet nous a permis de réaliser une étude complète à

partir d’une problématique réelle, chose importante dans notre formation

professionnalisante.

Page 51: ETUDE POUR L’IMPLANTATION D’UN HYPERMARCHE DANS LE ...fingerabdrucke.free.fr/work/L3-etudeCas.pdf · I.1.5 - Logiciels utilisés Pour l’étude de marché à traiter, nous avons

51

TABLE DES TABLEAUX

Tableau 1 : Statistiques descriptives de la population en 1999........................10 Tableau 2 : Classements pour la variable hypermarché obtenus sous SAS (1) .......43 Tableau 3 : Classements pour la variable hypermarché obtenus sous SAS (2) .......43

TABLE DES GRAPHIQUES

Figure 1 : Répartition de la population en 1999..........................................11 Figure 2 : Répartition de la population selon l’âge ......................................12 Figure 3 : Répartition de la population selon le nombre de personnes dans le ménage .........................................................................................13 Figure 4 : Répartition de la population selon la CSP.....................................13 Figure 5 : Indices de consommation par rapport à l’indice national ..................14 Figure 6 :Diagramme du nombre de villes incluses dans chaque classe (K-moyennes)...................................................................................................33 Figure 7 :Croisement des différentes classes de villes pour les variables Alimentation et Repas et consommation extérieurs .....................................36 Figure 7 :Croisement des différentes classes de villes pour les variables Équipement de la personne et Équipement de la maison ..............................................37