Avis aux matheux :p


anariel Membre+ 17 040 messages
Fée Rosse à Balai‚ 34ans
Posté(e)

Je suis en plein dans mon mémoire en ce moment, et je me lance dans une partie d'analyse statistiques d'une multitude de données.

Ma problématique, c'est la désertification médicale (fort intéressant me direz vous ;)), à l'échelle des bassins de vie des petites villes et des bourgs.

Pour faire bref, j'ai décidé de comparer des densités et des effectifs de médecins, ainsi que des taux de médecins de plus de 55 ans, avec une série d'indicateurs divers et variés, genre des données démographiques (effectifs et évolution), géographiques (accessibilité aux grands pôles et aux autres services, en minutes), économiques, ou médicales.

'fin bref :|

J'ai déterré tellement d'infos (ils se souviennent de moi à l'INSEE :smile2:) que je me retrouve avec un tableau excel de 1745 lignes (correspondant à mes bassins de vie ruraux) et de 53 colones (50 colonnes étant remplies de données traitables statistiti... stastittiqu.... statistiquement ;) (dur ce mot ^^)

je me tourne donc vers les plus tarés matheux d'entre vous :

- Vue la quantité de variables dont je dispose, j'ai pensé à une analyse factorielle (AFC ou ACP), mais j'ai peur que l'interprétation des résultats ne soit trop lourde... Et qu'excel ne puisse pas m'aider dans ces calculs... z'en pensez quoi ?

- vaudrait pas mieux que je me tourne non pas vers une analyse multivariée, mais plutôt vers une analyse bivariée, et traiter indicateur par indicateur avec des trucs simples genre coefficient de corrélation ou coefficient de détermination ?

d'ailleurs à ce sujet : quel intérêt d'utiliser coefficient de détermination plutôt que coefficient de corrélation linéaire ? ;)

(désolée, mes cours de stats remontent à loin, et je les ai pas sous le coude ;) )

Modifié par anariel

Partager ce message


Lien à poster
Partager sur d’autres sites
Annonces
Maintenant

Messages recommandés

Chi-miss Membre 519 messages
Forumeur forcené‚ 59ans
Posté(e)

J'ai l'impression, que ce qu'il manque, avant des outils, c'est une clarification de la problématique.

Qu'est-ce que l'on cherche à prouver, à observer, etc. Bien évidemment, si traiter plein de données comporte une partie exploratoire - on ne sait pas ce qu'on va trouver - à un moment, il faut orienter un peu la direction.

P individus et I variables, on a toujours pas fait beaucoup mieux qu'ACP et AFC pour éplucher tout celà. J'ai pour ma part commencé à jouer avec ces outils il y a une trentaine d'années. Le problème, c'est le choix et la préparation des données, suivis de l'interprétation et de la présentation des résultats.

Devant la complexité de ces outils, on est parfois tenté de baisser les bras et de revenir à des corrélations de variables deux à deux, ce qui donnerait immédiatement à votre mémoire de fin d'étude une tonalité de TP de stats, ce qui je crois n'est pas le but.

Les corrélations par paires de variables font partie du travail d'exploration, on peut faire une matrice de toutes les variables pour avoir un tableau des corrélations. Des variables trop corrélées peuvent être inutiles.

Ensuite, il ne faut pas mélanger dans ce fouillis des variables différentes d'une part, avec les mêmes variables mais à des temps différents. Mélanger une analyse multivariées d'une analyse temporelle crée une confusion indescriptible. Les variables temporelle sont évidement très corrélées (ca évolue doucement dans le temps).

Je suggère dans un premier temps une AFC avec une collection de variables - a un temps T - afin de préciser ce que peut être une photo de la situation à un temps T. Quelles sont les variables peut être inutiles, etc. Ensuite, on revient à la problématique pour préciser la ou les (mais le moins possible) variable(s) indicateur du phénomène à étudier. Quel est le meilleur indicateur de désertification...

Après, il faut savoir vraiment quelle et la problématique : est elle descriptive, "regardez, dans le monde rural, les médecins sont plus agés"... Ou si elle se veut explicative, "regardez quel mécanisme subtil cause tel phénomène...". Malgrès le caractère scientifique de la démarche, il faut pas mal d'intuition, passer beaucoup de temps à éplucher les variables dans tous les sens, puis alimenter des AFC avec des ensembles réduits de données. Ensuite, il n'est pas interdit de s'appercevoir que l'élément le plus significatif dans tout cela est bêtement une forte corrélation entre une variable explicative et une tendance calculée de l'indicateur significatif retenu.

Berf en conclusion : se contenter des corrélations deux à deux serait vraiment baisser les bras. Balancer en vrac toutes les données dans une AFC ne donnera rien de bon.

Modifié par Chi-miss

Partager ce message


Lien à poster
Partager sur d’autres sites
luce Membre+ 16 596 messages
Rabat joie‚ 33ans
Posté(e)

Chi miss, une régression alors?

Partager ce message


Lien à poster
Partager sur d’autres sites
Chi-miss Membre 519 messages
Forumeur forcené‚ 59ans
Posté(e)

Toutes les corrélations de variables sont issues de régressions linéaires simples. Une régression linéaire multiple ? Boff, faut vraiment être sur d'être en présence d'un phénomène explicatif linéaire. NB, les soft d'AFC, à défaut de sortir une AFC compréhensible donne aussi toutes les corrélations de variables 2 a 2. C'est un outil pour lancer toutes ces régressions bivariées, il n'est évidement pas question de les lancer à la main.

Mais je parle dans le vide, je ne connais pas l'étude.

Modifié par Chi-miss

Partager ce message


Lien à poster
Partager sur d’autres sites
anariel Membre+ 17 040 messages
Fée Rosse à Balai‚ 34ans
Posté(e)

wow ! merci !!

J'ai l'impression, que ce qu'il manque, avant des outils, c'est une clarification de la problématique.

Qu'est-ce que l'on cherche à prouver, à observer, etc. Bien évidemment, si traiter plein de données comporte une partie exploratoire - on ne sait pas ce qu'on va trouver - à un moment, il faut orienter un peu la direction.

grâce à cette étude, je voudrais essayer de mettre à jour des "raisons" à la désertification médicale : les médecins sont plus ou moins présents dans certains bassins de vie en raison de quels facteurs ?

--> est-ce que leur présence/absence est liée aux effectifs de population locale ? à leur accessibilité aux centres hospitaliers ? à la présence de divers services dans le bassin de vie ?

P individus et I variables, on a toujours pas fait beaucoup mieux qu'ACP et AFC pour éplucher tout celà. J'ai pour ma part commencé à jouer avec ces outils il y a une trentaine d'années. Le problème, c'est le choix et la préparation des données, suivis de l'interprétation et de la présentation des résultats.

Devant la complexité de ces outils, on est parfois tenté de baisser les bras et de revenir à des corrélations de variables deux à deux, ce qui donnerait immédiatement à votre mémoire de fin d'étude une tonalité de TP de stats, ce qui je crois n'est pas le but.

tu as tout à fait cerné mon problème ;)

c'est vrai que j'ai commencé à calculer des coefficients de corrélation tout bêtes, ça fait des chiffres à la pelle, et très peu d'entre eux sont parlants...

Les corrélations par paires de variables font partie du travail d'exploration, on peut faire une matrice de toutes les variables pour avoir un tableau des corrélations. Des variables trop corrélées peuvent être inutiles.

c'est clair que si j'étudie le nombre de médecins en 99 par rapport à 2007, on a 0.98 de corrélation... aucun intéret ;)

Ensuite, il ne faut pas mélanger dans ce fouillis des variables différentes d'une part, avec les mêmes variables mais à des temps différents. Mélanger une analyse multivariées d'une analyse temporelle crée une confusion indescriptible. Les variables temporelle sont évidement très corrélées (ca évolue doucement dans le temps).

J'ai choisi de me baser de préférence sur les données figées de 2007 (des effectifs, des temps d'accès...).

J'ai toutefois quelques indicateurs d'évolution (population par exemple) qui pourraient apporter des éléments de réponses :smile2:

en résumé, il faut que je compare une évolution avec une autre évolution et un effectif avec un autre effectif ?

Je suggère dans un premier temps une AFC avec une collection de variables - a un temps T - afin de préciser ce que peut être une photo de la situation à un temps T. Quelles sont les variables peut être inutiles, etc. Ensuite, on revient à la problématique pour préciser la ou les (mais le moins possible) variable(s) indicateur du phénomène à étudier. Quel est le meilleur indicateur de désertification...

d'accord... j'ai déjà commencé le tri ;)

ça sera finalement plus rapide de cette manière ^^

Après, il faut savoir vraiment quelle et la problématique : est elle descriptive, "regardez, dans le monde rural, les médecins sont plus agés"... Ou si elle se veut explicative, "regardez quel mécanisme subtil cause tel phénomène...".

c'est surtout des conclusions explicatives que je souhaiterais tirer. Je souhaite, à la fin de ce mémoire, élaborer une typologie des différents bassins de vie selon ces critères...

Malgrès le caractère scientifique de la démarche, il faut pas mal d'intuition, passer beaucoup de temps à éplucher les variables dans tous les sens, puis alimenter des AFC avec des ensembles réduits de données. Ensuite, il n'est pas interdit de s'appercevoir que l'élément le plus significatif dans tout cela est bêtement une forte corrélation entre une variable explicative et une tendance calculée de l'indicateur significatif retenu.

erf, c'est justement le temps qui me manque en ce moment...

vais m'y mettre sans trainer :|

Berf en conclusion : se contenter des corrélations deux à deux serait vraiment baisser les bras. Balancer en vrac toutes les données dans une AFC ne donnera rien de bon.

... ok, donc il vaut mieux que je me penche sur les mystères de l'afc : sa mise en place et son exploitation, plutot que de perdre mon temps avec des coefficients qui partent dans tous les sens...

merci pour ces renseignements !!

ps : je risque de bientôt crier au secours quand aux afc ;)

Toutes les corrélations de variables sont issues de régressions linéaires simples. Une régression linéaire multiple ? Boff, faut vraiment être sur d'être en présence d'un phénomène explicatif linéaire. NB, les soft d'AFC, à défaut de sortir une AFC compréhensible donne aussi toutes les corrélations de variables 2 a 2. C'est un outil pour lancer toutes ces régressions bivariées, il n'est évidement pas question de les lancer à la main.

quel logiciel pourrait m'aider ?

Modifié par anariel

Partager ce message


Lien à poster
Partager sur d’autres sites
luce Membre+ 16 596 messages
Rabat joie‚ 33ans
Posté(e)

Moi aussi ça remonte à longtemps mes cours de stats :smile2:

grâce à cette étude, je voudrais essayer de mettre à jour des "raisons" à la désertification médicale : les médecins sont plus ou moins présents dans certains bassins de vie en raison de quels facteurs ?

--> est-ce que leur présence/absence est liée aux effectifs de population locale ? à leur accessibilité aux centres hospitaliers ? à la présence de divers services dans le bassin de vie ?

Si tu souhaites établir une corrélation (expliquer Y: la baisse de la présence des médecins ... par rapport aux différents X que tu évoques) je te conseille SPSS, il est parfaitement indiqué pour ce genre de calculs

Partager ce message


Lien à poster
Partager sur d’autres sites
anariel Membre+ 17 040 messages
Fée Rosse à Balai‚ 34ans
Posté(e)

en fait c'est pas vraiment la baisse du nombre de médecins que je souhaite expliquer, c'est les raisons de leur présence ou de leur absence (fin c'est peut-être la même chose :smile2:)

au final, ce que je veux, c'est expliquer les différences de densité de médecins (chouette, cette mise à plat m'est bien utile finalement ;))

... ça fait qu'il ne me reste plus qu'une seule variable (y : la densité médicale, soit le nombre de médecins pour 100 000 habitants) à expliquer, en fonction de toutes les autres (x)

merci pour spss, vais voit ça !!

Modifié par anariel

Partager ce message


Lien à poster
Partager sur d’autres sites
Chi-miss Membre 519 messages
Forumeur forcené‚ 59ans
Posté(e)
c'est surtout des conclusions explicatives que je souhaiterais tirer. Je souhaite, à la fin de ce mémoire, élaborer une typologie des différents bassins de vie selon ces critères...

Pour une typologie, c'est vraiment une AFC qui convient, car cela projete les individus (les bassins) sur un plan factoriel (i individus se promenant dans p variables, c'est un hyperespace à p dimenssions). Tu aura des nuages de points, à chaque nuage correspondra un type.

Si tu ne connais rien aux AFC, euh... ça va être dur de s'y mettre tout seul. Avec les doc ? qq dizaines d'heures à moins de vraiment bacler, sortir des truc que l'on comprend pas. Je suppose que tu as de bonnes relations avec ton maitre de stage ?

SPSS, c'est bien. Il y a aussi SAS.

Partager ce message


Lien à poster
Partager sur d’autres sites
anariel Membre+ 17 040 messages
Fée Rosse à Balai‚ 34ans
Posté(e)

disons que j'ai côtoyé les afc y'a 3 ou 4 ans... j'espère que des notions vont me revenir :smile2:

mais oui, j'ai quelques portes où frapper à la fac (mes profs vont faire un bond de 3 mètres en apprenant que je me colle seulement à la tâche, mais bon ;))

je trouvais pas de liens que je jugeais fiable pour spss, mais j'ai trouvé xlstat, ça a l'air pas mal... je suis entrain d'installer la version d'évaluation... on croise les doigts ^^

Partager ce message


Lien à poster
Partager sur d’autres sites
anariel Membre+ 17 040 messages
Fée Rosse à Balai‚ 34ans
Posté(e)

bon... ça marche pas ;)

le logiciel me dit qu'il me faut des ACM :smile2:

...Vais contourner le problème, j'ai ma petite idée ^^

Partager ce message


Lien à poster
Partager sur d’autres sites
luce Membre+ 16 596 messages
Rabat joie‚ 33ans
Posté(e)

Bon courage Anariel!

Partager ce message


Lien à poster
Partager sur d’autres sites
Annonces
Maintenant

Créer un compte ou se connecter pour commenter

Vous devez être membre afin de pouvoir déposer un commentaire

Créer un compte

Créez un compte sur notre communauté. C’est facile !

Créer un nouveau compte

Se connecter

Vous avez déjà un compte ? Connectez-vous ici.

Connectez-vous maintenant