Données longitudinales : les logiciels




État de l’art sous R

Pour l’analyse de séquences, il existe depuis peu de temps (mais il tourne très bien) un module pour R très performant, qui fait en particulier des graphiques magnifiques, et propose aussi des traitements statistiques innovants, autorisant des formes de « tests » (et pas seulement de la pure description) : TraMineR. Il évite d’en passer par les particularités de formatage de données propres aux logiciels plus anciens, comme TDA. Une raison de plus de passer à R… Le module ayant été développé en Suisse, des éléments de documentation en français sont proposés (voir sur le site général et ici). Si un peu de bonne volonté est nécessaire pour s’y mettre, le logiciel et son manuel ont rendu l’analyse de séquences réellement accessible pour les historiens « non statisticiens ».

Pour l’event history analysis sous R, il existe des « librairies » spécialisées, comme « survival », « eha », et encore beaucoup d’autres : une explication très claire, en français, avec exemples, est disponible sur le site de Frédéric Planchet. À noter, pour ceux qui n’ont pas envie de « programmer », que la librairie «  survival  » peut être utilisée à partir de RCommander (le système de menus déroulants et boîtes de dialogue pour R : voir ici) et permet de réaliser la plupart des traitements dont on peut avoir envie, ainsi que des graphiques raisonnablement jolis et parlants. Pour utiliser cette fonction, il faut installer ce petit élément supplémentaire. Tout cela reste toutefois moins intuitif à prendre en mains que TraMineR, faute d’un aussi bon manuel (mais l’objectif n’est pas le même de toute façon !).

L’event history analysis avec d’autres logiciels

Les logiciels de statistique généralistes autres que R proposent des fonctions relevant de l’event history analysis, mais pas de l’analyse de séquences (même s’il est possible d’y ajouter des macros dans ce but, notamment côté Stata).

On peut trouver en ligne ou dans des livres des tutoriels et exemples de programmes sur l’event history analysis (niveau avancé, tant côté statistiques que logiciel), par exemple ici pour SPSS (dans le cadre d’un laboratoire qui est à la pointe des recherches sur les données longitudinales). Quoique maintenant un peu ancien, le livre d’Éva Lelièvre et Arnaud Bringé qui compare systématiquement les programmes en SAS, Stata et TDA peut encore être très utile (les procédures et logiciels n’ont pas tant évolué en dix ans...). Il a l’avantage d’être en français.

Un moteur de recherche vous amènera d’autres résultats, selon le logiciel avec lequel vous travaillez, mais en anglais, on peut aussi citer cette présentation pour SAS (avec un exemple, d’ordre médical), ou, pour Stata, ce livre d’Hans Peter Blossfeld, Katrin Golsch et Götz Rohwer (qui sont parmi les meilleurs spécialistes mondiaux acutels de l’event history analysis en sciences sociales), présentant à la fois la méthode statistique et la pratique du logiciel. Le livre est accompagné d’un site web permettant de s’exercer sur les fichiers exemples.

Pour mémoire : TDA

J’ai (Claire L.) appris l’event history analysis et pratiqué l’analyse de séquences avec ce logiciel : je lui rends donc hommage et conserve cette partie comme archives, mais TraMineR et les packages R l’ont pour moi définitivement détrôné...

Les noms de Blossfeld et Rohwer sont plutôt associés au logiciel TDA, mis au point entre autres par le second. Celui-ci présente plusieurs avantages :

  • il est libre,
  • il a été mis au point pour des sociologues : il est centré sur ce qui est utile en sciences sociales plutôt qu’en médecine ou ailleurs,
  • il fait aussi de l’analyse de séquences (c’est même le principal logiciel que l’on peut actuellement recommander en la matière), ainsi d’ailleurs qu’un peu d’analyse de réseaux (mais nous n’avons pas testé),
  • il propose pas mal d’options particulièrement intéressantes en event history analysis, comme (pour les spécialistes...) les piecewise constant exponential models, mais aussi des formats variés d’entrée des données et nombre d’outils de description spécifiques des données longitudinales, qui sont plutôt sympathiques,
  • son manuel, absolument énorme, est pourtant très clair et propose une mine d’informations statistiques et pas seulement logicielles : il peut ainsi constituer un des points d’entrée pour approfondir sur cette littérature,
  • il y a également un tutoriel en ligne, dû à Wolfgang Ludwig-Mayerhofer, qui inclut des fichiers exemples (pour l’event history analysis). On peut aussi apprendre avec le manuel général d’event history analysis de Blossfeld et Rohwer, qui de fait est en même temps un tutoriel pour TDA.
  • nouveauté d’août 2008 : nous avons maintenant un petit tutoriel « maison » (en fait, ce sont plutôt deux exemples traités qui permettent de voir comment se présentent les fichiers : l’un pour l’analyse de séquences, l’autre pour l’event history analysis). Cliquez ici pour lire le tutoriel (en .pdf) et cliquez là pour récupérer les fichiers correspondants (sous forme d’un fichier .zip).

En contrepartie, TDA a ses inconvénients. D’abord, sa version de base est réservée à ceux qu’une ligne de commande DOS n’effraie pas. Heureusement, une interface un peu plus sympathique pour Windows est aisément téléchargeable (désolées pour les Macintosh). Il faut d’abord installer TDA, en récupérant le fichier ici. Puis télécharger et installer WinTDA, qui se trouve tout en bas de cette page. Cependant, même ainsi, on aura à écrire des lignes de commandes (pas de boutons ni de menus déroulants pour appeler les fonctions statistiques), dans un langage un peu atypique car différent de celui des logiciels statistiques habituels (par exemple, les données sont stockées dans deux fichiers différents : l’un contient les données seules, l’autre leur description). À l’usage, cela s’avère très ergonomique, mais il y a un coût d’apprentissage.