Les logiciels de statistiques « généralistes »

SAS, SPSS, Stata, etc. ... et R

« Généralistes » ?

Faute de mieux, on peu appeler ainsi des logiciels tels que R, SAS, SPAD, SPSS ou Stata. Vendus aux entreprises pour le data mining, ils sont aussi intensivement utilisés par les économistes, mais surtout par des chercheurs des « sciences dures », notamment biologistes. C’est dire qu’ils proposent des fonctionnalités nombreuses, variées et souvent totalement inutiles pour le travail de l’historien. Pourtant, il est quasi indispensable d’y recourir dans certains cas, en particulier pour bénéficier d’un large choix de paramétrages en matière d’analyse factorielle et surtout de régressions, toutes choses qu’il est très compliqué, voire impossible (et en tout cas pas à la portée d’un débutant) de faire sous Excel. Ceux qui auront pris le temps de s’y initier y gagneront aussi des possibilités de réalisation bien plus fine et/ou rapide des tableaux croisés, corrélations, graphiques... que l’on peut également obtenir sous Excel.

En revanche, ces logiciels ne permettent pas encore de réaliser tous les traitements statistiques décrits dans notre « Repères ». La plupart d’entre eux (avec des fortes nuances : prenez le temps de vous renseigner sur chacun) ne proposent pas ou peu d’analyse de réseaux, d’analyse de séquences1, de lexicométrie (sauf SPAD) ; en matière d’event history analysis et d’analyses factorielles, les fonctions et paramétrages disponibles ne sont pas toujours les plus utiles en science sociales.

Mise à jour de mai 2009 : cette situation est en train d’évoluer, avec une convergence, effective ou annoncée, des logiciels spécialisés vers R (voir notamment ici pour les données longitudinales). En effet, R est un logiciel libre qui fonctionne avec une base commune et des modules spécialisés développés par chaque communauté scientifique, et qui peuvent facilement lui être ajoutés. Il est donc plus que probable qu’il devienne le logiciel de référence en sciences sociales d’ici quelques années.

Compliqués ?

Se former aux logiciels de statistique généralistes peut présenter quelques intérêts : une fois qu’on en connaît un, comme il est généraliste justement, on peut y faire la plupart des opérations qu’on a à faire sur ses données (du tri ou recodage à la régression logistique en passant par des tableaux croisés et calculs de chi-2, par exemple), sans avoir à transférer fastidieusement les fichiers d’un logiciel à l’autre, avec tous les problèmes de comptabilité et de rangement que cela peut poser. De plus, indiquer sur un CV que l’on maîtrise un de ces logiciels (même de façon limitée) peut être précieux... Sauf geekitude ultime, il est a priori nécessaire de suivre un stage ou atelier au moins pour s’initier au logiciel, quitte à poursuivre ensuite en auto-formation (pour laquelle on peut recourir entre autres aux forums d’utilisateurs, nombreux sur le web). Cela dit, ce constat est à nuancer selon les logiciels, et selon leurs versions.

Il y a dix ans, tous obligeaient à une véritable « programmation », c’est-à-dire que pour obtenir un résultat, il ne fallait pas cliquer sur un bouton, mais écrire quelque chose comme « proc corresp data=toto dim=3 mca outc=coor ; tables format langue matgen lieu ; sup lieu ; » puis cliquer sur le bouton « Run » (cet exemple correspond à une analyse factorielle en SAS). Ce n’est pas forcément très compliqué, mais ça s’apprend !

Par exemple, le « tout petit manuel » du modeste Olivier Godechot vous donne une idée de ce qu’il faut apprendre pour se repérer en SAS... À noter que la plupart des lieux de formation que nous avons indiqués pour les régressions vous formeront aussi pour le même prix à l’un ou l’autre de ces logiciels.

Cela dit, ces logiciels proposent de plus en plus souvent, au moins pour une partie de leurs fonctions, une « interface graphique », i. e. un système de boutons et/ou menus déroulants plus familier des utilisateurs d’ordianteurs dans leurs fonctions bureautiques habituelles. Dans ce cas, il n’y a besoin « que » de maîtriser les fonctions statistiques elles-mêmes (savoir ce qu’est une variable supplémentaire dans une analyse des correspondances, par exemple) pour s’en servir.

Un logiciel libre : R

La plupart des logiciels de statistiques se vendent pour plusieurs milliers d’euros, et en général avec un abonnement de plusieurs centaines d’euros par an et par poste. Pour y accéder, il faut donc qu’ils soient installés à l’université, ou autre lieu de travail (qui disposent parfois de licences multipostes permettant d’équiper les ordinateurs des étudiants).

En revanche, R est un logiciel libre2. Outre sa gratuité, cela présente un avantage important : il en existe une version « de base », mais aussi des « librairies » complémentaires développées par les utilisateurs avancés, que l’on peut télécharger en plus. De ce fait, R est en train de devenir le logiciel de référence dans bien des milieux de recherche en sciences dures, par exemple en biostatistiques en France : le site lyonnais correspondant à cette discipline propose de ce fait de nombreux tutoriels, toutefois à réserver aux plus avancés ou débrouillards. On ne peut donc que le conseiller aux étudiants ou chercheurs en sciences sociales dont le laboratoire n’est pas équipé de logiciels payants et/ou qui ont besoin de fonctions absentes du logiciel payant de leur laboratoire.

Des tutoriels adaptés aux sciences sociales (en commençant par la sociologie) sont en train d’être développés, en particulier par Julien Barnier à Lyon : voir une introduction sur le blog Quanti et le tutoriel lui-même (pour les plus avancés d’entre vous : pour les autres voir infra ; mais c’est remarquablement clair, dans le genre).

Les Presses universitaires de Rennes ont également publié deux manuels très simples et en français : Statistiques avec R par Pierre-André Cornillon et al. et un manuel plus orienté vers l’analyse factorielle, écrit par les développeurs de FactoMineR (voir ici).

mise à jour 2019 (en attendant la refonte générale de ce site...) : Maelle Amand a produit de très bons tutoriels pour apprendre R lorsqu’on est en master de sciences humaines (dont tout à fait accessibles aux "littéraires" motivé.es). Vous pouvez les télécharger ici.

Une liste d’utilisateurs a été créée, là encore par Julien Barnier, ce qui témoigne du développement en cours de l’usage de R dans les sciences sociales en France ; même les plus débutants y trouvent des réponses à leurs questions. Pour ceux qui n’ont pas peur de programmer, et notamment ceux qui connaissaient déjà SAS, SPSS ou Stata, une bonne introduction en anglais est ici  ; une version (quand même) simplifiée de R est proposée par le logiciel Zelig  ; et encore d’autres ressources pour débuter sur le site de UCLA. Merci à Laurent Lesnard pour ces trois dernières références.

Une occasion à saisir jusqu’à fin janvier 2010 : les sessions QMSS (formations européennes aux méthodes quantitatives en sciences sociales, destinées aux doctorants et jeunes docteurs) reprennent cet été. L’une d’elles sera consacrée à R et s’annonce d’un niveau réellement introductif ! Un must en matière de qualité et une occasion de rencontrer des chercheurs de pays et de disciplines variées, tout en travaillant le cas échéant sur ses propres données avec un encadrement de pointe... Seule condition : bien se débrouiller en anglais. Pour plus d’informations, voir ici.

R « pour les nuls » (nous)

Certaines des « librairies » proposent des fonctions statistiques ou graphiques supplémentaires. Ainsi, FactoMineR, développée en France, s’avère particulièrement adaptée (et simple d’emploi) pour la réalisation d’analyses des correspondances multiples avec variables et/ou individus supplémentaires. D’autres « librairies » servent à fournir une interface graphique (sans laquelle R est probablement un des logiciels les moins intuitifs, au premier abord).

Voici comment installer R sur votre ordinateur avec une de ces interfaces graphiques, R Commander, qui vous permettra avec des menus déroulants plutôt clairs d’importer vos données depuis Excel (ou format similaire avec lignes et colonnes), de les recoder, de réaliser comptages, tableaux croisés, tests de significativité, mais aussi en particulier régressions logistiques, classifications automatiques et analyses factorielles de façon très ergonomique. Plus précisément, nous allons installer à la fois R Commander et FactoMineR, qui y ajoute des fonctions utiles d’analyse factorielle.

L’installation est réalisable par quiconque a déjà installé des logiciels sur son ordinateur et sait retrouver où sont rangés des fichiers dans son disque dur. Elle nécessite d’être connecté à Internet pendant tout le processus. Nous avons testé l’installation sous Windows XP et 2000, mais a priori elle n’est pas difficile à adapter ailleurs. L’utilisation du logiciel est possible pour qui sait ce qu’il ou elle veut faire avec (l’aide du logiciel n’est pas très claire et ne permet en tout cas pas de comprendre ce qu’est une régression ou une analyse factorielle...) et a bien saisi et codé ses données sous Excel ou équivalent (voir le chapitre correspondant de notre « Repères »).

Première étape : installer R.

aller sur http://cran.univ-lyon1.fr/bin/windows/base/ (nota bene : actualisation en février 2010, car le « miroir français » (parisien) semble être en panne : dans ce cas, on peut toujours retrouver les miroirs lyonnais ou toulousain, ou ceux d’autres pays, à partir de la page http://cran.r-project.org/mirrors.html) (autre nota bene : si vous travaillez sous Mac ou Linux, voir http://cran.univ-lyon1.fr/)
télécharger R-2.10.1 pour Windows (clic droit dessus et enregistrer, à un endroit de votre disque dur où vous le retrouverez). Nota bene : il s’agit du numéro de version disponible en février 2010. Si c’est une version supérieure qui est disponible au moment où vous passez, téléchargez-la, bien sûr...
aller à cet endroit de votre disque dur et double-cliquer sur le fichier téléchargé : R doit s’installer tout seul ; en disant « oui » à tout, on obtient une installation non personnalisée très utilisable.

Deuxième étape : installer R Commander et FactoMineR

trouver dans son disque dur le fichier Rgui.exe (il est dans le dossier R que vous venez d’installer) ; ou aller au raccourci R installé sur le bureau ou dans la barre de lancement rapide si vous avez coché ces options.
double-cliquer dessus : cela ouvre la « console » R : un cadre avec diverses choses écrites, puis un > rouge qui attend qu’on lui donne une instruction
taper (ou plutôt copier-coller, car il ne faut rien y changer) tout le code donné sur la ligne suivante (pas seulement l’url) après le > :
source("http://factominer.free.fr/install-facto.r")
puis appuyer sur la touche « Entrée »

À partir de là, un grand nombre de téléchargements s’enclenchent automatiquement (pendant quelques minutes, selon la qualité de connexion), puis on est informé que tout est installé. Pour en avoir le cœur net, taper, toujours après le > :
library(Rcmdr)
et appuyer sur « Entrée ». Si tout a bien marché, une nouvelle fenêtre s’ouvre, avec des menus déroulants assez compréhensibles. C’est là qu’on travaillera par la suite.

Troisième étape : utiliser le logiciel par la suite

Il suffit de repasser par Rgui.exe, le temps de taper library(Rcmdr). Il sera ensuite temps, pour les fonctions non incluses dans les menus déroulants, si elles s’avèrent nécessaires, d’apprendre à utiliser la « console » R. Entre-temps, vous pouvez même adopter une pratique intermédiaire : les instructions en langage R qui apparaissent dans la moitié supérieure de l’écran peuvent être complétées ou modifiées. On ajoute ainsi à la simplicité des menus la souplesse de la programmation.

Voir ici un tutoriel pour utiliser FactoMineR pour l’analyse des correspondances multiples et ici un autre pour utiliser RCommander pour la régression logistique.

À noter : d’autres logiciels libres de data mining sont signalés ici. Pour la plupart, nous ne les avons pas encore testés. Si vous avez des expériences d’utilisation, n’hésitez pas à nous en faire part.

1 En fait, des macros sous SAS et Stata ont été développées pour mieux traiter des données longidutinales, mais il faut connaître les gens qui en disposent... Nous vous en dirons sans doute plus sur ce point courant 2008.

2 Pour les puristes, R est un langage, pas un logiciel. Mais le présent site n’est pas écrit pour les puristes...