Environnement et outils de traitement des données
L’outil logiciel préconisé est R qui permet le traitement avancé des données numériques et leur analyse statistique. Outre qu’il implémente l’état de l’art des méthodes statistiques, R offre la possibilité de tracer les données et de produire des figures de qualité. La mise en oeuvre de ces fonctionnalités est délicate à partir de l’éditeur natif de R. Pour cela différents environnements intégrés de développement encore appelés IDE (Interactive Development Environment) ont été développés afin d’améliorer la prise en main, l’efficacité et les échanges. Parmi les IDE utilisés avec R nous pouvons vous en conseiller deux :
- RStudio qui est un IDE spécifique à R et qui offre une version open-source pour Windows assez facilement installable;
- Jupyter un IDE ‘universel’ s’appuyant sur le concept de notebook qui facilite la publication, les échanges et la réutilisation du code. L’installation sous Windows n’est pas directe et nécessite d’installer la plate-forme Anaconda;
Installation de R + RStudio ou R + Jupyter via Anaconda
R + RStudio
Pour Windows :
- récupérer les exécutables (i.e. .exe) de R et RStudio via les liens ci-dessus;
- installer R en utilisant les options proposées par défaut;
- installer RStudio en double cliquant sur l’exécutable et suivre les étapes.
Anaconda
L’installation est quasi identique pour windows, linux et macOS. Nous présentons ci-dessous les principales étapes de la récupération à l’installation. Nous montrons comment créer un nouvel environnement avec R et Jupyterlab.
- Récupération d’Anaconda
- Installation d’Anaconda
Une fois le fichier exécutable (‘Anaconda3-2022.05-Windows-x86_64.exe’) cliquer deux fois dessus pour lancer l’installation
- Anaconda Navigator -> menu démarrer
Anaconda apparaît après l’installation dans votre menu démarrer. Il faut lancer Anaconda Navigator pour gérer les environnements et l’installation des packages.
Anaconda propose un environnement isolé afin de gérer les dépendances et la version des logiciels. C’est pour cela qu’il nécessite à minima 3Go d’espace disque et un minimum de mémoire RAM.
- Anaconda Navigator -> Interface
L’interface anaconda de base propose par défaut une séries de logiciel installés ou à installer en fonction des besoins.
Cet environnement de base est très stable. En contrepartie ce ne sont pas les versions les plus récentes des logiciels qui sont proposées. Pour avoir des versions plus récentes il faudra ajouter un liens (Channels).
- Anaconda Navigator -> Channels
On vous propose d’ajouter le Channel ou lien conda-forge qui pointe sur les versions plus récentes et propose plus de packages.
Ce Channel maintenu par une large communauté issue du monde open-source permet de créer de nouveaux environnements opérationnels pour vos besoins. Dans notre cas on vous propose une fois le Channel ajouté de créer un nouvel environnement avec une version plus récente de R, Jupyterlab et le noyau (kernel) de R pour jupyterlab.
- Anaconda Navigator -> Création d’un nouvel environnement
Ici on active l’intallation de R et python. Anaconda va se baser sur le Channel conda-forge pour les versions des logiciels.
Après sa création on va pouvoir ajouter les logiciels et packages dont on a besoin et notamment jupyterlab et les libraries spécifiques en plus des librairies de base.
- Anaconda Navigator -> Installation de logiciel et librairies
Sélectionner votre nouvel environnement recherche dans les logiciels et librairies non installés jupyterlab et les libraries R listées plus bas dans la page.
Après cette opération vous pouvez retourner sous Home et à partir de votre nouvel environnement vous pouvez lancer Jupyterlab. Jupyterlab vous permet d’ouvrir le notebook et lancer les blocs de code. Pour cela il vous faudra récupérer les données via le lien ci dessous et modifier dans le notebook le chemin d’accès aux données .
Les librairies à installer pour la séance sont :
- sf, tidyverse, dplyr, rstatix, rgdal, spatstat, classInt, RColorBrewer, leaps, relaimpo
Script et données
Les données, les scripts et les docs sont à récupérer ici : data
Nous reviendrons au cours de la séance sur les différentes étapes.