Monitoring en graphe - première experimentation

Le mardi 8 septembre 2015

Présentation des outils

Comme beaucoup de monde, je passe pas mal de temps à chercher la solution de monitoring idéale. Il faut dire que la liste des solutions est longue. En ce moment, je teste le combo Telegraf pour générer les données (charge, disque, mémoire, etc.) et InfluxDB, pour les stocker. C’est un choix temporaire.

Ces deux outils sont écrits par la même société, et sont distribués sous une licence libre. Leurs installations sont assez similaires : télécharger les fichiers .deb ou .rpm disponibles sur les sites, et les installer à la main.

Installation d’un serveur InfluxDB

Si vous êtes sur une distribution debian sid, vous pouvez installer directement la version sid d’InfluxDB. C’est mieux, parce qu’ainsi l’arborescence standard sera respectée :

utilisation par défaut du répertoire /var/lib/influxdb au lieu /var/opt/influxdb
fichier de configuration dans /etc/influx/ au lieu /etc/opt/influxdb

Le seul inconvénient, c’est que vous aurez une version plus ancienne d’InfluxDB (0.9.2), qui vous obligera à installer une version plus ancienne de Telegraf (0.1.4).

Concernant la configuration d’InfluxDB, il faudra prendre garde aux directives :

reporting-disabled à mettre à true (pas utile pour la version empaquetée par Debian ;
les trois bind-address à écrire sous la forme 127.0.0.1:port si vous ne souhaitez pas exposer votre serveur InfluxDB aux connexions distantes en TCP ;

Il faut ensuite créer une base et un utilisateur dédiés à Telegraf. On lance la commande influx (ou /opt/influxdb/influx si vous avez installé le paquet à la main), qui va se connecter au serveur InfluxDB. La création d’une base, et d’un utilisateur avec les permission d’accéder à cette base se déroule comme suit :

> CREATE DATABASE TelegrafDB;
> CREATE USER TelegraphUser WITH PASSWORD 'PasswordSuperDurADeviner';
> GRANT ALL ON TelegrafDB TO TelegraphUser;
> SHOW DATABASES ;
name: databases
---------------
TelegrafDB
> SHOW USERS ;
TelegraphUser   false

Les deux dernières instructions servent à vérifier que tout c’est bien passé parce que, par défaut, le client influx n’est pas très bavard. Je vous ai mâché le travail, mais tout cela est assez bien documenté.

Installation de Telegraf

Ensuite il faut installer Telegraf, cette fois-ci uniquement via un fichier dev ou rpm récupérable sur le site, et le configurer pour qu’il puisse se connecter au serveur InfluxDB. Le fichier /etc/opt/telegraf/telegraf.conf est assez explicite, je n’ai pas besoin d’entrer dans le détail, mais voici quelques points à noter:

vous pouvez définir précisément les interfaces réseau dont vous souhaitez récupérer les informations;
idem pour les disques durs;

Il est possible aussi d’y activer des plugins pour récupérer des statistiques sur certains logiciels, grâce à des plugins. Ces plugins sont fournis avec Telegraf. La documentation de chaque plugins est lisible dans leur code source, dans la variable sampleConfig. Voir un exemple pour Memcached.

Après un redémarrage de Telegraf, la base InfluxDB créée précédemment va commencer à se peupler.

Au bout de quelques minutes vous pourrez vérifier cela avec les commandes suivantes, à exécuter dans le client InfluxDB :

> USE TelegrafDB
> SHOW SERIES
> SHOW MEASUREMENTS
> SELECT value FROM mem_free
> SELECT value FROM net_bytes_sent
> SELECT mean(value) FROM mem_free WHERE time > now() - 1h GROUP BY time(1m)

Vous pouvez aussi explorer vos données en faisant pointer votre navigateur sur le port 8083 de la machine qui héberge votre serveur InfluxDB. Dans les cas deux, cela n’est que du texte. Pour afficher des jolis graphes, il va falloir utiliser un autre outil, et c’est à ce moment que Grafana entre en jeu.

Grafana

L’installation de Grafana se déroule avec un dpkg -i sur le fichier téléchargé sur le site du projet. Par défaut Grafana n’est pas lancé, et ne se lancera pas automatiquement au démarrage de l’ordinateur.

La configuration s’effectue dans le fichier /etc/grafana/grafana.ini. Pour ma part, j’ai modifié :

reporting_enabled = false
les directives admin_user et admin_password
les directives allow_*

Au premier lancement, Grafana va créer et remplir sa base de données de configuration (par défaut dans un fichier Sqlite dans /var/lib/grafana) et créer le premiers utilisateur (que vous avez défini dans le fichier de configuration). Conséquence rigolote : il ne sert à rien de modifier les identifiants de l’administrateur dans le fichier de configuration après le premier démarrage ; ce fichier ne sera plus utilisé pour l’authentification.

En ouvrant votre navigateur sur l’url http://127.0.0.1:3000/ vous pourrez entrer les coordonnées de l’administrateur que vous avez défini dans le fichier de configuration, et vous tomberez alors sur une magnifique page vide. C’est là que les choses deviennent intéressantes.

En cliquant sur la petite icone Grafana en haut à gauche, vous allez ouvrir un menu latéral. La deuxième ligne de ce menu s’appelle «Data Sources». En cliquant dessus, vous allez entrer dans la configuration des sources des données. De là, en cliquant sur le bouton «Add New», dans le menu horizontal du haut, vous allez pouvoir créer votre première source de données, qui sera la base Telegraf du serveur InfluxDB.

Le formulaire de création de cette source de données est assez simple lorsqu’on vient de créer sa base Telegraf quelques minutes plus tôt:

l’url de connexion (ne ce serait pas http://127.0.0.1:8086/ ?)
le nom de la base
l’utilisateur et le mot de passe de l’utilisateur à la base

En cas de doute, consulter le fichier /etc/opt/telegraf/telegraf.conf pour retrouver les identifiants utilisés pour se connecter à la base qui stocke vos données. Une fois la connexion ajoutée, vous pouvez la tester.

Maintenant, créons notre premier tableau de bord. Dans le menu vertical de gauche, cliquons sur Dashboard. Cela affiche la «Home», et surtout le menu Dashboard dans le haut de la page. En cliquant sur «Home» cela ouvre la liste (vide) des Dashboards. En bas de la liste, vous avez «+New» d’afficher. C’est là qu’il faut cliquer.

Cela nous affiche un nouvel écran, vide, mais différemment vide. Il y a une barre assez fine, vert fluo tout à gauche.

C’est encore là qu’il faut cliquer. Vous pouvez aller dans «Add Panel > Graph», et…

… vous avez un superbe graphe qui s’affiche !

Ne vous réjouissez pas trop vite car les données de ce graphe n’a aucun sens. Il s’agit juste de vous montrer que vous êtes sur la bonne voie. En cliquant sur le titre «no title» du graphe, un menu apparait. Dans ce menu, il faut cliquer sur «edit».

Courage, vous êtes déjà sur l’onglet «Metrics», vous êtes presque! En bas à droite, il faut choisir la Datasource que vous avez ajouté auparavant.

Vous tombez alors sur une requête prédéfinie. Il faut clique sur la partie «From» pour choisir la bonne données à afficher. Dans mon cas, j’ai choisi system_load1.

Cette fois, vous y êtes : vous venez d’afficher dans Grafana les premières données issues d’InfluxDB !

Je vous laisse continuer tout seul. Vous pouvez faire, à partir de là:

afficher plusieurs données sur le même graphe (bouton «Add Query»);
créer d’autres panneaux, avec d’autres graphes contenant d’autres données;
changer le style des graphes.

En quelques minutes vous pourrez afficher un petit tableau bord avec la charge serveur, l’espace disque, l’occupation mémoire et le trafic réseau.

Limitations

Ceci était une première expérimentation avec le couple InfluxDB + Telegraf pour générer des statistiques, et l’outil Grafana pour afficher les statistiques récoltées.

À partir de là deux pistes restent à explorer. En premier on pourrait vouloir découvrir plus finement les options de configuration d’InfluxDB (la durée de stockage des données), et de Telegraf (utilisation de ses plugins).

Telegraf reste un projet récent, et manque encore de maturité. Par exemple, les statistiques sur les entrées sont stockées en quantité totale, et non pas en quantité par seconde, informations fournies par d’autres outils en ligne de commande comme iotop ou iostat.

Grafana, quant à lui, demande un petit temps d’adaptation. L’objectif de cet article est de faciliter sa prise en main. Mais ensuite il est assez facile à utiliser.

Il existe d’autres outils pour afficher des statistiques. Facette est l’un d’entre eux. Malheureusement Facette n’est pas encore adapté au dernier format des données InfluxDB. Donc la comparaison entre Facette et Grafana, ce sera pour une autre fois.