Baselines et documentation réseau
Définition
Une baseline réseau est un ensemble de mesures de référence (bande passante, latence, utilisation CPU, taux d'erreur, nombre de sessions) capturées lorsque le réseau fonctionne normalement. La documentation réseau regroupe les diagrammes de topologie, les inventaires d'équipements, les configurations de référence et les procédures opérationnelles. Ensemble, ils forment la base indispensable pour un dépannage efficace.
Contexte
Sans baseline, il est impossible de déterminer si un comportement est « anormal ». Sans documentation, chaque dépannage commence à zéro. Ces deux pratiques transforment un diagnostic empirique en un processus structuré et rapide. La certification CCST couvre l'importance de la documentation et des baselines dans le processus de troubleshooting.
Détails techniques
Baseline — quoi mesurer ?
| Catégorie |
Métriques |
Outil |
| Bande passante |
Utilisation des interfaces (bps, %), pics, tendances |
SNMP, PRTG, Zabbix, Cacti |
| Latence |
RTT vers les destinations critiques |
ping régulier, SLA IP (Cisco) |
| Erreurs d'interface |
CRC, runts, giants, drops, collisions |
show interfaces, SNMP |
| CPU / Mémoire |
Utilisation du CPU et de la RAM des équipements |
show processes cpu, SNMP |
| Sessions |
Nombre de connexions simultanées (pare-feu, NAT) |
show conn count (ASA), monitoring |
| Trafic applicatif |
Répartition par protocole / application |
NetFlow, NBAR |
| Disponibilité |
Uptime des équipements et des liens |
show version, monitoring |
1. Identifier les équipements et liens critiques à surveiller.
2. Configurer la collecte de métriques (SNMP, NetFlow, syslog).
3. Collecter les données pendant 2-4 semaines (couvrir heures de pointe et heures creuses).
4. Calculer les moyennes, les pics et les percentiles (P95, P99).
5. Documenter les valeurs de référence.
6. Définir des seuils d'alerte : baseline + marge (ex : si utilisation CPU baseline = 30%, alerte à 70%).
7. Réviser la baseline après chaque changement majeur.
Documentation réseau — composants essentiels
| Document |
Contenu |
Format |
| Diagramme de topologie physique |
Emplacements physiques, câblage, racks, salle serveur |
Visio, draw.io, Lucidchart |
| Diagramme de topologie logique |
Sous-réseaux, VLANs, routage, interconnexions |
Visio, draw.io |
| Inventaire des équipements |
Modèle, numéro de série, version IOS, localisation, contrat de support |
Tableur, CMDB (ServiceNow) |
| Plan d'adressage IP |
Sous-réseaux, VLANs, plages DHCP, IP réservées, services |
Tableur, IPAM (Infoblox, phpIPAM) |
| Configurations de référence |
Backup des running-config de chaque équipement |
TFTP, SCP, version control (Git) |
| Procédures opérationnelles |
Ajout d'un VLAN, failover, password recovery, mise à jour IOS |
Wiki interne, runbooks |
| Change log |
Historique des modifications (date, auteur, description, rollback) |
Ticket ITSM, Git |
Conventions de nommage (bonnes pratiques)
| Élément |
Convention |
Exemple |
| Hostname |
SITE-ROLE-NUMRO |
PAR-SW-ACC-01 (Paris, Switch Access, #01) |
| Interface description |
Destination + usage |
Lien vers PAR-RT-CORE-01 Gi0/0 |
| VLAN name |
Usage fonctionnel |
VLAN 10 - Employes, VLAN 99 - Management |
Utilité pour le dépannage
| Situation |
Sans baseline/doc |
Avec baseline/doc |
| « Le réseau est lent » |
Pas de repère → diagnostic aveugle |
Comparer le RTT actuel à la baseline → identifier le lien dégradé |
| « Quel routeur gère ce subnet ? » |
Chercher dans les configs un par un |
Consulter le diagramme et le plan IP |
| « Qu'est-ce qui a changé ? » |
Impossible à savoir |
Consulter le change log → identifier le changement corrélé |
| « Le switch est en panne, il faut le remplacer » |
Reconfigurer de mémoire |
Restaurer la config sauvegardée en 5 minutes |
Outils de documentation automatisée
| Outil |
Fonction |
| Cisco DNA Center |
Découverte automatique, cartographie, compliance |
| NetBox |
IPAM + DCIM open-source (documentation datacenter) |
| Oxidized |
Backup automatique des configurations réseau |
| LibreNMS / Zabbix |
Monitoring + découverte + graphes de baseline |
| Netdisco |
Découverte L2/L3 automatique |
Exemple concret
Scénario : un administrateur réseau prend ses fonctions dans une entreprise de 300 postes. Aucune documentation n'existe.
- Semaine 1 — Découverte :
- Scanner le réseau avec
nmap et CDP/LLDP pour inventorier les équipements.
show cdp neighbors detail sur chaque switch/routeur pour cartographier les connexions.
- Résultat : 12 switches, 3 routeurs, 2 pare-feux, 1 contrôleur WiFi.
- Semaine 2 — Documentation :
- Créer un diagramme de topologie sur draw.io.
- Construire un plan d'adressage IP dans un tableur (20 VLANs, 15 sous-réseaux).
- Sauvegarder toutes les configs via Oxidized + Git.
- Semaine 3-4 — Baseline :
- Configurer SNMP sur tous les équipements → collecte par Zabbix.
- Après 2 semaines : baseline CPU = 15-25 %, utilisation WAN = 40 % en pic, RTT inter-sites = 12 ms.
- Seuils d'alerte : CPU > 60 %, WAN > 80 %, RTT > 50 ms.
- Mois 2 — Premier incident :
- Alerte Zabbix : utilisation WAN à 95 % depuis 2h (baseline = 40 %).
- Consultation du change log → un nouveau serveur de backup a été configuré sans QoS → les backups saturent le lien WAN en heures ouvrées.
- Solution : planifier les backups la nuit + appliquer une politique QoS.