Organiser et nettoyer les données
1. La commande sort
sort réorganise les lignes des fichiers texte ou de l'entrée par ordre alphabétique, numérique ou selon d'autres critères.
Tri alphabétique de base :
bash $ cat donnees.txt | sort
Tri numérique (-n) : Essentiel pour trier des chiffres, car le tri standard les traite alphabétiquement (ex : 10 arrive avant 2).
bash $ cat nombres.txt | sort -n
Tri inversé (-r) : Trie par ordre décroissant.
bash $ cat donnees.txt | sort -r
2. La commande uniq
uniq supprime ou signale les lignes adjacentes répétées dans un fichier. Crucial : le fichier doit être trié au préalable pour que uniq fonctionne correctement.
Supprimer les doublons :
bash $ cat log | sort | uniq
Compter les occurrences (-c) : Très utile pour générer des rapports de fréquence.
bash $ cat access.log | sort | uniq -c | sort -nr