Codage de Huffman

Progression

#Codage de Huffman

À quoi ça sert ?

À quoi ça sert: compresser sans perte en attribuant des codes courts aux symboles fréquents. Comment: fusion gloutonne des deux fréquences les plus faibles pour construire un arbre binaire et obtenir un code préfixe optimal.

#Principe

L'idée fondamentale du codage de Huffman est d'attribuer des codes plus courts aux caractères les plus fréquents et des codes plus longs aux caractères les moins fréquents. Cela contraste avec les systèmes de codage à longueur fixe comme l'ASCII où chaque caractère utilise le même nombre de bits.

#Animation interactive

Voici une animation qui illustre le fonctionnement de l'algorithme de Huffman :

Chargement...

#Pas‑à‑pas: construire l’arbre

Fréquences

Compter les symboles

File min

Prendre 2 plus faibles

Fusion

Créer nœud somme ; ré‑insérer

Répéter

Jusqu’à un seul nœud (racine)

Codes

0/1 par gauche/droite ; préfixe

#Algorithme

Calcul des fréquences : Compter l'occurrence de chaque caractère dans le texte
Construction de l'arbre :
- Créer un nœud feuille pour chaque caractère avec sa fréquence
- Répéter jusqu'à ce qu'il ne reste qu'un seul nœud :
  - Sélectionner les deux nœuds avec les fréquences les plus basses
  - Créer un nouveau nœud avec ces deux nœuds comme enfants
  - La fréquence du nouveau nœud est la somme des fréquences des enfants
  - Ajouter le nouveau nœud à la liste
Génération des codes : Parcourir l'arbre pour attribuer des codes binaires (0 pour gauche, 1 pour droite)

#Implémentation en Python

pythonpython

1import heapq2from collections import defaultdict, Counter3 4class NoeudHuffman:5    def __init__(self, char=None, freq=0, gauche=None, droite=None):6        self.char = char7        self.freq = freq8        self.gauche = gauche9        self.droite = droite10    11    def __lt__(self, other):12        return self.freq < other.freq13 14def construire_arbre_huffman(texte):

#Propriétés

#Optimalité

Le codage de Huffman est optimal pour un modèle de source sans mémoire (chaque caractère est indépendant des autres). Cela signifie qu'il produit le code à longueur variable avec la plus petite longueur moyenne possible.

#Préfixe

Le codage de Huffman est un code préfixe, ce qui signifie qu'aucun code n'est le préfixe d'un autre code. Cette propriété permet une décompression non ambiguë.

#Complexité

Construction de l'arbre : O(n log n) où n est le nombre de caractères distincts
Génération des codes : O(n)
Compression : O(m) où m est la longueur du texte
Décompression : O(m)

#Exercice : Implémentation avec sérialisation

Implémentez une version du codage de Huffman qui peut sérialiser l'arbre dans le flux compressé pour une décompression autonome.

#Instructions

Créez une fonction pour sérialiser l'arbre de Huffman
Modifiez l'algorithme pour inclure l'arbre dans le flux compressé
Implémentez la décompression qui utilise l'arbre du flux

#Exemple de code

pythonpython

1def serialiser_arbre(noeud):2    """Sérialiser l'arbre de Huffman en une chaîne binaire"""3    if noeud.char is not None:4        # Nœud feuille : '1' + code ASCII sur 8 bits5        return '1' + format(ord(noeud.char), '08b')6    else:7        # Nœud interne : '0' + sous-arbre gauche + sous-arbre droit8        return '0' + serialiser_arbre(noeud.gauche) + serialiser_arbre(noeud.droite)9 10def deserialiser_arbre(bits, index=0):11    """Désérialiser l'arbre de Huffman à partir d'une chaîne binaire"""12    if bits[index] == '1':13        # Nœud feuille14        char_code = bits[index+1:index+9]

#Applications

Compression de fichiers : Formats comme ZIP, PNG, JPEG utilisent Huffman dans leur processus
Transmission de données : Réduction de la bande passante nécessaire
Stockage : Réduction de l'espace de stockage requis
Multimédia : Compression audio (MP3) et vidéo (MPEG)

Le codage de Huffman est un excellent exemple d'application des structures de données arborescentes et de l'optimisation combinatoire en informatique.

Optimalité (idée)

Argument d’échange: dans un code optimal, les deux symboles les moins fréquents sont frères feuilles; la fusion gloutonne préserve l’optimalité.

Codage de Huffman

Progression

#Codage de HuffmanCopier le lien

#PrincipeCopier le lien

#Animation interactiveCopier le lien

#Pas‑à‑pas: construire l’arbreCopier le lien

#AlgorithmeCopier le lien

#Implémentation en PythonCopier le lien

#PropriétésCopier le lien

#OptimalitéCopier le lien

#PréfixeCopier le lien

#ComplexitéCopier le lien

#Exercice : Implémentation avec sérialisationCopier le lien

#InstructionsCopier le lien

#Exemple de codeCopier le lien

#ApplicationsCopier le lien