DRAGON

Qu'est-ce que DRAGON ?

Une solution innovante pour la deduplication des donnees a grande echelle

⚡

Acceleration GPU

Exploite la puissance de calcul massivement parallele des GPUs pour accelerer le hachage et la detection de doublons.

Hachage parallele XXH3/SHA256
Traitement de milliers de blocs simultanement
Optimisation memoire GPU automatique

📊

Chunking Intelligent

Deux modes de decoupage adaptes a vos besoins : blocs fixes pour la vitesse, CDC pour la qualite.

Fixed Chunking : decoupage rapide uniforme
FastCDC : Content-Defined Chunking adaptatif
Tailles configurables 4KB-64KB

🌐

Architecture Distribuee

Scalez horizontalement en connectant plusieurs GPUs locaux ou distants pour traiter des volumes massifs.

Multi-GPU local (CUDA/DirectX)
Workers GPU distants via TCP
Load balancing intelligent

Comment ca fonctionne ?

Pipeline de traitement en 4 etapes principales

flowchart LR subgraph Input["1. ENTREE"] FILES[Fichiers
source] end subgraph Chunking["2. DECOUPAGE"] CHUNK[Chunking
Fixed/CDC] end subgraph Hash["3. HACHAGE GPU"] GPU[Calcul Hash
Parallele] end subgraph Dedup["4. DEDUPLICATION"] INDEX[Index
Hash] STORE[Stockage
Unique] end FILES --> CHUNK CHUNK --> GPU GPU --> INDEX INDEX --> STORE style Input fill:#1e40af,stroke:#3b82f6 style Chunking fill:#065f46,stroke:#10b981 style Hash fill:#7c2d12,stroke:#f59e0b style Dedup fill:#581c87,stroke:#a855f7

1. Analyse des fichiers

Scan recursif du repertoire source, detection des types de fichiers et estimation de la taille totale a traiter.

2. Decoupage en blocs

Division des fichiers en chunks de taille optimale selon le mode choisi (fixe ou content-defined).

3. Hachage GPU

Calcul massif des empreintes cryptographiques en parallele sur GPU pour chaque bloc de donnees.

4. Deduplication

Identification des blocs dupliques via l'index de hash et stockage unique des donnees.

Fonctionnalites cles

Une solution complete pour tous vos besoins de deduplication

Fonctionnalite	Description	Benefice
GPU Scheduler	Ordonnanceur intelligent repartissant le travail sur les GPUs disponibles	Utilisation optimale des ressources
Hachage hierarchique	Double hash 256-bit (2x128-bit) pour eliminer les collisions	Zero faux positif garanti
FastCDC	Content-Defined Chunking avec Gear hash et normalisation	Meilleur taux de deduplication
B+Tree GPU Index	Index de recherche optimise pour GPU avec acces O(log n)	Recherche ultra-rapide
Bloom Filter hierarchique	Pre-filtrage probabiliste avant recherche exacte	Reduction des acces memoire
Mode distribue	Support multi-GPU local et distant via TCP	Scalabilite horizontale
Interface TUI	Interface console interactive avec progression temps reel	Supervision simplifiee

Performances

Benchmarks sur differentes configurations materielles

Comparaison CPU vs GPU (debit en GB/s)

xychart-beta title "Debit de hachage (GB/s)" x-axis ["CPU 8-core", "GTX 1080", "RTX 3080", "RTX 4090", "2x RTX 4090"] y-axis "GB/s" 0 --> 25 bar [0.8, 3.5, 12, 18, 32]

Gain de performance

Sur un jeu de donnees de 1 To avec 60% de doublons :

CPU seul : ~35 minutes
1x RTX 4090 : ~3.5 minutes
2x RTX 4090 distribue : ~2 minutes

Efficacite de deduplication

Taux de reduction selon le type de donnees :

Sauvegardes VM : 70-85%
Repositories code : 40-60%
Donnees multimedia : 5-15%

Explorez la documentation

Decouvrez en detail l'architecture et les algorithmes de DRAGON

💼