Podcast-Erklärung
Hören Sie eine detaillierte Erklärung der mathematischen Qualitätssicherung mit Fokus auf den Hungarian Algorithm und die IoU-Berechnung.
Länge: ca. 15 Minuten
1. Blind Labeling & Confirmation Bias Prevention
The Problem
When multiple annotators...
- Confirmation bias
- Herd behavior
- Hierarchy effects
- Fatigue clustering
The Solution: Blind Labeling
LaSoFly implements true blind labeling:
- Each annotator
- No discussions
- Independent decisions
- Only after completion
2. Circle Matching mit dem Hungarian Algorithm
Das Problem
Annotator A annotiert 5 Objekte...
Dies ist ein Matching-Problem...
Der Ungarische Algorithmus (Kuhn-Munkres)
Der Hungarian Algorithm ist ein klassisches Operations-Research-Verfahren...
Eingabe: Kostenmatrix cost[i][j] mit Größe n × m
Kostenberechnung:
cost[i][j] = 1 - IoU(circle_A[i], circle_B[j])
Ausgabe: Matching, das die Gesamtkosten minimiert (= Gesamtüberlappung maximiert)
Komplexität: O(n³) — selbst für große Bilder mit 100+ Bäumen schnell
IoU (Intersection over Union) für Kreise
Für zwei Kreise C₁ (Mittelpunkt p₁, Radius r₁) und C₂ (Mittelpunkt p₂, Radius r₂):
IoU = Intersection / Union
Intersection: Schnittfläche der beiden Kreise
Union: Vereinigungsfläche der beiden Kreise = Area(C₁) + Area(C₂) - Intersection
Die Schnittfläche zweier Kreise wird mit der Lens-Formel berechnet:
Ergebnis: IoU ∈ [0, 1], wobei 1.0 bedeutet "perfekt identische Kreise" und 0.0 bedeutet "keine Überlappung".
3. Pairwise Scores
Nach dem Matching zwischen Annotator A und Annotator B berechnen wir ihren Pairwise Agreement Score:
Interpretation:
- Gematchte Kreise mit hohem IoU tragen positiv zum Score bei
- Ungematchte Kreise (Annotator A sieht einen Baum, B nicht) gehen als 0 in den Score ein
- Normalisierung nach max(|A|, |B|) macht den Score unabhängig von der Annotationsmenge
Beispiel: A hat 5 Kreise, B hat 3. Sie matchen 3 Kreise mit durchschnittlichem IoU von 0.85.
pairwise_score(A,B) = (0.85 + 0.85 + 0.85) / max(5, 3) = 2.55 / 5 = 0.51
4. Qualitätsstufen (Q0–Q4)
Aus den Pairwise Scores aller Annotator-Paare aggregieren wir einen Image-Level Consensus Score und teilen ihn in 5 Qualitätsstufen ein:
Stufe
Q0
Score
< 0.4
Bedeutung
Keine Übereinstimmung
Training
Nicht geeignet
Stufe
Q1
Score
0.4–0.6
Bedeutung
Schwache Übereinstimmung
Training
Nur mit Admin-Review
Stufe
Q2
Score
0.6–0.8
Bedeutung
Gute Übereinstimmung
Training
Nutzbar
Stufe
Q3
Score
0.8–0.9
Bedeutung
Sehr gute Übereinstimmung
Training
Geeignet
Stufe
Q4
Score
≥ 0.9
Bedeutung
Exzellente Übereinstimmung
Training
Ideal für Training
Default Training-Threshold:
Bilder mit Consensus Score ≥ 0.7 (Q2+) werden zum Training freigegeben — admin-tunable.
5. Human-in-the-Loop Workflow
Das komplette Labeling-Pipeline kombiniert Automation mit manueller Qualitätskontrolle:
Blind Labeling durch Annotatoren
Annotators arbeiten unabhängig an ihren zugewiesenen Bildern (keine Sicht auf andere)
Automatische Consensus-Berechnung
Worker-Job berechnet Hungarian Algorithm, Pairwise Scores, Q0–Q4 Stufen
Admin-Review in Karten-Visualisierung
Admin sieht alle Annotationen überlagert, mit IoU-Heatmaps und Consensus Scores
Freigabe oder Rückweisung
Q3/Q4 Auto-Approve, Q2 mit Approval, Q0/Q1 Rückweisung für Nachbearbeitung
Training-Batch-Generierung
Freigegebene Labels (Q2+) werden in deduplizierte Batches konvertiert für CNN-Training
6. Warum das wichtig ist
Saubere Ground Truth = Bessere Modelle
Ohne Consensus-Qualitätskontrolle:
- Noisy Labels (Q0/Q1 mit Disagreement)
- Einzelannotator-Bias (keine Validierung)
- Schlechtere CNN-Vorhersagen
- Große Test-Fehler in der Produktion
Mit LaSoFlys Consensus + Q3/Q4 Filtering:
- Saubere, validierte Labels
- Hohe Inter-Annotator Agreement
- CNNs trainieren auf konsistenten Daten
- Zuverlässige Produktions-Vorhersagen
Ergebnis: Präzisere Objekt-Erkennung in der Praxis.
Learn more about LaSoFlys concept
← Back to Concept