Ob Verwaltungslisten, Bibliotheksdaten oder Forschungsimporte – CSV-Dateien gelten als unkompliziertes Austauschformat, führen in der Praxis jedoch häufig zu Problemen: zerstörte Umlaute, fehlerhafte Trennzeichen, falsch interpretierte Datumsformate oder unvollständige Inhalte.
In diesem Workshop lernen Sie, wie sich solche Probleme systematisch analysieren und beheben lassen. Der Fokus liegt auf der professionellen Verarbeitung von CSV-Daten mit Python (pandas) und SQLite:
- Python mit pandas ermöglicht die automatisierte Verarbeitung großer CSV-Dateien – ideal für wiederkehrende Aufgaben mit vielen Zeilen und komplexen Strukturen. Skripte können gespeichert und wiederverwendet werden. Sensible Daten sollten ausschließlich lokal verarbeitet werden.
- SQLite ist eine leichtgewichtige Datenbanklösung, die ohne Server auskommt und Daten in einer lokalen Datei speichert. Ideal für die strukturierte Speicherung, Filterung und zuverlässige Weiterverarbeitung von CSV-Dateien ohne zusätzliche IT-Infrastruktur.
Zielgruppe
Beschäftigte wissenschaftsunterstützender Bereiche, wie Verwaltung, Bibliothek, IT sowie Wissenschaftsmanagement und Forschung, die regelmäßig mit strukturierten CSV-Dateien arbeiten und mehr Sicherheit im Umgang mit Datenformaten und -tools gewinnen möchten. Voraussetzungen - Grundlagen in Python, etwa aus unserem Basisworkshop: Python für Verwaltungsaufgaben: Daten effizient bearbeiten und Prozesse automatisieren oder vergleichbare Vorkenntnisse
- Grundkenntnisse in Excel, etwa aus unserem Kurs Basiswissen: MS Excel – Crashkurs oder vergleichbare Vorkenntnisse
- Primärsystem (Pflicht): Python und Visual Studio Code lokal installiert. Eine Installationsanleitung wird bereitgestellt. Auf Dienstrechnern: Klären Sie vorab mit Ihrer IT, ob Sie Python-Module per "pip install" installieren dürfen.
- Reservesystem (Pflicht - mindestens eine Option): GitHub Codespaces, Google Colab oder Replit. Eine Anleitung zum Einrichten wird bereitgestellt. Auf Dienstrechnern: Testen Sie vor Kursbeginn, ob Ihre gewählte cloudbasierte Entwicklungsumgebung erreichbar ist – manche Institutionen blockieren externe Dienste.
- KI-Zugang (Pflicht – mindestens zwei verschiedene): Academic Cloud (Chat AI), Assist.KI (FU Berlin), Gemini, Claude oder GPT. Machen Sie sich vorab mit den Datenschutz-Grundlagen bei KI-Nutzung vertraut.
Ziele
Nach dem Workshop sind die Teilnehmenden in der Lage,
- typische CSV-Probleme bei Codierung, Trennzeichen und Datumsformaten sicher zu erkennen und zu beheben,
- pandas gezielt für stabile Datenimporte und -verarbeitung zu nutzen,
- mit SQLite einfache Datenabfragen und -korrekturen durchzuführen,
- eigene Best Practices für strukturiertes CSV-Datenhandling zu entwickeln.
Inhalte
- Zeichencodierungen verstehen und korrigieren: UTF-8, Latin-1, Windows-1252; automatische Erkennung mit der chardet-Bibliothek
- Trennzeichenfehler vermeiden: Umgang mit Komma, Semikolon, Quotes und Escape-Zeichen
- pandas für den CSV-Import: read_csv() sicher konfigurieren, Datumsformate korrekt einlesen, große Dateien effizient verarbeiten
- SQLite als sichere Zwischenlösung: CSV in Datenbank umwandeln, Daten abfragen, strukturieren und exportieren
- Best Practices im CSV-Management: Datenstruktur dokumentieren, Testdateien zur Validierung nutzen, Fehlerprotokolle führen
Methoden
Live-Demonstrationen, praktische Übungen mit Beispieldateien, Austausch zu Anwendungsfällen aus Verwaltung und Bibliothek Hinweise
Die Teilnehmenden erhalten vorab Beispielmaterialien. Es können optional eigene problematische CSV-Dateien eingebracht werden. Bitte bei mitgebrachten Dateien an den Datenschutz denken, da diese allen anderen Teilnehmenden im Workshopverlauf zum gemeinsamen Reflektieren und Üben zur Verfügung gestellt werden. Der Workshop orientiert sich an häufigen Fällen aus Hochschulverwaltung und -bibliothek.