Sind Sie sich sicher?
„Big Data“ (auch: Massendaten, soziale Buchführungsdaten, standardisierte prozessproduzierte Daten) sind derzeit in aller Munde, und der aktuelle öffentliche und politische Diskurs suggeriert, dass es sich um ein vollkommen neues Phänomen handelt. Dabei wird vergessen, dass es sich bei Massendaten um eine der ältesten Datenquellen historischer und sozialwissenschaftlicher Forschung handelt und dass Deutschland nicht nur aufgrund seiner langen Geschichte einer modernen Staatsbürokratie einen besonders reichhaltigen Fundus von Massenakten aufweist, sondern dass es eine entsprechend lange Methodentradition gibt. Heute sind Massendaten insbesondere in der Technik-, Organisations- und Raumsoziologie eine wichtige Datenquelle. Um was für Daten genau handelt es sich, und wie geht man mit diesen Daten um?
Die Studierenden erwerben Kenntnisse der besonderen methodologischen Herausforderungen von Big Data im Vergleich zu anderen Datensorten sowie des Umgangs mit diesen Daten.
Hierzu nimmt das Modul eine doppelte Unterscheidung vor:
1. Prozessproduzierte vs. forschungsinduzierte Daten: Auch wenn Massendaten in vielerlei Hinsicht Umfragedaten ähneln, werfen sie doch spezifische methodologische Probleme auf, da der Forscher den Datenproduktionsprozess methodisch nicht kontrollieren kann. Vielmehr beeinflussen soziale und institutionelle Filter, welche Daten wie produziert werden und welche Daten wie aufbewahrt werden.
2. Klassische und moderne Varianten von Massendaten: Klassisch werden administrative Daten, die als Nebenprodukt von organisationalen und behördlichen Prozessen entstehen (z.B. Registerdaten, Kundendaten), nicht nur seit den 1970er Jahren digital gespeichert und verarbeitet, sondern seit Ende der 1990er Jahre etwa über Forschungsdatenzentren und den RatSWD zunehmend für wissenschaftliche Analysen zugänglich gemacht. In jüngerer Zeit entstehen außerdem als Nebenprodukt der digitalen Kommunikation im Web 2.0 neue Arten von Massendaten (z.B. Websites, Blogs, Social Media), die – anders als frühere prozessproduzierte Daten – von den Nutzern dieser Dienste unbewusst und/oder freiwillig generiert werden, bei denen sich die Geschwindigkeit der Datenproduktion stark erhöht hat und die Rechte an den Daten nicht mehr bei staatlichen Akteuren, sondern bei Firmen liegen oder uneindeutig sind.