data mining | Zettmanns Weblog

Video (in German): SpiegelMining – Reverse Engineering von Spiegel-Online. Wer denkt, Vorratsdatenspeicherungen und „Big Data“ sind harmlos, der kriegt hier eine Demo an Spiegel-Online.

Über 100K Artikel, in über 700K Versionen, hat David Kriesel in den vergangenen beiden Jahren bei SPIEGEL Online eingesammelt. Hier präsentiert er die Schlüsse, die sich daraus ziehen lassen – u.a. für die Vorratsdatenspeicherung, für die Arbeit von Online-Medien, Tendenzen im Umgang mit den Usern.

Welche Ressorts bestimmen die Themen?
Welche Textlängen kommen aus welchen Ressorts?
Wer arbeitet mit wem zusammen?
Wann werden die Texte online gestellt?
Wie sieht die Keyword-Landschaft aus?
Wie verhält sich die Redaktion bei den Kommentarfunktionen? Wann ist die freigeschaltet, wann nicht?

David Kriesel hat Teile seiner Ermittlungen in diesem Datensatz zum selberforschen auf seine Webseite gestellt.

Video (in German): Build your own NSA – How private companies leak your personal data into the public domain, and how you can buy it.

Svea Eckert und Andreas Dewes stellen vor, wie sie an den angeblich anonymisierten Datensatz von ca. 3 Millionen Browserverläufen gekommen sind – über den der NDR im November berichtet hatte.

Mit den auf einem grauen Markt erworbenen Daten können Eckert/Dewes belegen, wie unaufwendig es ist, einen solchen Datensatz zu deanonymisieren. Selbst die Herausnahme von nutzerspezifischen deep-links verhindert es nicht, in einer Matrix aus 9M domains und 1M Individuen eindeutige Nutzerprofile bzw. Zuordnungen herzustellen. Durch den Abgleich mit öffentlich verfügbaren Daten über eine Twitter-API, Likes bei der IMDB, oder Google-Maps-Geodaten reichen die besuchte Domain und der Zeitstempel aus, Individuen und ihre persönlichen Aktivitäten 100%-ig zu identifizieren.

No way out if you want to be in.

M	D	M	D	F	S	S
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

Zettmanns Weblog

Aussichten, Ansichten, Einsichten aus Hamburg

Schlagwortarchiv: data mining

#33c3 – best of chaos communication congress 2016 (part 8)

#33c3 – best of chaos communication congress 2016 (part 7)