Rezension zu O'Reillys »Kollektive Intelligenz«
Das Buch behandelt ein sehr breites Spektrum an Methoden zur Informationsgewinnung und Nutzung von Datenmengen, die durch die Verbindung der Daten vieler einzelner Benutzer entstehen – Data‐Mining. Die behandelten Methoden reichen von Bayes‐Klassifizierer und neuronale Netze über hierarchische Clusteranalyse bis hin zur nicht negativen Matrixfaktorisierung und Optimierung mit genetischen Algorithmen. Die Themen werden auf eine praktische Weise eingeführt und mit Hilfe von konkreten Problemstellungen erläutert und schrittweise ausgebaut. Schön ist dabei, dass mit einfachen Datensätzen und einem kleinen Problem begonnen wird und sich Schritt für Schritt dem eigentlichen Ziel genähert wird. Die angesprochenen Probleme sind auch sehr vielfältig und wirken nicht künstlich geschaffen.
Am Ende jedes Kapitels werden Aufgaben gestellt, die das Thema noch einmal vertiefen oder einen anderen Zugang/Anwendung des Themas bieten. Aufgrund der Fülle der behandelten Themen kann jedoch nur ein Überblick gegeben werden. Eine tiefgründige Einführung in alle Themen gibt das Buch nicht, sonst würde es auch den Rahmen des Buches verlassen.
Um die Umsetzung der Methoden zu illustrieren, entsteht mit der Besprechung der Methoden Python‐Code, der hier und da auch die Fragen nach der konkreten Implementierung beantwortet. Außerdem werden viele verschiedene Open‐Source‐Projekte, wie Beautiful Soup als HTML‐/XML‐Parser, SQLite als Datenbank und die Python Imaging Library, für die Programmierung eingesetzt. Weiterhin werden verschiedene, frei zugängliche Datenquellen, wie del.icio.us, Blogs, EBay und Facebook, genutzt. Damit die Ergebnisse aber vergleichbar sind, bietet der Autor auf einer Seite neben den Programmen auch die Datenbestände an, die er beim Schreiben des Buches verwendet hat.
Die einzelnen Kapitel sind thematisch gut voneinander getrennt, so dass das Buch auch kapitelweise gelesen werden kann. Im letzten Kapitel sind alle behandelten Algorithmen noch einmal zusammengefasst und zu jedem werden eine kurze Erklärung, eine Anwendung und, leider nicht für alle, die Stärken und Schwächen erläutert. Wer das Buch also gelesen hat, dem kann ein kurzer Blick ins letzte Kapitel genügen, um sein Wissen aufzufrischen, ohne dass er ein komplettes Kapitel wiederholen muss.
Dem Übersetzen würde ich jedoch an vielen Stellen zu mehr Mut zum Deutsch raten. Übersetzungen wie »Seite der Site«, »Such‐Engine« oder »Die trainierten Klassifizierer persistieren« kann man auch vollständig ins Deutsche übertragen. Außerdem empfand ich den Schreibstil als ungewohnt. Ich bin des öfteren an Sätzen hängen geblieben, weil der Satzbau nicht so eingängig ist. Ich hatte den Eindruck, dass Strukturen des englischen Satzbaus immer noch durchschimmerten.
Auch frei von Rechtscheib‐ und Satzfehlern ist das Buch nicht. Ein besonderes Manko des Buches ist der mathematische Satz. Formeln sehe teilweise zum Fürchten aus. Man kann eigentlich nicht von einem ordentlichen Mathesatz sprechen.
- statt des Multiplikationspunkts schreibt man ein kleines X: »Pr(…) x Pr(A)«
- für das Skalarprodukt verwendet man einen Punkt: »X.M0« (Seite 227)
- in der Gleichung auf Seite 259 fehlt zwischen der zweiten und dritten Spalte der Matrix der Abstand, statt 3 0 und 1 4 steht dort 30 und 14.
Fazit: Wer einen Einstieg in der Thema Data‐Mining sucht und sich erst einmal einen Überblick verschaffen will, ist mit diesem Buch gut beraten. (Über die Vollständigkeit und Aktualität kann ich jedoch keine Aussage machen, da ich selbst dieses Buch als Einstieg verwendet habe.) Vor allem dem Praktiker werden die Code‐Beispiele helfen und einen leichteren Zugang geben. Wie einem der Schreibstil der deutschen Übersetzung liegt, muss man prüfen. Ich hatte mich nach zwei Kapiteln daran gewöhnt.
Abschließend möchte ich noch als positiv hervorheben, dass das Buch einen festen Einband hat, wodurch es mir persönlich besser in der Hand liegt und angenehmer zu lesen ist. Und ich möchte die kleine nette Beigabe der Beschreibung der Königspinguine, den Tieren auf dem Titelbild, loben. Diese Beschreibungen in den Büchern von O'Reilly bringen immer etwas Abwechslung und Bildung abseits vom eigentlich Thema. Ich finde das gut.
(Jörg Sommer)