Managed meets functional

Blog about programming and having fun with .Net

About me

 Venice, 2009

profile for Alexander Galkin on Stack Exchange, a network of free, community-driven Q&A sites

Project Euler

Greetings here in my blog!
My name is Alexander Galkin. I was born 1979 in Kazan, Russia, where I graduated in child medicine.
Since 2001 I live in Hamburg, Germany and work as a freelancer software and database architect and trainer for Microsoft technologies.

 Microsoft Certified Trainer
Microsoft Certified Professional Developer
MCTS Logo
MCITP Logo

Calendar

<<  February 2012  >>
MoTuWeThFrSaSu
303112345
6789101112
13141516171819
20212223242526
2728291234
567891011

View posts in large calendar

Brosius, Scheerer, Wolff: Business Intelligence mit Office 2007 und SQL Server

Buchbild

Business Intelligence mit Office 2007 und SQL Server
Data Mining und Datenanalyse mit Excel, SharePoint und SQL Server
Von: Brosius, Gerhard / Scheerer, Benjamin / Wolff, Ulrich


328 Seiten
erschienen bei Microsoft-Press 01/2009 (Hardcover)  
ISBN-10: 3-86645-637-9

ISBN-13: 978-3-86645-637-2
Preis €49,90 (bei Bestellung auf MS Press Seite,
Best.Nr.: MS-5637).

Dieses Buch war bereits das zweite MS-Press Buch von diesem Team aus Hamburg, das ich mir zwecks Vorbereitung für meinen Vortrag an der Uni Hamburg bestellt habe. Das erste Buch wurde noch Mitte 2006 unter dem Titel "Business Intelligence und Reporting mit Microsoft SQL Server 2005" herausgegeben, es richtete sich aber in der ersten Reihe an Entwickler und Datenbank- bzw. Data Warehouses Administratoren, die ihre Kenntnisse im Bereich MS SQL Server 2005 vertiefen wollen.

Dieses Buch hingegen, hat Manager und Verwaltungskräfte als Zielgruppe. Anders gesagt, es werden hauptsächlich die Leute angesprochen, die im Unternehmen für gewisse wirtschaftliche Entscheidungen zuständig sind. Wie die Autoren selber in der Einleitung schreiben: "Das Buch richtet sich an Leser, die in ihrem Arbeitsalltag Daten analysieren und bewerten müssen". Das Ganze wird anhand von gut ausgewählten Beispielen erklärt, wobei man wenig ins Tiefe der im Hintergrund ablaufenden Analyse geht, dafür aber sehr breites Spektrum von üblichen Wirtschaftssituationen präsentiert wird.

Das Buch setzt den installierten MS SQL Server 2005, MS Office 2007 und Data Mining Add-In für Office 2007 voraus. Die Installation vom MS SQL Server "out-of-the-box" reicht schön völlig aus, um in dem Buch angeführte Beispiele auch selber bearbeiten zu können. Obwohl auf Titelseite nicht explizit erwähnt, wird in das Buch von einem MS SQL Server 2005 und Add-In für diese Serverversion ausgegangen. Sollte man den SQL2008-Server für Analysis in Anspruch nehmen, muss man aufpassen: einige Formulare sind in dieser Version vom Office Add-In bereits überarbeitet und bieten in der Regel bessere Übersicht bzw. Analysemöglichkeiten. Auch die Ergebnisse der Analyse werden sich an manchen Stellen von dem, was in dem Buch steht, leicht abweichen, was man aber dann nur auf die Serverversion zurückführen kann. So werden die Daten automatisch fürs Training und Validieren partitioniert, es besteht keine Notwendigkeit mehr, diese manuell vor der Analyse zu partitionieren -- das Ganze wird einfach über das Analyse-Formular eingestellt und im Hintergrund durch Add-In erledigt. Sollte man also das Aufteilen von Daten nicht mehr nach dem im Buch aufgestellten Algorithmus durchführen können, muss man sich nicht wundern und diesen Abschnitt einfach beim Lesen überspringen.

Erfahrung im Umgang mit Excel ist zwar erwünscht, jedoch nicht strikt vorausgesetzt: die nötigen Sachverhalte werden ausführlich erklärt, das Buch ist mit vielen Abbildungen versehen, wo fast jeder Schritt auch optisch nachvollziehbar ist. Darüber hinaus beschäftigt sich das erste Teil bestehend aus 3 Kapiteln mit Datenanalyse mit Excel, wobei die Grundbegriffe wir Excel Table, Excel Charts und Pivots ausführlich und illustrativ erklärt werden. Eine Excel-Datei mit allen in dem Buch verwendeten Beispielen lässt sich von der Autorenseite herunterladen. Dieses Teil ist eine perfekte Einführung in Datenanalyse mit Excel und ist jedem, der Excel täglich im Beruf einsetzt, anzuraten.

In dem zweiten Teil werden die Grundlagen von Data Mining vermittelt, wobei die einzelnen Analysemöglichkeiten von dem Office Add-In systematisch durchgangen werden. Hier wird aber meistens den "Knopf-Formular"-Ansatz verwendet, indem man nicht die Fragenstellung und Problemlösung erklärt, sondern einfach die hinter den Buttons liegenden Funktionen Schritt für Schritt erklärt. Wer sich also mit Datenanalyse noch nicht richtig auskennt, der soll noch ein anderes Buch davor gelesen haben; diejenige aber, die sich einen schnellen Einstieg in Office Data Mining Add-In wünschen, werden zufriedengestellt.

Hier wird auch häufig versucht, eine bestimmte Strategie für Datenanalyse auszuarbeiten, jedoch wird dieser Versuch nicht immer konsequent weitergeführt. Darüber hinaus gibt es hier einen peinlichen Fehler, der leider die ganze Logik der Datenanalyse zunichte macht. Es handelt sich um das Kapitel 5 „Data Mining Tools". Auf der Seite 189 wird ein Genauigkeitsdiagramm für ein Klassifikationsmodel dargestellt (Abbildung 5.14), wo alle drei Linien des Genauigkeitsdiagramms aufeinander liegen. Die Abbildung weckt bei einem aufmerksamen Lesen sofort Zweifel, da wenn das Ideale Model sich von der Vorhersage nach Zufallprinzip nicht unterscheiden lässt, macht es überhaupt keinen Sinn, irgendein Model weiter zu bauen, man nehme einfach das Zufallmodel und wende dieses an.

Ich musste das Model selber nachbauen und die Genauigkeitsdiagramm sah erstaunlicherweise deutlich anders aus. Beim Untersuchen der beiden Modelle wrid auch der ursprüngliche Fehler klar:  auf der Seite 188 in dem Punkt 3, in dem die Vorherzusagende Spalte gewählt wird, steht „Geben Sie aber statt des vorgeschlagenen Wertes 0 als vorherzusagenden Wert 1 ein." Wenn man sich aber die Abbildung in dem Buch ansieht, da kann man unter der Diagrammüberschrift „Vorhergesagte Spalte „Kunde = 0"". Das erklärt auch das Ergebnis der Genauigkeitsüberprüfung, die 0-Werte kommen in der ursprünglichen Datenmenge in knapp 100% der Fälle vor, da passt ein Zufallmodel am Besten. Das bricht leider die ganze Logik der weiteren Modelentwicklung, die in dem Buch vorgeschlagene Datenselektion (downsampling) trägt nicht bei zu Modelgenauigkeit bei, ganz im Gegenteil, die Vorhersagekraft des Models wird dadurch um etwas schlechter. Der Fehler wurde bereits den Buchautoren mitgeteilt und wird hoffentlich in der nächsten Auflage korrigiert.

Das letzte, dritte Teil des Buches durchleuchtet das Thema der Zusammenarbeit zwischen MS Excel und Sharepoint 2007. Es werden die Excel Services im Rahmen eines Sharepoint-Servers erklärt und auf Buisiness Intelligence mit diesem Server eingegangen. Da ich leider auf dem Gebiet kein Expert bin, kann ich den Inhalte hier nicht richtig bewerten.

Im Großen und Ganzen lässt auch das Buch einen guten und soliden Eindruck, lediglich die Erscheinung in der Fachbibliothek-Serie vom MS Press finde ich seltsam, da dadurch ein großer Anteil der Zielgruppe das Buch leicht übersehen kann. Eine "stand-alone"-Ausgabe oder im Rahmen einer Office-Serie wäre hier, meiner Meinung nach, viel angemessener.

Das Buch kann direkt von der MS Press Seite bestellt werden.


Categories: book | database | german
Permalink | Comments (0) | Post RSSRSS comment feed

Pingbacks and trackbacks (1)+

Comments are closed