OpenI, Pentaho en Kettle? 30-1-2006

Maak kennis met Open Source Business Intelligence

door Jan Kampherbeek

Een datawarehouse op basis van Open Source Java-systemen. Waarom niet? Een betere webserver dan Apache is tenslotte ook moeilijk te vinden en een besturingssysteem als Linux kent alle functionaliteiten die je van een volwassen OS verwacht. Open Source omgevingen staan tegenwoordig vaak op gelijke hoogte met software van gerenommeerde automatiseringshuizen. In Java geschreven programma´s lenen zich dan ook prima voor het ontsluiten van data: de specifieke taak van datawarehouses. Programma´s als OpenI, Pentaho en Kettle zijn daar zelfs nadrukkelijk voor bedoeld, functioneren uitstekend en ogen bovendien uiterst professioneel. Een kennismaking!

OpenI
Uitgebreide rapportages, prima userinterface en uitstekende tools voor een volledig naar smaak in te richten applicatie: OpenI is aan alle kanten te configureren óf te bewerken, want ook de broncode is direct beschikbaar. Op openi.sourceforge.net zijn war-files en documentatie in één pakket te downloaden. Kopiëren en plakken van de files en het zelf aanmaken van een ear-file zijn in een handomdraai gedaan. De configuratie vergt meer tijd, maar is prima beschreven. Handig voor wie direct aan de slag wil, er wordt een SQL-bestand meegeleverd dat een volledige database vult. En met een serieuze hoeveelheid data – maar liefst 27MB – biedt OpenI de mogelijkheid het product te testen zonder eerst data in te voeren. Op http://demo.openi.org/openi/ is de demo-applicatie te vinden, inlognaam is ‘tomcat’ en het wachtwoord is ‘shallow’.

opensource2.jpg
Voorbeeldscherm van OpenI

Pentaho
Pentaho lijkt in veel opzichten op OpenI. Beide toepassingen zijn J2EE-applicaties en beide gebruiken onder meer ‘Jasper Reports’ als basis voor de rapportages. Toch is Pentaho uitgebreider. De kneep zit ‘m vooral in de vele opties die het programma kent om rapportages uit te draaien. De opzet van Pentaho is te vergelijken met het bekende jBoss; hoewel Pentaho een commerciële speler is, zijn software en broncode gratis te verkrijgen. Ontwikkeling en productie worden namelijk gefinancierd door trainingen, consultancy en support.

Let wel: binaries, broncode en documentatie zijn afzonderlijk te downloaden.

opensource3.jpg
Voorbeeldscherm van Pentaho

ETL via Kettle

Ook al ondersteunen OpenI en Pentaho Data Mining, het zijn geen typische ETL-tools. Kettle, een Belgisch Open Source-systeem, is dat wel. Kettle biedt een uitgebreide toolset met vier onderdelen. Het belangrijkste onderdeel daarvan is Spoon, de GUI waarmee de ETL-regels zijn vast te leggen. Bijvoorbeeld welke kolom van de brondatabase hoort bij welke kolom van de doeldatabase. En welke aggregatieregels vervolgens moeten gelden.

De overige Kettle-tools dienen vooral voor het sturen van het proces. Met Spoon kun je een transformatie direct uitvoeren. En met Pan zijn de transformaties van Spoon te schedulen en automatisch uit te voeren. Als het om complexere transformaties gaat, komt Chef in beeld. Hiermee zijn jobs samen te stellen die verschillende transformaties van Spoon uitvoeren en de uitkomst controleren. Met Kitchen kun je daarop weer de jobs van Chef inregelen.

 opensource1.jpg
Voorbeeldscherm van Kettle; de tool Spoon
 
Mijn conclusie?
Het is goed mogelijk een datawarehouse te realiseren op basis van Open Source producten geschreven in Java. De in dit artikel beschreven producten voldoen 'vanaf de plank' voor standaard implementaties en maken een professionele indruk. De source is bovendien vrij beschikbaar waardoor je volledige controle hebt over de software. Toch zul je nog flink moeten configureren omdat de mogelijkheden enorm zijn. En als de eisen erg specifiek zijn, is dat geen sinecure. Ondanks de doorgaans goede bijgevoegde documentatie.

Kijk ook eens op
OpenI: http://openi.sourceforge.net  of http://wiki.openi.org
Pentaho: www.pentaho.org en http://sourceforge.net/projects/pentaho
Kettle: www.kettle.be en www.javaforge.com/proj/summary.do?proj_id=318

 
< Prev   Next >