Framtidens Business Intelligence – del 5 – Öppen Data

By | september 3, 2014

Detta är del 5 i min miniserie om Framtidens Business Intelligence. Övriga delar finns här.

Mer och mer information och statistik har blivit offentligt tillgänglig via internet. Dessutom tillhandahålls informationen i alltmer användbara format. Detta öppnar upp nya möjligheter att enkelt bygga in extern data som en del i sina beslutsstödssystem.

Här är några exempel på organisationer som tillhandahåller intressant offentlig data.

Open Data sources

  • Kolada (Kommun- och Landstingsdatabasen) innehåller många intressanta nyckeltal om befolkning, ekonomi, hälso- och sjukvård, utbildning, mm.
  • World Values Survey är en sociologisk undersökning som genomförts i över 100 länder med över 400 000 respondenter sedan 1981. Den syftar till att förstå värderingar, trosuppfattningar och motivation hos befolkningen världen över. Det är världens största icke-kommersiella undersökning kring människors värderingar någonsin.
  • SCB (Statistiska Centralbyrån) är den största källan till officiell statistik i Sverige.
  • Undata är FN:s officiella statistikkälla. Där finns statistik från FN-organ inom exempelvis hälsa, utbildning, energi, jämlikhet, ekonomi, flyktingar, med mera. Det finns en fritext sökfunktion för att leta efter just den information man söker.

Informationen i dessa källor finns i lite olika format. Oftast brukar man kunna få ut textfiler. Det är dock mer användbart om man kan hämta data och metadata på ett mer automatiserat och tillförlitligt sätt. OData är ett sådant standardiserat protokoll, som börjar användas av fler och fler. OData bygger på standarder såsom HTTP, REST och JSON. Detta gör att det blivit allmänt accepterat och oberoende av specifika leverantörer. Man brukar känna igen att datakällorna stödjer OData genom logotypen nedan.

OData logo

OData logo

Verktyg för att hämta data – Power Query

När man börjar jobba med öppen data så upptäcker man snabbt att man behöver verktyg för att

  • Hämta data
  • Göra grundläggande bearbetning av data

Ett verktyg som finns gratis tillgänglig för dem som har Excel är Power Query. Med Power Query kan man hämta data från tabeller på websajter, filer, databaser, Hadoop HDFS, Facebook, Wikipedia samt alla källor som stödjer OData standarden. Dessutom kan man utan några programmeringskunskaper göra enklare bearbetning av data.

Ett exempel:

Power Query load data from web

Så enkelt hämtar du data från Wikipedia. Du kan också bearbeta data genom att klicka på Edit.

Power Query edit

I redigeringsfönstret kan du lägga till och ta bort kolumner, filtrera bort rader, slå ihop tabeller, ändra sorteringsordning, ta bort dubbletter, fixa stavfel, gruppera data, etc. Gränssnittet är, enligt min uppfattning, lättanvänt och smidigt. Däremot blir det problem om du har alltför stora tabeller eftersom det då går långsamt.

När du har data i Excel är det enkelt att exportera till databaser eller andra filformat. Samtidigt finns det mycket du kan göra direkt ifrån Excel, som jag nu skall visa.

Visa data geografiskt – Power Maps

Det finns ytterligare en användbar, och för tillfället gratis, plugin till Excel som heter Power Maps. Den låter sig på ett enkelt sätt visualisera geografisk data tredimensionellt.

Från ovan nämnda öppna datakällor kan jag enkelt hämta siffor för t ex arbetslöshet fördelat per kommun 2013 från Kolada. Sedan startar jag Power Map genom att välja Insert -> Map -> Launch Power Map.

Power Map launch

Ett nytt fönster öppnas där jag först får ange vilket/vilka fält i min tabell som innehåller geografisk information. Power Map gör en automatisk gissning som oftast brukar bli rätt. I detta fall säger den att fältet Kommun motsvarar ”County”, vilket är bästa möjliga matchning.

Power Map mapping

Efter att ha klickat på Next så får jag upp en Sverigekarta med staplar. Där har jag ändrat visualiseringen till Heat Map istället för att göra den mer tydlig. Det finns också möjligheter att justera färgskalan och andra visualiseringsinställningar. Det går att zooma, rotera och till och med skapa en rörlig film som visar arbetslösheten i Sverige. Vi ser röda fläckar där arbetslösheten är hög och gröna-blå fläckar där arbetslöseten är låg. Utan någon större arbetsinsats kan man alltså visualisera arbetslösheten i Sverige på ett snyggt sätt!

Power Map heat map

Mer info

Vill du lära dig mer om öppen data, Power Query och Power Maps så rekommenderar jag de här länkarna.