22 april 2014
Technology update Tech Data

Big data visualisatie – wat kan er en wat is de toekomst?

Dinsdag 22 april vond alweer de vierde Technology Update plaats. Samen met TNO organiseerden we een Technology Update over big data visualisatie. Wat zijn handige visualisaties om big data te presenteren? Hoe zorg je voor een soepele interactie als de gebruiker met de data wil spelen? We lieten diverse sprekers aan het woord om deze vraagstukken omtrent big data visualisatie uit te leggen.

Bij de bijeenkomst was een grote gemengde groep aanwezig. Zo waren er bezoekers die gebruik maakten van big data en op zoek waren naar visualisaties, maar er waren ook bezoekers die zelf visualisaties maakten.

Oscar Wijsman, programmacoördinator binnen het  Big Data Value Center in Almere  gaf een korte introductie over big data. Hij liet o.a. aan de hand van de Gartner Hype Cycle zien dat big data op het moment in de baan van de hype naar beneden gaat. Het hoogtepunt is geweest en na de daling zal het uiteindelijk terecht komen in de volwassenheidsfase.

Men spreekt doorgaans van big data wanneer men werkt met een of meer datasets die te groot of te complex zijn om met klassieke databasemanagementsystemen en software onderhouden en bewerkt te worden. Oscar gaf aan dat de definitie van big data niet altijd duidelijk is. Hij gaf aan dat er in ieder geval drie kenmerken van (big) data zijn: Volume, Variety, en Velocity. Bij Volume gaat het om de hoeveelheid data, bij Velocity gaat het om de snelheid waarmee de data binnenkomen en opgevraagd worden en bij Variety gaat het om de diversiteit en complexiteit van verschillende soorten bronnen en gegevens. Bij big data is er ook nog vaak sprake van een combinatie van één van de 3 V’s.

Maar van wie is al die big data nou eigenlijk? Omtrent dit onderwerp bestaan er discussies. Tot op heden is er geen wetgeving over het eigendom van (big) data. Op het moment dat er regels en wetten werden opgesteld, leefden we nog niet in het digitaal tijdperk. . Data is geen ‘stoffelijk’ iets en daarmee is er juridisch gezien niet eenduidig een eigenaar aan te wijzen. Verder is er een groot verschil tussen persoonsgebonden en anonieme of machine-data (specifiek de privacy issues).Oscar gaf een aantal mooie voorbeelden van de meerwaarde van big data.  Zo gaf Oscar aan dat het kan zorgen voor een betere besluitvorming, kostenbesparing, nieuwe en snellere inzichten, nieuwe producten, diensten en business modellen, cijfers in plaats van onderbuik gevoel, combinaties maken die eerder niet mogelijk waren en beter onderzoek.

Om zelf visualisaties te maken is het belangrijk om eerst een doel voor ogen te hebben en daarbij een stappenplan op te stellen. Oscar benadrukte hierbij het belang is eerst een provable concept te maken, een bewezen idee. Dit concept is nog niet geïmplementeerd, maar is wel getoetst bij experts. Hierdoor heb je de garantie dat het kan werken alvorens je een proof of concept (prototype) gaat maken.

Oscar Wijsman @ Tech Update Big Data Visualisatie from iMMovator

Visualisatie

Vervolgens nam Erik Boertjes (TNO) ons mee in de wereld van visualisaties, waarin hij aan de hand van een tijdlijn mooie voorbeelden liet zien van visualisaties. Erik vertelde dat in 1990 het vakgebied visualisatie echt volwassen werd en vanaf dat moment ging het snel.  Visualisaties werden steeds mooier en steeds beter. En ook kwamen steeds meer datasets (vliegtuigen, nieuws, medische informatie) beschikbaar.

Vervolgens ging Erik in op de betekenis van de vier V’s (Volume, Velocity, Variety en Veracity) voor visualisatie. Erik gaf aan dat data reductie handig is voor het inzichtelijk maken van big data (Volume). Het komt voor dat je een overload aan data hebt waardoor de visualisaties onduidelijk worden. Datapunten worden bijvoorbeeld over elkaar geplot waardoor je ‘overplotting’ krijgt, en niet meer de onderliggende datastructuur kunt zien. Eén van de technieken om dit tegen te gaan is ‘binning’. Met ‘binning’ leg je een raster over de data heen, waardoor de data in verschillende hokjes wordt geplaats. Deze hokjes kun je een kleur geven om ze te categoriseren. Hoe meer data in één hokje hoe donkerder je de kleur kan maken.  Zo ontstaat er een duidelijker inzicht in de data. Een andere techniek die veel gebruikt wordt is ‘pixel-based visualisatie’. Daarbij gebruik je elke individuele pixel van je scherm om een waarde weer te geven. Het is een zeer ruimte-efficiënte manier van visualiseren

Ivm de Velocity van big data is incrementele visualisatie een goede techniek. Deze visualisatie geeft de gebruiker eerst een globaal overzicht van de data. De gebruiker kan dan alvast scrollen of filteren. Na verloop van tijd wordt de visualisatie steeds gedetailleerder.

Onzekerheidsvisualisaties
Soms zijn niet alle data even betrouwbaar, er zit een zekere onzekerheid aan vast. Volgens Erik is het belangrijk om dit te laten zien. Dit kan bijvoorbeeld door onzekere data minder sterk van kleur te maken of door extra grafische elementen toe te voegen die de mate van onzekerheid aangeven. Dit wordt bijvoorbeeld gedaan in het weerbericht; bij de temperatuurgrafiek wordt het betrouwbaarheidsinterval getoond.

Uitdaging bij visualisatie
Volgens Erik ligt er nog een grote uitdaging om visualisaties te ontwikkelen voor nieuwe devices, zoals de Google Glass en de Smart Watches. Hoe laat je de data het beste zien? Bij deze nieuwe devices is het beeldoppervlak een stuk kleiner dan op bijvoorbeeld de computer. En ook de manier van interactie verschilt van wat we tegenwoordig gewend zijn. Daarom zijn niet alle visualisaties geschikt. Door middel van onderzoek zal er gekeken moeten worden wat handige visualisaties zijn voor deze devices.

TULP interactive
Jan Willem Tulp heeft zijn eigen visualisatie bureau, genaamd TULP interactive. TULP interactive ontwikkelt visualisaties die een leuke ervaring bieden en tegelijkertijd meer inzicht en begrip van de wereld om ons heen geven. Jan Willem toonde verrassende en inspirerende visualisaties vanuit zijn praktijk.
Zo heeft Jan Willem in 2012 de uitslagen van de verkiezingen gevisualiseerd. Hij vroeg zich af in welke steden er op een vergelijkbare manier is gestemd. Om antwoord te krijgen op deze vraag heeft hij eerst een databestand met verkiezingsuitslagen per stad gebruikt. Vervolgens heeft hij een interactieve visualisatie ontwikkeld waarmee de overeenkomst in stemgedrag op twee verschillende weergaven kan worden bekeken: een kaartweergave, en een weergave waarbij alle steden in een grote cirkel zijn weergegeven. Wanneer je een stad selecteert, worden de cirkels van de andere steden groter naarmate de overeenkomst in stemgedrag met de geselecteerde stad groter is.  Via deze visualisatie wilde Jan Willem op een leuke manier de verkiezingsuitslagen weergeven en een minder voor de hand liggende vraag beantwoorden: “welke steden hebben op een vergelijkbare manier gestemd?”. In deze visualisatie kun je je eigen ontdekkingen doen en word je verleid om lang met de data te spelen.
http://tulpinteractive.com/close-votes/

Techniek achter big data visualisatie in vogelvlucht
Na de pauze ging de technology update verder met een presentatie van Gijs Koot (TNO) over de techniek achter big data visualisatie. Wat is de invloed van Volume, Variety en Velocity op de techniek die nodig is voor een visualisatie?

  • Bij toepassingen waarbij het volume van data een belangrijk kenmerk is, is het aan te raden om deze database op te slaan op hard disks en gebruik te maken van software zoals Hadoop. Denk hierbij aan databases zoals die van Google waarin snapshots van websites worden opgeslagen en PageRanks worden berekend. Deze oplossingen gebruiken traditionele harde schijven om de data op te slaan.
  • Bij andere toepassingen waar het meer om de snelheid (velocity) gaat dan om het volume van de data, worden steeds meer andere datadragers gebruikt, met name on-chip geheugen zoals RAM, verschillende caches of het geheugen op de grafische kaart. Software is op realtime analyse gericht, denk bijvoorbeeld aan het platform Storm, ontwikkeld bij Twitter. De nadruk ligt op snelheid, een tweet is binnen een seconde de hele wereld over. Maar ook bij visualisaties waarbij de gebruiker interactie aan kan gaan met de data is snelheid van belang.
  • Voor traditionele toepassingen met gestructureerde data zijn traditionele databases perfect. Data worden echter steeds gevarieerder. Het betreft bijvoorbeeld het opslaan van netwerken. Er zijn inmiddels gespecialiseerde databases met geintegreerde visualisaties (bijvoorbeeld Neo4J voor netwerkvisualisaties).

Nieuwe technieken
Gijs is vervolgens ingegaan op 3 technologieen: Map-D, WebGL en renderclouds.

In de animatieindustrie wordt veel gebruik gemaakt van renderclouds, gedistribueerde systemen om beelden te maken van datamodellen. Dit is ook interessant voor big data visualisaties, en wordt toegepast om medische modellen te visualiseren. Voor dergelijke toepassingen is het beter om niet de ruwe data mee te sturen wanneer iemand een visualisatie bekijkt. Medische modellen van driedimensionale skeletten bijvoorbeeld zijn erg groot en gedetailleerd, en het renderen van een 3D model kost veel rekenkracht.. Renderclouds bieden daarvoor een oplossing; visualisatieberekeningen worden gedistribueerd.

Een andere technologie is Map-D, deze wordt gebruikt voor sociologisch onderzoek. Dit is geen cluster, maar een enkele server met maar liefst 8 GPU’s.

Tegenwoordig kunnen browsers overigens ook steeds meer en beter data visualisaties weergeven. Het bekendste voorbeeld is Google Maps. Eigenlijk is een browser daarmee de meest flexibele en snelle visualisatietool voor iedereen. WebGL is de techniek die zorgt voor ondersteuning voor hardwareacceleratie. De ondersteuning van browsers voor deze techniek staat nog in de kinderschoenen maar lijkt erg kansrijk, aldus Gijs. Er kan al veel en bovendien is dit een toegankelijke techniek. Maar wanneer je met echt grote datasets te maken hebt (zoals bij een animatie) dan is het centraal opslaan en toegankelijk maken van data juist weer de beste oplossing. Welke kant het opgaat op het gebied van techniek hangt dus erg af van de toepassing van big data.

De magie van SynerScope
De volgende spreker is Danny Holten van SynerScope, een bedrijf dat gespecialiseerd is in Big Data-visualisaties voor multivariate netwerkdata met een hiërarchisch en temporeel karakter. De kracht van datavisualisaties ligt volgens Danny erin dat een combinatie van interactief verbonden visualisaties je met verschillende perspectieven naar data kan laten kijken en dat je daardoor nieuwe, vaak onverwachte en waardevolle zaken kunt ontdekken. Om dit soort visualisatieoplossingen schaalbaar en interactief te houden is goede hardware van belang in de vorm van krachtige GPU’s voor de beeldverwerking en servers voor de analyticsberekeningen.

Vervolgens geeft Danny een live demo van de SynerScope-software waarmee datavisualisaties gecreëerd en vervolgens door analisten gebruikt kunnen worden. Hij gebruikt ter demonstratie een openbaar beschikbare e-maildataset van Enron. In het web-achtige netwerk is initieel alleen op onoverzichtelijke wijze te zien wie met wie gemaild heeft. Dit verandert echter wanneer hiërarchische persoonsattributen zoals functie (beroep) worden ingevoegd waardoor emailverkeer overzichtelijk en gebundeld weergegeven kan worden en hoog-niveauverbindingen tussen complete functiegroepen beter tot hun recht komen. Diverse visuele aspecten zoals elementgrootte, kleur en lijndikte worden gebruikt om in één oogopslag interessante aspecten van de data snel en overzichtelijk aan de gebruiker te tonen, zoals sterke zenders/ontvangers of de totale hoeveelheid verstuurde email per kanaal. Additionele gekoppelde visualisaties tonen belangrijke aspecten zoals volgorde in tijd, e-mailinhoud en zelfs e-mailsentiment. Door dit laatste wordt meteen duidelijk door welke personen regelmatig “negatief” gecommuniceerd werd of in welke periode binnen Enron in z’n geheel sprake was van “negatieve” communicatie.

De software van SynerScope is ideaal als exploratiemiddel wanneer je zeer grote en heterogene dataset in je datalandschap hebt zitten, zelfs wanneer je nog niet precies weet wat je met de data wilt gaan doen. Normaliter kijken de experts van SynerScope met de data-eigenaren naar mogelijke data-onderverdelingen en interessante manieren van gebruik door te bepalen welke data-attributen en -aspecten je kan combineren. Dit is in de regel een snel en iteratief proces waardoor je gaandeweg tot inzichten alsook de juiste visualisatiecombinaties komt door als eindgebruiker en data-eigenaar diverse mogelijkheden te testen.

Big Data Visualisatienetwerk

Nathalie van Schie van TNO sluit de middag af met een presentatie van de plannen van TNO rond big data visualisatie. TNO heeft het plan om een Big Data Visualisatienetwerk te starten waar mensen, kennis en markt verbonden worden om innovaties te creëren in big data visualisatie. TNO gaat uitdagingen en vraagstukken in kaart brengen. Er zullen big data visualisatie projecten opgezet worden op basis van vragen uit de markt. Resultaten en kennis zullen worden gedeeld in nieuwsbrieven en op events (bijv. Cross Media Café). Visualisatievragers en –makers komen zo met elkaar in contact en big data visualisatie wordt op de kaart gezet. Er zijn verschillende instrumenten waar TNO gebruik van kan maken om onderzoek van de grond te krijgen; een technologiecluster, SIA RAAK aanvraag, cofinanciering of een groot Europees onderzoeksproject starten of op aanhaken.

Wil je meer weten over het Big Data Visualisatienetwerk, input geven voor onderzoeksrichtingen of op de hoogte worden gehouden van de verzamelde kennis? Neem dan contact op met Nathalie van Schie.