Iris dataset – clusters visualiseren / visualising clusters

==== English text below ===

Na meer dan twee jaar stilte ineens weer een post. De meesten van u weten dat ik mijn bedrijf Scientassist samen met het product VRBI heb overgedaan aan één van mijn zoons. Na een periode waarin ik nog wat doorblogde ging ik verder met mijn eigen nieuwe bedrijf, AnRep3D met bijbehorende blog.

Gedurende het afgelopen jaar kwam ik echter een openbare dataset tegen die heel goed met behulp van VRBI kan worden gevisualiseerd, aangezien er clusters in zitten.

Natuurlijk kunnen clusters in 2D-grafieken worden bekeken, bijvoorbeeld m.b.v Excel. Tegelijk is een 3D-grafiek zoveel krachtiger en in feite is VRBI min of meer 4D. Niet op de Einsteiniaanse manier met tijd als vierde dimensie, maar met de afmeting van de ballen als vertegenwoordiger van de vierde coördinaat.

Iris flower

Foto door Abelke op Pixabay

Fishers of Andersons Iris dataset (de eerste deed de analyse, de laatste zorgde voor de data) is een verzameling van vier maten van veerschillende onderdelen van de bloemen van drie soorten: Iris setosa, Iris versicolor and Iris virginica. Aangezien deze bloemen heel verschillende eigenschappen hebben, kunnen de gegevens worden geclusterd. Als er nieuwe metingen binnenkomen, kan de soort worden vastgesteld door de waarden met één van de clusters te matchen. De waarden kelklad length, kelkblad breedte, kroonblad lengte, kroonblad breedte en de soort die beschikbaar is in de dataset (de dataset wordt niet getoond, maar als er wordt geklikt op “show” in de sectie dataset wordt deze zichtbaar.

Om een indruk te geven van de parameters en de data is het bovenste deel van de input-file hieronder weergegeven.

De verschillende waarden starten niet bij nul, maar zijn min of meer verspreid rondom een bepaalde waarde. Om een duidelijke weergave van de clusters te lrijgen,  werd de laagste waarde van alle waarden afgetrokken (per as verschillend) en de rest werd vermenigvuldigd met een rekfactor. Dit werd automatisch gedaan aangezien VRBI parameters kent die de generator dergelijke aanpassingen door laat voeren, zoals beschreven in de handleiding.

Drie waarden kelkbladlengte, kelkbladbreedte and en kroonbladlengte werden als X-, Y- en Z-waarden genomen. kroonbladbreedte werd weergegeven als afmeding van de bol en de kleur geeft aan om welke soort het gaat.

Een screenshot van het resultaat wordt hieronder getoond (wees erop bedacht dat de 3D-grafiek wordt gehost bij AnRep3D).

Dubbel-klikken zal de 3D-grafiek in uw browser openen. Om deze 3D-grafiek te manipuleren: Rechter muisknop klikken en tegelijkertijd omhoog of omlaag bewegen zoomt in of uit. Links klikken en tegelijk de muis bewegen, laat de 3D-grafiek in verschillende richtingen kantelen. Dubbel klikken in de grafiek verplaatst deze en verlegt het centrum. Probeer het gewoon – als niet duidelijk is hoe de normale positie weer kan worden bereikt, ververs dan gewoon het scherm.

Bent u geïnteresseerd? download dan s.v.p. de gratis VRBI-demo of schaf een licentie aan.

========= English section ==============

After more than two years of silence, yet another post. Most of you will know that I handed over the company Scientassist to one of my sons, together with the product VRBI. After a period of sustained blogging, I left for my own new company, AnRep3D with its related blog.

During last year however, I encountered a very interesting public dataset which can be visualised very well with the help of VRBI as it holds clusters. Of course clusters can be viewed in a series of 2D-graphs, e.g. with the help of Excel. At the same time a 3D-graph is much more powerful and as a matter of fact VRBI is more or less 4D. Not in the Einsteinian way with time as a fourth dimension, but with the size of the balls representing the fourth coordinate in a dataset.

Iris flower

Photo by Abelke on Pixabay

Fisher’s or Anderson’s Iris data set (the former did the analysis, the latter collected the data) is a collection of four sizes of different parts of flowers from three species: Iris setosa, Iris versicolor and Iris virginica. As these flowers have very different properties, the data can be clustered. For new data coming in, the species can be derived by matching the values with one of the clusters. The values petal length, petal width, sepal length, sepal width and the species are available in the dataset (the dataset is hidden, but when clicking on “show” in the section dataset it will become visible).

To give an impression of the parameters and the data, the upper part of the input-file is shown below.

The different sizes don’t start at zero, but are more or less scattered around a value. To have a clear presentation of the clusters, the lowest values were subtracted from all values (for each axis separately) and the remainder was multiplied by a stretching factor. This was done automatically, since VRBI reads parameters allowing the generator to readjust ranges of values as explained in the manual.

Three values sepal length, sepal width and petal length were used as X-, Y- and Z-values. Petal width was represented by the ball size and the colour indicated the Iris species.

A screenshot of the result is shown below (be aware that the actual 3D-graph is hosted by AnRep3D).

 

 

Double-clicking the screenshot will open the 3D-graph in your browser. For maniputalion of this 3D-graph: Clicking the right mouse-button and moving the mouse up and down at the same time, will zoom the graph in and out. Clicking left while moving the mouse will tilt the graph in different directions. Double clicking in the graph translates it and readjusts the centre at the same time. Just try it – If you don’t know how to get the normal position back, refresh the page in your browser.

If you are interested, please download the free VRBI-demo or order a licence.

Geplaatst in Virtual Reality Business Intelligence | Tags: , , , , , , , , , , , , , , , , , , , | Een reactie plaatsen

Maybe, I should have told you!

Only now I realise a lot has changed, but I forgot to tell you, dear reader! For a long time I’ve been working on VRBI – the product and this blog, that is. VRBI actually was and is the name of a product, offered by Scientassist, my former company. Former? Well, yes – I handed over the company – and its product – to one of my sons, Ruben. I probably mentioned it on a couple of occasions, but it should have been in my last blog-post at this site. My son has his own way of working and of course that’s OK, but I didn’t realise this would have a huge impact on all the links in my blogs. Most of them won’t work any more.

http://vrbi.eu still exists, but now it’s only pointing to http://scientassist.com/ If you visit the latter, you will see a greenish screen with two options in the middle and a menu at the top. It is well known a lot of people won’t scroll when looking at a start-page, but for Scientassist one better does, because one of the nicest and most colourful VRBI-graphs will come up. Actually it’s one of my favourites and therefore I quote it below.VRBI-box3d graph

Well, so far about VRBI, but what happened to me? I’m still around sticking to my original plan. Although I gave away the name VRBI (Virtual Reality Business Intelligence) and the company Scientassist, I am still working on data visualisation in 3D. Yet the name of my new company is not the same. As it visualises financial data (Assets, Equity, Revenue and Profit or e.g. EBITDA) from Annual Reports in 3D, it’s called AnRep3D.

And this new company has its own blog – started almost a year ago: https://AnRep3D.Wordpress.com

AnRep3D exampleDear reader, I apologise for starting a new company and a new blog (nearly a year ago now!), without telling you and taking you with me. My son will not blog, because his strategy is very different. So if you want to know more about VRBI you won’t get your updates neither here nor on Twitter. Just use the email on the website http://scientassist.com (contact). Fortunately the promised VRBI demo-package is still available there.

If you are interested in the new AnRep3D visualisation (so my new company), just go to https://AnRep3D.com or visit my new blog: https://AnRep3D.Wordpress.com (a free demo-package is available for this new product as well).

I hope to meet you there, thank you for your patience!

Geplaatst in Virtual Reality Business Intelligence | Tags: , , , , , , , , , , , , , , , , , , , , , , , , | 1 reactie

The promised VRBI demo-package – het beloofde VRBI demo-pakket

(Dutch text available below this time)

In my previous blogposts I promised a demo-package would be available soon. Finally it’s there and this time on our own server! The package is a zip-file with a fully functional generator for 3D graphs except for the number of coordinates: only the first five will be processed. So a spatial graph generated by the demo-generator will show up to five balls, but all colours, sizes and labels will be available together with the scaling functionality for the three axes. As explained before, the graphs are now in html-format. This actually means a VRBI-graph is a simple webpage, to be viewed in a modern webbrowser. The graphs can be manipulated by grabbing a point on the screen and dragging. Double-clicking will change the point of view and if you get confused, just refresh the page!

To download the demo-package click on this link (no registration)

Apart from the generator the full manual is enclosed, together with examples of input-files (five) and output-files (also five of course). Not all the output-files (3D-graphs) can be generated by the demo-generator, so some input-files will only show a part of the corresponding graph when processed with the demo-generator. Only the ones with five balls or less are within reach, but we wanted to show you the full power of the generator. Of course a licence for the real generator is available. For more infromation just mail to rubenlohlefink@gmail.com

If you want to have a look at some 3D-graphs first, that’s also possible. The five graphs can be accessed directly by clicking on the links below:

First 3D-graph (no labels but lots of balls in different colours)

Second 3D-graph (labels and only five balls, so within reach of demo-generator)

Third 3D-graph (piece of a helix)

Fourth 3D-graph (zig-zag in an oblique plane)

Fifth 3D-graph (one single red ball in the centre. Bit of a zen-graph 😉 – within reach of demo-generator)

We are convinced of our strategy, because the future just cannot be flat! Join us and add an extra dimension to your information!

For our friends in the Netherlands who prefer to read their own language, the message is repeated in Ducth below.

Nederlandse tekst

In mijn vorige blogposts beloofde ik dat er spoedig een demo-pakket beschikbaar zou zijn. Eindelijk is het zover en nu ook op onze eigen server! Het pakket is een zip-file met een volledig functionele generator voor 3D-grafieken met uitzondering het aantal coördinaten: alleen de eerste vijf zullen worden verwerkt. Dus een ruimtelijke grafiek die is aangemaakt door de demo-generator zal maximaal vijf ballen laten zien, maar alle kleuren, afmetingen en labels zullen beschikbaar zijn, net als de schaal-functionaliteit voor de drie assen. Zoals eerder uitgelegd zijn de grafieken nu in html-formaat. Dit betekent dat een VRBI-grafiek gewoon een webpagina is die met een moderne browser kan worden bekeken. De grafieken kunnen worden gemanipuleerd door op een punt of het scherm te klikken en te slepen. Dubbel-klikken zal het standpunt veranderen en als u in de war raakt ververs dan gewoon de webpagina.

Klik op deze link om het demo-pakket te downloaden (geen registratie)

Behalve de demo-generator is er een volledige handleiding opgenomen, samen met voorbeelden van input-files (vijf) en output-files (uiteraard ook vijf). Niet alle output-files (3D-grafieken) kunnen worden gegenereerd de met demo-generator, dus sommige input-files zullen slechts een deel van de corresponderende grafiek tonen als ze worden verwerkt met de demo-generator. Alleen die met vijf ballen of minder zijn binnen bereik, maar we wilden u de volle kracht van de generator laten zien. Uiteraard is er een licentie verkrijgbaar voor de echte generator. Mail voor meer informatie naar rubenlohlefink@gmail.com

Als u liever eerst wat van de 3D-grafieken wilt bekijken is dat ook mogelijk. De vijf grakieken kunnen worden bekeken door op de links hieronder te klikken:

Eerste 3D-grafiek (geen labels maar heel veel ballen in verschillende kleuren)

Tweede 3D-grafiek (labels en slechts vijf ballen, dus binnen bereik van demo-generator)

Derde 3D-grafiek (stukje helix)

Vierde 3D-grafiek (zig-zag in schuin vlak)

Vijfde 3D-grafiek (eenzame rode bal in het centrum. Beetje zen-grafiek 😉 – binnen bereik van demo-generator)

Wij zijn overtuigd van onze strategie, want de toekomst kan gewoon niet plat zijn. Doe met ons mee en voeg een extra dimensie toe aan uw informatie!

Geplaatst in Uncategorized | Een reactie plaatsen

The claims-triangle

Earlier, I wrote a blog in Dutch about the claims triangle (or loss triangle). Now I am revisiting the subject in my English blogpost and that´s why I looked for a new article about the subject.  Although this article talks about SQL (a rather technical subject), it explains the nature of the claims triangle very well: http://scn.sap.com/community/developer-center/hana/blog/2015/06/04/insurance-claims-triangle–a-jab-at-sqlscripting

The claims triangle is a statistical instrument, used by actuaries (mathematicians specialised in risk issues – often insurance-related). It shows how claims have developed throughout the years and how quickly the final amount was settled.

For simple claims, like a broken window or a slightly damaged car, the settlement will be quick – most likely within the same year as the damage happening. For large numbers of more complex claims however the losses will not be immediately clear and it could take several years before the final payment goes out.

The difference between earnings (premiums paid) and costs (including payments because of claims) is not pure profit, because additional costs will come forward in the future. A trading company will know about future costs (like goods received without being invoiced yet) rather well, but for an insurance company it´s less easy to predict the future. That´s why a claims triangle is a useful instrument. Of course in reality the subject is much more complicated, but this explanation will do. For insurance see: https://en.wikipedia.org/wiki/Insurance

Why is it called a triangle? Well, that’s quite simple: claims of about ten years ago, have had ten years to mature, but for losses occurring only five years ago, only five years of data will be available. And losses from last year will provide two years of information at most. So the more recent the claim, the smaller the range of data and the table will look like a triangle, like the example below (values throughout the years are cumulates).

claims-triangle

 

 

 

 

The blue values are all known in 2016, e.g. for 2012 the fourth year after the claim will be 2016 and for 2014 (being year zero itself) the second year is 2016.

The purpose of the triangle is to predict the future (the empty cells, that is), with the help of statistics. But wouldn’t it be nice to present this table in a spatial graph, like the ones generated by the VRBI-tools?

Good news: using the numbers in the claims-triangle from the article referred to at the beginning of this post ( http://scn.sap.com/community/developer-center/hana/blog/2015/06/04/insurance-claims-triangle–a-jab-at-sqlscripting ) a nice 3D-graph was generated! The triangle from the article is repeated as a screenshot (see below).

data-source

The claims year was taken as the x-value, the amount as y-value and the number of the year after the initial claim-year was used as a z-value. Ball-size was set to 2. Labels were added to the balls for year “0” and a legend (ball-colours) was added to the z-axis. The real graph is a webpage in html, to be viewed in a browser. Click this link to see the 3D-graph (or click right to download it first) and manipulate it yourself!

To experience the full power of a spatial graph, click on the screen and then move your mouse to manipulate the graph: rotating and tilting is done easily. Translation is done by right-clicking and moving. Double clicking will change the origin. To return to the starting position, just refresh your screen!

Below a couple of screenshots are presented,  with some comments added.

First screenshowFrom the left to the right the purple balls in front present all the initial years of the claims. Towards the back of the graph the first, second, third – and so on – year is presented, with a different colour for every single year. The initial claims go up from year to year, probably because the company is growing: more customers is more income from premiums, but also higher claims. From front the back the lines go up as well, but this is because the cumulative payments go up until the claim is completed. That’s why the curves are bending down –clearly visible for 2005 and 2006.

screenshot of spatial graph VRBIIf we look from a different angle, from the present to the past, something strange hits the eye: although the purple balls show a steady increase, the most recent values for year 1 (red) and year 2 (brown) seem to jump upwards. This could mean the claims were processed quicker than in the past.

Looking from yet another angle, we cannot be so sure about the process becoming more efficient.

screenshot from spatial graph VRBIThe first and second row in front (2005), tend to bend down to the left. For the more recent years (now in the back), less data is available, but the curves seems to be steeper. So the red ball to the top at the right side, could be a messenger of ever higher costs coming up! The actuary will know this from calculations, but other experts will see and believe by exploring this 3D-graph!

 

Last time I promised the demo-package (full functionality, but only presenting up to five balls) would be available by now. Well, it is! Just ask for it by mailing ruben.lohlefink@gmail.com or guusfink@gmail.com to get a free package.

Geplaatst in Uncategorized, Virtual Reality Business Intelligence | Tags: , , , , , , , , , , , , , , , | Een reactie plaatsen

Meteorological information in a spatial (3D) graph

The Royal Netherlands Meteorological Institute (KNMI) provides their data to the public. Those data are very detailed and go back over a hundred years. Meteorological means it’s all about the weather and because of this the data have an annual pattern. It is interesting to take the data from a range of months and years and put them in a spatial (3D) graph.

KNMI frontFor the readers who don’t know yet: VRBI (a Scientassist label) offers generators to the market, able to convert a set of numbers into such a spatial graph. To demonstrate the power of our generators – especially their output – this blog provides a couple of examples every now and then. We are convinced the era of the flat graphs will end, because Big Data becomes too complex to be presented in an old-fashioned way.

The last couple of years we have demonstrated the power of spatial graphs, but used VRML as the language. Not everybody wants to install a plugin or download a viewer, so the new generation of VRBI-generators is HTML-oriented. Now the same set of numbers will be converted to a simple .htm webpage, to be shown in a modern browser. The 3D-graph will appear like a website, although it’s a local file. Manipulating the graph is easy (see explanation below).

A piece of the KNMI-data used:

2010; January; -1.6
2010; February; 0.1
2010; March; 5.2

When looking at these data the y-value (vertical direction) is clear: we preferred the temperature for our illustration. Of course it is possible to put all values (high, low everage) in the graph for every single day but then the graph would be too crowded, so only averages  for every month within a year were taken.

For the x-values  (left to right) we used the years and the months became the z-values (front to back). The “fourth coordinate” – the size of the balls shown – was not really used this time:  all balls got the same size. Some labels were added as a kind of legend in the graph. Above, the front-view of the graph was already shown. The blue balls in the front  represent January with its low temperatures in the Netherlands. The second set of blue balls, more to the back, represent July with its higher temperatures. All sets (months – six different colours were used two times) are widely scattered, meaning large differences thoughout the years occured.Below some other screenshots are presented, but the real spatial graph (in html) is available here.

KNMI_bottomKNMI with scale-values

 

 

 

 

 

 

Looking from the side (left graph above), twelve “planes” of balls become visible. The planes represent the different months. One or two of the purple outliers in August are higher than the high-values for July, but the lowest values for August are definately above the July-level! Of course temperatures will be negative during the winter. To show this, the origin of the graph was set lower (can be done in the browser, by clicking in the graph). This time values were added for the temperature (black balls with white numbers). The lowest monthly averages(!) were even below -10 (Celcius) for a couple of years.

The resulting graph is very useful for visual mining. Look at the original graph in html and write down a couple of hypotheses. These hypotheses can be tested with sophisticated statistical software, but the human eye is able to select the real interesting areas immediately. Try it by looking at the original graph instead of some screenshots :instead of the fixed view of a screenshot, the full spatial graph will be shown directly in your web-browser (or download the file first by right-clicking).

To experience the full power of a spatial graph, click on the screen and then move your mouse to manipulate the graph: rotating and tilting is done easily this way. Translation is done by right-clicking and moving. Double clicking will change the origin. To return to the starting position, just refresh your screen!

For more information look at vrbi.eu

Next time the free demo-generator will be available for download!

 

Geplaatst in Virtual Reality Business Intelligence | Tags: , , , , , , , , , , , , , , | Een reactie plaatsen

New VRBI-generator creates spatial graphs in html!

Yes, I’ve been away for some time, but no, it wasn’t hibernation at all! My previous blogpost was from November 2015. Then I decided it was time to switch from Dutch to English, to reach a broader audience.

More important however, was the discovery VRML-plugins (or any plugin for that matter) are a real hurdle for people to accept the spatial graphs. A lot of people looked at the pictures and the movies I posted, but only a few people went through the effort of installing a viewer or plugin to be able to look at the original 3D-graph and manipulate it. The previous generation of VRBI-generators created graphs in VRML-format, needing those plugins or viewer and to be honest: I did not like the idea to depend on third parties myself.

So I took some time to learn about the new WebGL and X3DOM standards and discovered interesting things. Basically it’s all about VRML’s successor, X3D being embedded in HTML. Since only technicians will like the story I will not discuss my journey in depth, but after about six month of hard work I am proud to present a whole new type of VRBI-generator!

Dome_front45  open the original 3D graph

Why am I proud of it? Well, not because I redeveloped the generator (I’ve been improving it for years now), but because the output is in html-format. Or, to put it simply: it now generates normal webpages, to be shown directly in a modern web-browser!

Let´s start with a simple illustration. If a 3D-image is projected to a surface it becomes flat and loses information. Now, with Big Data around, data-sets are so complex that we cannot afford to lose too much information anymore and we have to move to spatial graphs to support visual mining.

The dome is a nice example. A dome can be cut in slices or can be projected at once. The first approach presents a lot of smaller and larger ellipses. The second method will provide some scattered ellipsoid cloud of dots. Both ways we will only see a part of the real structure.

Below, I put some screenshots of  a spatial graph, created by the new generator VR_BOX3D. The input was calculated in a mathematical way. The generator was able to present the values as a 3D picture in html.

Open the original 3D graph

So apart from the screenshots now the full spatial graph will be shown directly in your web-browser when you click the link (or download the file first by right-clicking)!

To experience the full power of a spatial graph, click on the screen and then move your mouse to manipulate the graph: rotating and tilting is done easily. Translation is done by right-clicking and moving. Double clicking will change the origin. To return to the starting position, just refresh your screen!

That’s it for now. I hope you like the output of the new generator. A free demo-version, able to read five coordinates from an input-file (and creating a spatial graph with up to five balls) is coming soon. It will have the full functionality, with only the number of balls (data-points) being limited to five. For more information about vrbi, visit vrbi.eu

Geplaatst in Virtual Reality Business Intelligence | Tags: , , , , , , , , , , , , , , , , | Een reactie plaatsen

Vluchtelingen – de laatste blogpost in het Nederlands

Nee, de taal gaat niet veranderen doordat er meer vluchtelingen zijn. Het wordt tijd om nu over te stappen naar het Duits (Duitsland blijft toch hèt 3D land) of eventueel Engels, voor een groter bereik. Maar zo’n laatste post moet wel een beetje de aandacht trekken, dus daarom een actueel thema. Niet dat de economieën van Griekenland of Frankrijk minder actueel waren, maar er zijn onderwerpen die breder leven dan de goudprijs of het BBP.

Asylumrq3Iedereen heeft het over vluchtelingen, maar over welke landen van herkomst en bestemming hebben we het eigenlijk? Hoewel niet alle detail beschikbaar zijn, vond ik bij het Europese Bureau voor de Statistiek interessante tabellen: voor een grote reeks Europese landen de top 5 van landen van herkomst (de link geeft nu een foutmelding, maar ingevoerd in Google wordt de Excel Asylum_statistics_YB2015_IV.xlsx wel gevonden (daarom laat ik de http:// ervoor weg).  appsso.eurostat.ec.europa.eu/nui/show.do?query=BOOKMARK_DS-057066_QID_-341E2522_UID_-3F171EB0&layout=GEO,L,X,0;TIME,C,X,1;CITIZEN,L,Y,0;SEX,L,Z,0;AGE,L,Z,1;ASYL_APP,L,Z,2;INDICATORS,C,Z,3;&zSelection=DS-057066ASYL_APP,ASY_APP;DS-057066INDICATORS,OBS_FLAG

Zie “Table 2”. De tabellen gaan over asielaanvragen. Die aantallen zijn natuurlijk wat lager, maar wel betrouwbaarder, al zeggen ze minder over de problemen in bv. Italië en Griekenland. Nu is de top vijf voor ieder land anders, dus moest ik een algemene tabel maken. En absolute aantallen zijn niet zo handig, want dan legt Cyprus het af tegen Duitsland – dus: procenten. Van zo ruwweg de helft van de asielaanvragers in 2014 is de herkomst te achterhalen uit deze top 5 tabellen. Maar percentages alleen zeggen niet alles, dus kan met de bolgrootte worden gespeeld om een indicatie van de omvang van de stroom te geven (bij verdubbeling van het aantal is de bol één eenheid groter). En natuurlijk kunnen we de landen alfabetisch weergeven, maar ik koos bij het gastland voor de breedtegraad (van de hoofdstad), om de landen ten minste ordinaal te kunnen presenteren (waarde vervangen door rangnummer, bij beide assen). Het kost tijd, dat wel, maar na veel zoeken, selecteren en rekenen had ik een tabel die enigszins recht deed aan de geografische positie van landen, aan de omvang van de stromen èn de relatieve samenstelling van de asielaanvragers toonde. Het waren voor heel Europa zo’n 625 000 – 45% meer dan het jaar ervoor en nu zijn de aantallen nog hoger, maar ik liet de landen met heel weinig vluchtelingen weg. Ik deed geen moeite voor de schaal – de rekfactoren in de vrbi-generator schalen immers naar ieder gewenst formaat, groter of kleiner. Dus de procenten liet ik in de .csv-file gewoon als fracties tussen 0 en 1 staan. Met rekfactor 200 kwam alles goed (geen enkel percentage is hoger dan 50). Kleuren werden gebruikt om de gastlanden te karakteriseren. Om alles een beetje begrijpelijk te houden voegde ik bollen met labels toe als legenda –gekleurde in hun eigen maat voor de gastlanden en zwarte voor de rest. De bollen moesten wel verspringen omdat ik nogal veel op een rij had gezet. In een paar seconden had de generator van VRBI er een ruimtelijke grafiek van gemaakt.

Asylumrq-poging1Die grafiek was wel wat “druk”, want alle nul-waarden hadden ook een bol. Niet nodig, dus de nullen verwijderd, waardoor alles veel leger werd. Alleen was het prettig om het land van herkomst dan als label mee te geven aan iedere bol.

 

Asylumrq-poging2Daardoor werd de legenda langs de Z-as dan weer overbodig (land van herkomst), dus die werd verwijderd. We zien nu dat Duitsland – uiteraard – heel veel meer aanvragen krijgt dan Nederland, maar ook meer dan grote landen als Frankrijk, de UK of Italië. Al krijgt Italië natuurlijk veel meer instroom dan asielaanvragen. En bedenk: de bol één eenheid groter, betekent verdubbeling. We zien dat er per gastland een duidelijk verschil in (top vijf) landen van herkomst is.

Asylumrq-poging3Nadat de zwarte legenda links was verwijderd, vroeg ik me ineens af waarom ik de landen van herkomst had gesorteerd op totaal aantal vluchtelingen voor heel Europa. Zo zitten de grote aantallen steeds vooraan in de grafiek. Ik besloot ook die landen naar breedtegraad (van de hoofdstad) te sorteren en weer het rangnummer te gebruiken ivm. een gelijkmatiger verdeling in de grafiek (al hoeft natuurlijk niet, want de breedtegraad zèlf zou ook kunnen, maar dit beeld is wat rustiger door de regelmatigheid. Uiteindelijk is er toch een grafiek ontstaan die alle registers opentrekt. Asylumrq1Deze grafiek is echt alleen nog ruimtelijk te bekijken. Screenshots geven geen goede indruk meer. Er is wel een filmpje van de bewegende grafiek op youtube geplaatst. Lage resolutie, maar in ieder geval komt het ruimtelijk karakter van de grafiek dan iets beter tot zijn recht. Al blijft het beter om de grafiek zelf te manipuleren.

Asylumrq4

 

 

Een dag later vroeg ik me af waarom ik de legendabollen van de landen dezelfde afmeting had gegeven als de databollen.  Ik heb wat moeite met kleuren en die kleine legenda-bolletjes kan ik niet eens goed zien. Dus maakte ik (weer in minder dan een minuut geregeld) een versie met standaardbollen in de legenda. Het youtube-filmpje toont echter de vorige versie.

De grafiek is nu gereed voor interpretatie. De .wrl-file (de eigenlijke grafiek) is op aanvraag leverbaar.Asylumrq5 Voor de duidelijkheid: de VRBI-generatoren zijn niet bedoeld om gegevens te presenteren aan een groot publiek. Het mag natuurlijk wel – de klant is koning – maar het primaire doel is “visual mining”: het zichtbaar maken van verbanden zodat het oog ze kan herkennen. Maar ook dan moet er voldoende houvast zijn. En een overbodige of chaotische legenda helpt niet bij het verkrijgen van inzicht. Vandaar al die varianten! Kijk voor meer informatie over de VRBI-generatoren op http://vrbi.nl of http://vrbi.eu

Geplaatst in Uncategorized | Tags: , , , , , , , , , , , , , , , , , | Een reactie plaatsen

Bruto Binnenlands Product per hoofd van de bevolking (BBP per capita)

De afgelopen keren heb ik allerlei ruimtelijke grafieken laten zien, maar in het vorige blog was één van de assen in feite nominaal. Dat maakt de grafiek niet minder interessant, maar ik wilde toch ook eens laten zien dat de VRBI-generator in staat is om een echt driedimensionaal “scatterplot” te maken. Dus een ruimtelijke grafiek waarbij zowel X- Y- als Z-as echte variabelen bevatten.

BBP-caput_nolabel_klein_grondvlDe dataset van de vorige keer had betrekking op het BBP van landen. Maar in plaats van het scheiden van die landen in aparte banen (de nominale schaal waar ik het over had), door een land te vertalen in een waarde op X- of Z-as, kunnen we ook kwantitatieve eigenschappen van die landen nemen. En er zijn twee die voor het grijpen zijn: de oppervlakte van het land en het aantal inwoners.

 

Om alle landen een beetje in dezelfde range te houden kon ik weer een index gebruiken, maar deze keer koos ik voor het BBP per hoofd van de bevolking (per “caput” dus, maar het wordt traditioneel “per capita” genoemd).

BBP-caput_label_klein_oppVerder is het ook mogelijk om meerdere Z-waarden tegelijk in de grafiek te zetten, zoals jaarcijfers van een land. De generator heeft er geen moeite mee, maar in de grafiek kunnen de bollen wel deels gaan samenvallen, dus een beetje terughoudendheid is wenselijk. Daarom selecteerde ik slechts vier “interessante” jaren: ik koos voor een “oud” jaar (2003), het jaar net voor de crisis (2007), het crisisjaar (2008) en een redelijk recent jaar (2013). Ze worden weergegeven door resp. gele, blauwe, rode en groene bollen.

Omdat ik ondanks de kleuren toch de jaartallen voor de bollen wilde hangen (hoeft BBP-caput_nolabel_klein_opp2natuurlijk niet), worden de landen geïdentificeerd door zwarte bollen in het Y=0 vlak. Die hebben dus wel een waarde voor oppervlakte en inwonersaantal, maar niet voor BBP-per-capita. En een label met de naam van het land natuurlijk. Omdat de jaartallen voor de bollen het beeld misschien wat druk maken, toon ik ook een variant zonder deze labels – oordeelt u zelf!

 

BBP-caput_label_groot_opp2De volgende uitdaging was het grote aantal landen met een klein oppervlak en weinig inwoners, dat op een kluitje bij de Y-as terecht kwam. Dit was eenvoudig op te lossen door twee grafieken te maken:
– één met landen die niet groter waren dan 100 km2 en
– één met landen met een oppervlak van 100 km2 of meer
Het aantal inwoners speelt dus geen rol bij deze splitsing.

 

Nu kunnen we ons een aantal vragen stellen bij de grafieken die de generator maakte (en die bekeken kunnen worden in diverse VRML-viewers of met VRML-plugins in de browser).
– Ligt de waarde van 2008 doorgaans lager dan die van 2007?
– Hoe verhoudt 2013 zich tot 2003?
– Zijn er verschillen te zien in de effecten van de crisis op dit “per capita” niveau?
– Heeft het aantal inwoners invloed op de hoogte van het BBP per capita?
– Heeft de oppervlakte van een land invloed op de hoogte van het BBP per capita?

Zo zijn nog veel meer vragen te bedenken, die door het grondig beschouwen van de grafieken het begin van een antwoord op kunnen leveren. Of andersom: door het bekijken van de grafiek kan met op ideeën komen die vervolgens getoetst kunnen worden met daarvoor bestemde methodieken. En dat is de eigenlijke bedoeling van VRBI: “visual mining” – een manier om de kracht van het menselijk oog in te zetten bij het analyseren van Big Data.

BBP-caput_nolabel_klein_obliqWat opvalt is dat de verschillen in rijkdom binnen Europa nog aanzienlijk zijn. Verder ga ik nu eens niets over de grafieken zeggen. Ik laat de conclusies aan de kijker over! Wel zijn deze grafiek zo complex dat ze eigenlijk stereoscopisch bekeken moeten worden.

 

 

Een screenshot geeft nog nauwelijks een indruk. Daarom zijn er ook nu filmpjes op Youtube (VRBI-channel) geplaatst:
landen met een oppervlak tot 100 km2 – bollen met labels
landen met een oppervlak tot 100 km2 – bollen zonder labels

landen met een oppervlak vanaf 100 km2 – bollen met label

De grafieken zelf zijn ook beschikbaar als .wrl-bestand. Ze worden u toegezonden op verzoek (uiteraard zonder kosten of verplichtingen). Mail naar: vrbi@scientassist.com Hieronder voor de afwisseling eens een paar stukjes van de input-file (gewoon .csv) èn van de outputfile (.wrl – de eigenlijke grafiek in VRML).

Kijk voor meer informatie op www.vrbi.nl of www.vrbi.eu Het demo-pakket is daar gratis te downloaden; een bedrijfslicentie voor vijf personen kost nu EUR 1000 ex. BTW.

INPUTFILE – eerste deel
(de eerste regel bevat de stuurparameters, de rest x, y, z, bol-grootte, bol-kleur en bol-label):
96;5;1;1;1;W;W
0.4;12.0;0.3;3;Y;2003;
0.6;57.2;2.6;3;Y;2003;
1.2;17.8;9.3;3;Y;2003;
2.0;13.2;20.3;3;Y;2003;
11.3;27.2;30.5;3;Y;2003;
8.1;42.2;41.3;3;Y;2003;
16.9;31.2;41.5;3;Y;2003;
5.6;35.9;44.5;3;Y;2003;

OUTPUTFILE – deel uit midden
(dit fragment vertegenwoordigt één bol met label):

Transform {
translation 54 16 -92
children [
Shape {appearance Appearance
{material Material
{diffuseColor 1 0 0 transparency 0.1} }
geometry Sphere
{radius 3 }
}
]}

Transform {
translation 54 16 -89
children [ Shape {appearance Appearance { material Material { diffuseColor 1 1 1 } }
geometry Text { string [ ” 2007 ” ]
fontStyle FontStyle {
family “SANS”
style “BOLD”
size 3
justify “MIDDLE”
}
} } ] }

Geplaatst in Uncategorized | Tags: , , , , , , , , , , , , , , , , , | Een reactie plaatsen

Wat gebeurde er met de Bruto Binnenlandse Producten in Europa?

De laatste jaren is Griekenland voortdurend in het nieuws geweest. Maar daarvoor waren het Cyprus, Spanje, Italië en Portugal. En het commentaar op Frankrijk is niet van de lucht. Alleen Duitsland en Nederland zijn braaf. Maar de vraag die bij me opkwam was: wat is er nu gebeurd met het BBP (Bruto Binnenlands Product) van al die landen? Want Griekenland zou te snel zijn gegroeid doordat het enorm van de euro profiteerde, maar hoe zit dat bij de andere landen? Om dit complexe verhaal in één beeld onder te kunnen brengen moeten we naar de derde dimensie grijpen en VRBI is dus de oplossing.

BBP_1999-2014_Europa2Nu levert het Europees bureau voor de statistiek mooie lijsten met BBP’s, maar die gingen terug tot 2003. En zoals we weten werd de euro eerder ingevoerd. Dus wilde ik eigenlijk vanaf 1999 gegevens hebben. Dat werd een forse klus: aan de hand van oude groeicijfers was ik in staat om eerdere BBP’s te berekenen. Maar omdat de grafiek niet al te vol mocht worden worden, selecteerde ik eerst een paar grotere landen. Nederland voegde ik met België en Luxemburg samen tot Benelux. Daarnaast kwamen een paar beruchte kleine landen. In totaal dus ongeveer het lijstje dat ik hierboven als noemde, plus IJsland en Ierland. De enige manier om groten en kleintjes te vergelijken is via een index. Dus stelde ik 1999 op 100 en rekende ik alle andere waarden per land om, van 2000 tot 2014. Om de grafiek niet te saai te maken beging ik een statistische doodzonde (dat mag in de marketing): ik startte op 80 en nam als hoogste waarde 180. Zo paste alles mooi in de VRBI-box, want zelfs Cyprus is niet hoger gekomen dan 177.

Nu kunnen de gegevens wel op twee manieren worden gepresenteerd: van links naar rechts en van voor naar achter. Beide manieren hebben voor en nadelen, dus presenteer ik screenshots van beide typen (bij het aanmaken slechts een kwestie van x- en z-waarden verwisselen). Opnieuw een waarschuwing: de echte 3D beelden kunnen nooit vervangen worden door een 3D grafiek die door de gebruiker zelf wordt gedraaid, gekanteld of verschoven. En dan hebben we het nog niet eens over “er omheen vliegen” wat ook kan met de speciale 3D-viewers die er in omloop zijn. Daarom heb ik deze keer ook een kort filmpje (30 sec.) op het youtube-kanaal van VRBI gezet (VRBI-channel genaamd), om zo een betere indruk te krijgen. Bekijk het filpje hier. Zelf bedienen is nog steeds niet aan de orde. Daarvoor dient de brongrafiek (VRML-formaal, dus .wrl-bestand) te worden opgehaald op de bekende plek: download hier de ene 3D grafiek en hier die met verwisselde x-z waarden. Zorg ervoor dat u een VRML-viewer of plugin heeft geïnstalleerd om de grafiek te kunnen bekijken (zie post van 16 mei hierover).

BBP_1999-2014_Europa1Op het eerste screenshot zien we de grotere landen (die grotere bollen hebben gekregen). Links is het 1999 en rechts 2014. Blauw is het gestaag groeiende Duitsland – waar het witte Benelux een afspiegeling van is. De grote rode bollen zijn BBP_1999-2014_Europa2Spanje, dat na een terugval weer langzaam opkrabbelt. Italië is geel – het lijkt stabiel te blijven. De UK is mintkleurig. Er is een enorme klap geweest toen de crisis intrad, maar het veert ook weer enorm op. Frankrijk is groen. Het groeit misschien niet heel snel, maar blijft ook niet echt achter. De crisis heeft er niet zwaarder toegeslagen dan in Duitsland.

BBP_1999-2014_Europa3 BBP_1999-2014_Europa4

Voor de kleinere landen moeten we een andere kijkhoek kiezen. Daarom hier een paar andere afbeeldingen. Griekenland is opzettelijk zwart gemaakt, zoals dat ook in de pers gebeurt, alleen hier dan letterlijk. De terugval van het BBP is extreem – vergelijkbaar met Portugal, maar dat heeft nooit zo’n sterke piek gekend. Ook het groene Cyprus heeft een forse knauw gekregen, maar vreemd genoeg veel minder. De kleine rode bollen zijn IJsland. Dat heeft in een eerder stadium wel een vergelijkbare crash beleefd, maar is inmiddels flink opgekrabbeld. Het lila Ierland kromp minder en herstelde zich weer snel. Bij het onderste screenshot lopen de waarden van voor (1990) naar achter. Aangezien alle landen bij 100 starten, was er aan het begin bijna geen ruimte voor labels. Achteraan (2014) lopen de waarden zo uiteen dat het daar wel paste. Nog één screenshot dat van onderen is genomen. Het laat goed zien dat Griekenland met zijn zwarte lijn overal onderuit steekt (1999 is linksonder, 2014 is rechtsboven).

BBP_1999-2014_Europa5

 

 

 

 

Voor de liefhebbers voegen we nog even een stereobeeld in, gemaakt met FreeWRL. Het kan worden bekeken met bv. de cardboard van Google icm. een min. 5 inch smartphone.BBP_1999-2014_Europa6

En vergeet niet te kijken op de websites www.vrbi.nl of www.vrbi.eu voor achtergrondinformatie. Of op youtube.com naar VRBI-channel waar ook het filmpje van een van deze grafieken staat.

Geplaatst in Uncategorized | Tags: , , , , , , , , , , , , , , , , , , , , , , , , , , , | Een reactie plaatsen

De AEX door de jaren heen èn binnen de jaren

Deze keer wilde ik weer eens een illustratie geven van de kracht van de generator voor 3D grafieken, vre_boxs. Zoals inmiddels wel bekend kan deze generator reeksen gegevens (bv. een .csv vanuit Excel) vertalen naar een ruimtelijke grafiek (zie www.vrbi.nl of www.vrbi.eu).
Aangezien de AEX-index over het algemeen een bepaald patroon vertoont binnen het jaar en we daarnaast de afgelopen tien jaar een forse crisis beleefden, is het interessant om de jaren en de weeknummers op twee assen uit te zetten.
Door de AEX-waarden op te zoeken (FD en IEX zijn bv. geschikte bronnen) en alleen de slotkoers te nemen (dat hoeft niet – meerdere koersen zijn ook mogelijk), kunnen we het gewenste bestand maken. In Excel werden de datumwaarden vertaald naar jaren en weken en daarna werd ingedikt (logica+filter!) naar de laatste stand per week.
De jaren werden met 2000 verlaag om een acceptabele range te krijgen. Weeknummers en AEX bleven gelijk, omdat de strecht-factoren ze op maat kunnen maken. Het resultaat is te zien in de eerste afbeeldingen, hieronder. De jaarlabels staan vooraan en voor de duidelijkheid is de laatste week ook steeds van een label voorzien. Ik heb het Cortona-logo er opzettelijk een keer in meegenomen.

AEX-2005-2015-frontAEX-2005-2015-zij

 

 

 

 

 

 

We zie heel duidelijk (het blijven wel platte screenshots – bekijk de echte, ruimtelijke grafiek om de echte kracht van VRBI te beleven!) dat er meestal een dip in het midden van het jaar zit. Het bekende “sell in may and go away, but remember to be back in september”.

Al is ook te zien dat daar nog wel wat op af valt te dingen. De zwaarste ontkrachting van dit principe zien we in 2008, waar min of meer een neergaande lijn te zien is (rechterplaatje). In de jaren daarna is het gewone patroon wel weer te zien, maar op een veel lager niveau.Geleidelijk aan krabbelt de index echter weer, jaar na jaar, op (linkerplaatje).

Toch is het beeld niet helemaal bevredigend. Hoewel we min of meer weten welke waarden de AEX heeft gekend, is een as-markering met legenda wel handig. Dus voegde ik enkele rode bollen toe op de Y-as (bv. 0;300;0;2;R;300 – dwz: x, y, z, bolgrootte, bolkleur en label) en paste de rekfactor voor het weeknummer meteen ook aan naar 2, zodat de gehele kubus is gevuld. Verder maakte ik de waarden van 2008 zwart ipv. geel, om het afwijkende karakter beter te kunnen zien.

AEX-2005-2015-labels_mark2008_FreeWRLHet resultaat staat links en hieronder. Omdat FreeWRL zulke prima resultaten liet zien (zie vorige post), heb ik eerst een screenshot dáárvan gemaakt – met het logo erin gemonteerd. Omdat ik bedrevener ben in het bedienen van Cortona, is de rest daar wel weer in getoond – maar verschil in kwaliteit is er eigenlijk niet.

 

 

AEX-2005-2015-labels_mark2008 AEX-2005-2015-labels_mark2008_zij

 

 

Tot slot wil ik graag laten zien dat FreeWRL ook echt stereoscopie biedt! Heel bijzonder. Hoewel er drie opties zijn: shutter-glass, dubbel beeld of anaglyph (naast een vierde voor gewoon beeld uiteraard) is de tweekleurige anaglyph wel grappig om te tonen, al is het niet de krachtigste optie. Bezoek voor meer informatie in ieder geval www.vrbi.nl (Nederlands) of www.vrbi.eu (Engels en Duits). Voor de VRML-viewers zie post van vorige week.

AEX-anaglyph

 

 

 

 

Anaglyph (tbv. zo’n gekleurd brilletjhe) weergave.

 

Voor degenen die de ruimtelijke grafiek (de tweede, met bde labels en zwarte bollen) zèlf willen bekijken (FreeWRL, Cortona en Flux – zie vorige post) tonen de labels, biedt ik deze ter download aan (VRML-formaat, dus .wrl bestand) op de bekende plek daarvoor: http://www.charles-warter.com/vrbi/AEX-labels_mark2008.wrl

Geplaatst in Uncategorized | Een reactie plaatsen