In onze steeds digitalere wereld produceren we steeds meer data. Op Facebook delen we wereldwijd elke dag 5 miljard statusupdates. Ook in het onderwijs is dat zo: in 2009 werd er in het onderwijs alleen al in de VS een geschatte 268 petabyte aan gegevens opgeslagen, oftewel 268 miljoen gigabyte. En die hoeveelheid groeit met een flink tempo.

Veel van die onderwijsdata is audio- en videomateriaal. Instructievideos en weblectures bijvoorbeeld, maar ook audiobestanden die worden gebruikt als oefenmateriaal voor taalvakken. Dat is anders dan in andere sectoren, zoals het bankwezen en de gezondheidszorg, waar ook veel gegevens in omgaan, maar waar die gegevens vooral bestaan uit tekst en afbeeldingen.

De term voor dit verschijnsel is big data: een hoeveelheid gegevens die zo groot en complex is dat je deze niet meer met standaard tools kunt beheren en analyseren. De eerder genoemde audio en video zijn daar goede voorbeelden van. Om die bronnen optimaal te kunnen benutten, moeten we daar nog een vertaalslag overheen maken: de tekst eruit halen, zodat je zoekopdrachten en vergelijkingen kunt uitvoeren.

Een andere belangrijke bron van big data in het onderwijs is digitaal leermateriaal. Voorheen was het normaal om per repetitie één eindcijfer bij te houden. Maar digitaal leermateriaal slaat voor alle gemaakte (oefen)opdrachten automatisch de antwoorden op, inclusief de tijd die de leerling nodig heeft om tot dat antwoord te komen en het aantal hints dat hij heeft opgevraagd. Ook allerlei data uit sensoren kan gebruikt worden, zoals data die wordt gecreëerd in het internet der dingen.



Maar wat kun je nu eigenlijk met big data? De gebruikersprofielen van Google zijn een goed voorbeeld van het genereren van waarde uit heel veel informatie. Door alle zoekopdrachten en aangeklikte zoekresultaten van gebruikers te verzamelen en met elkaar te vergelijken, kan Google heel gericht passende advertenties vertonen aan gebruikers. Supermarkten gebruiken zo'n zelfde soort systeem om te voorspellen wanneer bepaalde producten goed verkopen. Ook voor het onderwijs zou je zo'n soort systeem kunnen maken, dat een persoonlijk leerlingprofiel opstelt waarmee je makkelijker maatwerk kunt leveren.

Om gegevens op zo'n manier bruikbaar te maken, is het noodzakelijk om daar data mining op toe te passen. Een specifieke toepassing is educational data mining (EDM): het verwerken van die gegevens op manieren die specifiek nuttig zijn voor het onderwijs. EDM richt zich bijvoorbeeld op het voorspellen van leerresultaten door het gedrag van een leerling te vergelijken met eerdere leerlingen. Civitas Learning is daar een voorbeeld van. Het systeem adviseert studenten over hun studiekeuzes om studieuitval tegen te gaan. Die adviezen zijn gebaseerd op allerlei informatie: niet alleen studieresultaten, maar ook studiegedrag en demografische informatie.

Ook docenten en schoolleiders kunnen adviezen inwinnen op basis van big data en EDM. Op zo'n manier vormt big data ook een goede basis voor learning analytics. Hoe meer data zon systeem bevat, hoe nauwkeuriger de voorspellingen en adviezen.

Big data roept natuurlijk wel een aantal vragen op. Waar komen die gegevens vandaan? Van wie zijn ze? Wat kunnen en mogen we ermee? Ontwikkelingen op het gebied van big data zijn nog niet ver genoeg om simpele antwoorden te kunnen geven op deze vragen. Welke kansen en kanttekeningen ziet u op het gebied van big data?