Bättre hantering av data hjälper oss att förstå världen

Av på 7 mars, 2021

Hela tiden samlas det in stora mängder data, med avsikten att förstå världen och ibland göra förutsägelser om den. Elio Ventocilla, doktorand vid Högskolan i Skövde, har i sin forskning försökt hjälpa till med det förstnämnda – att förstå världen lite bättre. Nu har han skapat en processmodell som beskriver hur det går att använda olika tekniker för att visa klustermönster i stora datamängder.

Varje dag, överallt, samlas det in data. Det kan handla om allt från människors rörelsemönster, fågelarter i Sverige eller vilka sidor du surfar på i mobilen. Data kan ge en grov representation av världen, hur den ser ut och fungerar, och används ofta av forskare i syfte att försöka förstå den bättre. Elio Ventocilla förklarar det genom att ta träd som exempel.

– Om vi exempelvis skulle mäta bredden och höjden på alla träd i Sverige, då skulle vi få en ögonblicksbild av hur Sverige ser ut, genom de två variablerna.

Om träden sedan placeras ut, i form av punkter, i ett diagram, hamnar alla punkter på olika platser beroende på trädets bredd och höjd. Men bara bredd och höjd säger inte så mycket. Skulle information om bladens storlek och färg också samlas in, skulle det ge en bättre representation av de svenska träden. Men för att kunna se alla fyra variabler – bredd, höjd, bladens färg och form, samtidigt, måste prickarna i diagrammet få ännu fler visuella attribut.

Problem när variablerna blir fler
– Vi kan exempelvis ändra storlek och färg på prickarna. Allt det här fungerar ett tag men när ytterligare uppgifter behöver läggas till, exempelvis trädens ålder och bark, kommer det snart inte gå att förändra prickarna med visuella attribut mer.

Det finns avancerade metoder som kan användas för att återge data i ett tvådimensionellt diagram och identifiera grupper, det vill säga klustermönster. Metodernas användbarhet försämras dock när antalet data (träd, i det här fallet) och variabler växer.

– Min avhandling handlar om att effektivisera dessa metoder så att de kan användas för att avslöja klustermönster i större datamängder med miljontals prover och hundratals attribut.

Två viktiga bidrag
I sin forskning har Elio tagit fram två saker. Det ena är en processmodell som beskriver hur det går att integrera olika tekniker för att visualisera klustermönster i stora datamängder. Modellen kan användas för att skapa andra applikationer som kan anpassas för specifika ändamål, som fysik, biologi eller marknadsföring.

Det andra är ett bibliotek med öppen källkod som implementerar en av de möjliga konfigurationerna av processmodellen, så att dataforskare kan använda den i sin forskning.

– En av bibliotekets främsta fördelar är att du kan använda det för att avslöja kluster i datamängder som är så stora att de är fördelade på många datorer.

Härnäst är det industrin som väntar för Elio Ventocilla.

– Jag vill använda och prova de kunskaper jag har fått under doktorandtiden, till att skapa mervärde genom produkter och tjänster. Jag kanske kommer tillbaka till den akademiska världen efter att jag har finslipat mina färdigheter i branschen.

Regionalt
Örebronyheter

Källa: Högskolan i Skövde

Du måste logga in för att lämna kommentarer Logga in