Språkmodeller kan tolka krav vid mjukvaruutveckling

By on 17 juni, 2025
Författarna till studien om språkmodeller: Shang Gao, Tanja E. Havstorm, Panagiota Chatzipetrou och Fredrik Karlsson, informatikforskare vid Örebro universitet.

Foto: Privat via Örebro Universitet

Att sortera tusentals krav vid utveckling av programvara är både komplext och tidskrävande. Nu visar forskare vid Örebro universitet att stora språkmodeller som GPT-4o och LLAMA 3.3-70B kan effektivisera arbetet, men att det samtidigt gäller att hitta rätt balans mellan modellernas stabilitet och kreativitet.

När nya IT-system ska utvecklas är det avgörande att användarkraven tolkas korrekt. Det gäller både funktionella krav, som beskriver vad systemet ska göra, och de icke-funktionella, som anger hur systemet ska fungera och vilken kvalitet det ska ha.

I en ny studie har Örebroforskare testat hur väl två stora språkmodeller GPT-4o och LLAMA 3.3-70B, klarar att automatiskt klassificera dessa krav.

— De språkmodeller vi testade är väldigt bra på att klassa funktionella krav, de visade sig vara sämre på att klassificera icke-funktionella krav, säger Fredrik Karlsson, professor i informatik vid Örebro universitet.

Balans mellan precision och variation

Totalt testade forskarna 625 krav med en metod där modellerna inte har tränats på uppgiften i förväg. De undersökte också hur resultaten påverkas av en parameterinställning som kallas temperatur, och hur konsekventa modellerna är i sina klassningar. En låg temperatur gör modellernas svar mer förutsägbara, medan en hög temperatur ger större variation.

— GPT-4o presterar bäst när temperaturinställning tillåter en viss variation, modellen blir då relativt träffsäker när det kommer till funktionella krav, säger Fredrik Karlsson.

Samtidigt förbättrades klassificeringen av icke-funktionella krav vid högre temperaturer.

— Det innebär att det krävs en avvägning mellan stabilitet och kreativitet, beroende på vad som är viktigast i sammanhanget.

Studien visar också att LLAMA 3.3-70B uppvisar större konsekvens i sina klassificeringar, oavsett temperatur.

Kombination av språkmodeller och människa

Stora språkmodeller som GPT-4o och LLAMA 3.3-70B, kan kraftigt effektivisera arbetet med att klassificera krav uttryckta i naturligt språk. Men enligt forskarna får det inte ske helt utan mänsklig granskning.

— Modellerna kan spara mycket tid, men vi rekommenderar att en människa alltid granskar resultatet och regelbundet kontrollerar av att klassificeringen fungerar som den ska. Det gäller särskilt i sektorer med höga krav, som inom sjukvård eller flyg, säger Fredrik Karlsson.

Örebro
Örebronyheter

Källa: Örebro Universitet
Text: Jasenka Dobric

You must be logged in to post a comment Login