Skip to main content

ChatGPT saknar lokalsinne

04 mars 2024

Rena tippet. Så kan man sammanfatta ChatGPT och andra språkmodellers försök att analysera trafiksituationer på sjön. De saknar helt enkelt förmågan att föra rumsliga resonemang. Detta kan förstås komma att ändras, tror forskarna bakom en ny Lighthouseförstudie.

För ganska exakt ett år sedan var forskningsprojektet COLREG2 som undersökt hur väl AI-baserat beslutsstödsystem som utvecklas för sjöfarten fungerade i verkligheten. Att de klarar av enkla trafiksituationer på öppet visste man, men hur skulle de klara mer komplexa scenarier, till exempel när flera fartyg möts i kustnära vatten och dessutom med olika inställningar i sina beslutsstödsystem?

– Befäl på fartyg har olika preferenser och olika sätt att lösa situationer, vilket kan jämföras med algoritmer som har olika inställningar. När vi jämförde på det sättet blev det tydligt att de mänskliga befälen agerar efter ett mönster som ändå ser väldigt ordnat ut, medan de blev rena spagettin med algoritmerna. Jag förväntade mig inte att de skulle bli så röriga resultat, sa Reto Weber, tekniklektor på Chalmers, som lett projektet i samband med publiceringen av rapporten.

Algoritmerna hade alltså inte en chans mot mänskliga befälhavare. Och det var väl egentligen inte så konstigt. Att inkludera alla faktorer som påverkar mänskligt beslutsfattande i trafiksituationer – erfarenhet, flexibilitet och sjömanskap – i artificiell intelligens kommer att kräva maskininlärning, mer avancerade neurala nätverk och en enorm mängd data, skrev forskarna i rapporten.

Men kort efter publiceringen visade det sig att nya språkmodeller som ChatGPT har en förmåga att förstå och i viss mån resonera kring komplexa texter och uppgifter – något som adresserar bristerna hos algoritmerna som utvärderats i COLREG2-projektet. Så skulle möjligen användningen av stora språkmodeller i de maritima beslutsstödsystemen fingera bättre? Frågan har undersökts i förstudien COLREG3 – Exploring the potential of large language models in marine navigation systems.

– I november blev det möjligt att använda bilder på ChatGPT. Så vi gjorde enkla diagram med trafiksituationer där fartyg illustrerades med trianglar för att se om ChatGPT kunde tolka dem rätt. Resultatet visade tydligt att den inte klarade av det speciellt bra, säger Luis Sanchez-Heres på RISE som lett projektet.

Men det finns ju andra avancerade språkmodeller, tänkte forskarna och testade flera andra.

– Vi var ganska förvånande men de flesta stora språkmodellerna är ganska dåliga på att föra rumsliga resonemang. Vi körde en modell med flera frågor där de ombads att välja styrbord eller babord. De svarade bara rätt i 60 procent av fallen.

Men det betyder inte att man gett upp hoppet om att det stora språkmodellerna kan införlivas i beslutsstödsystem för marina trafiksituationer i framtiden.

– Vår plan är att fortsätta köra våra tester på språkmodellerna med jämna mellanrum. Det tar bara tio minuter. För förr eller senare kommer språkmodellerna bli bra på det här. Utvecklingen går ju galet fort. När vi påbörjade projektet kunde vi bara få svar i text, sex månader senare kan Open AI skapa videor. Så vem vet hur det ser ut om ytterligare 6 månader? säger Luis Sanchez-Heres.

Rapporten COLREG3 – Exploring the potential of large language models in marine navigation systems har författats av:
Luis Sanchez-Heres, RISE
Reto Weber, Chalmers
Fredrik Ahlgren, Linnéuniversitetet
Fredrik Olsson, RISE
Oxana Lundström, Linnéuniversitetet

I samarbete med:
Carl Petersson, Zeabuz
Tobias Husberg, Cstrider


Dela på