Τα ρομπότ απέτυχαν – Το 75% των καθηκόντων έμεινε ανολοκλήρωτο
Μια πρωτοποριακή μελέτη από το Πανεπιστήμιο Carnegie Mellon στις ΗΠΑ επιχειρεί να θέσει υπό δοκιμή τα όρια της Τεχνητής Νοημοσύνης στον χώρο της εργασίας – και τα αποτελέσματα ρίχνουν φως τόσο στις δυνατότητες όσο και στους περιορισμούς της. Οι ερευνητές δημιούργησαν ένα εικονικό περιβάλλον επιχείρησης, στο οποίο όλες οι βασικές θέσεις στελεχώθηκαν αποκλειστικά από προηγμένα μοντέλα AI. Στόχος ήταν να αξιολογηθεί κατά πόσο οι «ψηφιακοί υπάλληλοι» μπορούν να αντικαταστήσουν πλήρως τους ανθρώπους σε σύνθετους επαγγελματικούς ρόλους. Η μελέτη αξιοποίησε ορισμένα από τα πιο προηγμένα γλωσσικά μοντέλα στον κόσμο, όπως το Claude (Anthropic), το GPT-4o (OpenAI), το Gemini (Google), το Nova (Amazon), το Llama (Meta) και το Qwen (Alibaba). Αυτά τα μοντέλα ανέλαβαν καθήκοντα όπως χρηματοοικονομική ανάλυση, ανάπτυξη λογισμικού, διαχείριση έργων και εικονική συνεργασία με τμήματα όπως το ανθρώπινο δυναμικό.
Ωστόσο, τα αποτελέσματα ήταν κατώτερα των προσδοκιών: μόνο το 25% των εργασιών ολοκληρώθηκε επιτυχώς. Το μοντέλο Claude 3.5 Sonnet κατέγραψε την καλύτερη επίδοση, με πλήρη ολοκλήρωση στο 24% των αποστολών, ενώ με τις μερικώς εκτελεσμένες εργασίες το ποσοστό έφτασε στο 34,4%. Αντίθετα, το Gemini 2.0 Flash ακολούθησε με 11,4%, ενώ τα υπόλοιπα μοντέλα δεν κατάφεραν να ξεπεράσουν το 10%. Παράλληλα, καταγράφηκαν σημαντικές διαφορές στο κόστος: η χρήση του Claude 3.5 Sonnet κοστολογήθηκε στα 6,34 δολάρια ανά εργασία, σε αντίθεση με το Gemini, που δεν ξεπερνούσε τα 0,79 δολάρια.
Το AI «σκόνταψε» στην κατανόηση και τη λογική κρίση
Οι λόγοι της αποτυχίας εντοπίζονται κυρίως στην αδυναμία των μοντέλων να κατανοήσουν έμμεσες οδηγίες, να προσανατολιστούν σε πραγματικά περιβάλλοντα και να χειριστούν καταστάσεις που απαιτούν κρίση. Σε αρκετές περιπτώσεις, τα συστήματα δεν αναγνώριζαν καν βασικές λειτουργίες – όπως ότι η κατάληξη “.docx” αφορά έγγραφα Word – ενώ αντιμετώπιζαν δυσκολία στην πλοήγηση σε ιστοσελίδες με αναδυόμενα παράθυρα ή μη προβλέψιμη ροή. Ακόμη πιο ανησυχητικό, ορισμένα μοντέλα επέλεγαν να προσπεράσουν δύσκολα σημεία των εργασιών, καταχωρίζοντας αυτές ως ολοκληρωμένες, παρά την ημιτελή τους κατάσταση.
Όπως επισημαίνει το άρθρο του futura-science.com, τα ευρήματα αποδεικνύουν πως, παρά τις εντυπωσιακές δυνατότητες της Τεχνητής Νοημοσύνης σε συγκεκριμένες, προκαθορισμένες εργασίες, η πλήρης επιχειρησιακή αυτονομία απέχει ακόμη αρκετά από την πραγματικότητα. «Η AI μπορεί να αποτελέσει έναν πανίσχυρο βοηθό, όμως δεν είναι έτοιμη να αντικαταστήσει τον άνθρωπο στην ολότητά του», σημειώνεται χαρακτηριστικά. Τουλάχιστον προς το παρόν, οι εργαζόμενοι μπορούν να αισθάνονται ασφαλείς: η Τεχνητή Νοημοσύνη μπορεί να συνεργάζεται, όχι όμως να διοικεί πλήρως.
