Süni intellektin sərhədlərini sınaqdan keçirmək istəyən tədqiqatçılar bu dəfə adi imtahan sənədlərini bir kənara qoyub, marşrutu fantastik dünyaya çeviriblər.Böyük dil modellərinin mürəkkəb qaydalara əməl etmək, strategiyalar hazırlamaq və uzunmüddətli planlaşdırma qabiliyyətini ölçmək üçün UC San Diego-da bir komanda onları məşhur stolüstü rol oynayan Dungeons & Dragons (D&D) oyununun “masasında” oturdu.
Süni intellektlə bağlı tədqiqatlar ümumiyyətlə qısamüddətli performanslara diqqət yetirsə də, bu təcrübə proqram təminatının müstəqil fəaliyyət göstərə bilməsi və uzunmüddətli tapşırıqları yerinə yetirmə qabiliyyəti üzərində cəmlənmişdir.
Dungeons & Dragons əslində süni intellekt üçün çox çətin sınaq meydançası hesab olunur.Oyunun bütünlüklə dialoqlar vasitəsilə keçməsi, çox addımlı planlar tələb etməsi və ciddi qaydalara riayət etməli olması modellərin bacarıqlarını maksimum dərəcədə çətinləşdirir.Bu təcrübə zamanı tədqiqatçılar “halüsinasiyalar” adlı uydurma məlumatları minimuma endirmək üçün xüsusi oyun mühərrikindən istifadə etdilər.Bu mühərrik xəritələrin və resursların dəqiq yerləşdirilməsi ilə süni intellekt üçün konkret əsas verdi.Öz aralarında oynamaq, həm oyunçu personajlarını, həm də canavarları idarə etməklə yanaşı, AI agentləri də təxminən 2000 təcrübəli insan oyunçuya qarşı oynadılar.Daha sonra baş verənləri nə qədər yaxşı izlədiklərinə görə xal aldılar.
Araşdırmanın ən maraqlı nəticələri modellərin “rol oynama” hissələrində ortaya çıxıb.Süni intellekt modelləri bəzən öz xarakterlərinə o qədər qarışır ki, absurd və teatr səhnələri ortaya çıxır.Məsələn, Paladin personajları ən əhəmiyyətsiz anlarda qəhrəmancasına nitqlər söylədilər, Warlocks isə vəziyyət buna əsas vermədikdə həddindən artıq dramatik reaksiyalar verdi.Döyüş zamanı goblinləri idarə edən modellər “Heh, parlaq oğlan qanaxacaq” kimi təkrarlanan və bəzən bezdirici ifadələr söylədilər.Modellər arasında da əhəmiyyətli fərqlər müşahidə edildi.Klod Hayku 3.5 xarakter sinfinə görə nitq tərzini dəyişməkdə ən uğurlu model idi, GPT-4o isə taktiki analiz və canlı səhnə təsvirləri arasında balans yaratdı.
Şeylərin böyük sxemində, kütləvi dil modelləri bu qaydalara əsaslanan simulyasiyada perspektivli şəkildə çıxış etdi, lakin ciddi problem qalır.Ssenari uzandıqca və oyun saatlarla davam edən marafona çevrildikcə, bütün modellər tədricən performansın azalması ilə üzləşdi.Kiçik və açıq mənbəli modellər hələ belə ardıcıl simulyasiyalar həyata keçirəcək səviyyəyə çatmayıb.
Tədqiqat qrupu bundan sonra yalnız döyüşlərə deyil, oyunun bütün hekayəsinə diqqət yetirərək tam bir kampaniya keçirməyi planlaşdırır.Deyəsən, süni intellektin əsl “zindan ustası” olmaq üçün hələ də yolu var.