Lajme të mëdha vijnë nga Silicon Valley, teksa OpenAI zbulon Agent-in e saj të AI që mund të kryejë në mënyrë autonome detyra komplekse me shumë hapa duke përdorur kompjuterin e vet virtual për të shfletuar uebin, për të ekzekutuar kod, për të përdorur terminale të tjera, për të menaxhuar skedarë dhe madje për të bashkëvepruar me aplikacionet dhe skedarët tuaj personalë (nëse e lejoni).
Për momentin, ai është i disponueshëm vetëm në SHBA për përdoruesit Pro të ChatGPT. “Operatori do të jetë në vende të tjera së shpejti”-tha CEO i OpenAI Sam Altman. “Evropa, për fat të keq, do të marrë pak kohë”-shtoi ai, pa shpjeguar pse.
Kjo shënon një moment të rëndësishëm drejt AI-së që jo vetëm këshillon, por edhe e bën.
Në një video 25-minutëshe të transmetuar drejtpërdrejt në YouTube, Sam Altman, iu bashkua ekipit të Agjentëve të përbërë nga Casey Chu, Isa Fulford, Yash Kumar dhe Zhiqing Sun për të prezantuar dhe demonstruar asistentin autonom të AI-së të shumëpritur.
“Kemi diçka interesante për ju sot,” hapi Altman, përpara se të prezantonte ekipin dhe t’i bënte Kumar dhe Sun të zhyteshin në një demonstrim të Agjentit që nxitet të planifikojë të gjitha detajet për pjesëmarrjen në një dasmë, duke përfshirë zgjedhjen e hoteleve, veshjeve dhe një dhurate.
Deri tani, shumica e njerëzve ndoshta janë mjaft të njohur me ChatGPT; pjesërisht trajner jete, pjesërisht motor kërkimi dhe pjesërisht redaktor. Por, në fund të ditës, përdoruesi pyet dhe GPT përgjigjet, pastaj përdoruesi bën një pyetje pasuese. Agjenti është një kalim nga biseda në veprim.
Ai kombinon mjete nga Operatori dhe Deep Research i OpenAI në një sistem të fuqishëm që kalon pa probleme midis llojeve të ndryshme të veprimeve në varësi të detyrës në fjalë.
Pra, mund të shfletojë internetin në kohë reale për të gjetur informacion të azhurnuar, mund të përdorë një linjë komande virtuale, ashtu si një njeri që përdor një terminal, për të ekzekutuar kod ose skripte, dhe mund të lexojë, analizojë dhe përmbledhë me saktësi grupe të dhënash dhe dokumente të mëdha, pastaj të distilojë dhe paraqesë punën e tij si të dëshironi.
“Duke integruar këto pika të forta plotësuese në ChatGPT dhe duke futur mjete shtesë, ne kemi zhbllokuar aftësi krejtësisht të reja brenda një modeli,” shkroi OpenAI në një deklaratë. “Tani mund të angazhojë në mënyrë aktive faqet e internetit – duke klikuar, filtruar dhe mbledhur rezultate më të sakta dhe efikase. Ju gjithashtu mund të kaloni natyrshëm nga një bisedë e thjeshtë në kërkimin e veprimeve direkt brenda të njëjtit bisedë.”
Ndërsa do t’i kërkonit GPT-së t’ju shkruante një itinerar udhëtimi për pushime, Agent mund të planifikojë gjithçka – të kontrollojë kalendarin tuaj, të kërkojë fluturime, ture dhe hotele, të rezervojë restorante, të hartojë email-e dhe të përgatisë të gjitha detajet e udhëtimit në PDF ose në formë dokumenti – vetë, me disa miratime nga ju gjatë rrugës.
Kjo kryesisht për shkak të përparimeve të Ndërfaqes së Programimit të Aplikacioneve (API), e cila i lejon asistentit tuaj të AI-së të “flasë” me sisteme të tjera softuerësh, për shembull – si Gmail API, Google Calendar API ose SharePoint API.
Është projektuar të veprojë më shumë si një asistent njerëzor, i cili mund të dërgohet për të trajtuar në mënyrë autonome detyra me shumë hapa, duke ditur se çfarë duhet të bëjë për të përfunduar secilën pjesë pa udhëzimin e përdoruesit. Pasi t’i jepni udhëzimet tuaja, ai do të konfigurojë një kompjuter virtual të sigurt të organizuar nga OpenAI ku në thelb do të menaxhojë projektet e punës.
“E gjithë kjo bëhet duke përdorur kompjuterin e vet virtual, i cili ruan kontekstin e nevojshëm për detyrën, edhe kur përdoren mjete të shumta – modeli mund të zgjedhë të hapë një faqe duke përdorur shfletuesin e tekstit ose shfletuesin vizual, të shkarkojë një skedar nga uebi, ta manipulojë atë duke ekzekutuar një komandë në terminal dhe pastaj ta shikojë rezultatin përsëri në shfletuesin vizual”, tha OpenAI. “Modeli e përshtat qasjen e tij për të kryer detyra me shpejtësi, saktësi dhe efikasitet.”
Siguria ishte një temë e madhe gjatë lançimit, dhe AI ka shumë funksione të integruara për të siguruar kontrollin e përdoruesit dhe për të parandaluar keqpërdorimin. Gjithmonë kërkon miratim të qartë para se të kryejë veprime si dërgimi i email-eve ose ndryshimi i skedarëve, dhe nuk mund të kryejë transaksione financiare. Kur vepron në faqet e internetit të ndjeshme, ajo hyn në “modalitetin e shikimit”, duke u ndalur nëse përdoruesi ndërron skedat.
Është gjithashtu e programuar për të identifikuar dhe injoruar kërkesat kundërshtare të fshehura në faqet e internetit për të manipuluar ose ngatërruar një AI. Dhe mjetet e privatësisë gjithashtu u lejojnë përdoruesve të pastrojnë historikun e shfletimit dhe të shkëputin lejet e aplikacionit.
Një gjë që përdoruesit mund ta gjejnë, megjithatë, është se Agjenti mund të jetë pak i ngadaltë. Po, është akoma më i shpejtë se një njeri, por planifikimi i pushimeve, nga fillimi në fund, mund të zgjasë disa minuta ose më shumë. Dhe do të ndalojë dhe do ta pyesë përdoruesin para se të dërgojë mesazhe, të bëjë rezervime ose të hyjë në skedarë, gjë që shton kohën. Në fund të fundit, qëllimi është që Agjenti të mos kërkojë leje ose kontrolle, por ende nuk jemi aty.
“Nëse një detyrë zgjat më shumë se sa pritej ose ndihet e bllokuar, mund ta ndaloni atë, t’i kërkoni një përmbledhje të progresit ose ta ndaloni plotësisht dhe të merrni rezultate të pjesshme”, tha OpenAI. “Nëse keni aplikacionin ChatGPT në telefonin tuaj, ai do t’ju dërgojë një njoftim kur të keni mbaruar me detyrën tuaj”.
Kumar tha se ekipi është më i fokusuar në “optimizimin për detyra të vështira” sesa në shpejtësi, dhe përdoruesit mund ta lejojnë Agent të punojë në sfond, në vend që ta shikojnë atë të funksionojë./Reuters