Google DeepMind, Meta și Nvidia se numără printre actorii importanți care mizează pe această direcție de obținere a “superinteligenței” mașinăriilor, în condițiile în care progresul modelelor mari de limbaj (LLM), precum ChatGPT, începe să încetinească, în ciuda investițiilor uriașe.

Spre deosebire de LLM, care se antrenează în special pe miliarde de fraze citite, noile modele sunt antrenate pe fluxuri de date provenite din medii reale sau simulate, precum imagini, videoclipuri, aplicații de realitate augmentată, jocuri, roboți. Ar putea deschide drumul pentru aplicații în domenii precum mașinile autonome, robotică sau agenți personali AI, însă necesită resurse uriașe de date și putere de calcul, rămânând încă o provocare tehnică nerezolvată. “Oportunitatea pentru world foundation models este uriașă, de ordinul a o sută de mii de miliarde de dolari, dacă putem construi o inteligență care să înțeleagă și să opereze în lumea fizică”, a declarat Rev Lebaredian, vicepreședinte Nvidia pentru tehnologia de simulare.

Practic, un “world model” primește mii sau milioane de videoclipuri și simulări (de exemplu mingi care sar, roboți care apucă obiecte, mașini care merg pe drum), după care încearcă să “ghicească” ce se întâmplă în următorul cadru sau în următoarea secundă. Dacă predicția nu este corectă, își ajustează comportamentul, dar după destul de multe exemple, începe să aibă o intuiție despre cum “funcționează lumea”.

Plasat în roboți, de exemplu, un asemenea model AI le-ar permite acestora să exerseze sarcini în mod sigur și eficient, accelerând procesul de învățare prin testare și antrenament rapid. Ele ajută roboții să se adapteze la situații noi, învățând din diverse date și experiențe.

Separat, un “world model” ar putea analiza videoclipuri complexe, atât înregistrate, cât și live, pentru a putea crea întrebări și răspunsuri în limbaj natural despre ceea ce se vede în video, pot genera rezumate automate, pot detecta obiecte, pot localiza evenimente și pot înțelege mai bine contextul vizual. Această abilitate poate fi folosită de exemplu în orașele inteligente, pentru a îmbunătăți siguranța și eficiența operațională. Exemplele includ identificarea riscurilor de accident și a comportamentelor nesigure în fabrici, oferirea unei înțelegeri detaliate a cauzelor și efectelor pentru investigarea rapidă a incidentelor, monitorizarea traficului, a mulțimilor, a incidentelor de siguranță publică și a pericolelor de mediu în orașe, dar și depistarea defectelor sau a neregulilor pe liniile de producție prin inspecție vizuală, pentru controlul calității.

Google DeepMind a lansat recent modelul Genie 3, capabil să genereze videoclipuri cadru cu cadru, luând în considerare interacțiunile anterioare, în timp ce Meta testează a doua generație a modelului V-JEPA, inspirat din felul în care copiii învață observând lumea din jur. Yann LeCun, șeful laboratorului FAIR și unul dintre pionierii AI, susține că LLM-urile nu vor putea niciodată să planifice și să raționeze la nivel uman, însă Meta continuă să investească masiv și în dezvoltarea propriei familii de modele Llama. În paralel, start-up-uri precum World Labs sau Runway explorează utilizări în industria divertismentului, prin crearea de medii 3D interactive sau scene de joc generate în timp real. Și Niantic, compania din spatele Pokémon Go, folosește date colectate de la milioane de jucători pentru a-și construi propriul world model. Nvidia, la rândul ei, integrează această direcție în platforma Omniverse, mizând pe “AI fizic” ca pe următoarea etapă de creștere.

Experții estimează că ar putea dura încă un deceniu până ca aceste sisteme să atingă inteligență la nivel uman, dar potențialul lor este văzut ca fiind comparabil cu impactul pe care l-au avut computerele asupra muncii intelectuale.

Sursa: FT

Echipa Biziday nu a solicitat și nu a acceptat nicio formă de finanțare din fonduri guvernamentale. Spațiile de publicitate sunt limitate, iar reclama neinvazivă.

Dacă îți place ce facem, poți contribui tu pentru susținerea echipei Biziday.

Susține echipa Biziday