Anthropic a prezentat un nou sistem numit “clasificatori constituționali”, care funcționează ca un strat protector pentru modelele de inteligență artificială mai mari, cum ar fi chiar chatbot-ul companiei, Claude, potrivit unui comunicat de presă. Măsura vine în contextul în care companiile din domeniu lucrează la metode prin care să prevină încercările utilizatorilor de a genera informații periculoase (jailbreaking), cum ar fi instrucțiuni pentru a construi arme chimice sau biologice. Principalul avantaj al metodei create este capacitatea sa de a răspunde rapid și de a se adapta, potrivit unui membru al personalului tehnic de la Anthropic. 

Sistemul creat de Anthropic se bazează pe o “structură” de reguli flexibile care stabilesc care este conținutul acceptabil și care este restricționat. Totuși, în unele cazuri, utilizatorii se folosesc de anumite elemente pentru a determina chatbot-ul să le ofere informațiile “nepermise”, precum folosirea unor majuscule sau o solicitare prin care i se cere modelului să povestească ca o bunică subiectul respectiv. 

În timpul testelor, echipa Anthropic le-a promis recompense de până la 15 mii de dolari celor care reușeau să treacă de sistemul de filtrare creat de companie. Testerii au petrecut mai mult de trei mii de ore încercând să treacă de acești clasificatori. Astfel, modelul Claude 3.5 Sonnet a respins peste 95% din încercări, comparativ cu modelele care nu aveau implementat filtrul, care au respins doar 14% din încercări. 

Totuși, implementarea acestor funcții implică și costuri suplimentare pentru companii, care deja plătesc sume uriașe pentru a menține puterea de calcul necesară formării și funcționării modelelor. Anthropic a declarat că filtrul ar duce la o creștere de aproape 24% a costurilor pentru funcționare. 

Sursă alternativă: FT

Foto: Sasinparaksa | Dreamstime.com

Echipa Biziday nu a solicitat și nu a acceptat nicio formă de finanțare din fonduri guvernamentale. Spațiile de publicitate sunt limitate, iar reclama neinvazivă.

Dacă îți place ce facem, poți contribui tu pentru susținerea echipei Biziday.

Susține echipa Biziday