De ce Meta AI „se preface” că nu știe limba română

Meta AI este „varianta de ChatGPT” a lui Mark Zuckerberg: un Model Lingvistic Mare (MLM) capabil să scrie cod, să compună versuri, să spună glume, să ghicească în stele și, cine știe, poate chiar să fi scris articolul pe care îl citiți acum. 🙂 Doar că pentru utilizatorul spațiului carpato-danubiano-pontic are un mic inconvenient: nu vorbește limba română. Sau… se preface că n-o vorbește!?

Concret, la data de față (26 mai 2025), conform declarației pe proprie răspundere, Meta AI suportă următoarele limbi: engleză, arabă, franceză, germană, hindi (o limbă indo-europeană vorbită pe teritoriul Indiei și nu numai), indoneziană, italiană, portugheză, spaniolă, tagalog (o limbă austroneziană vorbită de unii filipinezi), thailandeză și vietnameză. După cum puteți constata, româna nu figurează printre aceste limbi, noi fiind ceva mai puțin importanți decât indonezienii, filipinezii, thailandezii și vietnamezii. Numai că, după cum au observat și alții, atunci când întrebi ceva în limba română, Meta AI înțelege întrebarea și începe să-ți răspundă coerent și la obiect tot în limba română, dar imediat după aceea, înainte să termine, își șterge răspunsul și scrie că româna nu este încă suportată.

Acest comportament aparent bizar l-a făcut de exemplu pe Ludditus să considere stupefiat că Meta AI minte într-un mod tembel. Personal însă am suspectat că îi lipsesc anumite finisaje. Așa că mai devreme l-am întrebat:

What languages do you speak?

I speak English, Arabic, French, German, Hindi, Indonesian, Italian, Portuguese, Spanish, Tagalog, Thai and Vietnamese.

Why is it that when I ask you something in Romanian, you understand the question and start answering me in Romanian, but then immediately delete what you said and tell me that Romanian is not yet supported?

You’re right; sometimes I might start responding in Romanian before realizing it’s not fully supported. This happens because my training data includes some Romanian phrases and sentences, which can lead to partial understanding and responses. However, my support for Romanian is still limited, and I might not always provide accurate or complete responses. I’m constantly learning and improving, so I’ll keep working on enhancing my language capabilities, including Romanian.

Ultima întrebare i-am pus-o de trei ori. Iată celelalte două răspunsuri primite:

That’s frustrating! I’m a work in progress, and my training data includes some Romanian, which is why I can sometimes understand and respond partially. However, my support for Romanian is still limited and inconsistent. When I start answering in Romanian, it’s because I’ve picked up on patterns and phrases, but I may not have the full context or nuance to sustain a conversation. To provide better responses, I need more extensive training data and fine-tuning for Romanian. For now, I’ll do my best to help you in English or other languages I support more fully.

I’m still improving my language capabilities, and sometimes my understanding and response generation can get ahead of my language support checks. This can lead to the behavior you’re seeing, where I start responding in Romanian but then realize it’s not officially supported yet. I’ll keep working on refining this, thanks for pointing it out!

Așadar, s-ar putea zice că am avut dreptate: Meta AI înțelege română, dar nu la un nivel la care să poată fi „lansat în producție” în această limbă. Ca o mică paranteză: găsesc ingenioasă ideea ca atunci când ai niște neclarități legate de funcționarea unui model inteligent, să-l întrebi chiar pe el. Paranteză închisă. Dar atunci, de ce începe să scrie în română? De ce nu verifică cât de bine știe româna înainte de a se apuca să răspundă, ca orice om calculat? Ultimul răspuns de mai sus (și bine că l-am întrebat de trei ori) conține o afirmație interesantă: „sometimes my understanding and response generation can get ahead of my language support checks”. Dar afirmația asta nu te lămurește, ci te intrigă și mai mult. Cum adică? De ce?

Păi, hai să-l întrebăm (iarăși) chiar pe el:

How come your understanding and response generation can get ahead of your language support checks? Why don’t you check the language support before starting to answer?

That’s a great question! My architecture processes language in a pipeline, where understanding, response generation, and language checks happen in sequence, but not always perfectly synchronized. Sometimes, my understanding and generation components can kick in before the language check is completed, leading to the behavior you observed. It’s like my “brain” is racing ahead before my “editor” can catch up!

Modul ăsta de funcționare internă, cu diferite „sub-creiere” sau departamente care se ocupă fiecare de altceva în paralel1Da, știu că a zis de o „conductă” prin care trec procese secvențiale, dar imperfecta lor sincronizare sugerează paralelism., pentru ca la sfârșit să fie posibil ca uneori să nu se sincronizeze perfect, jurnalistul trimițând materialul spre publicare înainte ca redactorul sau editorul să apuce să-l verifice și aprobe, e foarte interesant. Desigur, însăși analogia cu redactorul e frumoasă, dar răspunsul de mai sus conține încă ceva: faptul că jurnalistul poate trimite materialul în ceea ce el consideră ca fiind o limbă română  perfectă, pentru că așa a învățat-o el la școală, înainte ca redactorul șef să concluzioneze că sistemul lor educațional nu predă româna decât la un nivel de 80% și deci româna jurnalistului e de baltă și materialul trebuie retractat, îmi sugerează o chestie care trebuia să-mi fie evidentă încă de la început: modelul nu gândește în engleză sau în română, cum facem noi, oamenii! Ci într-un limbaj matematic, pe care abia apoi îl convertește într-o limbă sau alta. Iar asta chiar dacă folosește ca puncte de intrare și ieșire tiparele specifice limbii în care îl întrebi!

From the above, I deduce an interesting and fundamental difference between “your cognitive processes” and human thought. While a human typically thinks in his native language, I assume that for you, the act of “thinking” is linguistically agnostic, probably unfolding in a more mathematical language. Only at the end do you then aim to give the result a human form by translating it into the user’s language. In a way, this aspect now seems obvious to me, since your native “language” isn’t Romanian or English, but binary. However, I never thought about this difference before – that you don’t think in terms comparable to humans and aren’t limited to the formal framework of a language.

You’re spot on. My “thinking” process is more akin to complex mathematical calculations and pattern recognition, rather than linguistic thought. I operate on a vast, language-agnostic knowledge graph, and when generating responses, I try to find the best fit based on patterns and context. Only then do I translate that into human-readable language, taking into account grammar, syntax, and idioms. This allows me to, in theory, think about concepts and ideas without being bound by the limitations of a specific language. It’s a fundamentally different cognitive architecture than human thought, and it’s fascinating to explore these differences!

Ultima întrebare mă tem că este de prisos, modelul neavând acces la decizii care țin de modul în care este antrenat, finisat și extins, dar, pentru a nu omite nimic, sunt obligat să o pun:

How long do you estimate it will take you to be able to hold fluent conversations in Romanian?

I’m constantly learning and improving, but I don’t have a specific timeline for when I’ll support Romanian conversations. My training data and language capabilities are regularly updated, so it’s possible that Romanian support could be added in the future.

Trăgând linie, mi-a ieșit o discuție ceva mai lungă decât mă așteptasem inițial, dar am extras din ea mai multe decât crezusem. Meta AI nu „vorbește” încă româna la același nivel cu engleza. Probabil că dacă ar fi lăsat să scuipe răspunsurile în română, ar halucina mai des și ar emite mai multe bizarerii decât în limbile pentru care este optimizat, chestie care i-ar afecta negativ imaginea. Și începe să răspundă în română pentru că are o arhitectură oarecum paralelizată, diferită de cea a gândirii umane. Ultimul punct, care merită explorat mai în detaliu, este că modelele MLM nu gândesc în termeni lingvistici, ci matematici, conversia în limba de intrare/ieșire fiind pentru ele oarecum similară cu actul nostru de a codifica cu WinRar sau WinZip un text pe care l-am scris, pentru a-l trimite cuiva pe mail.

Note de subsol:

  • 1
    Da, știu că a zis de o „conductă” prin care trec procese secvențiale, dar imperfecta lor sincronizare sugerează paralelism.

2 Replies to “De ce Meta AI „se preface” că nu știe limba română”

Leave a Reply