Saturday, January 7, 2012

Povestea celor trei români care te corectează pe internet.

Dan, Radu şi Tiberiu, informaticieni ai Institutului de Cercetări pentru Inteligenţă Artificială din București, eficientizează motoarele de căutare pe internet.

„Ai vrut să spui…“ sau mai delicata „încercaţi varianta…“ nu sunt formule venite din senin, ci rezultatul a zeci de ore de muncă a cercetătorilor care lucrează în domeniul prelucrării limbajului natural. Dan Ştefănescu (31 de ani), Radu Ion (34 de ani) şi Tiberiu Boroş (27 de ani) sunt trei cercetători români care au demonstrat, la competiţia Microsoft Speller Challenge din vara acestui an, că îşi cunosc domeniul. Au obţinut locul patru, dintre peste 300 de participanţi, au câştigat 5.000 de dolari şi o sesiune de workshopuri la sediul Bing, Microsoft, de lângă Seattle, SUA.

Computerul ştie mai bine şi ne arată asta, cu impertinenţă, de fiecare dată când scriem ceva greşit în motoarele de căutare, iar el nu se sfieşte să ne corecteze.

De exemplu, numele Britney Spears a fost scris în 500 de variante şi de fiecare dată Google ştie că utilizatorii se refereau la cunoscuta cântăreaţă. În timp ce noi ne spunem „Oops, I did it again!“, calculatorul are replici mai elegante. La asta lucrează cei trei cercetători români: Dan, Radu şi Tiberiu.

Conectaţi cu toată lumea

Din biroul lor mic de la Academia Română, plin de cutii de la calculatoarele proaspăt cumpărate, tinerii muncesc de zor la proiectele lor de cercetare şi povestesc cum cea mai mare satisfacţie după competiţie a fost faptul că au putut demonstra că pot.

Prelucrarea limbajului natural, un domeniu care abia a împlinit vreo 50 de ani, a devenit o preocupare nu doar pentru companiile mari precum Microsoft, Google sau Yahoo, dar şi pentru instituţiile bancare sau alte instituţii care au arhive cu un număr uriaş de documente.

Băieţii au primit ceva oferte din partea unor firme pe care le-au refuzat dintr-un motiv simplu: pentru moment sunt foarte pasionaţi de cercetare. „O tentaţie mereu există să ne angajăm la companii mari, dar ideea e că noi încercăm să ajungem într-o poziţie din care să ne roage ei, nu să-i rugăm noi să ne ia. Vedem când ajungem acolo“, glumeşte Dan.

Ce se întâmplă în spatele „motoarelor“

La competiţie s-au înscris atât individual, cât şi ca echipă şi fiecare dintre ei a dezvoltat câte un sistem de optimizare a motoarelor. „Ne-au dat nişte date de antrenament, peste 5.000, adică varinate de căutări pe net scrise greşit sau corect şi noi a trebuit să le corectăm. Există şi problema că te poţi apuca să corectezi ceva ce nu trebuie corectat“, explică Dan.

„Nu cumva ai vrut să scrii asta?“

Cât despre tipurile de erori în cazul cuvintelor pe care le introducem în motoarele de căutare, Radu ştie cum să le corecteze, indiferent dacă ai inversat câteva litere sau este vorba de o expresie ambiguă. „Pur şi simplu ai inversat două litere şi ai un cuvânt malformat ce nu apare în limba respectivă. Sau poţi să scrii aiurea, dar să-ţi iasă tot un cuvânt bun. Noi avem un corpus foarte mare pe care Google l-a pus pe net, sunt toate textele lor pe care le-au citit de pe net până în 2006 şi au făcut secvenţe de două-trei-patru cuvinte alăturate şi cu frecvenţă cu care apar. Noi cum facem să vedem dacă un cuvânt este bun în contextul numărului de apariţii“, spune Radu. Şi de aici încolo se naşte întrebarea: „Nu cumva ai vrut să scrii asta?“

Cei trei tineri pasionaţi de munca de cercetare sunt de fapt mâna invizibilă a internetului. „Mai sunt o grămadă de probleme care nu ajung la utilizator, cum ar fi identificarea de limbă sau a expresiilor colocative, suma înţelesurilor cuvintelor, cum este «plouă cu găleata» la care noi trebuie să facem identificarea sensurilor. Când spun că stau pe bancă, nu mă refer la o instituţie bancară“, mai spune Dan.

În căutarea calculatorului care ştie să răspundă la întrebări

La Seattle, băieţii au făcut şi un workshop despre diferenţele dintre industrie şi cercetare. „În cercetare sunt întrebări de genul «de ce se întâmplă asta», iar industria e mai mult interesată de «cum se face», ca să le meargă bine şi să câştige bani“, explică Dan. Lor le place însă mai mult să se ocupe cu „de ce?“-urile.
Cercetătorii lucrează intens să aducă cât mai aproape termenul până la care un calculator va deveni la fel de receptiv ca simpaticul R2-D2 din filmul „Star Wars“ şi să răspundă la întrebări.

La concurenţă cu Google

În timp ce cercetătorul Dan Ştefănescu crede că în 20 de ani am putea să le adresăm întrebări direct computerelor, Radu Ion e mai pesimist. Este însă entuziast atunci când vine vorba despre munca lor: în micul laborator se pregăteşte ceva ce băieţii cred că va depăşi Google. „Acum lucrăm la traducere automată, din engleză în română şi invers. Oricum Google e departe pe orice altceva, dar credem că pe chestiuni de limbă mai are de lucrat“, e secretos Radu.

De altfel, cei trei sunt foarte pasionaţi de ceea ce fac şi pot spune că nici cu banii nu stau prost, atâta vreme cât institutul la care lucrează are multe contracte cu instituţii de cercetare din afară. „Investiţia în cercetare n-o s-o scoţi mâine sau pentru un an, dar dacă nu faci investiţia asta, va trebui să dai mereu bani pe investiţia asta altora. Adică ai bec, televizor şi frigider, dar nu ştiu care din astea trei le mai producem la noi“, spune Dan.

Cum la cercetare suntem departe de a ne compara cu alte ţări, nici la a visa la o megacompanie nu ne putem gândi, chiar dacă IT-iştii români sunt vânaţi de multinaţionale. „Românii sunt destul de buni la a asculta şi a face ce li se spune, dar pe cont propriu e mai greu. Unii sunt puţin comozi“, conchide cercetătorul.

Sursa 1: Adevarul.ro

Sursa 2: http://www.certitudinea.ro

No comments:

Si Deus nobiscum, quis contra nos?
Îndrăzneşte să cunoşti!
Ducit Amor Patriae
Tot ceea ce este necesar ca răul să triumfe este ca oamenii buni să stea cu mâinile în sân.
(Edmund Burke)
Încearcă să nu fii un om de succes, ci un om de valoare! (Albert Einstein)
Nu voi fi un om obişnuit pentru că am dreptul să fiu extraordinar. (Peter O`Toole)
Modestia este, faţă de merit, ceea ce este umbra pentru figurile dintr-un tablou: îi dau forţă şi relief. (La Bruyere)
Maestru este numai acela care este dăruit cu harul de a învăţa pe alţii. Cu adevărat maestru este numai cel care, având el însuşi multă bogăţie sufletească, ştie să dea tot, ştiinţă, pricepere şi suflet, fără intenţii preconcepute şi fără să aştepte nimic în schimb. (Octavian Fodor)

Talent hits a target no one else can hit, genius hits a target no one else can see. (Schopenhauer)
We are what we repeatedly do. Excellence, then, is not an act, but a habit. (Aristotle)