Current track

Title

Artist


O inteligență artificială care înțelege relațiile dintre obiecte

#Postat de on decembrie 1, 2021

Instrumentul dezvoltat de cercetători poate genera o imagine a unei scene pe baza unei descrieri text a obiectelor și a relațiilor lor. În această figură, imaginea finală a cercetătorilor este în dreapta și urmează corect descrierea textului.

Când oamenii privesc o scenă, văd obiecte și relațiile dintre ele. Pe partea de sus a biroului dvs., ar putea fi un laptop care se află în stânga unui telefon, care se află în fața unui monitor de computer.


Multe modele de deep learning se luptă să vadă lumea în acest fel, deoarece nu înțeleg relațiile încurcate dintre obiectele individuale. Fără cunoștințe despre aceste relații, un robot conceput să ajute pe cineva dintr-o bucătărie ar avea dificultăți să urmeze o comandă de genul „ridică spatula care se află în stânga aragazului și așează-o deasupra fundului de tăiat”.

În efortul de a rezolva această problemă, cercetătorii MIT au dezvoltat un model care înțelege relațiile elementare dintre obiectele dintr-o scenă. Modelul lor reprezintă relațiile individuale pe rând, apoi combină aceste reprezentări pentru a descrie scena generală. Acest lucru permite modelului să genereze imagini mai precise din descrierile de text, chiar și atunci când scena include mai multe obiecte care sunt aranjate în relații diferite între ele.

Această activitate ar putea fi aplicată în situațiile în care roboții industriali trebuie să efectueze sarcini complexe de manipulare în mai multe etape, cum ar fi stivuirea articolelor într-un depozit sau asamblarea aparatelor. De asemenea, aduce domeniul cu un pas mai aproape de a permite mașinilor care pot învăța și interacționa cu mediile lor mai mult ca oamenii.

„Când mă uit la o masă, nu pot spune că există un obiect în locația XYZ. Mintea noastră nu funcționează așa. În mintea noastră, când înțelegem o scenă, o înțelegem cu adevărat pe baza relațiilor dintre Obiectele. Credem că prin construirea unui sistem care poate înțelege relațiile dintre obiecte, am putea folosi acel sistem pentru a manipula și a schimba mai eficient mediile noastre”, spune Yilun Du, Ph.D. student la Laboratorul de Informatică și Inteligență Artificială (CSAIL) și coautor principal al lucrării.

Du a scris lucrarea cu co-autori principali Shuang Li, un doctorat CSAIL. student și Nan Liu, student absolvent la Universitatea din Illinois la Urbana-Champaign; precum și Joshua B. Tenenbaum, Paul E. Newton, profesor de dezvoltare a carierei de științe cognitive și calcul în Departamentul creierului și al științelor cognitive și membru al CSAIL; și autorul senior Antonio Torralba, profesor de inginerie electrică și informatică Delta Electronics și membru al CSAIL. Cercetarea va fi prezentată la Conferința privind sistemele de procesare a informațiilor neuronale din decembrie.

Câte o relație pe rând

Instrumentul dezvoltat de cercetători poate genera o imagine a unei scene bazată pe o descriere text a obiectelor și a relațiilor lor, cum ar fi „O masă de lemn la stânga unui taburet albastru. O canapea roșie la dreapta unui taburet albastru”.

Sistemul lor ar împărți aceste propoziții în două bucăți mai mici care descriu fiecare relație individuală („o masă de lemn la stânga unui taburet albastru” și „o canapea roșie la dreapta unui taburet albastru”) și apoi modela fiecare parte separat . Piesele respective sunt apoi combinate printr-un proces de optimizare care generează o imagine a scenei.

Cercetătorii au folosit o tehnică de învățare automată numită modele bazate pe energie pentru a reprezenta relațiile individuale cu obiectele într-o descriere a scenei. Această tehnică le permite să utilizeze un model bazat pe energie pentru a codifica fiecare descriere relațională și apoi să le compună împreună într-un mod care să deducă toate obiectele și relațiile.

Împărțind propozițiile în bucăți mai scurte pentru fiecare relație, sistemul le poate recombina într-o varietate de moduri, astfel încât este mai capabil să se adapteze la descrierile scenelor pe care nu le-a văzut până acum, explică Li.

„Alte sisteme ar prelua toate relațiile în mod holistic și ar genera imaginea într-un singur punct din descriere. Cu toate acestea, astfel de abordări eșuează atunci când avem descrieri în afara distribuției, cum ar fi descrieri cu mai multe relații, deoarece aceste modele nu se pot adapta cu adevărat. o singură fotografie pentru a genera imagini care conțin mai multe relații. Cu toate acestea, pe măsură ce compunem împreună aceste modele separate, mai mici, putem modela un număr mai mare de relații și ne putem adapta la combinații noi”, spune Du.

Sistemul funcționează și în sens invers – având în vedere o imagine, poate găsi descrieri de text care se potrivesc cu relațiile dintre obiectele din scenă. În plus, modelul lor poate fi folosit pentru a edita o imagine prin rearanjarea obiectelor din scenă, astfel încât să se potrivească cu o nouă descriere.

Înțelegerea scenelor complexe

Cercetătorii și-au comparat modelul cu alte metode de deep learning cărora li s-au oferit descrieri text și au fost însărcinate să genereze imagini care descriu obiectele corespondente și relatiile dintre ele. În fiecare instanta modelul lor a depășit nivelul baseline.

Sursa: techxplore.com


Opiniile cititorului

Lasa un comentariu

Your email address will not be published. Câmpurile obligatorii sunt marcate cu *