OpenAI jaunā pieeja viena kadra imitācijas apguvei, palūrēt AI nākotnē

Vienu kadru imitācijas mācīšana Jans Duans, Marcins Andrikovičs, Bredijs C. Stadijs, Džonatans Ho, Jonas Šneiders, Iļja Sutskevers, Poters Abbeels, Wojciecs Zaremba

16. maijā OpenAI pētnieki dalījās videoklipā par vienu no saviem projektiem kopā ar diviem svarīgiem dokumentiem, kuros apskatīti risinājumi trim galvenajiem pašreizējās AI attīstības sastrēgumiem: metamācīšanās, viena kadra mācīšanās un automatizēta datu ģenerēšana. Iepriekšējā amatā es apsolīju rakstu, kas veltīts aizraujošai vienas jomas mācīšanās problēmai, tāpēc šeit tas ir. Varat sākt, apskatot viņu atbrīvoto videoklipu, kas izskaidro viņu apbrīnojamo darbu:

Šajā video redzat vienas rokas fizisku robotu, kas sakrauj klučus viens otram virsū. Zinot sarežģītos uzdevumus, kurus rūpnieciskie roboti šobrīd spēj veikt, ja pētnieks nemēģinātu izskaidrot notiekošo, daudzos kontos tas būtu ļoti bīstami. Kontrolētā vidē uzdevums ir vienkāršs, procesuālās (kodētās) pieejas jau ir atrisinājušas šīs problēmas, un daudzsološs un revolucionārs ir tas, cik daudz vispārējais ietvars zem tā varētu pielāgot daudzkārtīgākai, sarežģītākai un adaptīvākai uzvedībai trokšņainākā vidē.

Prāta atšķirība starp cilvēku un augstākiem dzīvniekiem, lai arī kāda tā būtu, noteikti ir pakāpe un nav veida.
- Čārlzs Darvins

Pēc analoģijas šis raksts ir pārliecinošs pierādījums tam, ka kognitīvo sistēmu atšķirības starp pašreiz iemiesoto AI (fizisko sistēmu mākslīgais intelekts) un 22. gadsimta robotiem būs mēroga un nevis veida. Kopš 2012. gada ImageNet konkursa * uzplaukums ir dziļas mācīšanās pētījums, ne tikai tāpēc, lai modificētu neironu tīkla veikto izkliedēto aprēķinu raksturu, bet gan atrodot jaunus veidus, kā strukturēt tīklus, lai viņi varētu iemācīties konkrētu uzdevumu. Tā kā neironu tīkla funkcija ir struktūra, šī struktūra nav kodēta (nav izstrādāta ar rokām), bet atomu skaitļošanas vienību rezultāti, kas sākotnēji savienoti starp ieejām un izejām, ir spējīgi mainīt to struktūru un savienojumus. Pārveidojot tīkla vispārējo struktūru, tas apgūst noteiktu funkciju.

Šajā rakstā viņi izveidoja vispārēju sistēmu, kas spēj apmācīt aģentu abstrakti attēlot uzdevumus un iemācīties nodot šīs zināšanas jauniem neredzētiem uzdevumiem (pārnest mācības) pēc tikai viena jaunā uzdevuma demonstrācijas (viena attēla imitācijas mācīšanās).

Uzdevumi

Lai arī precīza arhitektūras realizācija atšķiras, kā piemērus viņi ņem divus uzdevumus, lai parādītu vispārējās pieejas veiktspēju.

Daļiņu aizsniegšana

Pirmajā piemērā sistēma saņem krāsainu mērķa pozīciju ieejas plaknē un simulēta aģenta viena video demonstrāciju, kas dodas uz norādīto mērķi.

2. attēls. Robots ir punktveida masa, ko kontrolē ar divdimensiju spēku. Uzdevumu grupa ir mērķa sasniegšana. Orientiera identitāte dažādiem uzdevumiem ir atšķirīga, un modelim ir jāizdomā, kuru mērķi sasniegt, pamatojoties uz demonstrāciju. (pa kreisi) robota ilustrācija; (vidū) uzdevums ir sasniegt oranžo lodziņu, (pa labi) uzdevums ir sasniegt zaļo trīsstūri.

Apmācības laikā sistēmai ir jāatveido tas pats uzdevums (jāsasniedz oranža krāsa), bet no citas konfigurācijas, ar atšķirīgām sākuma pozīcijām robotam un mērķiem. Nav skaidrs, vai testēšanas laikā aģents tiek pārbaudīts uzdevumā, ar kuru viņš tika apmācīts (sasniegt oranžu), vai uzdevumā, kuru viņš vēl nekad nebija redzējis (piemēram, sasniegt zaļu), vai abos.

Apmācītā politika tiek vērtēta pēc jauniem scenārijiem un atkarīga no jaunām demonstrācijas trajektorijām, kas apmācības laikā nav redzamas.

Ir skaidrs, ka aģentam ir jāizsecina mērķa mērķim no unikālas demonstrācijas un atkal jāsāk no citas konfigurācijas. Tas nozīmē, ka precīzu motora secību nevarēja iemācīties pirms testēšanas, un tas ir jāsecina, veicot uzdevuma abstrakciju (augstāka līmeņa strukturētu attēlojumu) un motora plānošanu.

Bloķēt kraušanas

Otrajā piemērā aģentam jāiemācās sakraut klucīšus (identificētus ar dažādām krāsām) tādā pašā secībā, kā parādīts vienā simulētā demonstrācijā. Šī modelētā demonstrācija ir 2D attēlu sērija, ko ģenerē 3D fizikas motors, kurā tiek modelētas robotu motora un maņu iekārtas īpašības.

Viena šāviena politika. Vienota politika, kas apmācīta daudzu uzdevumu risināšanai. Galvenais uzdevums: {abc, def}, Apakšējais uzdevums: {ab, cd, ef}

Abos piemēros kubu sākotnējās pozīcijas demonstrācijā un reālajā testā ir atšķirīgas, katrs uzdevums sākas no citas sākotnējās pozīcijas. Robots nemēģina nomainīt klucīšus, lai tie atbilstu demonstrācijas sākotnējam stāvoklim, tas pārnes augstākā līmeņa uzdevumu - salikt kubu neatkarīgi no stāvokļa, kurā viņš sākas.

Apmācība, izmantojot domēna randomizāciju

Abos gadījumos visus apmācības laikā izmantotos attēlus iegūst, imitējot, izmantojot domēna randomizāciju, kurā tie nejauši izvēlas šādus izlases aspektus:

Novērstu objektu skaits un forma uz galda Visu galda objektu novietojums un faktūra Galda, grīdas, skybox un robota faktūras Kameras novietojums, orientācija un redzes lauks Kameras apgaismojums Gaismā skatuves pozīcija, orientācija, un lukturu specifiskie raksturlielumi Attēliem pievienotā nejaušā trokšņa tips un daudzums

Apmācības komplekts daļiņu sasniegšanai

Mēs uzskatām par arvien grūtāku uzdevumu ģimeņu kopumu, kur orientieru skaits palielinās no 2 līdz 10. Katrā uzdevumu ģimenē apmācībai mēs savācam 10000 trajektorijas, kur orientieru vietas un punktveida robota sākuma pozīcija ir nejaušināta. Lai efektīvi ģenerētu demonstrācijas, mēs izmantojam grūti kodētu ekspertu politiku. Mēs pievienojam troksni trajektorijām, izjaucot aprēķinātās darbības pirms to piemērošanas vidē, un mēs izmantojam vienkāršu uzvedības klonēšanu, lai apmācītu neironu tīkla politiku

Apmācības komplekts bloku sakraušanai

Konkrēti, mēs apkopojam 140 apmācības uzdevumus un 43 pārbaudes uzdevumus, katrs ar atšķirīgu bloku izkārtojumu. Bloku skaits katrā uzdevumā var svārstīties no 2 līdz 10. Apmācībai vienā uzdevumā mēs savācam 1000 trajektorijas un uzturam atsevišķu trajektoriju un sākotnējo konfigurāciju komplektu, kas jāizmanto novērtēšanai. Līdzīgi kā daļiņu sasniegšanas uzdevums, trajektorijas savākšanas procesā mēs ievadām troksni. Trajektorijas tiek apkopotas, izmantojot precīzi kodētu politiku.

Veiksmīgas demonstrācijas tiek vāktas, izmantojot precīzi kodētu politiku

Ņemiet vērā, ka pareizas trajektorijas apgūšanas laikā tiek ģenerēta procesuāla “kodēta” politika, kas, manuprāt, balstās uz klasiskām sistēmas identifikācijas un kontroles metodēm. Tātad apmācības un testēšanas laikā aģentam ir divas ieejas: a) demonstrācija konfigurācijā A un b) sākuma konfigurācija B. Tikai apmācības laikā mācību algoritmam ir pieejama arī ideāla reakcija: trajektorija, kas sākas no konfigurācijas B, atbild uz problēmu un ar kuru aģenta reakcija tiks salīdzināta mācību laikā - padarot to par uzraudzītu mācību problēmu.

Katram apmācības uzdevumam mēs pieņemam, ka ir pieejams veiksmīgu demonstrāciju komplekts.

Ja tas nav skaidrs, nākamajā sadaļā apskatīšu atšķirības starp dažādajiem mācību paradigmām.

Optimizācijas algoritms un zaudējumu funkcija

Pārraudzīta mācīšanās attiecas uz apmācības paradigmām, kurās katram lēmumam tīklam ir pieeja pareizajai izvēlei, kas viņam būtu bijusi jāizdara, un līdz ar to arī kļūdas jēdzienam. Piemēram, veicot suņu un kaķu klasifikācijas uzdevumu, suņu un kaķu attēlu etiķete apmācības laikā ir iepriekš zināma, un kļūdas tiek nekavējoties atklātas. Šajā ziņā tas atšķiras no nepārraudzītas mācīšanās, kurā parasti aģentam tiek lūgts atrast iepriekš nezināmu struktūru saņemtajos materiālos, un bez kaķu un suņu etiķetēm būtu jāatklāj, ka ir divas dažādu objektu kopas, kuru pamatā ir tikai datos ietverto informāciju. Tas atšķiras arī no pastiprināšanas mācīšanās, kas bieži attiecas uz reālā laika sistēmu, kurā precīza lēmumu secība, kas ved uz mērķi, nav zināma, bet tikai galīgais “atalgojums” izlems, vai secība bija pareiza. Izmantojot imitācijas apguvi, viņi klasisko pastiprināšanas mācību problēmu pārveido uzraudzītā mācību problēmā, kurā kļūda tiek aprēķināta no attāluma līdz novērotajai trajektorijai.

Kā tas ir jebkura uzraudzīta apmācības procesa gadījumā, šo uzdevumu pilnībā definē zaudējumu funkcija, kuras mērķis ir kvantitatīvi noteikt, cik tālu aģents bija no paredzētās uzvedības. Šīs funkcijas noteikšana bieži ir kritisks solis, jo tas nosaka, kā optimizācijas algoritmi atjaunina modeļa parametrus. Šie algoritmi ir nozīmīgi aprēķina laika izteiksmē, un, lai vispār saprastu, tie bieži ir jāpielāgo. Patiešām, risinājumi, kas samazina funkciju ļoti augstās dimensijās, atrodas ļoti mazā parametru telpas apvalkā ar nelielu šķēršļu attālumu starp tiem, tiklīdz jūs attālinaties no šī mazā domēna, attālums starp risinājumiem ātri palielinās. Šajā jautājumā ir daudz ļoti interesanta darba, ko cita starpā paveica ļoti apbrīnojamā Jennifer Chayes, viņa šo tēmu sarindo ļoti interesantā intervijā par pēdējo Talking Machines epizodi.

Apmācot politikas tīklus (viss tīkls, pēc kura var izlemt, kuru darbību veikt), viņi vispirms apstrādā veiksmīgo demonstrācijas trajektoriju. Šajā gadījumā viņi salīdzinās divas pieejas: klasisko uzvedības klonēšanu (nav precīzi pārliecināts par izmantoto ieviešanu) un DAGGER algoritmus. Pēc tam tas ļaus iteratīvi samazināt zaudējumu funkciju vai nu ar L2, vai ar krusteniskās entropijas zudumiem, pamatojoties uz to, vai darbības ir nepārtrauktas vai diskrētas (balstoties uz notikumu sadalījumu secībā). Visos eksperimentos viņi izmantoja Adamax algoritmu, lai veiktu optimizāciju ar mācību ātrumu 0,001.

Pakāpiena izmērs sākas ar mazu un eksponenciāli samazinās.

Algoritms pats par sevi neļauj pārsūtīšanu, tas ir tas, kā jūs izveidojat savu apmācības komplektu un zaudējumu funkciju, kas ļaus pārsūtīt.

Uzdevumos pastāv divu veidu pārsūtīšana. Pirmais veids tiek saukts par “realitātes plaisas mazināšanu”, tas ir vispārinājums mācībās, kas ļauj pāriet no apmācības uz imitētām ievadēm uz dabisko stimulu pārbaudi. Simulācijas dati bieži ir pārāk nevainojami reālās pasaules tuvinājumi, kuriem nav reāla objekta sarežģītības. Reālajā pasaulē kamera var būt kļūdaina un trokšņaināka, motora vadība būs mazāk precīza, krāsas mainīsies, faktūras būs bagātākas utt. Lai varētu veikt pirmo pārsūtīšanu, viņi izmanto metodi, kuru viņi dēvē par “domēna nejaušināšanu”. Tīkls, pievienojot ieejām troksni, var apgūt kopējo atbilstošo struktūru, kas ļaus tam vispārināties atbilstoši reālajai pasaulei. Piemēram, viņi mainīs kameras leņķi starp treniņu piemēriem, mainīs faktūras vai padarīs trajektorijas mazāk perfektas. Pievienojot troksni apmācības laikā, mēs pievienojam izturību.

Otrais šeit pārbaudītais pārnesums ir spēja radīt attiecīgu motora secību iepriekš neredzētā konfigurācijas un mērķa komplektā, pamatojoties uz vienu demonstrāciju, kas sākas citā sākotnējā konfigurācijā, bet ar līdzīgu gala mērķi. Šeit atkal pārvietošanu padarīs iespējamu tas, kā mēs konstruējam treniņu komplektu un modelējam zaudējumu funkciju. Piedāvājot demonstrācijas apmācības laikā, kas nesākas no viena un tā paša sākotnējā stāvokļa, lai sasniegtu līdzīgu mērķi, jūs ļaujat tīklam iemācīties iegult augstāku mērķa attēlojumu, neizmantojot absolūtās pozīcijas, kā arī augstākas kārtas attēlojumu motora secība, kas nav vienkārša imitācija. Naivā sākotnējā arhitektūra ļauj trenēties, lai modificētu struktūru atbilstošā veidā, un šī apmācītā struktūra nozīmē pēdējo funkciju.

Mērķi

Veidojot bloku kraušanas paradigmu, viņiem bija vairāki ierobežojumi, kurus viņi vēlējās, lai viņu mācību aģents satiktos.

Tam jābūt viegli piemērojamam uzdevuma gadījumiem, kuriem ir atšķirīgs bloku skaits.
Tam, protams, vajadzētu būt vispārinātam par viena un tā paša uzdevuma dažādām permutācijām. Piemēram, politikai vajadzētu labi darboties ar {dcba} uzdevumu, pat ja tā ir apmācīta tikai uzdevumam {abcd}.
Tam būtu jāaptver dažāda garuma demonstrācijas.

Viņiem bija vairāki jautājumi, uz kuriem viņi gribēja atbildēt uz šo uzdevumu.

Kā treniņš ar uzvedības klonēšanu salīdzina ar DAGGER, ņemot vērā, ka bezsaistē var savākt pietiekami daudz datu?
Kā kondicionēšana visā demonstrācijā tiek salīdzināta ar kondicionēšanu galīgajā vēlamajā konfigurācijā, pat ja gala konfigurācijā ir pietiekami daudz informācijas, lai pilnībā norādītu uzdevumu?
Kā kondicionēšana visā demonstrācijā tiek salīdzināta ar kondicionēšanu uz trajektorijas “momentuzņēmumu”, kas ir maza informatīvāko kadru apakškopa
Vai mūsu sistēmu var veiksmīgi vispārināt uz tādu uzdevumu veidiem, kādus tā nekad nav redzējusi apmācības laikā? (++)
Kādi ir pašreizējie metodes ierobežojumi?

Arhitektūra

Daļiņu sasniegšana

Šajā pirmajā piemērā viņi salīdzināja trīs arhitektūras, kuru pamatā visi bija Long Short Term Memory (LSTM) neironu tīkli. Turpmāk tiks aprakstīts šo tīklu apraksts par atmiņu un uzmanību, kas ir absolūti aizraujoši priekšmeti gan izziņas, gan skaitļošanas zinātnēs. Būtībā LSTM baro tīkla iepriekšējās izlaides (laikā) kā tīkla ievades daļu katrā jaunā laika punktā, ļaujot pagātnes stāvokļu informācijai informēt tagadni (tātad viņu īstermiņa atmiņas tīklu nosaukumus). Tās ir daudzo moderno tehnoloģiju, kas nodarbojas ar laikrindu (sak, Alexa, Siri uc), pamatā.

Šeit viņi izmanto šos trīs īpašos nosacījumus:

  1. Plain LSTM: iemācās iegult trajektoriju un pašreizējo stāvokli, lai to ievadītu daudzslāņu perceptronā, kas radīs motora darbību
  2. LSTM ar uzmanību: izveidojiet svērtu attēlojumu par trajektorijas orientieriem
  3. Galīgais stāvoklis ar uzmanību: treniņos izmantojiet tikai galīgo stāvokli, lai iegūtu orientieriem svarus, līdzīgi kā iepriekšējā arhitektūrā

Bloķēt kraušanas

Lai gan principā vispārējs neironu tīkls varētu mācīties kartēšanu no demonstrācijas un pašreizējiem novērojumiem līdz atbilstošām darbībām, mēs uzskatījām, ka ir svarīgi izmantot atbilstošu arhitektūru. Mūsu arhitektūra bloku sakraušanas mācīšanai ir viens no galvenajiem šī darba ieguldījumiem, un mēs uzskatām, ka tā ir reprezentatīva tam, kāda nākotnē varētu izskatīties arhitektūra sarežģītāku uzdevumu vienreizēju imitāciju apgūšanai.

Uzmanības moduļi

Raksts joprojām ir salīdzinoši augsts, aprakstot uzdevuma apgūšanai izmantoto tīklu struktūru. Galvenā arhitektūras sastāvdaļa ir viņu uzmanības modulis, taču es uzskatu, ka šim priekšmetam ir nepieciešams īpašs brīdis, kurā sīkāk uzzināt par tā būtisko lomu. Pēc analoģijas ar ilgstošas ​​uzmanības kognitīvās zinātnes koncepciju uzmanības moduļi tiek izmantoti, lai saglabātu un koncentrētos uz būtisko informāciju, kas atrodas dažādos telpas un laika diapazonos. Tas rada fiksēta lieluma izlaidi, kas satur laika un telpas izstieptā informācijas satura iegulšanu. Pēc analoģijas ar topoloģiju, kas ir matemātikas nozare, kas, manuprāt, nākotnē ļoti palīdzēs saprast, kā mēs saprotam sadalītos attēlojumus, uzmanības tīkls veic informācijas topoloģisko izomorfismu, tādu pašu izliekumu, atšķirīgu formu. Ņemiet vērā, ka šiem tīkliem nav tādas pievilcības detektora spējas, kuri spētu koncentrēties uz negaidītiem vai retiem notikumiem, kas ir funkcija, kas saistīta ar uzmanības uztveri neirozinātnē.

Šeit viņi izmanto divu veidu uzmanības tīklu: a) īslaicīgs uzmanības tīkls, kas rada svērto summu atmiņā saglabātajam saturam (vaicājumam, kontekstam un atmiņas vektoriem), un b) apkārtnes uzmanības tīkls, kas spēj atgūt informāciju attiecībā uz bloku pozīcijas atkarībā no aģenta pašreizējā vaicājuma.

Laika uzmanības centrā, ar c: konteksta vektors, m: atmiņas vektors, q: vaicājuma vektors, v: iemācītais vektora svars. Izvade ir tāda paša izmēra kā atmiņas vektors. Tā ir šo vektoru lineārā kombinācija, kas ļauj dažiem atmiņas vektoriem vairāk ietekmēt izvadi, pamatojoties uz konteksta un vaicājumu vektoriem.Tā pati ideja, konkurence starp telpisko informāciju, tiek dinamiski uzturēta uzmanības sistēmā.

Politikas tīkls

Pilns tīkls sastāv no trim dažādiem apakštīkliem: demonstrācijas tīkla, konteksta tīkla un manipulācijas tīkla.

Demonstrācijas tīkls kā demonstrējumu saņem demonstrācijas trajektoriju un rada demonstrācijas iegulšanu, kas jāizmanto politikā. Šīs iegulšanas lielums palielinās lineāri atkarībā no demonstrācijas ilguma, kā arī vidē esošo bloku skaita.

Kā parādīts šeit, demonstrācijas tīkls var iegult dažādas sarežģītības un lieluma demonstrācijas kopējā formātā, ko konteksta tīkls izmantos uzdevuma attēlošanai. Droši vien jau šajā līmenī notiek vispārināšana, demonstrācijas iegulšanai būtu jāsvītro informācija par precīzu demonstrācijas trajektoriju un kuba absolūto stāvokli.

Raugoties uz konteksta tīkla struktūru, kaut arī no ļoti augsta līmeņa, mēs redzam saskarni ar demonstrācijas tīklu, kas demonstrācijas iegulšanu baro centrālajos laika uzmanības moduļos. Mēs arī redzam, ka iepriekšējās darbības (LSTM) un pašreizējais stāvoklis tiek ievadīts kā ievads, kas savienots ar demonstrācijas iegulšanu, lai iegūtu globālā konteksta iegulšanu, kas nosūtīts uz motoru tīklu.

Viņu tīkla funkcijas apraksts, manuprāt, ir vissvarīgākā darba daļa:

Konteksta tīkls sākumā tiek aprēķināts vaicājuma vektors kā pašreizējā stāvokļa funkcija, kuru pēc tam izmanto, lai piedalītos dažādos demonstrācijas iegulšanas laika posmos. Vienā laika posmā dažādu bloku uzmanības svari tiek summēti, lai iegūtu vienu svaru vienā solī. Šīs īslaicīgās uzmanības rezultāts ir vektors, kura lielums ir proporcionāls vidē esošo bloku skaitam. Pēc tam mēs pievēršam uzmanību apkārtnei, lai izplatītu informāciju pa katra bloka iegulumiem. Šis process tiek atkārtots vairākas reizes, kad stāvoklis tiek uzlabots, izmantojot LSTM šūnu ar nesaistītiem svariem.
Iepriekšējā darbību secība rada iegulšanu, kuras lielums nav atkarīgs no demonstrācijas ilguma, bet joprojām ir atkarīgs no bloku skaita. Pēc tam mēs izmantojam standarta mīksto uzmanību, lai iegūtu fiksētu dimensiju vektorus, kur atmiņas saturs sastāv tikai no katra bloka pozīcijām, kas kopā ar robota stāvokli veido ievadi, kas nodota manipulācijas tīklam.
Intuitīvi, kaut arī objektu skaits vidē var atšķirties, katrā manipulācijas darbības posmā attiecīgo objektu skaits ir mazs un parasti ir fiksēts. Konkrēti bloku kraušanas videi robotam jāpievērš uzmanība tikai tā bloka pozīcijai, kuru viņš mēģina uzņemt (avota bloks), kā arī tā bloka pozīcijai, kuru viņš mēģina novietot virs ( mērķa bloks). Tāpēc pareizi apmācīts tīkls var iemācīties saskaņot pašreizējo stāvokli ar atbilstošo demonstrācijas posmu un izsecināt avota un mērķa bloku identitāti, kas izteikta kā mīksto uzmanības svars dažādos blokos, kurus pēc tam izmanto, lai iegūtu atbilstošās pozīcijas jānodod manipulāciju tīklam.

Tas, kā viņi pabeidz savu aprakstu, ir lielisks piemērs pašreizējam AI pētījumu virzienam no ekspertu sistēmas pieejas uz mācību sistēmas pieeju, un tas arī norāda uz diskusiju par to, kā smadzenes attīstījās zemāk.

Kaut arī apmācībā mēs neizmantojam šo interpretāciju, mūsu eksperimenta analīze atbalsta šo interpretāciju par to, kā iemācītā politika darbojas iekšēji.

Viņi nezina, kā tas darbojas! Viņi izveido struktūru, kas spēj veikt noteiktus aprēķinus un uzglabāt noteiktu informāciju, kas, mūsuprāt, ir a priori noderīga, un nodrošina to ar mācību komplektu, cerot, ka visa struktūra iemācīsies! Pastāv sava veida mākslīgā intelekta pētījumu voodoo parādīšanās, māksla, veids, kā virzīt heiristisko meklēšanu pareizajā virzienā. Un šķiet, ka ļoti daudzi no šiem burvjiem tagad strādā openAI.

Pēc viņu pašu vārdiem, manipulācijas tīkls ir visvienkāršākā struktūra, sākot no konteksta iegulšanas līdz daudzslāņu perceptronam, tiek radīta motora darbība.

Rezultāti

Rezultāti bieži ir tā daļa, par kuru man ir maz intereses, it īpaši attiecībā uz pārsteidzoši izciliem tehniskajiem dokumentiem. Es turpināšu ātri, jo šī pieeja darbojas, tā darbojas ar precizitāti, kas ir līdzīga precīzi kodētās ekspertu politikas nostādnēm, un pretēji šai īpašajai procesuālajai pieejai ir vispārināma daudziem uzdevumiem.

Daļiņu sasniegšana

Bloķēt kraušanas

Šajos eksperimentos viņi pārbaudīja arī dažādus apstākļus. Izmantojot DAGGER, viņi salīdzināja trīs dažādus ievades nosacījumus, noņemot demonstrētās trajektorijas paraugu: pilnas trajektorijas, trajektorijas momentuzņēmums vai tikai izmantojot gala stāvokli. Viņi arī salīdzināja uzvedības klonēšanas algoritmu ar pilnu demonstrācijas trajektoriju.

Spēcīgs pierādījums sistēmas spējai vispārināt kuba identitāti

Diskusija

Lasot straujos sasniegumus, ko OpenAI veikusi šajos pēdējos mēnešos, es jūtu arvien pieaugošu vēlmi runāt par viņu darbu un dalīties savās pārdomās par to, kam, viņuprāt, viņu darbs, kā arī par AI nozares sasniegumiem kopumā, ir mūsu izpratne par to, kā bioloģiskās smadzenes darbojas. Jo īpaši šī pieaugošā ideja, ka šķietami kopīgās kognitīvās funkcijas starp cilvēkiem notiek ne tik daudz kopīgas struktūras dēļ, kas iekšēji zina, kā veikt uzdevumu, bet gan drīzāk ir salīdzinoši līdzīgu naivu struktūru rezultāts, kas, saskaroties ar to pašu vidi, iemācīties veikt līdzīgus uzdevumus. Funkcija ir tādas nefunkcionētas struktūras rezultāts, kas tikai specifiskas vides dēļ spēj iemācīties konkrētu uzdevumu, nevis struktūra, kas šo uzdevumu spēj veikt dabiski, vienkārši pielāgojot pāris parametrus, lai pielāgotos videi.

Uzdevumi pret konfigurācijām: šķietami patvaļīga definīcija

Jāatzīst, ka es nesaprotu, kāpēc viņi izvēlējās runāt par dažādiem uzdevumiem tā, kā to darīja. Bloku sakraušanas eksperimentā uzdevums tiek definēts kā virkņu komplekts, kas attēlo bloku stāvokli attiecībā pret otru, komplekta elementu skaits nosaka skursteņu skaitu un rakstzīmju skaitu bloku skaitu, kas jāsakārto. . Tad uzdevums ir bloku izvietojums kaudzēs neatkarīgi no kaudzes absolūtās pozīcijas.

Daži bloki, iespējams, atrodas uz galda, bet nav uzdevuma daļa

Viņu izvēle noteikt relatīvo pozīciju un skursteņu skaitu kā kritēriju atsevišķam uzdevumam šķiet patvaļīga. Patiešām, būtu arī jēga runāt par dažādiem uzdevumiem, pamatojoties uz bloku absolūto sākuma stāvokli (ko viņi sauc par konfigurāciju). Es uzskatu, ka viņiem ir redzams kopīgais problēmas raksturs, bet skaidrības labad viņi dod priekšroku neiedziļināties detaļās. Politikas apguvi ir saprātīgāk veidot kā divu veidu vispārinājumus, kā viņi to dara vēlāk:

Ņemiet vērā, ka vispārināšana tiek vērtēta vairākos līmeņos: iemācītajai politikai ir ne tikai jāpilnveido jaunajām konfigurācijām un jauniem jau redzamiem uzdevumu demonstrējumiem, bet arī jāpilnveido jaunie uzdevumi.

Vienkārši aizstājiet “uzdevumus” ar “steku pasūtījumiem”. Pareizi apgūt uzdevumu nozīmē, ka aģents iemācās iegulšanu, kas spēj abstrahēt klucīšu stāvokli (konfigurācija), bet arī to identitāti (uzdevums), skursteņu skaitu (uzdevums) un demonstrācijas trajektoriju (īsi iepazīstināta ar citāts), lai radītu attiecīgu motora reakciju.

Šie vispārinājumi šķiet pretrunīgi. Kā tas pats tīkls var atdalīt kuba sākotnējo konfigurāciju vai identitāti un tomēr atgūt absolūto stāvokli motora reakcijai?

Tas izskaidro dažādu sadarbības apakštīklu nepieciešamību mācību laikā, dažādu ievades saņemšanu, kā arī izskaidro, ka konteksta tīklā abstrakts uzdevuma attēlojums tiek padots ar zemākas kārtas informāciju, piemēram, absolūtās pozīcijas klucīšos, pirms dilstošās komandas.

Varētu domāt, ka komentēt šo uzdevuma un konfigurācijas atšķirību ir muļķīgi, taču ir svarīgi saprast, ka būtībā tas ir tas pats abstrakcijas process, spēlējot dažādus objektus (un tas tiek atvērts nākamajai sadaļai).

Mācības nav bez invariances

Pārneses mācīšanās ir varbūt aizraujošākais izziņas jēdziens neatkarīgi no tā, vai tā ir in-silico vai in-vivo, tā ir ļoti karsta tēma gan AI pētniekiem, gan neirozinātniekiem, un tā ir mana promocijas darba tēma. Ņemiet vērā, ka cieši saistīti jēdzieni daudzās jomās ir izpētīti pirms mašīnmācības, un šim abstraktajam un vienmēr daļēji definētajam jēdzienam ir daudz vārdu. Filozofi, antropologi un sociologi to varētu dēvēt par (post) strukturālismu (Klods Levi-Štrauss, Mišels Fuko), valodnieks runās par sintagmām un ligzdoto koku struktūrām (Noāms Chomsky), matemātiķi, iespējams, domās par homeomorfismu vai invariantu, kā arī izglītību. pētnieki vai neirozinātnieki to var dēvēt par strukturālo mācīšanos. Iespējams, ka mašīnmācības jomā jūs redzēsit arī saistītu jēdzienu, piemēram, reprezentācijas mācīšanos un metamācību, kas atkarībā no autora var atsaukties uz pārejas mācīšanos vai mācīšanās paradigmu, ko izmanto, lai veiktu mācīšanos. Runājot par dziļajiem neironu tīkliem, šīs atšķirības ir izplūdušas, jo būtībā neironu tīkls mācās iegult noteiktu problēmu (reprezentācijas mācīšanās), mainot tās struktūru (metamācības) parasti trokšņainā vidē, kas nozīmē pārneses mācīšanās formu.

AI pētniekiem un kognitīvajam zinātniekam bieži ir ļoti konkrēta nodošanas mācīšanās definīcija, tas ir process, kas ļauj sistēmai izmantot zināšanas, kas iegūtas noteiktā uzdevumā, lai veiktu citu uzdevumu, kam ir kopīga kompozīcijas struktūra (kā aprakstīts rakstā). Kognitīvajā zinātnē ir šis tuvās un tālās nodošanas jēdziens atkarībā no tā, kā abi uzdevumi, šķiet, atšķiras. Bet, raugoties no abstraktāka viedokļa, trokšņainā un sarežģītā vidē visa mācīšanās ir pārneses mācīšanās forma, un atšķirība starp ļoti tuvu un ļoti tālu nodošanu ir tikai kopīgas informācijas jautājums - atkal tas ir mēroga, nevis dabas jautājums.

Kontrolētā vidē iepriekš tiek mēģināts izveidot grūti kodētu realitātes diskretizāciju, taču patiesībā šī diskretizācija procesuāli atkārto to, ko dod pārneses mācība, tā apvieno bezgalīgu stāvokļu kopumu, kas patiesībā atrodams kopīgā norobežojošā struktūrā. Būtībā nodošana mācībās tieši vai paplašināti attiecas uz procesu, kurā mācību aģenti izmanto invariantus, lai veidotu pasaules modeļus. Tas ir process, kurā tiek izmantotas līdzības, atkārtojumi un to variācijas, lai veidotu arvien abstraktu un saliktu attēlojumu, kas strukturēs ansambļus, izmantojot ieejas dispersijas diapazonu. Vispārējā nozīmē tas ļauj izveidot pamata operācijas, caur kurām mēs manipulējam ar informācijas grupām, līdzīgi kā matemātikā tas ļauj savienot un izveidot krustojumus. Tas ļauj identitātēm, tas izskaidro mūsu spēju klasificēt objektus. Džošs Tenembaums sniedz piemēru, kas mani patiešām uzrunāja: iedomājieties, ka jūs pirmo reizi iemācāt divus gadus vecam bērnam atpazīt zirgu, jūs parādāt viņam pāris dažādu zirgu attēlu un tad jūs parādāt viņam cita zirga attēlu un mājas attēlu un palūdz viņam pateikt, kurš no tiem ir zirgs. Bērns veiks šo uzdevumu diezgan viegli, taču tas joprojām ir kaut kas, ko dators nevar tik labi veikt ar tik mazām ievadēm (viena attēla mācīšanās).

Kā bērns to izdarīja?

Dzīvnieku atpazīšana ir pētīta bērniem, un tā ir saistīta ar mūsu spēju dekonstruēt priekšmetus attiecīgajās daļās, kažokādas krāsu gammu, kakla izmēru, vispārējo formu utt. Šī spēja ļauj arī jums atvērt durvis nekad iepriekš neesat redzējuši, jūs esat iemācījušies motoru secību, kas vispārina jebkuru situāciju (domēna vispārināšana). Tas ir arī tas, ko jūs izmantojat, lai izveidotu paskaidrojošus modeļus, kas vienkāršo pasauli, jūs patiešām sākotnēji varētu pārsteigt, ja pēkšņi uzrodas Dzeguze slavenajā Šveices pulkstenī, bet pēc otrā parādīšanās jūs to gaidīsit. Invariances atrašana ir tas, kā mācās neironu tīkls, un šie modeļi ir veidoti neapzināti. Piemērs ir tas, kā mēs intuitīvi mācāmies par fiziku, pat pirms esam dzirdējuši par matemātiku un skaitļiem.

Var jautāt, piemēram, cik ātri mikrogravitācijas stāvoklī dzimis bērns varētu pielāgoties zemes gravitācijai un intuitīvi iemācīties, ka priekšmeti nokrīt uz zemes, kad nokrīt?

Mēs varētu izvirzīt hipotēzi, ka zīdaiņi un vairums dzīvnieku pārskatīs savu modeli neapzināti, līdzīgi kā tad, kad uzliksit zeķes suņa ķepām, un tas prasa zināmu laiku, lai pielāgotos jaunajai informācijai.

Bet mazam bērnam notiks apzināta pratināšana un viņa intuitīvā modeļa pārskatīšana, sākot no zinātkāres, izmantojot valodu, simbolus un uzskatus. Mūsu spēja apzināti iztaujāt un mainīt savus modeļus ir aizraujoši, un, būdami viennozīmīgi, cilvēki var būt vienīgās sugas, kas spēj verbalizēt procesu, bet citas sugas var veikt līdzīgu apzinātu rediģēšanu.

Invariance ir obligāts laika īpašums, ja viss vienmēr bija jauns un nekādā gadījumā nav paredzams, joprojām paliks šis unikālais invarians, ka viss vienmēr ir jauns un neparedzams. Nav iespējams iedomāties pasauli bez invariances, jo nevarētu būt neviena pasaule, uz kuru atsaukties, ja bez invariances dzīve nebūtu iespējama un mūsu smadzenes būtu bezjēdzīgas. Dzīve ir mašīna, kas darbojas tikai ar paredzamu notikumu atkārtošanos, cēloņu un seku atkārtošanos, ciklisku enerģijas atkārtotu ievadīšanu organismā. Un Life centienos uzlabot šo nepieciešamo ciklu izmantošanu mūsu smadzenes ir galvenais rīks. Tā ir pareģošanas mašīna, adaptīvs orgāns, kas spēj dinamiski atrast atkārtošanos un izmantot to labākai mijiedarbībai ar pasauli.

Šī dzīves izvēlētā metode ir ārkārtīgi noturīga pret nelielām struktūras izmaiņām. Tas pats paliek pasaule, vides statistiskās īpašības, bet neironu struktūra, ar kuru tā sastopas, var mainīties, ja vien tā var iegult atbilstošo informāciju, kuru tā izstrādājusi, lai apstrādātu. Tas izskaidro, kāpēc mūsu smadzenes var būt tik atšķirīgas dažādiem indivīdiem, pat primārās garozas, un tomēr tām ir vienādas funkcijas.

Nervu sistēmas ir adaptīvas, tām nav nepieciešama evolūcija un lēnas ģenētiskās mutācijas, lai piemērotā veidā mainītu uzvedību. Vienkārša nervu sistēma, piemēram, tāda, kāda atrodama C. Elegans, kalpo kā iedzimts iekšējais koordinators un ārējais sensors: uztver ēdienu un virzies uz to, bēg no sāpēm, vairojas. Šīs vienkāršās sistēmas sākotnēji bija neelastīgas un ļoti strauji tuvināja mūsu ļoti trokšņaino pasauli, lai to atdalītu nelielā skaitā iespējamo stāvokļu (ēdiens kreisajā pusē, karstums zem utt.). Mūsu motoriskās un maņu spējas attīstījās roku rokā ar mūsu nervu sistēmas prognozēšanas spējām. Kad mūsu sensori kļuva precīzāki, nervu sistēma lēnām varēja mainīt savu struktūru, lai saglabātu informāciju un mācītos no pieredzes. Sākotnēji tā spēja iemācīties atpazīt noteiktas ieejas kategorijas, piemēram, smaku veidus vai gaismas veidus, kā arī iemācījās izmēģināt un kļūdas, lai kontrolētu arvien sarežģītāko motoro sistēmu. Ņemiet vērā, ka pasaule ir tik sarežģīta, ka mūsu smadzenes dabiski attīstījās mācību paradigmas, nevis iedzimtas procesuālās pieejas virzienā. Skaitļveidā tam ir pilnīga jēga, ka vienkāršai Go spēlei stāvokļa telpa ir daudz lielāka (2,10 ⁷⁰) nekā atomu skaits Visumā (10 ⁸⁰), un, organismiem kļūstot sarežģītākiem, cenšoties kodēt visu iespējamo tuvinājumus. norāda, ka tas varētu būt ātri, un tas kļūst nekļūdīgs kombinatoriskā sprādziena dēļ.

Daži cilvēki varētu uzskatīt, ka mūsu smadzenes ir uzbūvētas tādā veidā, ka tās iekšēji attēlo vietu, kurā tās attīstīsies, ka DNS kaut kur ir gēns tam, kas veido seju, vai skaņu viļņu, kas veido uz augšu vārdi. Viņi varētu ticēt, ka šīs iedzimtas zināšanas kaut kur kodē dzimšanas brīdī. Citi varētu ticēt, tāpat kā mans filozofijas skolotājs, kad es mācījos vidusskolā, ka eksistence notiek pirms būtības un ka mūsu smadzenes pilnībā un vienīgi nosaka organisma un pasaules sastapšanās. Realitāte, protams, ir sarežģītāka, un lielākajai daļai līdz šim pētīto teletencefālo sistēmu smadzenes iekšēji nekodē funkciju, ko tās veiks, bet gan iemācīsies to atkarībā no informācijas, kas atrodas tās ievados. Ja attiecīgajā informācijā ir pārāk maz informācijas, spējai mācīties šajā struktūrā var būt derīguma termiņš (piemēram, Amblyopia). Bet, ja iedzimtā struktūra nekodē galīgo funkciju, smadzenēm patiešām ir īpaša struktūra. Šī struktūra tiek saglabāta starp indivīdiem, un vienas sugas indivīdiem ir kopīgas funkcijas un piedziņa. DNS patiešām izveido noteiktu struktūru vietā, struktūru, kas nespēj iekšēji veikt savu pēdējo funkciju, bet gan struktūru, kas, balstoties uz individuālo pieredzi, spēj apgūt īpašu uzdevumu sarežģītību. Nav pārsteidzoši, ka evolūcijas rezultātā parādījās ļoti efektīva asins-smadzeņu barjera, kas izolē smadzenes no pārējās ķermeņa, kā arī smadzenes un cietā kaula apvalku, kas aizsargā tās no ārpasaules, jo atšķirībā no citiem orgāniem, kuros struktūra ir kodēta genomā, apmācītu smadzeņu struktūru nevar reģenerēt no iedzimtā veidā saglabāta modeļa. Aizraujoši ir tas, ka mēs redzam tos pašus mācību mehānismus, kas rodas pēc analoģijas, attīstoties arvien sarežģītākiem dziļajiem tīkliem, kas veic arvien sarežģītākus uzdevumus.

Kompozīcijas struktūras ir grūti pamanāmas, bet visur

Kā dīkstāve ir dīvaini, ka pat autori neatzīst, ka viņu pirmajam mērķa sasniegšanas uzdevumam ir kompozīcijas struktūra.

Daļiņas, kas sasniedz uzdevumus, labi parāda vispārināšanas izaicinājumus vienkāršotā scenārijā. Tomēr uzdevumiem nav atšķirīga kompozīcijas struktūra, tāpēc jauno uzdevumu vispārināšanas novērtēšana ir izaicinoša.

Lai arī struktūra patiešām ir zemāka par bloku sakraušanu un nav viegli pieejama eksperimentālām manipulācijām, uzdevumu patiešām veido kopīga struktūra. Tuvojoties pasaulei plaknei, viena kompozīcijas struktūra ir tāda, ka kuba identitāte (krāsa) tiek saglabāta ar tulkojumu, un dodoties no A bloka vai arī uz nejaušu sākuma stāvokli pozīcijā (Xa1, Ya1), lai bloķētu B pozīcijā (Xb1, Yb2 ) ir daļa no tās pašas augstākās kārtas kompozīcijas struktūras, nekā iet no bloka A pozīcijā (Xa2, Ya2) līdz blokam B pozīcijā (Xb2, Yb2).

Saskarnes starp tīkliem

Neironu tīklu izveidošanai, kas varētu apstrādāt datus dažādos abstrakcijas līmeņos, būs vajadzīgas saskarnes - joma, kas, manuprāt, atstāj daudz ko atklāt. Šīs saskarnes var būt dažādas. Tās, piemēram, var uzskatīt par kopīgu valodu starp diviem tīkliem, kā parādīts rakstā, zemāka līmeņa tīkls, kas ir bruņots ar uzmanības sistēmu (demonstrācijas tīkls), var tulkot demonstrāciju attēlojumā, kuru var izmantot cits tīkls (konteksta tīkls). virzīt darbību neatkarīgi no demonstrācijas garuma vai sākotnējās konfigurācijas.

Šīs valodas virsma šeit ir noteikta lieluma plakne, taču var iedomāties iespējamās izmaiņas, kas varētu uzlabot sakarus starp tīklu. Piemēram, virsmas lielumam var iestatīt, lai tas dinamiski augtu vai saruktu, kad tīkli mijiedarbojas mācību laikā, līdz ar to saspiežot vai paplašinot valodas sarežģītību. Mēs varētu arī iedomāties dinamiskāku mijiedarbību, piemēram, izmantojot atsauksmes. Mēs varētu iedomāties tādu koordinatora tīklu esamību, kuri iemācīsies vienmērīgu komunikāciju starp tīkliem, kas pastāv kā paralēlais tīkls, kurš iemācās modulēt pirmā tīkla ieeju, pamatojoties uz otrā tīkla ieeju un izvadi. Mēs varētu iedomāties sarežģītus kontekstu tīklus, kas darbojas kā tonizējošs (lēni mainīgs) pieplūdums uz vairākiem vairāk specializētiem tīkliem… Aizraujoša nākotnes pētījumu joma!

Neveiksmes gadījumos tiek norādītas iespējamās lomas, kuras varētu būt jauniem moduļiem

Ir vērts atzīmēt, ka kļūdas bieži rodas motora kļūdu dēļ un kļūdu skaits palielinās līdz ar uzdevuma sarežģītību.

Motora funkciju nevajadzētu pasliktināt, tikai palielinot mērķu skaitu, tas ir pārliecinošs pierādījums tam, ka veids, kā reprodukcijas tīkls iemācās runāt ar motoru tīklu, ir pārāk abstrakts. Tas ir dīvaini, jo viņi saka, ka viņu pārbaude parāda, ka saskarne starp konteksta tīklu un motoru tīklu ir salīdzinoši konkrēta (robota pozīcija, mērķa pozīcija).

Iespējamais risinājums varētu būt dažādu zaudējumu funkciju vai modulāru zaudējumu funkciju izmantošana, jo tās ir modulāra arhitektūra, kas attēlo katru konkrēto uzdevuma aspektu. Tam palīdzētu arī smadzeņu pirmsmotora zonu ekvivalents, lai nodrošinātu, ka demonstrācijas un konteksta tīkls var palikt abstrakts, nepasliktinot motora vadību. Pirmsmotora reģioni ir nepieciešami, lai labāk lokalizētu objektus, pamatojoties uz mērķi (no abstraktiem tīkliem) un maņu ieejām, lai izvēlētos labāko motora komandu. Liekas, ka kontekstu tīkls mēģina gan demonstrāciju pārcelt uz augstāka līmeņa iegulšanu, gan pašreizējā situācijā vienlaikus sagatavojot motoru darbību. Pirmsmotora tīkla loma būtu iemācīties komunicēt ar motoru uz mērķi orientētā un adaptīvā veidā, apvienojot gan premotora, gan smadzenīšu funkcijas motoru apgūšanai un ātrai adaptācijai.

Pastāv interesanta teorija, Moravec paradokss, kas paredz, ka ar nodokli aplikšana ar nodokļiem būs nevis augstāka līmeņa izziņa, bet gan juteklisko ieeju un motoro sistēmu izvadu apstrāde. Tas patiešām varētu būt saistīts ar lielo neironu daudzumu, kas atrodas mūsu smadzenītēs (vairāk nekā pārējās mūsu smadzenēs), lai adaptīvi kontrolētu motorisko darbību. Šis paradokss tika formulēts laikā (80. gadi), kad mēs joprojām uzskatījām, ka varam savas zināšanas iegult mašīnā, lai veiktu sarežģītus uzdevumus nekontrolētā trokšņainā vidē. Protams, šim paradoksam ir jēga, ja mašīna kaut kādā veidā spēj attēlot pasauli diskretētā stāvokļu komplektā, izveidot augstāku funkciju pēc tā būtu vieglāk. Bet es uzskatu, ka abi izrādīsies ārkārtīgi aplikti ar nodokļiem, un iekšējā pārstāvība, kas tiek izmantota saskarnē starp tīkliem, būs tālu no visa, kas atgādina mūsu pašu apzinātos attēlojumus.

Secinājums

Apvienojot dažādus neironu tīklus, kas katrs ir atbildīgs par konkrētu problēmas ārstēšanu, šajā rakstā parādīts, ka, izveidojot uzdevumu, kam pēc būtības ir nepieciešams vispārinājums, un izveidojot piemērotu mācību vidi, izmantojot domēna randomizāciju, neironu tīklu ar piekļuvi atmiņai un uzmanības sistēma var iemācīties vispārināt ārpus vienkāršas reproducēšanas. Tas var iemācīties atklāt augstākas pakāpes mērķi, kas ir parādīts tikai vienreiz vizuālā informācijas plūsmā, un veic aprēķinus vispārinātā telpā, lai atgūtu atbilstošās darbības, kas spēj reproducēt šo mērķi citā kontekstā.

Nākotnē mēs redzēsim arvien sarežģītākas struktūras, kas balstītas uz tiem atomu celtniecības blokiem, kuri spēj iemācīties vispārināt sarežģītus uzdevumus, bet vēl svarīgāk ir veikt vairākus šādus uzdevumus jaunā vidē, mazāk paļaujoties uz grūti kodētām metodēm, piemēram, ievades vai atmiņas glabāšana. Atmiņas glabāšana tiks aizstāta ar izplatītiem attēlojumiem visā atmiņas tīklā, uzmanības sistēmas tiks aizstātas ar ciklisku darbību reālā laika uzmanības tīklos. Paliek jautājums, kā mēs spēsim pielāgot spēcīgu sērijas tehnoloģiju (Turing mašīnas) mūsu arvien lielākajai paļāvībai uz izkliedēto skaitļošanu iemiesotajā sistēmā.