OpenAI– ს ახალი მიდგომა ერთჯერადი მიბაძვის სწავლისთვის, რომელიც გულისხმობს AI– ს მომავალს

ერთი კადრის იმიტაცია სწავლობენ იან დუანს, მარჩინ ანდრიჩოვიჩს, ბრედლი კ. სტადს, ჯონატან ჰო, იონას შნაიდერს, ილია საცკვერს, პიტერ აბბელს, ვოჯიჩ ზარმბას

16 მაისს, OpenAI- ს მკვლევარებმა გაზიარეს თავიანთი პროექტის ერთ – ერთი ვიდეო და ორი მნიშვნელოვანი ნაშრომი, რომლებიც შეისწავლეს მიმდინარე AI- ის განვითარების სამი ძირითადი პრობლემის გადაჭრის გზები: მეტა-სწავლება, ერთსაფეხურიანი სწავლება და მონაცემთა ავტომატური წარმოება. ჩემს წინა პოსტზე მე დავპირდი სტატიას, რომელიც ეხებოდა ერთსაფეხურიანი სწავლის მომხიბლავ პრობლემას, ასე რომ აქვე მიდის. თქვენ შეგიძლიათ დაიწყოთ მათ მიერ გამოქვეყნებული ვიდეოს გადახედვით, რომელიც ხსნის მათ საოცარ სამუშაოს:

ამ ვიდეოში ხედავთ ერთ მკლავ ფიზიკურ რობოტს, რომელიც ერთმანეთის თავზე კუბურებს ასხამს. იცის რთული დავალებების შესრულება, რომელთა გაკეთებაც ინდუსტრიულ რობოტებს შეუძლიათ, თუ მკვლევარი არ ცდილობდა აეხსნა რა ხდება, ბევრგან ეს ძალიან სავალალოა. კონტროლირებად გარემოში ამოცანა მარტივია, პროცედურული (მყარი კოდირებული) მიდგომები ამ პრობლემებს უკვე მოაგვარებს, რაც იმედისმომცემი და რევოლუციურია, რამდენს შეუძლია ზოგადი ჩარჩო, რომლის საშუალებითაც შესაძლებელია მასშტაბები მდე, მრავალჯერადი, უფრო რთული და ადაპტირებული ქცევებით ხმაურიან გარემოში.

გონებაში განსხვავება ადამიანსა და უფრო მაღალ ცხოველებს შორის, ისევე როგორც არის, რა თქმა უნდა, არის ერთგვარი და არა სახის.
- Ჩარლზ დარვინი

ანალოგიით, ეს სტატია ძლიერი მტკიცებულებაა იმისა, რომ შემეცნებითი სისტემების განსხვავებები მიმდინარე განსახიერებულ AI (ფიზიკური სისტემების ხელოვნური ინტელექტი) და 22-ე საუკუნის რობოტებს შორის იქნება მასშტაბური და არა სახის. 2012 წლიდან ImageNet კონკურენციის * შემდეგ, ღრმა სწავლის კვლევამ მოიცვა, არა იმდენად ნერვული ქსელის მიერ გაკეთებული განაწილებული გამოთვლების ბუნების შესწორების მიზნით, არამედ ქსელების სტრუქტურის ახალი გზების მოძიებით, რათა მათ შეეძლოთ კონკრეტული დავალების სწავლა. იმისთვის, რომ ნერვული ქსელის ფუნქცია სტრუქტურაა, ეს სტრუქტურა არ არის რთული კოდირებული (ხელით არ არის შექმნილი), მაგრამ ეს არის ატომური გამოთვლითი ერთეულების შედეგები, რომლებიც თავდაპირველად დაკავშირებულია შეყვანებსა და შედეგებს შორის, რომლებსაც შეუძლიათ შეცვალონ მათი სტრუქტურა და კავშირები. ეს ხდება ქსელის მთლიანი სტრუქტურის შეცვლით, რომლითაც იგი სწავლობს სპეციფიკურ ფუნქციას.

ამ სტატიაში მათ შექმნეს ზოგადი ჩარჩო, რომელსაც შეეძლო აგენტი ავარჯიშოს დავალებების აბსტრაქტული გზით წარმოსადგენად და ამ ცოდნის ახალ უხილავ დავალებებზე გადაცემა (სწავლის გადაცემა) რომანის დავალების მხოლოდ ერთი დემონსტრაციის შემდეგ (ერთი დარტყმის იმიტაცია სწავლა).

დავალებები

მიუხედავად იმისა, რომ ზუსტი არქიტექტურული შესრულება განსხვავდება, ისინი ორი ამოცანაა აღებული, როგორც ზოგადი მიდგომის შესრულების საჩვენებლად.

ნაწილაკების მიღწევა

პირველ მაგალითში სისტემა იღებს თვითმფრინავში ფერადი სამიზნე პოზიციების შეყვანას და სიმულაციური აგენტის ერთჯერადი ვიდეო დემონსტრირებას მითითებულ სამიზნეზე გადასასვლელად.

სურათი 2. რობოტი არის წერტილოვანი მასა, რომელიც კონტროლირდება 2-განზომილებიანი ძალით. ამოცანების ოჯახი მიზნობრივი ნიშნულის მიღწევაა. საკვანძო ნიშნის ვინაობა განსხვავდება ამოცანადან დავალებით და მოდელმა უნდა გაარკვია, თუ რომელი მიზნის განხორციელება უნდა განხორციელდეს დემონსტრაციის საფუძველზე. (მარცხნივ) რობოტის ილუსტრაცია; (შუა) ამოცანაა ნარინჯისფერ ყუთში მოხვედრა, (მარჯვნივ) ამოცანაა მწვანე სამკუთხედის მიღწევა.

ტრენინგის დროს სისტემამ უნდა შეასრულოს იგივე დავალება (მიაღწიოს ფორთოხალს), მაგრამ სხვა კონფიგურაციიდან, რობოტისთვის და სამიზნეებისთვის განსხვავებული საწყისი პოზიციით. უცნობია, ტესტირების დროს აგენტი შემოწმებულია დავალებით, რომელსაც მას წვრთნიდნენ (მიაღწიეს ფორთოხალს), თუ დავალებას, რომელსაც მანამდე არასდროს უნახავს (მაგალითად, მიაღწიეთ მწვანეს) ან ორივე.

გაწვრთნილი პოლიტიკა ფასდება ახალი სცენარებით და განპირობებულია ტრენინგის დროს უხილავი ახალი სადემონსტრაციო ტრაექტორიებით.

დარწმუნებულია, რომ აგენტმა უნდა ჩამოაყალიბოს მიზნის სამიზნე უნიკალური დემონსტრირებისგან და კვლავ დაიწყოს სხვა კონფიგურაციიდან. ეს გულისხმობს, რომ ზუსტი საავტომობილო თანმიმდევრობა არ შეიძლებოდა მიღებულიყო ტესტის ჩატარების წინ და უნდა დადგინდეს დავალების აბსტრაქციის (უფრო მაღალი დონის სტრუქტურირებული წარმომადგენლობის) გზით და ძრავის დაგეგმვის გზით.

ბლოკის დაწყობა

მეორე მაგალითში აგენტმა უნდა ისწავლოს კუბების დასაყენებლად (სხვადასხვა ფერის მიხედვით იდენტიფიცირება) იმავე თანმიმდევრობით, როგორც ერთი სიმულაციური დემონსტრაციით გამოსახული. ეს სიმულაციური დემონსტრაცია არის 3D ფიზიკის ძრავის მიერ წარმოქმნილი 2D გამოსახულების სერია, რომელშიც მოდელირებულია რობოტების საავტომობილო და სენსორული აპარატის თვისებები.

ერთჯერადი პოლიტიკა. ერთიანი პოლიტიკა, რომელიც მომზადებულია მრავალი ამოცანის გადასაჭრელად. მთავარი დავალება: {abc, def}, ქვედა დავალება: {ab, cd, ef

ორივე მაგალითში კუბების საწყისი პოზიციები სადემონსტრაციო და რეალურ ტესტში განსხვავებულია, თითოეული დავალება იწყება სხვა საწყისი პოზიციიდან. რობოტი არ ცდილობს შეცვალოს კუბურები, რომ შეესაბამებოდეს დემონსტრაციის საწყის პოზიციას, ის გადააქვს უფრო მაღალი დონის დავალებას კუბის დალაგებაზე, რა მდგომარეობაშიც არ უნდა აირჩიოს იგი.

ტრენინგი დომენის რანდომიზაციის გამოყენებით

ორივე შემთხვევაში ტრენინგის დროს გამოყენებული ყველა სურათი მიიღება დომენის რანდომიზაციის გამოყენებით სიმულაციური გზით, რომელშიც ისინი რანდომიზაციას მოახდენენ ნიმუშების შემდეგ ასპექტებზე:

მაგიდაზე გადაადგილების ობიექტების რაოდენობა და ფორმა მაგიდაზე ყველა ობიექტის პოზიცია და ტექსტურა მაგიდის, იატაკის, ცისფერბოლოსა და რობოტის ტექსტურა კამერის პოზიცია, ორიენტაცია და ველი კამერა. და სანათების სპეციფიკური მახასიათებლები გამოსახულებებზე დაემატა შემთხვევითი ხმაურის ტიპი და რაოდენობა

ტრენინგი ნაწილაკების მიღწევისთვის

ჩვენ განვიხილავთ ამოცანების მქონე ოჯახების უფრო რთულ წყობას, სადაც ნიშანდების რაოდენობა 2-დან 10-მდე იზრდება. თითოეული დავალების ოჯახისთვის ჩვენ ვაგროვებთ ტრენინგის 10000 ტრაექტორიას, სადაც რანდომიზებულია პოზიციების ნიშნები და წერტილოვანი რობოტის საწყისი პოზიცია. ჩვენ ვიყენებთ მყარი კოდირებულ ექსპერტულ პოლიტიკას დემონსტრაციების ეფექტურად წარმოქმნის მიზნით. ტრაექტორიებს ხმაურს ვამატებთ, გამოთვლით გამოთვლულ მოქმედებებს გარემოზე გამოყენებამდე და ჩვენ ვიყენებთ ქცევის მარტივ კლონაციას ნერვული ქსელის პოლიტიკის შესაქმნელად.

ტრენინგი მითითებულია ბლოკის დასტისთვის

კერძოდ, ჩვენ ვაგროვებთ 140 სასწავლო დავალებას და 43 ტესტის დავალებას, თითოეულს ბლოკის განსხვავებული სასურველი განლაგებით. თითოეულ დავალებაში ბლოკების რაოდენობა შეიძლება განსხვავდებოდეს 2-დან 10-მდე. ჩვენ ვაგროვებთ 1000 ტრაექტორიას თითო დავალებისთვის ტრენინგისთვის და ვაგრძელებთ ტრაექტორიებისა და საწყისი კონფიგურაციების ცალკეულ კომპლექტს, რომელიც გამოყენებული იქნება შეფასებისთვის. ნაწილაკების მიღწევის ამოცანის მსგავსად, ჩვენ ხმაურს ვასხამთ ტრაექტორიის შეგროვების პროცესში. ტრაექტორია შეგროვებულია მკაცრი კოდირებული პოლიტიკის გამოყენებით.

წარმატებული დემონსტრაციები გროვდება მკაცრი კოდირებული პოლიტიკის გამოყენებით

გაითვალისწინეთ, რომ სწორი ტრაექტორიის სწავლის დროს წარმოიქმნება საპროცესო „მყარი კოდირებული“ პოლიტიკა, რომლის თანახმად, მე მჯერა სისტემის იდენტიფიკაციისა და კონტროლის კლასიკური ტექნიკა. ამრიგად, ტრენინგის და ტესტირების დროს აგენტს აქვს ორი შეყვანა: ა) კონფიგურაციაზე დემონსტრირება A, და ბ) საწყისი კონფიგურაცია B. მხოლოდ ტრენინგის დროს, სწავლის ალგორითმს აქვს წვდომა იდეალურ პასუხზე: ტრაექტორია დაწყებული კონფიგურაციიდან B, რომ პასუხობს პრობლემას და რომელთანაც აგენტის პასუხი შედარდება სწავლის დროს - ეს გახდება ზედამხედველობით სწავლის პრობლემა.

თითოეული სასწავლო დავალების გათვალისწინებით, ჩვენ ვივარჩევთ წარმატებული დემონსტრაციების სიმრავლის შესაძლებლობას.

თუ ეს არ არის ნათელი, მე შემდეგ ნაწილში გადავწყვეტ სხვაობებს სასწავლო პარადიგმების სხვადასხვა ტიპებს შორის.

ოპტიმიზაციის ალგორითმი და ზარალის ფუნქცია

ზედამხედველობითი სწავლება ეხება ტრენინგის პარადიგმებს, რომლებშიც ქსელის თითოეულ გადაწყვეტილებას აქვს წვდომა სწორი არჩევანის შესახებ, რომელიც მან უნდა მიიღოს და, შესაბამისად, შეცდომის ცნებაც. მაგალითად, კლასიფიკაციურ დავალებას ძაღლებსა და კატებს შორის, წინასწარ არის ცნობილი ვარჯიშის დროს ძაღლებისა და კატების გამოსახულების ეტიკეტი და შეცდომები მაშინვე დაფიქსირდება. ამ თვალსაზრისით იგი განსხვავდება დაუმთავრებელი სწავლისგან, სადაც ზოგადად აგენტს სთხოვენ მოძებნონ მანამდე არსებული უცნობი სტრუქტურა და მასში ჩასასვლელი საშუალებები, ხოლო კატებისა და ძაღლების ეტიკეტების გარეშე უნდა გაირკვეს, რომ არსებობს სხვადასხვა ობიექტის ორი მტევანი, რომელიც მხოლოდ მასზეა დაფუძნებული მონაცემები შეიცავს მონაცემებს. ასევე განსხვავდება იმგვარი სწავლისაგან, რომ ხშირად მიმართავენ რეალურ დროში სისტემას, სადაც უცნობია მიზნის მისაღწევად გადაწყვეტილების ზუსტი თანმიმდევრობა, მაგრამ მხოლოდ საბოლოო "ჯილდო" მიიღებს გადაწყვეტილებას სწორი იყო თუ არა თანმიმდევრობა. იმიტაციური სწავლების გამოყენებით, ისინი კლასიკური გაძლიერების სწავლის პრობლემას გარდაქმნიან სასწავლო ზედამხედველებელ პრობლემად, რომელშიც შეცდომა გამოითვლება მანძილიდან დაკვირვებულ ტრაექტორიამდე.

როგორც ეს არის ნებისმიერი ზედამხედველობითი ტრენინგის ჩატარების შემთხვევაში, დავალების შესრულება მთლიანად განსაზღვრულია ზარალის ფუნქციით, რომლის მიზანია გავზომოთ რამდენი იყო აგენტი სავარაუდო ქცევისგან. ამ ფუნქციის განსაზღვრა ხშირად კრიტიკულ ნაბიჯს წარმოადგენს, რადგან ის განსაზღვრავს, თუ როგორ განაახლებს ოპტიმიზაციის ალგორითმები მოდელის პარამეტრებს. ამ ალგორითმებს აქვს მნიშვნელობა გამოთვლითი დროის თვალსაზრისით, და ხშირად საჭიროა გარკვეული გადახრა, რომ მოხდეს თანხვედრა, თუ საერთოდ. მართლაც, გადაწყვეტილებები, რომლებიც შეამცირებს ფუნქციას ძალიან მაღალ განზომილებაში, მდებარეობს პარამეტრის სივრცის ძალიან მცირე ზომის ჭურვში, მათ შორის მცირე ზომის საყრდენით, როგორც კი თქვენ ამ მცირე დომენიდან მოშორდებით, გადაწყვეტილებები შორის მანძილი სწრაფად იზრდება. ამ თემაზე ბევრი საინტერესო ნამუშევარია, რომელიც სხვათა შორის ძალიან საოცარი ჯენიფერ ჩეისის მიერაა შესრულებული, მან სალაპარაკო მასალები ბოლო საინტერესო ეპიზოდზე "საინტერესო საუბარში" დაწერა.

პოლიტიკის ქსელების ტრენინგის დროს (მთელს ქსელს, რომელთაც შეუძლიათ გადაწყვიტონ, რომელი მოქმედება უნდა მიიღონ), ისინი პირველ რიგში ამუშავებენ წარმატებული სადემონსტრაციო ტრაექტორიას. ამ ნაწილისთვის ისინი შეადარებენ ორ მიდგომას, კლასიკური ქცევის კლონირებას (არ არის დარწმუნებული გამოყენებულ გამოყენებაში) და DAGGER ალგორითმები. ეს საშუალებას მოგვცემს ზარალის ფუნქციის განმეორებითი შემცირება l2- ით ან განივი ენტროპიის ზარალის საშუალებით, იმის საფუძველზე თუ არა მოქმედებები უწყვეტი ან დისკრეტული (თანმიმდევრობით მოვლენების განაწილებაზე დაყრდნობით). ყველა ექსპერიმენტის დროს, მათ გამოიყენეს ადამაქსის ალგორითმი, რომ შეესრულებინათ ოპტიმიზაცია და სწავლის სიჩქარე 0.001.

ნაბიჯის ზომა იწყება მცირე და იშლება ექსპონენტურად.

ალგორითმი თავისთავად არ იძლევა გადარიცხვას, ეს არის ის, თუ როგორ უნდა შექმნათ თქვენი სასწავლო ნაკრები და თქვენი დაკარგვის ფუნქცია, რაც ტრანსფერის საშუალებას მისცემთ.

დავალებებში ორი სახის გადაცემა არსებობს. პირველ ტიპს მოიხსენიებენ, როგორც „რეალობის უფსკრული ხიდი“, ეს არის სწავლებაში განზოგადება, რომელიც საშუალებას იძლევა ტრენინგირება მოახდინოს ტრენაჟორულ საშუალებებზე, ბუნებრივი სტიმულის ტესტირებაზე. სიმულაციური მონაცემები ხშირად არის რეალურ სამყაროში გაღატაკებული მიახლოება, ძალიან სრულყოფილი, რომელიც მოკლებულია რეალური ობიექტის სირთულეს. რეალურ სამყაროში კამერა შეიძლება იყოს გაუმართავი და ხმაურიანი, ძრავის კონტროლი ნაკლებად ზუსტი იქნება, ფერები შეიცვლება, ტექსტურები უფრო მდიდარი იქნება და ა.შ. პირველი გადაცემის შესაქმნელად ისინი იყენებენ მეთოდს, რომელსაც ისინი მოიხსენიებენ, როგორც ”დომენის რანდომიზაცია”. : ეს არის საშუალებებში ხმაურის დამატება, რომ ქსელმა შეძლოს ისწავლოს საერთო შესაბამისი სტრუქტურა, რომელიც საშუალებას მისცემს მას განზოგადდეს რეალურ სამყაროში. მაგალითად, ისინი შეცვლიან კამერის კუთხეს ტრენინგის მაგალითებს შორის, შეცვლიან ტექსტურებს ან გააკეთებენ ტრაექტორიებს ნაკლებად სრულყოფილებად. ვარჯიშის დროს ხმაურის დამატებით ვამატებთ სიმყარეს.

აქ გამოცდილი მეორე გადაცემა არის კონფიგურაციისა და მიზნის ადრეული უხილავი კომპლექტის შესაბამისი საავტომობილო მიმდევრობის წარმოების შესაძლებლობა, რომელიც ემყარება ერთ დემონსტრაციას, რომელიც იწყება სხვა საწყის კონფიგურაციაში, მაგრამ მსგავსი საბოლოო მიზნით. ისევ აქ მოხდება ტრანსფერის განხორციელება იმის მიხედვით, თუ როგორ ვაშენებთ ტრენინგის კომპლექტს და მოდელირება ზარალის ფუნქციის მიხედვით. ტრენინგის დროს დემონსტრაციების წარდგენით, რომლებიც არ იწყება იმავე საწყისი მდგომარეობიდან იმავე მიზნის მისაღწევად, თქვენ საშუალებას აძლევთ ქსელს ისწავლოს მიზნის უფრო მაღალი დონის ასახვა, აბსოლუტური პოზიციების გამოყენების გარეშე, აგრეთვე უმაღლესი დონის წარმოდგენა. საავტომობილო თანმიმდევრობა, რომელიც არ არის მარტივი იმიტაცია. გულუბრყვილო საწყისი არქიტექტურა საშუალებას აძლევს ტრენინგს სტრუქტურის შეცვლა შესაბამისი გზით, და ეს გაწვრთნილი სტრუქტურა გულისხმობს საბოლოო ფუნქციას.

მიზნები

ბლოკის დამონტაჟების პარადიგმისთვის მათ რამდენიმე შეზღუდვა ჰქონდათ, რომ მათ სურდათ შეესწავლათ მათი სასწავლო აგენტი.

მარტივად უნდა იქნას გამოყენებული დავალებების ინსტანციებზე, რომლებსაც აქვთ ბლოკების მრავალფეროვნება.
იგი ბუნებრივად უნდა განზოგადდეს იმავე დავალების სხვადასხვა პერტაციებზე. მაგალითად, პოლიტიკა კარგად უნდა ასრულებდეს ამოცანას c dcba even, მაშინაც კი, თუ იგი მხოლოდ დავალებით არის მომზადებული {abcd.
მასში უნდა განთავსდეს ცვლადი სიგრძის დემონსტრაციები.

მათ ჰქონდათ რამდენიმე კითხვა, რომელზეც მათ სურდათ პასუხის გაცემა ამ ამოცანისთვის.

როგორ ადარებს ქცევის კლონირებასთან ვარჯიშს DAGGER- სთან, იმის გათვალისწინებით, რომ საკმარისი მონაცემების შეგროვება შესაძლებელია ხაზგარეშე?
როგორ შედარებულია მთელი დემონსტრაციის პირობებში საბოლოო სასურველი კონფიგურაციის კონდიცირება, მაშინაც კი, როდესაც საბოლოო კონფიგურაციაში არის საკმარისი ინფორმაცია დავალების სრულად დაზუსტების მიზნით?
როგორ ხდება მთელი დემონსტრაციის კონდიცირების შედარება იმ ტრაექტორიის ”სურათის” კონდიცირზე, რომელიც არის ჩარჩოების მცირე ქვესათაური, რომელიც ყველაზე ინფორმაციულია
შეიძლება თუ არა ჩვენი ჩარჩო წარმატებით განზოგადდეს დავალებების ტიპები, რომლებიც მას არასდროს უნახავს ტრენინგის დროს? (++)
რა არის მეთოდის მიმდინარე შეზღუდვები?

არქიტექტურა

ნაწილაკების მიღწევა

ამ პირველი მაგალითისთვის მათ შეადარეს სამი არქიტექტურა, რომლებიც დაფუძნებულია გრძელი მოკლევადიანი მეხსიერების (LSTM) ნერვულ ქსელებზე. ამ ქსელის აღწერა მომავალში განთავსდება მეხსიერებისა და ყურადღების შესახებ, რომლებიც აბსოლუტურად მომხიბლავი საგნებია, როგორც კოგნიტურ, ისე გამოთვლილ მეცნიერებებში. არსებითად, LSTM აწარმოებს ქსელის წინა შედეგებს (დროულად), როგორც ქსელის ყველა ახალ დროში შეყვანის ნაწილი, რაც საშუალებას აძლევს წარსული სახელმწიფოების ინფორმაციას აცნობოს აწმყოს (ამრიგად, მოკლევადიანი მეხსიერების ქსელების სახელი). ისინი მრავალი თანამედროვე ტექნოლოგიის ძირშია, რომლებიც დროის სერიებს ეხება (Alexa, Siri და ა.შ.).

აქ ისინი იყენებენ ამ სამ სპეციფიკურ პირობას:

  1. Plain LSTM: სწავლობს ტრაექტორიის და მიმდინარე მდგომარეობის ჩაქრობას ის მრავალ ფენის პერესტრონის შესანახად, რომელიც წარმოქმნის საავტომობილო მოქმედებას
  2. LSTM ყურადღებით: აწარმოეთ შეწონილი წარმოდგენა ტრაექტორიის ღირსშესანიშნაობებზე
  3. ყურადღების მიქცევით საბოლოო მდგომარეობით: მხოლოდ ტრენინგის დროს გამოიყენეთ საბოლოო მდგომარეობა, რათა შეადგინოთ წონა, ვიდრე წინა არქიტექტურის მსგავსი.

ბლოკის დაწყობა

მიუხედავად იმისა, რომ, პრინციპში, ნერვულ ქსელს შეეძლო შეესწავლა რუქა დემონსტრაციიდან და მიმდინარე დაკვირვებით სათანადო მოქმედებამდე, ჩვენ მნიშვნელოვანია, რომ გამოვიყენოთ შესაბამისი არქიტექტურა. ჩვენი ხუროთმოძღვრება ბლოკის დასტისთვის წარმოადგენს ამ ნაშრომის ერთ – ერთ მთავარ წვლილს და ვფიქრობთ, რომ ეს არის იმის წარმოდგენა, თუ რა შეიძლება გამოიყურებოდეს არქიტექტურაში უფრო რთული ამოცანების ერთჯერადი მიბაძვისთვის.

ყურადღების მოდულები

სტატია შედარებით მაღალ დონეზე რჩება ქსელის სტრუქტურის აღწერაში, რომელიც გამოიყენება დავალების შესასწავლად. არქიტექტურის მთავარი ინგრედიენტია მათი ყურადღების მოდული, მაგრამ მე მჯერა, რომ ამ თემას ესაჭიროება კონკრეტული ჩანაწერი, რომელიც დეტალურად განიხილავს მის არსებით როლს. კოგნიტური მეცნიერების მდგრადი ყურადღების კონცეფციის ანალოგიით, ყურადღების მოდულები გამოიყენება სივრცისა და დროის სხვადასხვა ინფორმაციის შემცველ შესაბამის ინფორმაციებზე შესანახად და ფოკუსირებაზე. იგი აწარმოებს ფიქსირებულ ზომის გამოშვებას, რომელიც შეიცავს ინფორმაციის შინაარსის ჩანერგვას, რომელიც იყო გადაჭიმული დროსა და სივრცეში. ტოპოლოგიის ანალოგიით, მათემატიკური ფილიალი, რომელიც მე მჯერა, რომ დიდად გვაცნობებს, თუ როგორ გვესმის მომავალში განაწილებული წარმომადგენლობები, ყურადღების ქსელი ასრულებს ინფორმაციის ტოპოლოგიურ იზომორფიზმს, იგივე მრუდი, განსხვავებულ ფორმას. გაითვალისწინეთ, რომ ეს ქსელი არ თამაშობს saliency- ის დეტექტორის როლს, რომელსაც შეუძლია ფოკუსირება მოახდინოს მოულოდნელ ან იშვიათ მოვლენებზე, რაც არის ნეირომეცნიერებებში ყურადღების კონცეფციასთან დაკავშირებული ფუნქცია.

აქ ისინი იყენებენ ორი ტიპის ყურადღების ქსელს: ა) დროებითი ყურადღების ქსელი, რომელიც აწარმოებს შეწონილ თანხას მეხსიერებაში შენახული შინაარსის (შეკითხვის, კონტექსტისა და მეხსიერების ვექტორების) და ბ) სამეზობლო ყურადღების ქსელის საშუალებით, რომელსაც შეუძლია ინფორმაციის აღდგენა ბლოკთან შედარებით. პოზიციები დამოკიდებულია აგენტის მიმდინარე შეკითხვის მიხედვით.

დროებითი ყურადღების ქსელი, c: კონტექსტის ვექტორი, m: მეხსიერების ვექტორი, q: შეკითხვის ვექტორი, v: ისწავლა ვექტორის წონა. გამომავალი არის იგივე ზომით, როგორც მეხსიერების ვექტორი. ეს არის იმ ვექტორის წრფივი კომბინაცია, რომელიც საშუალებას აძლევს მეხსიერების ზოგიერთ ვექტორს უფრო მეტი გავლენა მოახდინოს გამომუშავებაზე, კონტექსტისა და შეკითხვის ვექტორებზე დაყრდნობით.იგივე იდეა აქ, სივრცით ინფორმაციას შორის კონკურენცია შენარჩუნებულია ყურადღების სისტემის დინამიურად.

პოლიტიკის ქსელი

სრული ქსელი შედგება სამი სხვადასხვა ქვე-ქსელისგან: სადემონსტრაციო ქსელი, კონტექსტური ქსელი და მანიპულირების ქსელი.

სადემონსტრაციო ქსელი შედის დემონსტრაციულ ტრაექტორიას, როგორც შეტევას, და წარმოქმნის პოლიტიკის მიერ გამოყენებული დემონსტრაციის ჩანერგვას. ამ ჩამოსხმის ზომა სწორხაზოვანი იზრდება, როგორც დემონსტრაციის სიგრძის, ასევე გარემოში არსებული ბლოკების ფუნქცია.

როგორც აქ ჩანს, სადემონსტრაციო ქსელს შეუძლია შეცვალოს სხვადასხვა სირთულის და ზომის დემონსტრირება საერთო ფორმატში, რომელსაც გამოიყენებს კონტექსტური ქსელი ამოცანის წარმოსადგენად. ალბათ, ამ დონეზე უკვე მოხდა განზოგადება, რომ დემონსტრაციულმა ჩართვამ უნდა დატოვოს ინფორმაცია დემონსტრაციების დროს დაფიქსირებული ზუსტი ტრაექტორიისა და კუბის აბსოლუტურ პოზიციებზე.

კონტექსტური ქსელის სტრუქტურას ვუყურებთ, თუმცა ძალიან მაღალი დონიდან, ჩვენ ვხედავთ, რომ ინტერფეისი სადემონსტრაციო ქსელთან მიტინგების ცენტრალური დროებითი ყურადღების მოდულებით არის ჩართული. ჩვენ ასევე ვხედავთ, რომ წინა მოქმედებები (LSTM) და ამჟამინდელი მდგომარეობა იკვებება, როგორც ეს არის შეყვანილი დემონსტრაციულ ჩართვასთან, რათა წარმოქმნას გლობალური კონტექსტი, რომელიც გაგზავნილია საავტომობილო ქსელში.

მათი აზრით, ქსელების ფუნქციონირების აღწერა ნაშრომის ყველაზე მნიშვნელოვანი ნაწილია:

კონტექსტური ქსელი იწყება შეკითხვის ვექტორის გამოანგარიშებით, როგორც მიმდინარე მდგომარეობის ფუნქცია, რის შემდეგაც გამოიყენება დემონსტრაციის ჩანართში სხვადასხვა დროის ნაბიჯებზე დასასწრებად. ერთსა და იმავე ეტაპზე ნაბიჯზე სხვადასხვა ბლოკებზე მეტი ყურადღების წონა შეჯამებულია, თითოეულის საფეხურზე თითო წონის წარმოება. ამ დროებითი ყურადღების შედეგია ვექტორი, რომლის ზომა პროპორციულია ბლოკების რაოდენობის გარემოში. შემდეგ ჩვენ ვიყენებთ სამეზობლო ყურადღებას, რომ გავავრცელოთ ინფორმაცია თითოეული ბლოკის ჩანართზე. ეს პროცესი მრავალჯერ მეორდება, სადაც სახელმწიფო მოწინავე წონის მქონე LSTM უჯრედის გამოყენებით ხდება.
ოპერაციების წინა თანმიმდევრობა წარმოქმნის ჩანერგვას, რომლის ზომა დამოუკიდებელია დემონსტრაციის სიგრძისგან, მაგრამ მაინც დამოკიდებულია ბლოკების რაოდენობაზე. ამის შემდეგ ჩვენ ვიყენებთ სტანდარტულ რბილ ყურადღებას, რათა განვავითაროთ ფიქსირებული განზომილებიანი ვექტორები, სადაც მეხსიერების შინაარსი მხოლოდ თითოეული ბლოკის პოზიციებისაგან შედგება, რომლებიც რობოტის მდგომარეობასთან ერთად ქმნიან მანიპულირების ქსელში გადაცემულ შესავალს.
ინტუიციურად, მიუხედავად იმისა, რომ გარემოში ობიექტების რაოდენობა შეიძლება განსხვავდებოდეს, მანიპულირების ოპერაციის თითოეულ ეტაპზე, შესაბამისი ობიექტების რაოდენობა მცირეა და ჩვეულებრივ ფიქსირდება. კონკრეტულად ბლოკის დასამაგრებელი გარემოსთვის, რობოტს უნდა დასჭირდეს მხოლოდ ყურადღება მიაქციოს ბლოკის პოზიციას, რომელსაც ის ცდილობს შეარჩიოს (წყაროს ბლოკი), ასევე ბლოკის პოზიცია, რომელსაც ის ცდილობს თავზე განთავსდეს ( სამიზნე ბლოკი). ამრიგად, სწორად გაწვრთნილ ქსელს შეუძლია ისწავლოს მიმდინარე მდგომარეობის შესაბამისობა დემონსტრაციასთან შესაბამის ეტაპზე, და დაასახელოს წყარო და სამიზნე ბლოკები, რომლებიც გამოხატულია რბილი ყურადღების წონაზე, სხვადასხვა ბლოკებზე, რომლებსაც შემდეგ იყენებენ შესაბამისი პოზიციების ამოსაღებად. გადადის მანიპულირების ქსელში.

მათი აღწერის დასრულების მეთოდი შესანიშნავი მაგალითია AI– ის კვლევის მიმდინარე დრეიფში, საექსპერტო სისტემის მიდგომიდან, სასწავლო სისტემის მიდგომამდე და ასევე ისაუბრებს დისკუსიაზე იმასთან დაკავშირებით, თუ როგორ ვითარდება ტვინი ქვემოთ.

მიუხედავად იმისა, რომ ჩვენ არ ვასრულებთ ამ ინტერპრეტაციას ტრენინგში, ჩვენი ექსპერიმენტის ანალიზი მხარს უჭერს ამ ინტერპრეტაციას იმის შესახებ, თუ როგორ მუშაობს შინაგანად მიღებული პოლიტიკა.

მათ არ იციან როგორ მუშაობს! ისინი აშენებენ სტრუქტურას, რომელსაც შეუძლია შეასრულოს გარკვეული გამოთვლა და შეინახოს გარკვეული ინფორმაცია, რომელიც, ვფიქრობთ, რომ არის პრიორიტეტულად გამოსადეგი, და ამარაგებს მას სასწავლო კომპლექტი იმ იმედით, რომ მთელი სტრუქტურა შეიტყობს! არსებობს სახის ხელოვნური ინტელექტის კვლევის ვუდუ, რომელიც იზრდება, ხელოვნებაა, სწორი მიმართულებაა ჰერუსული ძიების სწორი მიმართულებით წარმართვისათვის. როგორც ჩანს, ჯადოქრების უამრავი ნაწილი მუშაობს OpenAI- სთვის.

მათი სიტყვებით, მანიპულირების ქსელი უმარტივესი სტრუქტურაა, მასში ჩასმული კონტექსტიდან, რომელიც იკვებება მრავალ ფენის პერესტრონამდე, წარმოებულია საავტომობილო მოქმედება.

შედეგები

შედეგები ხშირად ის ნაწილია, რომლისთვისაც დიდი ინტერესი არ მაქვს, განსაკუთრებით იმ ტიპის საოცრად ბრწყინვალე ტექნიკური ნაშრომებისთვის. მე სწრაფად გავითვალისწინებ, რომ ეს მიდგომა მოქმედებს, ის ასრულებს სიზუსტით, რომელიც შეიცავს მკაცრი კოდირებულ ექსპერტულ პოლიტიკას და, ამ პროცედურული მიდგომის საწინააღმდეგოდ, განზოგადებულია დავალებების ფართო სპექტრისთვის.

ნაწილაკების მიღწევა

ბლოკის დაწყობა

ამ ექსპერიმენტებში მათ ასევე შეამოწმეს სხვადასხვა პირობები. DAGGER- ის გამოყენებით მათ შეადარეს სამი განსხვავებული შეყვანის პირობა დემონსტრირებული ტრაექტორიის შემცირებით: სრული ტრაექტორია, ტრაექტორიის ფოტოგრაფია, ან მხოლოდ საბოლოო მდგომარეობის გამოყენებით. მათ ასევე შეადარეს ქცევის კლონირების ალგორითმი დემონსტრაციის სრულ ტრაექტორიას.

ძლიერი მტკიცებულება სისტემის უნარი განზოგადდეს კუბის იდენტურობაზე

მსჯელობა

როდესაც ვკითხულობ OpenAI– ს მიერ გაკეთებული სწრაფი ტემპის მიღწევებს ბოლო თვეების განმავლობაში, ვგრძნობ მზარდ სურვილს, ვისაუბრო მათ საქმიანობაზე და გავუზიარო ჩემი აზრები იმის შესახებ, რისიც მჯერა მათი მუშაობის, და ზოგადად, AI– ს დარგის მიღწევების შესახებ, აცნობეთ ჩვენს გაგებას, თუ როგორ ბიოლოგიური ტვინის მუშაობა. კერძოდ, ეს მზარდი იდეა, რომ ერთი შეხედვით, გაზიარებული შემეცნებითი ფუნქციები ადამიანებს შორის არ არის იმდენად განპირობებული, რომ ესა თუ ის საერთო სტრუქტურა, რომელიც ბუნებრივად იცის, თუ როგორ უნდა შეასრულოს დავალება, მაგრამ, სამაგიეროდ, შედარებით მსგავსი გულუბრყვილო სტრუქტურების შედეგია, რომლებიც დაპირისპირდებიან იმავე გარემოსთან. ისწავლეთ მსგავსი დავალებების შესრულება. ფუნქცია არის ფუნქციონალური სტრუქტურის შედეგი, რომელსაც მხოლოდ კონკრეტული გარემოს შესწავლა შეუძლია დავალების შესრულება, ვიდრე კონკრეტული გარემო, ვიდრე სტრუქტურა, რომელიც შეძლებს დავალების შესრულებას ბუნებრივად, უბრალოდ ორიოდე პარამეტრის შერევით გარემოში ადაპტაციისთვის.

დავალებები კონფიგურაციებთან მიმართებაში: ერთი შეხედვით თვითნებური განმარტება

უნდა ვაღიარო, არ მესმის, თუ რატომ გადაწყვიტეს ისაუბრეს სხვადასხვა დავალებებზე, როგორც მათ გააკეთეს. დავალება განისაზღვრება ბლოკის დასტის ექსპერიმენტში, როგორც სტრიქონების სიმრავლე, რომლებიც წარმოადგენს ერთმანეთთან შედარებით ბლოკების პოზიციას, კომპლექტში შემავალი ელემენტების რაოდენობა განსაზღვრავს დასტის რაოდენობას და სიმბოლოების რაოდენობას იმ ბლოკის რაოდენობაზე, რომლის მოწყობაა საჭირო. . შემდეგ დავალება არის ჩხირის ბლოკების მოწყობა განლაგების აბსოლუტური პოზიციის მიუხედავად.

ზოგიერთი ბლოკი შეიძლება იყოს მაგიდაზე, მაგრამ არა დავალების ნაწილი

მათი არჩევანი ნათესაობის პოზიციის და სტრიქონების რაოდენობისა, როგორც ცალკეული დავალების კრიტერიუმად, განსაზღვრა. სინამდვილეში, აზრი შეიძლებოდა გესმოდეთ სხვადასხვა ამოცანებზე, რომლებიც დაფუძნებულია ბლოკების აბსოლუტურ საწყის პოზიციებზე (რასაც ისინი კონფიგურაციას უწოდებენ). მე მიმაჩნია, რომ პრობლემის საერთო ბუნება მათთვის აშკარაა, მაგრამ სიცხადის მიზნით, მათ ურჩევნიათ დეტალებში არ შევიდნენ. უფრო მეტი აზრი აქვს პოლიტიკის სწავლებას ჩასატარებლად, როგორც ორი ტიპის განზოგადებას, როგორც მათ შემდგომში აკეთებენ:

გაითვალისწინეთ, რომ განზოგადება მრავალ დონეზე ფასდება: სწავლის პოლიტიკას არა მხოლოდ ახალი კონფიგურაციებისა და უკვე დანახული დავალებების ახალი დემონსტრაციების განზოგადება სჭირდება, არამედ საჭიროა ახალი ამოცანების განზოგადება.

უბრალოდ შეცვალეთ "დავალებები" "წესრიგის წესებით". დავალების სწორად გაცნობა ნიშნავს იმას, რომ აგენტი შეისწავლის ჩანერგვას, რომელსაც შეუძლია შეაფასოს კუბების პოზიცია (კონფიგურაცია), არამედ მათი თვითმყოფადობა (დავალება), დასტის რიცხვი (დავალება) და დემონსტრაციის ტრაექტორია (შემოღებულია მოკლედ ციტატა) შესაბამისი საავტომობილო რეაგირების შესაქმნელად.

ეს განზოგადებები საპირისპიროდ ჩანს, როგორ შეიძლება იგივე ქსელი ამოიღოს კუბის თავდაპირველი კონფიგურაცია ან მათი ვინაობა და კვლავ აღადგინოს მათი აბსოლუტური პოზიცია საავტომობილო რეაქციისთვის?

ეს განმარტავს სწავლის დროს სხვადასხვა კოოპერატივის ქვესაშენების საჭიროებას, სხვადასხვა შეყვანის მიღებას, და ეს განმარტავს, რომ კონტექსტურ ქსელში დავალების აბსტრაქტულ წარმოდგენას იკვებება დაქვემდებარებულ ბრძანებამდე, ქვედა დავალების შესახებ ინფორმაცია, როგორიცაა კუბურები აბსოლუტური პოზიციები.

თქვენ შეიძლება ფიქრობთ, რომ ამ დავალების და კონფიგურაციის შესახებ კომენტარის გაკეთება კომენტარი სისულელეა, მაგრამ აუცილებელია გვესმოდეს, რომ ეს არის არსებითად აბსტრაქციის იგივე პროცესი სხვადასხვა ობიექტზე დაკვრის დროს (და ეს იხსნება შემდეგი განყოფილებისთვის).

სწავლის გარეშე სწავლა არ არსებობს

ტრანსფერული სწავლება, შესაძლოა, შემეცნების ყველაზე მომხიბლავი კონცეფცია იყოს არა-სილიკო, ან ინ ვივო, ეს არის ძალიან ცხელი თემა, როგორც AI მკვლევარებისთვის, ისე ნეირომეცნიერებისთვის, და ეს ხდება ჩემი სადოქტორო დისერტაციის საგანი. გაითვალისწინეთ, რომ მჭიდროდაა დაკავშირებული ცნებები შეისწავლეს მანქანაში სწავლის დაწყებამდე ბევრ სფეროში, და ამ აბსტრაქტულ და ყოველთვის ნაწილობრივ განსაზღვრულ კონცეფციას მრავალი სახელი აქვს. ფილოსოფოსები, ანთროპოლოგები და სოციოლოგები მას შეიძლება მოიხსენიებენ, როგორც (Post-) სტრუქტურალიზმს (კლოდ ლევი-სტრაუსი, მიშელ ფუკო), ლინგვისტი ისაუბრებს სინტაგმასა და ბუდეს ხის სტრუქტურებზე (ნოამ ჩომსკი), მათემატიკოსები ალბათ იფიქრებენ ჰომომორფალიზმზე ან ინვარიანტზე და განათლებაზე. მკვლევარებმა ან ნეირომეცნიერებმა შეიძლება მოიხსენიონ ეს, როგორც სტრუქტურული სწავლება. თქვენ შეიძლება აგრეთვე ნახოთ დაკავშირებული კონცეფცია მანქანათმცოდნეობის სფეროში, როგორიცაა რეპრეზენტაციის სწავლება და მეტა-სწავლა, რომელიც დამოკიდებულია ავტორზე, შესაძლოა სწავლის გადაცემაზე ან სწავლის პარადიგმაზე, რომელიც გამოყენებულია გადაცემის სწავლის შესასრულებლად. ღრმა ნერვულ ქსელებზე საუბრისას ეს განსხვავებები ბუნდოვანია, რადგან არსებითად ნეიროლოგიური ქსელი სწავლობს გარკვეული პრობლემის (წარმომადგენლობითი სწავლა) ჩანერგვას, მისი სტრუქტურის (მეტა-სწავლების) შეცვლით ჩვეულებრივ ხმაურიან გარემოში, რაც გულისხმობს გადაცემის სწავლების ფორმას.

AI მკვლევარებმა და შემეცნებითმა მეცნიერმა ხშირად აქვთ გადაცემის სწავლის საკმაოდ კონკრეტული განსაზღვრება, ეს არის პროცესი, რომლის საშუალებითაც სისტემას შეუძლია გამოიყენოს გარკვეული დავალების შედეგად მიღებული ცოდნა, შეასრულოს სხვა დავალება, რომელიც იზიარებს საერთო კომპოზიციურ სტრუქტურას (როგორც აღწერილია სტატიაში). კოგნიტურ მეცნიერებას აქვს ახლო და შორეული გადაცემის ეს ცნება, იმისდა მიხედვით თუ რამდენად განსხვავდება ორი ამოცანა. მაგრამ უფრო აბსტრაქტული თვალსაზრისით, ხმაურიან და რთულ გარემოში, ყველა სწავლა გადაცემის სწავლის ფორმაა და ძალიან ახლო და ძალიან შორს გადასვლას შორის განსხვავება მხოლოდ გაზიარებული ინფორმაციის საკითხია - ისევ ის არის მასშტაბური და არა ბუნების.

კონტროლირებად გარემოში, წინასწარ ხდება ძალისხმევა სინამდვილის მკაცრი კოდირებული დისკრეციის ასაშენებლად, მაგრამ სინამდვილეში ეს დისკრეტიცია პროცესალურად ასახავს რას აკეთებს სწავლის გადაცემას, ის აერთიანებს სახელმწიფოებში უსასრულო ნაგებობებს, რომლებიც ნაპოვნი არიან სინამდვილეში. არსებითად, გადაცემა სწავლა ეხება უშუალოდ ან იმ პროცესის გაფართოებას, რომლის მეშვეობითაც სასწავლო აგენტები იყენებენ ინვალიდებს სამყაროს მოდელების შესაქმნელად. ეს არის პროცესი, რომელიც იყენებს იგივეების მსგავსებებს, გამეორებასა და ცვალებადობას, რომ შექმნას უფრო აბსტრაქტული და კომპოზიციური წარმომადგენლობა, რომელიც ანსამბლებს ანაწილებს ვარიანტის სიგრძის სიგრძეზე. ზოგადი გაგებით, ეს საშუალებას იძლევა შექმნას ძირითადი ოპერაციები, რომლის საშუალებითაც მანიპულირებს ინფორმაციულ ჯგუფებს, ისევე როგორც მათემატიკაში, ეს საშუალებას გვაძლევს გაერთიანდეს და კვეთაზე. ეს საშუალებას აძლევს იდენტურობას, ეს ხსნის ობიექტების კატეგორიზაციის უნარს. ჯოშ ტენემბაუმი იძლევა მაგალითს, რომელიც ნამდვილად მეუბნებოდა: წარმოიდგინეთ, რომ თქვენ ასწავლით ორი წლის ბავშვს პირველად ცხენის ამოცნობას, უჩვენებთ მას სხვადასხვა ცხენის სურათის რამდენიმე სურათს, შემდეგ კი მას სხვა ცხენის სურათს აჩვენებთ და სახლის სურათი და სთხოვეთ მას გითხრათ რომელია ცხენი. ბავშვი ამ ამოცანას საკმაოდ მარტივად შეასრულებს, მაგრამ კომპიუტერი მაინც ვერ ახერხებს ამდენი ნაწილის (ერთჯერადი სწავლის) კარგად შესრულებას.

როგორ მოიქცა ბავშვი?

ცხოველთა აღიარება ბავშვებში იქნა შესწავლილი და ეხება ჩვენს შესაძლებლობას ობიექტების ნაწილებად დეკონსტრუქციამდე, ბეწვის ფერის დიაპაზონის, კისრის ზომისა, საერთო ფორმის და ა.შ.. ეს უნარი არის ის, რაც საშუალებას გაძლევთ გააღოთ კარი. აქამდე არასდროს მინახავს, ​​თქვენ ისწავლეთ საავტომობილო თანმიმდევრობა, რომელიც განზოგადებულია ნებისმიერ სიტუაციაში (დომენის განზოგადება). ეს არის ის, რასაც იყენებთ განმარტებითი მოდელების გასაშენებლად, რომლებიც ამარტივებს სამყაროს, თქვენ შეიძლება ნამდვილად გაგიკვირდეთ ცნობილ შვეიცარიულ საათში Cuckoo– ს მოულოდნელი გამოვლენით, მაგრამ მეორე გარეგნობის შემდეგ თქვენ მოელით. უცვლელობის დადგენა არის ის, თუ როგორ სწავლობს ნერვული ქსელი და ეს მოდელები ქვეცნობიერად არის აგებული. ამის მაგალითია, თუ როგორ ვსწავლობთ ინტუიციურად ფიზიკის შესახებ, მანამდეც კი, სანამ მათემატიკასა და ციფრებზე მოვისმინეთ.

შეიძლება ვინმემ იკითხოს მაგალითად, რამდენად სწრაფად შეეძლო მიკროგრავიულობის შედეგად დაბადებული ბავშვი ადაპტირებას დედამიწის სიმძიმასთან და ინტუიციურად შეისწავლის, რომ ობიექტები დაეშვება მიწაზე?

შეიძლება ჰიპოთეზა გვქონდეს, რომ ჩვილები და ცხოველების უმეტესობა ქვეცნობიერად გადახედონ თავიანთ მოდელს, ისევე, როგორც ძაღლის ძაფებზე წინდების გაკეთებას, ხოლო ახალ ინფორმაციებთან შეგუებას გარკვეული დრო სჭირდება.

მცირეწლოვანი ბავშვისთვის მოხდება მისი ინტუიციური მოდელის შეგნებული დაკითხვა და გადასინჯვა, ცნობისმოყვარეობიდან, ენის, სიმბოლოების და რწმენის საშუალებით. ჩვენი შესაძლებლობები შეგნებულად დაკითხონ და შეცვალონ ჩვენი მოდელები, საინტერესოა და, როგორც საყრდენი, ადამიანი შეიძლება იყოს ერთადერთი სახეობა, რომელსაც შეუძლია პროცესის სიტყვიერი შედგენა, მაგრამ სხვა სახეობებმა შეიძლება შეასრულონ მსგავსი ცნობიერი გადასინჯვები.

შეუცვლელობა დროის სავალდებულო საკუთრებაა, თუ ყველაფერი ყოველთვის ახალი და არავითარ შემთხვევაში არ იყო პროგნოზირებადი, მაინც დარჩებოდა ეს უნიკალური ინვალიდი, რომ ყველაფერი ყოველთვის ახალი და არაპროგნოზირებადი იყოს. შეუძლებელია წარმოვიდგინოთ სამყარო შეუცვლელობის გარეშე, რადგან იქ არ შეიძლება არსებობდეს სამყარო, რომელზეც მოხსენიება მოხდებოდა, შეუცვლელობის გარეშე ცხოვრება შეუძლებელი იქნებოდა და ჩვენი ტვინი უსარგებლო იქნება. ცხოვრება არის მანქანა, რომელიც მუშაობს მხოლოდ მოვლენების პროგნოზირებადი განმეორებით, მიზეზების და შედეგების განმეორებით, ორგანიზმში ენერგიის ციკლური რეინტროდუქციის გზით. ხოლო Life– ის მცდელობამ გააუმჯობესოს მისი აუცილებელი ციკლების გამოყენება, ჩვენი ტვინი საბოლოო იარაღია. ეს არის პროგნოზირების აპარატი, ადაპტირებული ორგანო, რომელსაც შეუძლია დინამიურად იპოვნოს განმეორება და გამოიყენოს იგი სამყაროსთან უკეთესი ურთიერთობისთვის.

ეს მეთოდი, რომელიც ცხოვრებამ აირჩია, ძალზე მტკიცეა სტრუქტურის მცირედი ცვლილებებისთვის. რაც იგივე რჩება სამყაროა, გარემოს სტატისტიკური თვისებები, მაგრამ მასში შემავალი ნერვული სტრუქტურა შეიძლება განსხვავდებოდეს, რამდენადაც მას შეუძლია ჩადოს შესაბამისი ინფორმაცია, რომელიც განვითარდა მის სამკურნალოდ. ეს განმარტავს, თუ რატომ შეიძლება ჩვენი ტვინი ასე განსხვავდეს ინდივიდუალურიდან ინდივიდუალური, თუნდაც პირველადი ქერქის, და მაინც იგივე ფუნქციები.

ნერვული სისტემები ადაპტირებულია, მათ არ სჭირდებათ ევოლუცია და ნელი გენეტიკური მუტაციები ქცევის შეცვლასთან დაკავშირებით შესაბამისი გზით. მარტივი ნერვული სისტემა, მაგალითად, C. Elegans- ში ნაპოვნი, როგორც თანდაყოლილი შიდა კოორდინატორი და გარე სენსორი: ემსახურება საკვებს და მისკენ მოძრაობს, ტკივილისგან გაქცევა, რეპროდუცირება. ეს მარტივი სისტემები თავდაპირველად ხისტი იყო და ასრულებდნენ ჩვენი ძალზე ხმაურიანი სამყაროს ექსტრემალურ მიახლოებას, რათა განეხორციელებინათ იგი შესაძლო მდგომარეობების მცირე სიმრავლეში (საკვები მარცხნივ, სიცხე ქვემოთ და ა.შ.). ჩვენი საავტომობილო და სენსორული შესაძლებლობები ჩვენს ნერვული სისტემის პროგნოზირების შესაძლებლობებთან ერთად განვითარდა. როდესაც ჩვენი სენსორები უფრო ზუსტი გახდა, ნერვულმა სისტემამ ნელ-ნელა შეძლო მისი სტრუქტურის მოდიფიცირება ინფორმაციის შესანახად და გამოცდილების შესწავლის მიზნით. თავდაპირველად მას შეეძლო გაეცნო შეყვანის გარკვეული კატეგორიების ამოცნობას, როგორიცაა სუნი ან მსუბუქი შაბლონების ტიპები, და ასევე გახდა შესწავლილი შეცდომისა და შეცდომის საშუალებით, რომ გაეკონტროლებინა მისი უფრო რთული საავტომობილო სისტემა. გაითვალისწინეთ, რომ სამყარო ისეთი რთულია, რომ ჩვენი ტვინი ბუნებრივად გადაიქცა სასწავლო პარადიგმისკენ, ვიდრე თანდაყოლილი პროცედურული მიდგომა. კომპაქტურად რომ ითქვას, ეს სრულყოფილი აზრია, რომ Go- ს მარტივ თამაშს აქვს სახელმწიფო სივრცე გაცილებით დიდი (2.10¹⁷⁰) ვიდრე ატომთა რაოდენობა სამყაროში (10⁸⁰) და, როგორც ორგანიზმები უფრო რთულდებიან, ცდილობენ ყველგან შესაძლო აპარატების მიახლოებას. ნათქვამია, რომ ეს შეიძლება სწრაფად იქცეს ინერტული, კომბატორიული აფეთქების გამო.

ზოგიერთს შეიძლება სჯეროდეს, რომ ჩვენი ტვინი აშენებულია ისე, რომ იგი ბუნებრივად წარმოაჩენს იმ სივრცეს, რომლის განვითარებასაც აპირებს, რომ დნმ-ში სადმე არის გენი, რას წარმოადგენს სახე, ან ხმის ტალღების დროებითი ორგანიზაცია. სიტყვები. მათ შეიძლება სჯეროდეთ, რომ ეს თანდაყოლილი ცოდნა სადღაც დაბადებიდან კოდირდება. სხვებმა შეიძლება დაიჯერონ, ისევე როგორც ჩემი ფილოსოფიის მასწავლებელმა, როდესაც საშუალო სკოლაში ვიყავი, ეს არსებობა წინ უსწრებს არსებას, და რომ ჩვენი ტვინი მთლიანად და მხოლოდ განსაზღვრულია ორგანიზმისა და სამყაროსთან. რეალობა, რა თქმა უნდა, უფრო რთულია, ხოლო ტელენსიფალური სისტემების უმეტესი ნაწილისთვის, რომლებიც ჯერჯერობით იქნა შესწავლილი, ტვინი არ იბრუნებს თანდაყოლილ ფუნქციას, რომელსაც იგი შეასრულებს, მაგრამ შეისწავლის მას იმის მიხედვით, თუ რას შეიცავს მის მონაცემებს. თუ შესაბამისი ინფორმაცია ძალიან ცუდია, ამ სტრუქტურაში სწავლის შესაძლებლობას შეიძლება ჰქონდეს ვადის გასვლის თარიღი (მაგ. ამბლიოპია). თუ თანდაყოლილი სტრუქტურა არ დაშიფვრის საბოლოო ფუნქციას, თავის ტვინს აქვს სპეციფიკური სტრუქტურა. ეს სტრუქტურა ინდივიდუალურადაა დაცული, და ამავე სახეობის ინდივიდები იზიარებენ საერთო ფუნქციებსა და დისკებს. დნმ ქმნის გარკვეულ სტრუქტურას, სტრუქტურას, რომელსაც არ შეუძლია შეასრულოს მათი საბოლოო ფუნქცია შინაგანად, მაგრამ სტრუქტურა, რომელსაც შეუძლია ინდივიდუალური გამოცდილების საფუძველზე შეისწავლოს კონკრეტული დავალებების სირთულე. გასაკვირი არ არის, რომ ევოლუციამ გამოიწვია ძალზე ეფექტური სისხლის ტვინის ბარიერის ათვისება ტვინის დანარჩენი სხეულიდან, აგრეთვე მენინგები და ძვლის ძვლის გარსი, რომელიც მას გარე სამყაროსგან იცავს, რადგანაც სხვა ორგანოებისგან განსხვავებით. სტრუქტურა დაშიფრულია გენომში, გაწვრთნილი ტვინის სტრუქტურა შეუძლებელია რეგენერაცია მოახდინოს თანდაყოლილი შენახული მოდელისგან. საინტერესოა ის, რომ ანალოგიით ჩვენ ვხედავთ სწავლის იმავე მექანიზმებს, რომლებიც უფრო რთული და ღრმა ქსელების განვითარების გზით ახდენენ უფრო რთული დავალებების შესრულებას.

რთული კომპოზიციური სტრუქტურები რთულია, მაგრამ ყველგან

როგორც უცნაურია, უცნაურია, რომ ავტორებიც კი არ აღიარებენ, რომ სამიზნე მიღწევის პირველ დავალებას კომპოზიციური სტრუქტურა აქვს.

ნაწილაკების მიღწევის ნაწილაკები ლამაზად ასახავს განზოგადების გამოწვევებს სიმარტივისტური სცენარით. ამასთან, დავალებები არ იზიარებენ კომპოზიციურ სტრუქტურას, რაც ახალი ამოცანების განზოგადების შეფასებას არ წარმოადგენს გამოწვევად.

მიუხედავად იმისა, რომ სტრუქტურა მართლაც უფრო დაბალია, ვიდრე ბლოკის დამონტაჟება და ექსპერიმენტული მანიპულირებისთვის ადვილად ხელმისაწვდომი, ამოცანა მართლაც გაზიარებული სტრუქტურისგან შედგება. მსოფლიოს სიბრტყემდე მიახლოება, ერთი კომპოზიციური სტრუქტურა არის ის, რომ კუბის იდენტობა (ფერი) დაცულია თარგმნით, ხოლო A ბლოკიდან A- ან შემთხვევითი საწყისი პოზიცია - პოზიციის (Xa1, Ya1) გადატანა ბლოკზე B პოზიციაზე (Xb1, Yb2 ) იგივე მაღალი დონის კომპოზიციური სტრუქტურის ნაწილია, ვიდრე ბლოკი A პოზიციიდან (Xa2, Ya2), რათა დაბლოკოს B პოზიციაზე (Xb2, Yb2).

ინტერფეისები ქსელებს შორის

ნერვული ქსელების აგენტირებას, რომლებიც შეძლებენ შეტევების სხვადასხვა დონის აბსტრაქციას, დასჭირდებათ ინტერფეისები, დომენი, რომელიც, ჩემი აზრით, ბევრს დარჩა გასარკვევად. ამ ინტერფეისებს შეიძლება მრავალი ბუნება ჰქონდეთ. მაგალითად, მათ შეიძლება განიხილებოდეს, როგორც ორ ენას შორის საერთო ენა, როგორც სტატიაში მოცემულია, ყურადღების სისტემით შეიარაღებული ქვედა დონის ქსელს (სადემონსტრაციო ქსელი) შეუძლია დემონსტრაციის თარგმნა სხვა ქსელში (კონტექსტური ქსელი). მოქმედების მიმართულება, დემონსტრაციის სიგრძისა თუ საწყისი კონფიგურაციისთვის.

ამ ენის ზედაპირი აქ არის თვითმფრინავი, ზომით დაფიქსირებული, მაგრამ წარმოვიდგენთ შესაძლო ცვლილებებს, რამაც შეიძლება გააუმჯობესოს კომუნიკაცია ქსელს შორის. მაგალითად, ზედაპირის ზომა შეიძლება დინამიურად გაიზარდოს ან შემცირდეს, რადგან ქსელები ურთიერთქმედებენ სწავლის დროს, შესაბამისად, კომპრესირებენ ან აძლიერებენ ენის სირთულეს. მაგალითად, ჩვენ შეგვიძლია წარმოვიდგინოთ უფრო დინამიური ურთიერთქმედება, მაგალითად, უკუკავშირის საშუალებით. ჩვენ წარმოვიდგენდით ფასილიტატორული ქსელების არსებობას, რომლებიც შეისწავლიან ქსელებს შორის კომუნიკაციის გამარტივებას, რომელიც არსებობს როგორც პარალელური ქსელი, რომელიც სწავლობს პირველი ქსელის შეყვანის მოდულირებას მეორე ქსელის შეყვანის და გამოყვანის საფუძველზე. ჩვენ შეგვიძლია წარმოვიდგინოთ რთული კონტექსტური ქსელები, რომლებიც მოქმედებენ როგორც მატონიზირებელი (ნელი ცვალებადი) შემოდინება უფრო სპეციალიზებულ ქსელებზე… მომხიბლავია კვლევის მომავალი სფერო!

წარუმატებლობის შემთხვევები მინიშნებაა ახალი მოდულების შესაძლო როლების შესახებ

აღსანიშნავია, რომ შეცდომები ხშირად ხდება საავტომობილო შეცდომების გამო, და რომ შეცდომების რაოდენობა იზრდება დავალების სირთულესთან.

საავტომობილო ფუნქცია არ უნდა გაუარესდეს მხოლოდ სამიზნეების რაოდენობის გაზრდით, ეს არის მტკიცებულება იმისა, რომ რეპროდუქციის ქსელი სწავლობს საავტომობილო ქსელთან საუბარს ძალიან აბსტრაქტული. უცნაურია, რადგან მათი თქმით, მათი ტესტი აჩვენებს, რომ კონტექსტურ ქსელსა და საავტომობილო ქსელს შორის ინტერფეისი შედარებით კონკრეტულია (რობოტის პოზიცია, სამიზნის პოზიცია).

შესაძლო გამოსავალი შეიძლება იყოს, რადგან ეს არის მოდულარული არქიტექტურა, გამოიყენოს სხვადასხვა ზარალის ფუნქციები, ან მოდულარული ზარალის ფუნქციები, რომლებიც წარმოადგენს თითოეული ამოცანის სპეციფიკურ ასპექტს. მას ასევე დაეხმარება ტვინის წინა საავტომობილო უბნების ეკვივალენტი, რომ უზრუნველყოს დემონსტრაცია და კონტექსტური ქსელი შეიძლება დარჩეს აბსტრაქტული საავტომობილო ბრძანების გაუარესების გარეშე. Premotor– ის რეგიონებისთვის აუცილებელია მიზნის საფუძველზე (აბსტრაქტული ქსელებიდან) და სენსორული საშუალებებით ობიექტების უკეთ ლოკალიზაცია, რათა შეარჩიოთ საუკეთესო საავტომობილო ბრძანება. როგორც ჩანს, კონტექსტური ქსელი ცდილობს მიტინგების გადატანას უფრო მაღალ დონეზე და ამავდროულად მოამზადოს საავტომობილო მოქმედება მიმდინარე კონტექსტში. წინასწარი საავტომობილო ქსელის როლი უნდა იყოს ისწავლოს საავტომობილო სისტემასთან კომუნიკაცია მიზნებზე ორიენტირებული და ადაპტირებული გზით, რაც აერთიანებს პრემოტორისა და ხერხემლის ორივე ფუნქციებს საავტომობილო სწავლისა და სწრაფი ადაპტაციისთვის.

არსებობს საინტერესო თეორია, Moravec- ის პარადოქსი, რომელიც იწინასწარმეტყველებს, რომ ეს არ იქნება უფრო მაღალი დონის შემეცნება, რომელიც გამოთვლებით გამოირჩევა, არამედ სენსორული საშუალებებისა და საავტომობილო სისტემების შედეგების მკურნალობა. ეს მართლაც შეიძლება ითვალისწინებდეს ნეირონების დიდ რაოდენობას, რომელიც გვხვდება ჩვენს ტვინში (უფრო მეტი ვიდრე ჩვენი ტვინის დანარჩენ ნაწილში), რათა შეძლონ ადაპტირება გააკონტროლონ საავტომობილო მოქმედება. ეს პარადოქსი ჩამოყალიბდა იმ პერიოდში (80-იანი წლები), როდესაც ჯერ კიდევ გვჯეროდა, რომ შეგვეძლო საკუთარი ცოდნის ჩასმა მანქანაში, შეასრულოს რთული დავალება უკონტროლო ხმაურიან გარემოში. რასაკვირველია, ეს პარადოქსი აზრი აქვს, თუკი მანქანას შეუძლია სამყარო წარმოუდგინოს სახელმწიფოების დისკრეტიზებულ პაკეტში, ამაზე უფრო მაღალი დონის ფუნქციის შექმნა. მაგრამ მე მჯერა, რომ ეს ყველაფერი ძალზე დაბეგვრის იქნება, ხოლო შიდა წარმომადგენლობა, რომელიც გამოიყენება ქსელებს შორის ინტერფეისზე, შორს იქნება იმით, რაც ჩვენს ცნობიერ წარმომადგენლობებს წააგავს.

დასკვნა

სხვადასხვა ნერვული ქსელის ერთმანეთთან შერწყმით, რომლებიც პასუხისმგებელნი არიან პრობლემის სპეციფიკურ მკურნალობაზე, ამ სტატიაში ნათქვამია, რომ ამოცანის შექმნით, რომელსაც თანდაყოლილი ჭირდება განზოგადება და დომენის რანდომიზაციის გზით შესაბამისი სასწავლო გარემოს შექმნა, ნერვული ქსელის მეხსიერება მეხსიერებით და ყურადღების სისტემას შეუძლია მარტივი რეპროდუქციის მიღმა განზოგადება. მას შეუძლია ისწავლოს უფრო მაღალი ხარისხის მიზნის აღმოჩენა, რომელიც მხოლოდ ერთხელ გამოიფინა ინფორმაციის ვიზუალურ ნაკადში და ახორციელებს გამოთვლებს განზოგადებულ სივრცეში, რათა აღდგეს შესაბამისი ქმედებები, რომლებიც შეძლებენ ამ მიზნის სხვადასხვა კონტექსტში რეპლიკაციას.

მომავალში ჩვენ ვნახავთ სტრუქტურების უფრო სირთულეს, რომლებიც აგებულია ამ ატომურ სამშენებლო ბლოკებზე, რომლებსაც შეუძლიათ ისწავლონ რთული ამოცანების განზოგადება, მაგრამ რაც მთავარია, შეასრულონ რამდენიმე ასეთი დავალება, ახალ გარემოში, ნაკლებად ნდობა აქვთ მძიმე კოდიფიცირებულ მეთოდებზე, როგორიცაა მაგისტრალების შეყვანა ან სხვა მეხსიერების შენახვა. მეხსიერების შენახვა ჩაანაცვლებს მეხსიერების ქსელში გადანაწილებულ წარმოდგენებს, ყურადღების სისტემები შეიცვლება ციკლური მოქმედებით რეალურ დროში ყურადღების ცენტრში. რჩება კითხვა, თუ როგორ შევძლებთ ძლიერი სერიული ტექნოლოგიის (ტურინგის აპარატების) ადაპტირებას განსახორციელებელ სისტემაში განაწილებულ კომპიუტერებზე დამოკიდებულების გაზრდაზე.