
Изследователи в Китай представиха нова AI рамка, предназначена да подобри манипулацията на хуманоидни роботи.
Според изследователи от Университета в Ухан, RGMP (повтаряща се мултимодална политика с геометричен приоритет) има за цел да подобри точността при захващане на по-широк набор от обекти и да позволи на роботите да изпълняват по-сложни ръчни задачи.
За разлика от много методи, базирани на данни, които разчитат на големи тренировъчни набори от данни, RGMP включва геометрично мислене, за да подобри генерализирането в нови или непредвидими среди.
Платформата постига 87% генерализиране и е 5 пъти по-ефективна по отношение на данните от водещите модели, базирани на дифузия, като комбинира пространствено мислене с ефективно обучение.
Изследователите твърдят, че тази рамка може да бъде стъпка към по-адаптивни и способни хуманоидни системи.
По-добри умения на роботите
За да могат хуманоидните роботи да работят независимо, те трябва да могат надеждно да боравят с множество обекти в различни среди. Настоящите модели за машинно обучение често работят добре само когато роботът работи в условия, подобни на тези, използвани по време на обучението.
Тези системи разчитат в голяма степен на големи масиви от данни и не използват напълно геометричното мислене или пространственото възприятие, което затруднява адаптирането на роботите към нови ситуации.
Моделите за зрение-език могат да разбират инструкции, но често се затрудняват да ги свържат с правилните действия, особено когато формите на обектите или контекстите варират.
Според изследователите, други подходи, като дифузия или имитационно обучение, изискват много демонстрации и все пак не успяват да обобщят. Това повдига два ключови въпроса: как роботите могат да разсъждават върху геометрията на обектите и как могат да се учат ефективно с по-малко примери.
За да преодолее ограниченията в настоящите системи за манипулиране на роботи, екипът разработва RGMP, нова цялостна рамка, която комбинира геометричното разсъждение с ефективното учене.
Първата част, наречена Geometric-prior Skill Selector (GSS), помага на робота да избере правилното действие въз основа на формата на обекта и изискванията на задачата, подобно на това как хората решават дали да хванат, стиснат или натиснат. Тя използва прости геометрични правила и работи дори в нови среди.
Втората част, Adaptive Recursive Gaussian Network (ARGN), подобрява обучението от малки набори от данни чрез съхранение и актуализиране на пространствената памет. Тя моделира взаимодействията на робота с обектите във времето, като по този начин избягва изчезващите градиенти.
Заедно тези компоненти помагат на роботите да се справят с по-сложни задачи с по-малко примери за обучение.
Ефективна интелигентност на роботите
Екипът тества рамката RGMP, за да оцени нейната производителност и обобщаване. Експериментите са проведени на два типа роботи: хуманоидна система и настолен робот с две ръце, оборудван с камери и ръце с 6 степени на свобода.
Използван е набор от данни от 120 демонстрационни траектории, а ефективността е измерена чрез два показателя: избор на правилното умение и точното му изпълнение.
RGMP е сравнен с водещи модели, включително ResNet50, Diffusion Policy, Octo, OpenVLA и други. Резултатите показват, че RGMP се представя по-добре при множество манипулационни задачи, включително непознати обекти и нови среди.
Подробностите за изследването на екипа на Университета в Ухан са достъпни на сървъра за предпечатни публикации arXiv.
Източник: InterestingEngineering
































