MIT har forskare utvecklat en metod för robotträning som minskar tidsåtgång och kostnader samtidigt som den förbättrar anpassningsförmågan till nya uppgifter och miljöer.
Metoden – som kallas Heterogeneous Pretrained Transformers (HPT) – kombinerar stora mängder olika data från flera källor till ett enhetligt system, vilket effektivt skapar ett gemensamt språk som generativa AI-modeller kan bearbeta. Denna metod innebär en betydande skillnad jämfört med traditionell robotträning, där ingenjörer vanligtvis samlar in specifika data för enskilda robotar och uppgifter i kontrollerade miljöer.
Huvudforskaren Lirui Wang – en doktorand i elektroteknik och datavetenskap vid MIT – menar att även om många nämner otillräcklig träningsdata som en viktig utmaning i robotikligger ett större problem i det stora antalet olika domäner, modaliteter och robothårdvara. Deras arbete visar hur man på ett effektivt sätt kan kombinera och utnyttja alla dessa olika element.
Forskargruppen har utvecklat en arkitektur som förenar olika datatyper, bland annat kamerabilder, språkinstruktioner och djupkartor. HPT använder en transformatormodell, liknande den som används i avancerade språkmodeller, för att bearbeta visuella och proprioceptiva intryck.
I praktiska tester uppvisade systemet anmärkningsvärda resultat – det överträffade traditionella träningsmetoder med mer än 20% i både simulerade och verkliga scenarier. Denna förbättring gällde även när robotarna ställdes inför uppgifter som skilde sig avsevärt från deras träningsdata.
Forskarna samlade ihop ett imponerande dataset för förträning, bestående av 52 dataset med över 200.000 robotbanor i fyra kategorier. Detta tillvägagångssätt gör det möjligt för robotar att lära sig från en mängd erfarenheter, inklusive mänskliga demonstrationer och simuleringar.
En av systemets viktigaste innovationer ligger i dess hantering av proprioception (robotens medvetenhet om sin position och rörelse.) Teamet utformade arkitekturen för att lägga lika stor vikt vid proprioception och vision, vilket möjliggör mer sofistikerade skickliga rörelser.
Framöver siktar teamet på att förbättra HPT:s förmåga att bearbeta data utan etikett, på samma sätt som avancerade språkmodeller. Deras ultimata vision är att skapa en universell robothjärna som kan laddas ner och användas av alla robotar utan ytterligare utbildning.
Teamet är medvetet om att de befinner sig i ett tidigt skede, men är ändå optimistiska om att skalning kan leda till banbrytande utveckling inom robotpolicyer, på samma sätt som inom stora språkmodeller.
Du kan hitta en kopia av forskarnas artikel här (PDF)
(Foto av Besatt fotografi)
Se även: Jailbreaking AI-robotar: Forskare slår larm om säkerhetsbrister
Vill du lära dig mer om AI och big data från branschledare? Kolla in AI & Big Data Expo som äger rum i Amsterdam, Kalifornien och London. Det omfattande evenemanget är samlokaliserat med andra ledande evenemang, bland annat Konferens om intelligent automation, BlockX, Veckan för digital omvandling, och Cybersäkerhet & Cloud Expo.
Utforska andra kommande evenemang och webbseminarier om företagsteknik som drivs av TechForge här.