OpenAI och andra ledande AI-företag utvecklar nya träningstekniker för att övervinna begränsningarna med nuvarande metoder. Dessa nya tekniker tar itu med oväntade förseningar och komplikationer i utvecklingen av större och kraftfullare språkmodeller och fokuserar på människoliknande beteende för att lära algoritmer att ”tänka”.
De nya utbildningsteknikerna, som enligt uppgift leds av ett dussintal AI-forskare, vetenskapsmän och investerare, och som ligger till grund för OpenAI:s senaste ”o1”-modell (tidigare Q* och Strawberry), har potential att förändra landskapet för AI-utveckling. De rapporterade framstegen kan påverka de typer eller kvantiteter av resurser som AI-företagen kontinuerligt behöver, inklusive specialiserad hårdvara och energi för att stödja utvecklingen av AI-modeller.
o1-modellen är utformad för att närma sig problem på ett sätt som efterliknar mänskligt resonemang och tänkande, genom att bryta ner många uppgifter i steg. Modellen använder också specialiserad data och feedback från experter inom AI-industrin för att förbättra sin prestanda.
Sedan ChatGPT presenterades av OpenAI 2022 har det skett en kraftig ökning av AI-innovation, och många teknikföretag hävdar att befintliga AI-modeller kräver expansion, vare sig det är genom större mängder data eller förbättrade datorresurser. Först då kan AI-modellerna ständigt förbättras.
Nu har AI-experter rapporterat om begränsningar i uppskalningen av AI-modeller. 2010-talet var en revolutionerande period för skalning, men Ilya Sutskever, medgrundare av AI-laboratorierna Safe Superintelligence (SSI) och OpenAI, säger att träningen av AI-modeller, särskilt när det gäller att förstå språkstrukturer och mönster, har planat ut.
”2010-talet var skalningens tidsålder, nu är vi tillbaka i undrens och upptäckternas tidsålder igen. Att skala rätt saker betyder mer nu”, säger de.
På senare tid har AI-laboratorieforskare upplevt förseningar i och utmaningar med att utveckla och släppa stora språkmodeller (LLM) som är kraftfullare än OpenAI: s GPT-4-modell.
För det första är det kostnaden för att träna stora modeller, som ofta uppgår till tiotals miljoner dollar. Och på grund av komplikationer som uppstår, som att hårdvaran inte fungerar på grund av systemkomplexitet, kan en slutlig analys av hur dessa modeller fungerar ta månader.
Utöver dessa utmaningar kräver träningskörningar stora mängder energi, vilket ofta leder till strömavbrott som kan störa processer och påverka elnätet i stort. Ett annat problem är den enorma mängd data som stora språkmodeller använder, så mycket att AI-modeller enligt uppgift har använt upp all tillgänglig data i hela världen.
Forskare utforskar en teknik som kallas ”testtidsberäkning” för att förbättra nuvarande AI-modeller när de utbildas eller under inferensfaser. Metoden kan innebära att man genererar flera svar i realtid för att kunna välja bland de bästa lösningarna. Därför kan modellen allokera större bearbetningsresurser till svåra uppgifter som kräver människoliknande beslutsfattande och resonemang. Målet – att göra modellen mer exakt och kapabel.
Noam Brown, en forskare på OpenAI som har hjälpt till att utveckla o1-modellen, gav ett exempel på hur ett nytt tillvägagångssätt kan ge överraskande resultat. På TED AI-konferensen i San Francisco förra månaden förklarade Brown att ”om en bot fick tänka i bara 20 sekunder i en pokerhand fick den samma boostande prestanda som om man skalade upp modellen 100 000 gånger och tränade den 100 000 gånger längre”.
I stället för att bara öka modellstorleken och träningstiden kan detta förändra hur AI-modeller bearbetar information och leda till mer kraftfulla och effektiva system.
Det rapporteras att andra AI-laboratorier har utvecklat versioner av o1-tekniken. De inkluderar xAI, Google DeepMind, och Antropisk. Konkurrens inom AI-världen är inget nytt, men vi kan komma att se en betydande inverkan på marknaden för AI-hårdvara till följd av nya tekniker. Företag som t.ex. Nvidiasom för närvarande dominerar utbudet av AI-chip på grund av den höga efterfrågan på deras produkter, kan komma att påverkas särskilt av uppdaterade AI-utbildningstekniker.
Nvidia blev världens mest värdefulla bolag i oktober och bolagets uppgång kan till stor del tillskrivas användningen av dess chip i AI-arrayer. Nya tekniker kan påverka Nvidias marknadsposition och tvinga företaget att anpassa sina produkter för att möta den ökande efterfrågan på AI-hårdvara. Potentiellt kan detta öppna fler vägar för nya konkurrenter på inferensmarknaden.
En ny tidsålder för AI-utveckling kan vara på väg, driven av nya krav på hårdvara och effektivare träningsmetoder som de som används i o1-modellen. Framtiden för både AI-modeller och företagen bakom dem kan komma att omformas och öppna upp för oanade möjligheter och ökad konkurrens.
Se även följande: Anthropic uppmanar till AI-reglering för att undvika katastrofer
Vill du lära dig mer om AI och big data från branschledare? Kolla in AI & Big Data Expo som äger rum i Amsterdam, Kalifornien och London. Det omfattande evenemanget är samlokaliserat med andra ledande evenemang, bland annat Konferens om intelligent automation, BlockX, Veckan för digital omvandling, a