Alibaba Marco-o1: Förbättrade möjligheter till LLM-resonemang

Av | 28 november 2024


Alibaba har tillkännagivit Marco-o1, en stor språkmodell (LLM) som är utformad för att hantera både konventionella och öppna problemlösningsuppgifter.

Marco-o1, från Alibabas MarcoPolo-team, utgör ytterligare ett steg framåt när det gäller AI:s förmåga att hantera komplexa resonemang – särskilt inom matematik, fysik, kodning och områden där det kan saknas tydliga standarder.

Vi bygger vidare på OpenAI:s framsteg inom resonemang med dess o1-modellutmärker sig Marco-o1 genom att innehålla flera avancerade tekniker, inklusive Chain-of-Thought (CoT) finjustering, Monte Carlo Tree Search (MCTS) och nya reflektionsmekanismer. Dessa komponenter samverkar för att förbättra modellens problemlösningsförmåga inom olika domäner.

Utvecklingsteamet har implementerat en omfattande finjusteringsstrategi med hjälp av flera dataset, inklusive en filtrerad version av Open-O1 CoT Dataset, ett syntetiskt Marco-o1 CoT Dataset och ett specialiserat Marco Instruction Dataset. Totalt består träningskorpusen av över 60 000 noggrant utvalda prov.

Modellen har visat särskilt imponerande resultat i flerspråkiga applikationer. Vid testning uppnådde Marco-o1 anmärkningsvärda förbättringar av noggrannheten på 6,17% på den engelska MGSM-datasetet och 5,60% på dess kinesiska motsvarighet. Modellen har visat särskild styrka i översättningsuppgifter, särskilt när det gäller att hantera vardagliga uttryck och kulturella nyanser.

En av modellens mest innovativa egenskaper är dess implementering av olika handlingsgranulariteter inom MCTS-ramverket. Detta tillvägagångssätt gör det möjligt för modellen att utforska resonemang på olika detaljnivåer, från breda steg till mer exakta ”ministeg” på 32 eller 64 tokens. Teamet har också infört en reflektionsmekanism som uppmanar modellen att självutvärdera och ompröva sina resonemang, vilket leder till förbättrad precision i komplexa problemlösningsscenarier.

MCTS-integrationen har visat sig vara särskilt effektiv, med alla MCTS-förbättrade versioner av modellen som visar betydande förbättringar jämfört med basversionen Marco-o1-CoT. Teamets experiment med olika handlingsgranulariteter har avslöjat intressanta mönster, men de noterar att det krävs ytterligare forskning och mer exakta belöningsmodeller för att bestämma den optimala strategin.

Benchmarkjämförelse av den senaste Marco-o1 LLM-modellen med MCTS-integration med tidigare AI-modeller och variationer.
(Credit: MarcoPolo Team, AI Business, Alibaba International Digital Commerce)

Utvecklingsteamet har varit öppet om modellens nuvarande begränsningar och erkänner att även om Marco-o1 uppvisar starka resonerande egenskaper, är den fortfarande inte en fullt realiserad ”o1”-modell. De betonar att den här versionen är ett pågående förbättringsarbete snarare än en färdig produkt.

Framöver har Alibaba-teamet meddelat planer på att införliva belöningsmodeller, inklusive Outcome Reward Modeling (ORM) och Process Reward Modeling (PRM), för att förbättra beslutsförmågan hos Marco-o1. De utforskar också tekniker för förstärkningsinlärning för att ytterligare förfina modellens problemlösningsförmåga.

Marco-o1-modellen och tillhörande dataset har gjorts tillgängliga för forskarsamhället via Alibabas GitHub-arkiv, komplett med omfattande dokumentation och implementeringsguider. Releasen innehåller installationsinstruktioner och exempelskript för både direkt modellanvändning och distribution via FastAPI.

(Foto av Alina Grubnyak)

Se även: Nya tekniker för AI-utbildning syftar till att övervinna nuvarande utmaningar

Vill du lära dig mer om AI och big data från branschledare? Kolla in AI & Big Data Expo som äger rum i Amsterdam, Kalifornien och London. Det omfattande evenemanget är samlokaliserat med andra ledande evenemang, bland annat Konferens om intelligent automation, BlockX, Veckan för digital omvandling, och Cybersäkerhet & Cloud Expo.

Utforska andra kommande evenemang och webbseminarier om företagsteknik som drivs av TechForge här.

Taggar: , , , , , , ,



Source link