Höjer ribban för öppna språkmodeller

Av | 27 november 2024


Ai2 lanserar OLMo 2, en familj av språkmodeller med öppen källkod som främjar demokratiseringen av AI och minskar klyftan mellan öppna och proprietära lösningar.

De nya modellerna, som finns i 7B- och 13B-parameterversioner, är tränade på upp till 5 biljoner tokens och uppvisar prestandanivåer som matchar eller överträffar jämförbara helt öppna modeller samtidigt som de är konkurrenskraftiga med öppna modeller som Llama 3.1 på engelska akademiska benchmarks.

”Sedan lanseringen av den första OLMo i februari 2024 har vi sett en snabb tillväxt i ekosystemet för öppna språkmodeller och en minskning av prestandagapet mellan öppna och proprietära modeller”, förklarar Ai2.

Utvecklingsteamet uppnådde dessa förbättringar genom flera innovationer, inklusive förbättrade åtgärder för träningsstabilitet, stegvisa träningsmetoder och toppmoderna metoder för efterträning som härrör från deras Tülu 3 ramverk. Bland de tekniska förbättringarna kan nämnas bytet från icke-parametrisk lagernorm till RMSNorm och implementeringen av roterande positionsinbäddning.

Genombrott för träning av OLMo 2-modell

Träningsprocessen använde en sofistikerad tvåstegsstrategi. I det första steget användes OLMo-Mix-1124-datasetet med cirka 3,9 biljoner tokens, hämtade från DCLM, Dolma, Starcoder och Proof Pile II. I det andra steget införlivades en noggrant sammanställd blandning av högkvalitativa webbdata och domänspecifikt innehåll genom Dolmino-Mix-1124-datasetet.

Särskilt anmärkningsvärd är OLMo 2-Instruct-13B-varianten, som är den mest kapabla modellen i serien. Modellen uppvisar överlägsen prestanda jämfört med modellerna Qwen 2.5 14B instruct, Tülu 3 8B och Llama 3.1 8B instruct i olika benchmarks.

Benchmarks som jämför den öppna stora språkmodellen OLMo 2 med andra modeller som Mistral, Qwn, Llama, Gemma m.fl.
(Kredit: Ai2)

Engagemang för öppen vetenskap

Ai2 förstärker sitt åtagande för öppen vetenskap och har släppt omfattande dokumentation inklusive vikter, data, kod, recept, mellanliggande kontrollpunkter och instruktionsanpassade modeller. Denna transparens möjliggör fullständig inspektion och reproduktion av resultat av det bredare AI-samhället.

I releasen introduceras också ett utvärderingsramverk som kallas OLMES (Open Language Modeling Evaluation System), som består av 20 riktmärken som är utformade för att bedöma kärnfunktioner som kunskapsinhämtning, sunt förnuft och matematiskt resonemang.

OLMo 2 höjer ribban för AI-utveckling med öppen källkod, vilket potentiellt kan påskynda innovationstakten inom området samtidigt som transparens och tillgänglighet bibehålls.

(Foto av Rick Barrett)

Se även: OpenAI förbättrar AI-säkerheten med nya red teaming-metoder

Vill du lära dig mer om AI och big data från branschledare? Kolla in AI & Big Data Expo som äger rum i Amsterdam, Kalifornien och London. Det omfattande evenemanget är samlokaliserat med andra ledande evenemang, bland annat Konferens om intelligent automation, BlockX, Veckan för digital omvandling, och Cybersäkerhet & Cloud Expo.

Utforska andra kommande evenemang och webbseminarier om företagsteknik som drivs av TechForge här.

Taggar: , , , , , , , , ,



Source link