Antropisk har tillkännagivit uppgraderingar av sin AI-portfölj, inklusive en förbättrad Claude 3.5 Sonnet-modell och introduktionen av Claude 3.5 Haiku, samt en ”computer control”-funktion i offentlig betaversion.
Den uppgraderade Claude 3.5 Sonnet uppvisar betydande förbättringar inom alla mätområden, med särskilt anmärkningsvärda framsteg inom kodningsförmågan. Modellen uppnådde imponerande 49,0% på SWE-bench Verified benchmark, vilket överträffar alla offentligt tillgängliga modeller, inklusive OpenAI:s erbjudanden och specialiserade kodningssystem.
Som en banbrytande utveckling har Anthropic introducerat en datoranvändningsfunktion som gör det möjligt för Claude att interagera med datorer på samma sätt som människor: titta på skärmar, styra markörer, klicka och skriva. Denna funktion, som för närvarande är i offentlig betaversion, gör Claude 3.5 Sonnet till den första AI-modellen i gränsområdet som erbjuder en sådan funktion.
Flera stora teknikföretag har redan börjat implementera dessa nya möjligheter.
”Den uppgraderade Claude 3.5 Sonnet representerar ett betydande steg för AI-driven kodning”, rapporterar GitLab, som noterade upp till 10% starkare resonemang i olika användningsfall utan ytterligare latens.
Den nya Claude 3.5 Haiku-modellen, som lanseras senare denna månad, matchar prestandan hos den tidigare Claude 3 Opus samtidigt som kostnadseffektivitet och hastighet bibehålls. Den uppnådde 40,6% på SWE-bench Verified och överträffade därmed många konkurrerande modeller, inklusive originalmodellen Claude 3.5 Sonnet och GPT-4o.
När det gäller datorns styrfunktioner har Anthropic valt en väl avvägd strategi, där man erkänner nuvarande begränsningar samtidigt som man lyfter fram potentialen. I OSWorld benchmark, som utvärderar navigering i datorgränssnittet, uppnådde Claude 3.5 Sonnet 14,9% i tester med enbart skärmdumpar, vilket var betydligt bättre än det näst bästa systemets 7,8%.
Utvecklingsarbetet har genomgått rigorösa säkerhetsutvärderingar, med tester före driftsättning som genomförts i samarbete med både amerikanska och brittiska AI Safety Institutes. Anthropic vidhåller att ASL-2-standarden, som beskrivs i deras Responsible Scaling Policy, fortfarande är lämplig för dessa modeller.
(Bildkredit: Anthropic)
Se även: IBM presenterar Granite 3.0 AI-modeller med åtagande om öppen källkod
Vill du lära dig mer om AI och big data från branschledare? Kolla in AI & Big Data Expo som äger rum i Amsterdam, Kalifornien och London. Det omfattande evenemanget är samlokaliserat med andra ledande evenemang, bland annat Konferens om intelligent automation, BlockX, Veckan för digital omvandling, och Cybersäkerhet & Cloud Expo.
Utforska andra kommande evenemang och webbseminarier om företagsteknik som drivs av TechForge här.