Galileo, en ledande utvecklare av generativ AI för företagsapplikationer, har släppt sin senaste Hallucination Index.
Utvärderingsramen – som fokuserar på Retrieval Augmented Generation (RAG) – bedömde 22 framstående Gen AI LLM från stora aktörer, inklusive OpenAI, Anthropic, Google och Meta. Årets index utökades avsevärt och lade till 11 nya modeller för att återspegla den snabba tillväxten i både LLM med öppen och sluten källkod under de senaste åtta månaderna.
Vikram Chatterji, VD och medgrundare av Galileo, säger: “I dagens snabbt föränderliga AI-landskap står utvecklare och företag inför en kritisk utmaning: hur man utnyttjar kraften i generativ AI samtidigt som man balanserar kostnad, noggrannhet och tillförlitlighet. Nuvarande riktmärken är ofta baserade på akademiska användningsfall, snarare än verkliga applikationer.”
Indexet använde Galileo’s egenutvecklade utvärderingsmått, kontextföljsamhet, för att kontrollera felaktigheter i utdata över olika inputlängder, allt från 1 000 till 100 000 tokens. Detta tillvägagångssätt syftar till att hjälpa företag att fatta välgrundade beslut om att balansera pris och prestanda i sina AI-implementeringar.
Viktiga resultat från indexet inkluderar:
- Anthropic’s Claude 3.5 Sonett framstod som den modell som presterade bäst överlag, med ett konsekvent nära perfekt resultat i korta, medellånga och långa kontextscenarier.
- Google’s Gemini 1.5 Flash rankades som den mest kostnadseffektiva modellen, med stark prestanda för alla uppgifter.
- Alibaba’s Qwen2-72B-Instruct utmärkte sig som den bästa open source-modellen, särskilt i scenarier med korta och medellånga kontexter.
Indexet belyste också flera trender i LLM-landskapet:
- Modeller med öppen källkod närmar sig snabbt sina motsvarigheter med sluten källkod och erbjuder förbättrad hallucinationsprestanda till lägre kostnader.
- Aktuell RAG LLM:er uppvisar betydande förbättringar när det gäller att hantera längre kontexter utan att kvaliteten eller noggrannheten försämras.
- Mindre modeller ibland bättre än större, vilket tyder på att effektiv design kan vara mer avgörande än storleken.
- Framväxten av starka aktörer från länder utanför USA, såsom Mistral’s Mistral-stor och Alibaba’s qwen2-72b-instruct, indikerar en växande global konkurrens inom LLM-utveckling.
Även om modeller med sluten källkod som Claude 3.5 Sonnet och Gemini 1.5 Flash behåller sin ledning på grund av proprietär utbildningsdata, visar indexet att landskapet utvecklas snabbt. Googles prestanda var särskilt anmärkningsvärd, med sin öppna källkod Gemma-7b-modell som presterade dåligt medan dess slutna källkod Gemini 1.5 Flash konsekvent rankades nära toppen.
Eftersom AI-industrin fortsätter att brottas med hallucinationer som ett stort hinder för produktionsklara Gen AI-produkter, ger Galileo’s Hallucination Index värdefulla insikter för företag som vill anta rätt modell för sina specifika behov och budgetbegränsningar.
Se även: Senatorer undersöker OpenAI om säkerhets- och anställningsförfaranden
Vill du lära dig mer om AI och big data från branschledare? Kolla in AI & Big Data Expo som äger rum i Amsterdam, Kalifornien och London. Det omfattande evenemanget är samlokaliserat med andra ledande evenemang, bland annat Konferens om intelligent automation, BlockX, Veckan för digital omvandling, och Cybersäkerhet & Cloud Expo.
Utforska andra kommande evenemang och webbseminarier om företagsteknik som drivs av TechForge här.
Inlägget Anthropic till Google: Vem’vinner mot AI-hallucinationer? dök först upp på AI-nyheter.