En viktig del av OpenAI:s säkerhetsprocess är ”red teaming” – en strukturerad metod som använder både mänskliga och AI-deltagare för att utforska potentiella risker och sårbarheter i nya system.
Historiskt sett har OpenAI engagerat sig i red teaming-insatser främst genom manuell testning, vilket innebär att individer söker efter svagheter. Detta användes framför allt under testningen av deras bildgenereringsmodell DALL-E 2 i början av 2022, där externa experter bjöds in för att identifiera potentiella risker. Sedan dess har OpenAI utökat och förfinat sina metoder och införlivat automatiserade och blandade tillvägagångssätt för en mer omfattande riskbedömning.
”Vi är optimistiska om att vi kan använda mer kraftfull AI för att skala upp upptäckten av modellfel”, säger OpenAI. Denna optimism grundar sig i tanken att automatiserade processer kan hjälpa till att utvärdera modeller och göra dem säkrare genom att känna igen mönster och fel i större skala.
I sin senaste satsning på utveckling delar OpenAI med sig av två viktiga dokument om red teaming – ett white paper som beskriver strategier för externt engagemang och en forskningsstudie som introducerar en ny metod för automatiserad red teaming. Dessa bidrag syftar till att stärka processen och resultaten av red teaming, vilket i slutändan leder till säkrare och mer ansvarsfulla AI-implementeringar.
I takt med att AI fortsätter att utvecklas är det avgörande för forskare och utvecklare att förstå användarupplevelser och identifiera risker som missbruk och felanvändning. Red teaming är en proaktiv metod för att utvärdera dessa risker, särskilt när den kompletteras med insikter från en rad oberoende externa experter. Detta tillvägagångssätt bidrar inte bara till att fastställa riktmärken utan underlättar också förbättringen av säkerhetsutvärderingar över tid.
Den mänskliga kontakten
OpenAI har delat med sig av fyra grundläggande steg i sin vitbok, ”OpenAI:s tillvägagångssätt för extern red teaming för AI-modeller och AI-system” för att utforma effektiva red teaming-kampanjer:
- Sammansättning av röda team: Urvalet av teammedlemmar baseras på kampanjens mål. Det handlar ofta om personer med olika perspektiv, t.ex. expertis inom naturvetenskap, cybersäkerhet och regionalpolitik, för att säkerställa att utvärderingarna täcker den nödvändiga bredden.
- Tillgång till modellversioner: Att klargöra vilka versioner av en modell som red teamers kommer att få tillgång till kan påverka resultatet. Modeller i ett tidigt skede kan avslöja inneboende risker, medan mer utvecklade versioner kan bidra till att identifiera luckor i planerade säkerhetsåtgärder.
- Vägledning och dokumentation: Effektiva interaktioner under kampanjer är beroende av tydliga instruktioner, lämpliga gränssnitt och strukturerad dokumentation. Detta omfattar beskrivning av modeller, befintliga skyddsåtgärder, testgränssnitt och riktlinjer för registrering av resultat.
- Syntes och utvärdering av data: Efter kampanjen utvärderas data för att avgöra om exemplen överensstämmer med befintliga policyer eller kräver nya beteendeförändringar. De utvärderade uppgifterna ligger sedan till grund för repeterbara utvärderingar för framtida uppdateringar.
En nyligen genomförd tillämpning av denna metodik var att förbereda OpenAI o1 familj av modeller för allmänt bruk – testa deras motståndskraft mot potentiellt missbruk och utvärdera deras tillämpning inom olika områden, t.ex. attackplanering i den verkliga världen, naturvetenskap och AI-forskning.
Automatiserad red teaming
Automatiserad red teaming syftar till att identifiera fall där AI kan misslyckas, särskilt när det gäller säkerhetsrelaterade frågor. Denna metod utmärker sig i stor skala och genererar snabbt många exempel på potentiella fel. Traditionella automatiserade metoder har dock haft svårt att ta fram olika, framgångsrika attackstrategier.
OpenAI:s forskning introducerar ”Mångsidig och effektiv red teaming med autogenererade belöningar och flerstegs förstärkningsinlärning” en metod som uppmuntrar till större mångfald i angreppsstrategier samtidigt som effektiviteten bibehålls.
Metoden innebär att man använder AI för att generera olika scenarier, t.ex. olagliga råd, och utbildar red teaming-modeller för att kritiskt utvärdera dessa scenarier. Processen belönar mångfald och effektivitet, vilket främjar mer varierade och omfattande säkerhetsutvärderingar.
Trots sina fördelar har red teaming sina begränsningar. Den fångar upp risker vid en specifik tidpunkt, som kan förändras i takt med att AI-modeller utvecklas. Dessutom kan red teaming-processen oavsiktligt skapa informationsrisker genom att potentiellt varna illvilliga aktörer för sårbarheter som ännu inte är allmänt kända. För att hantera dessa risker krävs strikta protokoll och ansvarsfulla upplysningar.
Även om red teaming fortsätter att vara avgörande för upptäckt och utvärdering av risker, erkänner OpenAI att det är nödvändigt att införliva bredare offentliga perspektiv på AI:s idealiska beteenden och policyer för att säkerställa att tekniken överensstämmer med samhällets värderingar och förväntningar.
Se även följande: EU presenterar utkast till vägledning för AI-modeller
Vill du lära dig mer om AI och big data från branschledare? Kolla in AI & Big Data Expo som äger rum i Amsterdam, Kalifornien och London. Det omfattande evenemanget är samlokaliserat med andra ledande evenemang, bland annat Konferens om intelligent automation, BlockX, Veckan för digital omvandling, och Cybersäkerhet & Cloud Expo.
Utforska andra kommande evenemang och webbseminarier om företagsteknik som drivs av TechForge här.