Artiklar

GPT4 vs ChatGPT: Vi analyserar träningsmetoder, prestanda, kapacitet och begränsningar

Den nya generativa språkmodellen förväntas totalt förändra hela branscher, inklusive media, utbildning, juridik och teknik.

Under de senaste månaderna är hastigheten med vilken innovativa stora språkmodeller har släppts häpnadsväckande. I den här artikeln kommer vi att täcka de viktigaste likheterna och skillnaderna mellan GPT4 vs ChatGPT, inklusive träningsmetoder, prestanda, kapacitet och begränsningar.

Innehållsförteckning

GPT4 vs ChatGPT: Likheter och skillnader i träningsmetoder

GPT4 och ChatGPT bygger på äldre versioner av GPT-modeller med förbättringar av modellarkitekturen, med mer sofistikerade träningsmetoder och med ett större antal träningsparametrar.

Båda designerna är baserade på transformatorarkitektur, som använder en kodare för att bearbeta ingångssekvenser och en avkodare för att generera utmatningssekvenser. Kodaren och avkodaren är sammankopplade med en mekanism som gör att avkodaren kan ägna mer uppmärksamhet åt de viktigaste ingångssekvenserna.

Den tekniska rapporten för GPT4 of OpenAI ger liten insikt i modellarkitekturen och GPT4-bildningsprocessen, med hänvisning till "competitive landscape and the safety implications of large-scale models". Vad vi vet är att GPT4 och ChatGPT förmodligen tränas på liknande sätt, vilket är en ganska stor skillnad från träningsmetoderna som används för GPT-2 och GPT-3. Vi vet mycket mer om träningsmetoder för ChatGPT än GPT4, så vi börjar där.

ChatGPT

ChatGPT är tränad med dialogdatauppsättningar, inklusive demodata, där mänskliga annotatorer visar den förväntade utdata från en chatbotassistent som svar på specifika förfrågningar. Dessa data används för att ställa in GPT3.5 med övervakat lärande, vilket producerar en policymodell, som används för att generera flera svar när förfrågningar tillhandahålls. Mänskliga annotatorer klassificerar sedan vilka av svaren för en given prompt som gav bäst resultat, vilket används för att träna en belöningsmodell. Belöningsmodellen används sedan för att iterativt finjustera policymodellen med hjälp av förstärkningsinlärning.

ChatGPT tränas i att använda Förstärkning Lärande av mänsklig feedback (RLHF), ett sätt att införliva mänsklig feedback för att förbättra en språkmodell under träning. Detta gör att modellens utdata kan anpassas till den aktivitet som användaren begär, snarare än att bara förutsäga nästa ord i en mening baserat på en mängd generiska träningsdata, såsom GPT-3.

GPT4

OpenAI har ännu inte avslöjat detaljer om hur det tränade GPT4. Deras tekniska rapport innehåller inte "details about the architecture (including model size), hardware, training compute, dataset construction, training method, or similar". Vad vi vet är att GPT4 är en utbildad generativ multimodmodell i transformatorstil. Både på allmänt tillgänglig data och på tredjepartsdata licensierad och därefter finjusterad med RLHF. Intressant nog delade OpenAI detaljer om deras uppdaterade RLHF-tekniker för att göra modellsvar mer exakta och mindre benägna att glida utanför skyddsräcken.

Efter att ha tränat en policymodell (som med ChatGPT) används RLHF i kontradiktorisk utbildning, en process som tränar en modell på skadliga exempel som syftar till att lura modellen att försvara den mot sådana exempel i framtiden. När det gäller GPT4 utvärderar experterna den politiska modellens svar på de motsägelsefulla kraven. Dessa svar används sedan för att träna ytterligare belöningsmodeller som iterativt förfinar policymodellen, vilket resulterar i en modell som är mindre sannolikt att ge farliga, undvikande eller felaktiga svar.

GPT4 vs ChatGPT likheter och skillnader när det gäller prestanda och kapacitet

Kapacitet

När det gäller funktionalitet är ChatGPT och GPT4 mer lika än olika. Liksom sin föregångare interagerar GPT-4 också i en konversationsstil som syftar till att anpassa sig till användaren. Som du kan se nedan är svaren mellan de två modellerna för en bred fråga väldigt lika.

OpenAI håller med om att skillnaden mellan modeller kan vara subtil och säger att "skillnaden kommer fram när komplexiteten i uppgiften når en tillräcklig tröskel". Med tanke på de sex månader av kontradiktorisk träning som GPT4-basmodellen genomgick i sin efterträningsfas, är detta förmodligen en korrekt karakterisering.

Till skillnad från ChatGPT, som bara accepterar text, accepterar GPT4 både bild- och textmeddelanden, vilket ger textsvar. När detta skrivs är tyvärr möjligheten att använda bildindata ännu inte offentligt tillgänglig.

prestanda

Som nämnts ovan rapporterar OpenAI en betydande förbättring av säkerhetsprestanda för GPT4, jämfört med GPT-3.5 (från vilken ChatGPT ställdes in). Det är dock för närvarande oklart om:

minska antalet svar på förfrågningar om förbjudet innehåll,
minskning av genereringen av giftiga innehåll e
förbättra svaren på känsliga ämnen

beror på själva GPT4-modellen eller de ytterligare motstridiga testerna.

Dessutom överträffar GPT4 CPT-3.5 i de flesta mänskliga akademiska och professionella prov. GPT4 får poäng i den 90:e percentilen på Uniform Bar-provet jämfört med GPT-3.5, som får poäng i den 10:e percentilen. GPT4 överträffar också avsevärt sin föregångare på traditionella riktmärken för språkmodeller och andra SOTA-modeller (även om det ibland är snävt).

GPT4 vs ChatGPT: skillnader och begränsningari

Både ChatGPT och GPT4 har betydande begränsningar och risker. GPT-4-systembladet innehåller insikter från en detaljerad undersökning av de risker som utförs av OpenAI.

Det här är bara några av riskerna förknippade med båda modellerna:

Hallucinationer (tendensen att producera orimligt eller faktiskt felaktigt innehåll)
Producera skadligt innehåll som bryter mot OpenAI-policyer (t.ex. hatretorik, uppvigling till våld)
Förstärka och vidmakthålla stereotyper av marginaliserade människor
Generera realistisk desinformation avsedd att lura

Medan ChatGPT och GPT-4 kämpar med samma begränsningar och risker, har OpenAI gjort särskilda ansträngningar, inklusive många motstridiga tester, för att mildra dem för GPT-4. Även om detta är uppmuntrande, visar GPT-4-systembladet i slutändan hur sårbart ChatGPT var (och kanske fortfarande är). För en mer detaljerad förklaring av skadliga oavsiktliga konsekvenser rekommenderar jag att du läser GPT-4-systembladet, som börjar på sidan 38 i GPT-4 teknisk rapport .

slutsats

Även om vi vet lite om modellarkitekturen och träningsmetoderna bakom GPT4, verkar det finnas en förfinad version av ChatGPT. Faktum är att GPT4 för närvarande kan acceptera bilder och textinmatning, och resultaten är säkrare, mer exakta och mer kreativa. Tyvärr måste vi ta OpenAIs ord för det, eftersom GPT4 endast är tillgänglig som en del av ChatGPT Plus-prenumerationen.

Att hålla sig informerad om framstegen, riskerna och begränsningarna med dessa modeller är viktigt när vi navigerar i detta spännande men snabbt utvecklande landskap av stora språkmodeller.

BlogInnovazione.it