Artiklar

Meta lanserar LLaMA-modellen, ett kraftfullare sökverktyg än OpenAI:s GPT-3

Meta har nyligen släppt en ny AI-språkgenerator som heter LLaMA, vilket bekräftar rollen som ett mycket innovativt företag.

"Idag släpper vi en ny, banbrytande AI-storspråksmodell kallad LLaMA utformad för att hjälpa forskare att utveckla sitt arbete", sa vd Mark Zuckerberg i ett Facebook-inlägg.

Varför LLaMA

Stora språkmodeller har tagit teknikvärlden med storm. De driver artificiell intelligens-verktyg, som t.ex ChatGPT och andra samtalsmodeller. Men att använda dessa verktyg medför betydande risker, rimliga men falska påståenden, genererar giftigt innehåll och efterliknar fördomar som är rotade i AI-träningsdata.

För att hjälpa forskare att lösa dessa problem, fredagen den 25 februari, Meta meddelade releasen av en ny stor språkmodell som kallas LLaMA (Large Language Model Meta AI) .

Vad är LLaMA?

LLaMA är inte en chatbot, men det är ett sökverktyg som enligt Meta ai ska lösa problem relaterade till språkmodeller AI. "Mindre, bättre presterande modeller som LLaMA tillåter andra i forskarvärlden som saknar tillgång till stora mängder infrastruktur att studera dessa modeller, vilket ytterligare demokratiserar tillgången inom detta viktiga och snabbt utvecklande område," sa Meta i sin blogg tjänsteman .

LLaMA är en samling språkmodeller som sträcker sig från 7B till 65B parametrar. Företaget sa att det tränar sina modeller på biljoner tokens och sa att det kan träna banbrytande modeller med hjälp av offentliga datauppsättningar och inte förlita sig på proprietära, otillgängliga datauppsättningar.

LLaMA är annorlunda

Enligt Meta kräver modellträning som LLaMA väldigt lite datorkraft för att testa, validera och utforska nya användningsfall. Grundläggande språkmodeller tränar på stora block av omärkta data, vilket gör dem idealiska för anpassning till olika uppgifter.

I sin forskningsartikel noterade Meta att LLaMA-13B överträffade OpenAI:s GPT-3 (175B) på de flesta benchmarks och LLaMA-65B är konkurrenskraftig med toppmodeller, Chinchilla70B från DeepMind e PaLM-540B från Google.

LLaMA används för närvarande inte på någon av Meta ai-produkterna, men företaget har planer på att göra det tillgängligt för forskare. Företaget hade tidigare lanserat sin LLM OPT-175B, men LLaMA är dess mest avancerade system.

Företaget gör det tillgängligt under en icke-kommersiell licens fokuserad på forskningsanvändningsfall. Den kommer att vara tillgänglig för akademiska forskare; de som är anslutna till regeringen, civilsamhället och akademiska organisationer; och industriella forskningslaboratorier runt om i världen.

Ercole Palmeri