Artikels

Meta stel die LLaMA-model bekend, 'n kragtiger soekinstrument as OpenAI se GPT-3

Meta het onlangs 'n nuwe AI-taalgenerator genaamd LLaMA vrygestel, wat die rol van 'n hoogs innoverende maatskappy bevestig.

"Vandag stel ons 'n nuwe, nuutste KI-groottaalmodel genaamd LLaMA vry wat ontwerp is om navorsers te help om hul werk te bevorder," het Mark Zuckerberg, uitvoerende hoof, in 'n Facebook-plasing gesê.

Hoekom LLaMA

Groot taalmodelle het die tegnologiewêreld met storm geneem. Hulle dryf kunsmatige intelligensie-instrumente aan, soos Klets GPT en ander gespreksmodelle. Die gebruik van hierdie instrumente hou egter aansienlike risiko in, geloofwaardige maar valse aansprake, generering van giftige inhoud en nabootsende vooroordeel wat gewortel is in KI-opleidingsdata.

Om navorsers te help om hierdie probleme op te los, het Meta op Vrydag 25 Februarie die vrystelling aangekondig van 'n nuwe groot taalmodel genoem LLaMA (Large Language Model Meta AI) .

Wat is LLaMA?

LLaMA is nie 'n Chatbot, maar dit is 'n soekinstrument wat volgens Meta ai probleme sal oplos wat met taalmodelle verband hou AI. "Kleiner, beter presterende modelle soos LLaMA laat ander in die navorsingsgemeenskap wat nie toegang tot groot hoeveelhede infrastruktuur het nie, hierdie modelle toe om hierdie modelle te bestudeer, wat toegang in hierdie belangrike en vinnig ontwikkelende veld verder demokratiseer," het Meta in sy blog gesê amptelik .

LLaMA is 'n versameling taalmodelle wat wissel van 7B tot 65B parameters. Die maatskappy het gesê dat dit sy modelle op triljoene tokens oplei, en gesê dat dit die nuutste modelle kan oplei deur openbare datastelle te gebruik en nie op eie, ontoeganklike datastelle staatmaak nie.

LLaMA is anders

Volgens Meta vereis modelopleiding soos LLaMA baie min rekenaarkrag om nuwe gebruiksgevalle te toets, valideer en verken. Basiese taalmodelle oefen op groot blokke ongemerkte data, wat hulle ideaal maak vir aanpassing vir verskeie take.

In sy navorsingsartikel het Meta opgemerk dat LLaMA-13B beter gevaar het as OpenAI se GPT-3 (175B) op die meeste maatstawwe en dat LLaMA-65B mededingend is met topmodelle, Chinchilla70B deur DeepMind e PaLM-540B van Google.

LLaMA word tans nie op enige van die Meta ai-produkte gebruik nie, maar die maatskappy het planne om dit aan navorsers beskikbaar te stel. Die maatskappy het reeds sy LLM OPT-175B bekendgestel, maar LLaMA is sy mees gevorderde stelsel.

Die maatskappy stel dit beskikbaar onder 'n nie-kommersiële lisensie wat op navorsingsgebruikgevalle gefokus is. Dit sal beskikbaar wees vir akademiese navorsers; diegene wat geaffilieer is met die regering, die burgerlike samelewing en akademiese organisasies; en industriële navorsingslaboratoriums regoor die wêreld.

Ercole Palmeri