Straipsniai

Meta pristato LLaMA modelį – galingesnį paieškos įrankį nei OpenAI GPT-3

„Meta“ neseniai išleido naują dirbtinio intelekto kalbos generatorių, pavadintą „LLaMA“, patvirtinantį labai novatoriškos įmonės vaidmenį.

„Šiandien išleidžiame naują, pažangiausią AI didelės kalbos modelį, pavadintą LLaMA, skirtą padėti tyrėjams tobulinti savo darbą“, – „Facebook“ įraše sakė generalinis direktorius Markas Zuckerbergas.

Kodėl LLaMA

Dideli kalbų modeliai užvaldė technologijų pasaulį. Jie maitina dirbtinio intelekto priemones, pvz ChatGPT ir kiti pokalbio modeliai. Tačiau naudojant šiuos įrankius kyla didelė rizika, pateikiami tikėtini, bet klaidingi teiginiai, sukuriamas toksiškas turinys ir imituojamas AI mokymo duomenyse pagrįstas šališkumas.

Siekdama padėti mokslininkams išspręsti šias problemas, penktadienį, vasario 25 d., „Meta paskelbė apie išleidimą naujo didelio kalbos modelio, vadinamo LLAMA (Large Language Model Meta AI) .

Kas yra LLAMA?

LLaMA nėra a pokalbis, bet tai paieškos įrankis, kuris, anot Meta ai, spręs su kalbos modeliais susijusias problemas AI. „Mažesni, geriau veikiantys modeliai, tokie kaip LLaMA, leidžia kitiems mokslininkų bendruomenės nariams, kuriems trūksta prieigos prie didelio infrastruktūros kiekio, tyrinėti šiuos modelius, o tai dar labiau demokratizuoja prieigą šioje svarbioje ir sparčiai besivystančioje srityje“, – savo tinklaraštyje sakė Meta. oficialus .

LLaMA yra kalbų modelių rinkinys nuo 7B iki 65B parametrų. Bendrovė teigė, kad savo modelius rengia naudodama trilijonus žetonų, sakydama, kad gali parengti pažangiausius modelius naudodama viešus duomenų rinkinius ir nepasikliauti patentuotais, neprieinamais duomenų rinkiniais.

LLAMA yra kitokia

Pasak Meta, modelių mokymui, pavyzdžiui, LLaMA, reikia labai mažai skaičiavimo galios, kad būtų galima išbandyti, patvirtinti ir ištirti naujus naudojimo atvejus. Pagrindiniai kalbų modeliai treniruojami naudojant didelius nepaženklintų duomenų blokus, todėl jie puikiai tinka pritaikyti įvairioms užduotims.

Savo moksliniame darbe Meta pažymėjo, kad LLaMA-13B pralenkė OpenAI GPT-3 (175B) pagal daugumą etalonų, o LLaMA-65B yra konkurencingas su geriausiais modeliais. „Chinchilla70B“, „DeepMind“. e PaLM-540B iš Google.

LLaMA šiuo metu nenaudojama jokiuose Meta ai produktuose, tačiau bendrovė planuoja padaryti jį prieinamą tyrėjams. Bendrovė jau buvo išleidusi savo LLM OPT-175B, tačiau LLaMA yra pažangiausia jos sistema.

Bendrovė teikia ją pagal nekomercinę licenciją, orientuotą į tyrimų naudojimo atvejus. Ji bus prieinama akademiniams tyrėjams; su vyriausybe, pilietine visuomene ir akademinėmis organizacijomis susiję asmenys; ir pramoninių tyrimų laboratorijos visame pasaulyje.

Ercole Palmeri