Artikoloj

Meta lanĉas la LLaMA-modelon, pli potencan serĉilon ol la GPT-3 de OpenAI

Meta lastatempe publikigis novan AI-lingvan generatoron nomitan LLaMA, konfirmante la rolon de tre noviga firmao.

"Hodiaŭ ni publikigas novan, avangardan AI-grandlingvan modelon nomitan LLaMA, dizajnitan por helpi esploristojn antaŭenigi sian laboron," diris CEO Mark Zuckerberg en Facebook-afiŝo.

Kial LLaMA

Grandaj lingvaj modeloj atakis la teknologian mondon. Ili funkciigas ilojn de artefarita inteligenteco, kiel ekzemple Babilado GPT kaj aliaj konversaciaj modeloj. Tamen, uzi ĉi tiujn ilojn venas kun grava risko, kredindaj sed malveraj asertoj, generante toksan enhavon kaj imitante biason radikan en AI-trejnaddatumoj.

Por helpi esploristojn solvi ĉi tiujn problemojn, vendrede, la 25-an de februaro, Meta anoncis la liberigon de nova granda lingvomodelo nomata LLaMA (Large Language Model Meta AI) .

Kio estas LLaMA?

LLaMA ne estas a babilejo, sed ĝi estas serĉilo, kiu, laŭ Meta ai, solvos problemojn rilatajn al lingvomodeloj AI. "Pli malgrandaj, pli bonaj modeloj kiel LLaMA permesas al aliaj en la esplorkomunumo, al kiuj mankas aliro al grandaj kvantoj da infrastrukturo, studi ĉi tiujn modelojn, plue demokratiigante aliron en ĉi tiu grava kaj rapide evoluanta kampo," Meta diris en sia blogo. oficiala .

LLaMA estas kolekto de lingvomodeloj intervalantaj de 7B ĝis 65B parametroj. La kompanio diris, ke ĝi trejnas siajn modelojn sur bilionoj da ĵetonoj, dirante, ke ĝi povas trejni avangardajn modelojn uzante publikajn datumajn arojn kaj ne fidi je proprietaj, nealireblaj datumaj aroj.

LLaMA estas malsama

Laŭ Meta, modeltrejnado kiel LLaMA postulas tre malmulte da komputika potenco por testi, validigi kaj esplori novajn uzkazojn. Bazaj lingvaj modeloj trejnas sur grandaj blokoj de neetikeditaj datumoj, igante ilin idealaj por personigo al diversaj taskoj.

En sia esplorartikolo, Meta rimarkis, ke LLaMA-13B superis la GPT-3 (175B) de OpenAI en la plej multaj komparnormoj kaj LLaMA-65B estas konkurenciva kun pintaj modeloj, Chinchilla70B de DeepMind e PaLM-540B de Guglo.

LLaMA ne estas nuntempe uzata en iu ajn el la Meta ai-produktoj, tamen la kompanio planas disponigi ĝin al esploristoj. La kompanio antaŭe lanĉis sian LLM OPT-175B, sed LLaMA estas ĝia plej altnivela sistemo.

La kompanio disponigas ĝin sub nekomerca licenco koncentrita pri esploraj uzkazoj. Ĝi estos disponebla por akademiaj esploristoj; tiuj aligitaj kun registaro, burĝa socio kaj akademiaj organizoj; kaj industriaj esplorlaboratorioj tra la mondo.

Ercole Palmeri