BLOOM: la malferma revolucio en artefarita inteligenteco

La hodiaŭaj grandaj AI-modeloj bezonas enormajn komputilajn rimedojn por trejni.

Neŭrala reto formita de miliardoj aŭ eĉ miliardoj da parametroj postulas rimedojn en la dekoj da milionoj da eŭroj.
Kun tiaj grandegaj kostoj, la solaj agantoj kapablaj konstrui kaj trejni bonegan modelon de artefarita inteligenteco estas la multnaciaj.

Kosto de AI-esplorado kiel baro al eniro

Kun ĉi tiuj trajtoj, la kosto de AI-esplorado konsistigas baron al eniro.
Dum la lastaj jaroj ni atestis la proliferadon de pli malgrandaj kaj malpli kompleksaj modeloj, tamen malproksime de la grandaj LLM-lingvaj modeloj.

BLOOM kaj la malferma revolucio

En la lastaj jaroj ni vidis turniĝon. Ekzemple, la liberigo de Meta de OPT-175B (Malferma Pretrejnita Transformilo), lingvomodelo trejnita kun publikaj datumaroj kaj disponigita al esploristoj en "kvazaŭ" malferma reĝimo.
Sed la novaĵo de la momento estas la liberigo de BLOOM LM de BigScience.

BLOOM estas malferma alira multlingva modelo, kiu enhavas 176 miliardojn da parametroj kaj estis trejnita dum 3,5 monatoj sur 384 A100–80 GB-GPU-oj.
BLOOM-kontrolejo okupas 330GB da diskospaco, do ŝajnas neeble ruli ĉi tiun modelon sur labortabla komputilo.
Tamen, vi nur bezonas sufiĉe da diskospaco, kaj almenaŭ 16GB da RAM por funkcii ĉi tiun modelon en via komputilo.

BLOOM estas kunlabora klopodo de pli ol 1.000 sciencistoj.
Gravas, ke tia ampleksa plurlingva modelo estu malkaŝe disponebla por ĉiuj.

BLOOM-arkitekturo

BLOOM estas kaŭza modellingvo, kio signifas, ke ĝi estis trejnita kiel prognozilo de la sekva ĵetono.
Ĉi tiu ŝajne simpla strategio antaŭdiri la venontan ĵetonon en frazo, surbaze de aro de antaŭaj ĵetonoj, pruviĝis kapti certan gradon da rezona potenco por grandaj lingvomodeloj.
Ĉi tio permesas al BLOOM kaj similaj modeloj ligi plurajn konceptojn en frazo kaj povi solvi ne-trivialaj problemoj kiel ekzemple aritmetiko, tradukado kaj programado kun justa precizeco.
BLOOM uzas Transformilarkitekturon konsistantan el eniga enkonstrua tavolo, 70 Transformilblokoj, kaj eliglingva modeliga tavolo, kiel montrite en la sekva figuro.

Artikolo ĉerpita el la Poŝto de Luca Sambucci, se vi volas legi laNovaĵoj.AI