Cikkek

A Meta elindítja a LLaMA modellt, amely egy erősebb keresőeszköz, mint az OpenAI GPT-3

A Meta a közelmúltban kiadott egy új mesterséges intelligencia-nyelvgenerátort LLaMA néven, megerősítve ezzel egy rendkívül innovatív vállalat szerepét.

„Ma kiadunk egy új, élvonalbeli mesterséges intelligencia nyelvi modellt, a LLaMA-t, amelynek célja, hogy segítse a kutatókat munkájuk előmozdításában” – mondta Mark Zuckerberg vezérigazgató Facebook-bejegyzésében.

Miért LLaMA

A nagy nyelvi modellek záporoztak a technológiai világban. Mesterséges intelligencia eszközöket hajtanak végre, mint pl ChatGPT és más társalgási modellek. Ezeknek az eszközöknek a használata azonban jelentős kockázattal, valószínű, de hamis állításokkal, mérgező tartalom generálásával és a mesterséges intelligencia képzési adataiban gyökerező torzítás utánzásával jár.

E problémák megoldásában segíti a kutatókat február 25-én, pénteken a Meta bejelentette a kiadást nevű új nagy nyelvi modellről LLaMA (Large Language Model Meta AI) .

Mi az a LLaMA?

A LLaMA nem a chatbot, de ez egy keresőeszköz, amely a Meta ai szerint nyelvi modellekkel kapcsolatos problémákat fog megoldani AI. "A kisebb, jobban teljesítő modellek, mint a LLaMA, lehetővé teszik a kutatói közösség azon tagjai számára, akik nem férnek hozzá nagy mennyiségű infrastruktúrához, hogy tanulmányozzák ezeket a modelleket, tovább demokratizálva a hozzáférést ezen a fontos és gyorsan fejlődő területen" - mondta Meta a blogjában. hivatalos .

A LLaMA nyelvi modellek gyűjteménye 7B-től 65B-ig terjedő paraméterekkel. A vállalat azt mondta, hogy modelljeit több billió tokenre oktatja, mondván, hogy a legkorszerűbb modelleket nyilvános adatkészletek felhasználásával is képes betanítani, nem pedig szabadalmaztatott, hozzáférhetetlen adatkészletekre hagyatkozni.

A LLAMA más

A Meta szerint az olyan modellképzés, mint a LLaMA, nagyon kevés számítási teljesítményt igényel az új felhasználási esetek teszteléséhez, érvényesítéséhez és felfedezéséhez. Az alapvető nyelvi modellek címkézetlen adatok nagy blokkjain dolgoznak, így ideálisak a különféle feladatokhoz való testreszabáshoz.

Kutatási cikkében Meta megjegyezte, hogy a LLaMA-13B a legtöbb benchmarkon felülmúlta az OpenAI GPT-3 (175B) teljesítményét, és a LLaMA-65B versenyképes a csúcsmodellekkel. Chinchilla70B a DeepMindtől e PaLM-540B a Google-tól.

A LLaMA-t jelenleg egyik Meta ai terméken sem használják, azonban a cég azt tervezi, hogy elérhetővé teszi a kutatók számára. A cég már piacra dobta LLM OPT-175B-jét, de a LLaMA a legfejlettebb rendszere.

A vállalat a kutatási felhasználási esetekre összpontosító, nem kereskedelmi licenc alatt teszi elérhetővé. Az akadémiai kutatók számára elérhető lesz; a kormányzattal, a civil társadalommal és a tudományos szervezetekkel kapcsolatban állók; és ipari kutatólaboratóriumok szerte a világon.

Ercole Palmeri