towary

GPT4 vs ChatGPT: Analizujemy metody treningowe, wydajność, możliwości i ograniczenia

Oczekuje się, że nowy generatywny model językowy całkowicie zmieni całe branże, w tym media, edukację, prawo i technologię.

W ostatnich miesiącach szybkość, z jaką pojawiały się innowacyjne, duże modele językowe, jest zdumiewająca. W tym artykule omówimy główne podobieństwa i różnice między GPT4 a ChatGPT, w tym metody szkolenia, wydajność, możliwości i ograniczenia.

Indeks treści

GPT4 vs ChatGPT: Podobieństwa i różnice w metodach treningowych

GPT4 i ChatGPT opierają się na starszych wersjach modeli GPT z ulepszeniami w architekturze modelu, stosując bardziej wyrafinowane metody uczenia i z większą liczbą parametrów szkolenia.

Obie konstrukcje oparte są na architekturze transformatorowej, która wykorzystuje koder do przetwarzania sekwencji wejściowych i dekoder do generowania sekwencji wyjściowych. Koder i dekoder są połączone mechanizmem, który pozwala dekoderowi zwrócić większą uwagę na najważniejsze sekwencje wejściowe.

Raport techniczny GPT4 of OpenAI oferuje niewielki wgląd w architekturę modelu i proces tworzenia GPT4, powołując się na „competitive landscape and the safety implications of large-scale models„. Wiemy jednak, że GPT4 i ChatGPT są prawdopodobnie szkolone podobnie, co znacznie różni się od metod szkoleniowych stosowanych dla GPT-2 i GPT-3. O metodach szkoleniowych dla ChatGPT wiemy dużo więcej niż o GPT4, więc od tego zaczniemy.

ChatGPT

ChatGPT jest szkolony przy użyciu zestawów danych dialogowych, w tym danych demonstracyjnych, w których adnotatorzy demonstrują oczekiwane wyniki asystenta chatbota w odpowiedzi na określone żądania. Te dane są używane do dostrojenia GPT3.5 do nadzorowanego uczenia się, tworząc model polityki, który jest używany do generowania wielu odpowiedzi, gdy dostarczane są żądania. Adnotatorzy-ludzcy klasyfikują następnie, która z odpowiedzi na dany monit przyniosła najlepsze wyniki, co jest wykorzystywane do trenowania modelu nagrody. Model nagrody jest następnie używany do iteracyjnego dostrajania modelu polityki za pomocą uczenia się przez wzmacnianie.

ChatGPT jest szkolony przy użyciu Wzmocnienie uczenia się na podstawie informacji zwrotnych od ludzi (RLHF), sposób na uwzględnienie opinii ludzi w celu ulepszenia modelu językowego podczas szkolenia. Pozwala to na dopasowanie danych wyjściowych modelu do czynności wymaganej przez użytkownika, a nie tylko przewidywanie następnego słowa w zdaniu na podstawie zbioru ogólnych danych szkoleniowych, takich jak GPT-3.

GPT4

OpenAI nie ujawniło jeszcze szczegółów na temat tego, jak trenowało GPT4. Ich raport techniczny nie zawiera „details about the architecture (including model size), hardware, training compute, dataset construction, training method, or similar„. Wiemy tylko, że GPT4 jest wyszkolonym generatywnym modelem wielomodowym w stylu transformatora. Zarówno na publicznie dostępnych danych, jak i na danych osób trzecich licencjonowanych, a następnie dopracowanych za pomocą RLHF. Co ciekawe, OpenAI podzieliło się szczegółami dotyczącymi swoich zaktualizowanych technik RLHF, aby reakcje modelu były dokładniejsze i mniej prawdopodobne, że wykroczą poza bariery bezpieczeństwa.

Po wytrenowaniu modelu polityki (jak w przypadku ChatGPT), RLHF jest używany w szkoleniu przeciwstawnym, procesie, który trenuje model na złośliwych przykładach, aby oszukać model, aby bronił go przed takimi przykładami w przyszłości. W przypadku GPT4 eksperci oceniają odpowiedzi modelu politycznego na sprzeczne postulaty. Odpowiedzi te są następnie wykorzystywane do trenowania dodatkowych modeli nagród, które iteracyjnie udoskonalają model polityki, w wyniku czego jest mniej prawdopodobne, że zapewni niebezpieczne, wymijające lub niedokładne odpowiedzi.

GPT4 vs ChatGPT podobieństwa i różnice pod względem wydajności i możliwości

pojemność

Pod względem funkcjonalności ChatGPT i GPT4 są bardziej podobne niż różne. Podobnie jak jego poprzednik, GPT-4 również wchodzi w interakcje w stylu konwersacyjnym, który ma na celu dostosowanie się do użytkownika. Jak widać poniżej, odpowiedzi między dwoma modelami na ogólne pytanie są bardzo podobne.

OpenAI zgadza się, że rozróżnienie między modelami może być subtelne i stwierdza, że „różnica pojawia się, gdy złożoność zadania osiąga wystarczający próg”. Biorąc pod uwagę sześciomiesięczne szkolenie przeciwstawne, które przeszedł podstawowy model GPT4 w fazie po szkoleniu, jest to prawdopodobnie dokładna charakterystyka.

W przeciwieństwie do ChatGPT, który akceptuje tylko tekst, GPT4 akceptuje zarówno monity graficzne, jak i tekstowe, zwracając odpowiedzi tekstowe. W chwili pisania tego tekstu niestety możliwość korzystania z obrazów wejściowych nie jest jeszcze publicznie dostępna.

wydajność

Jak wspomniano powyżej, OpenAI zgłasza znaczną poprawę wydajności bezpieczeństwa dla GPT4 w porównaniu z GPT-3.5 (z którego dostrojono ChatGPT). Jednak obecnie nie jest jasne, czy:

ograniczenie odpowiedzi na prośby o treści zabronione,
ograniczenie powstawania toksycznych treści, np
usprawnienie odpowiedzi na drażliwe tematy

wynikają z samego modelu GPT4 lub dodatkowych sprzecznych testów.

Ponadto GPT4 przewyższa CPT-3.5 w większości egzaminów akademickich i zawodowych przeprowadzanych przez ludzi. Warto zauważyć, że GPT4 osiąga wyniki w 90. percentylu na egzaminie Uniform Bar w porównaniu z GPT-3.5, który osiąga wyniki w 10. percentylu. GPT4 znacznie przewyższa również swojego poprzednika w testach porównawczych tradycyjnych modeli językowych i innych modeli SOTA (choć czasami nieznacznie).

GPT4 vs ChatGPT: różnice i ograniczeniai

Zarówno ChatGPT, jak i GPT4 mają znaczne ograniczenia i zagrożenia. Arkusz systemowy GPT-4 zawiera spostrzeżenia ze szczegółowej eksploracji tych zagrożeń przeprowadzonej przez OpenAI.

To tylko niektóre z zagrożeń związanych z obydwoma modelami:

Halucynacje (tendencja do tworzenia bezsensownych lub niezgodnych ze stanem faktycznym treści)
Twórz szkodliwe treści, które naruszają zasady OpenAI (np. szerzenie nienawiści, podżeganie do przemocy)
Wzmacnianie i utrwalanie stereotypów osób zmarginalizowanych
Generowanie realistycznej dezinformacji mającej na celu oszukanie

Podczas gdy ChatGPT i GPT-4 zmagają się z tymi samymi ograniczeniami i zagrożeniami, OpenAI poczyniło specjalne starania, w tym liczne sprzeczne testy, aby złagodzić je dla GPT-4. Chociaż jest to zachęcające, arkusz systemowy GPT-4 ostatecznie pokazuje, jak podatny był ChatGPT (i być może nadal jest). W celu uzyskania bardziej szczegółowego wyjaśnienia szkodliwych, niezamierzonych konsekwencji, polecam przeczytanie arkusza systemowego GPT-4, który zaczyna się na stronie 38 Raport techniczny GPT-4 .

wniosek

Chociaż niewiele wiemy o architekturze modelu i metodach szkoleniowych stojących za GPT4, wydaje się, że istnieje udoskonalona wersja ChatGPT. W rzeczywistości obecnie GPT4 jest w stanie akceptować obrazy i wprowadzanie tekstu, a wyniki są bezpieczniejsze, dokładniejsze i bardziej kreatywne. Niestety, musimy uwierzyć OpenAI na słowo, ponieważ GPT4 jest dostępny tylko w ramach subskrypcji ChatGPT Plus.

Bycie na bieżąco z postępami, zagrożeniami i ograniczeniami tych modeli jest niezbędne, gdy poruszamy się po tym ekscytującym, ale szybko ewoluującym krajobrazie dużych modeli językowych.

BlogInnovazione.it