Novi GPT-4o model donosi napredne sposobnosti obrade teksta, slike i zvuka, a značajno je unaprijeđen u odnosu na svoje prethodnike. Što je još važnije, GPT-4o biti će dostupan besplatno, uključujući mnoge značajke koje su prethodno bile dostupne samo pretplatnicima na ChatGPT Plus.
GPT-4o ("o" za "omni") je korak prema mnogo prirodnijoj interakciji između čovjeka i računala te prihvaća kao ulaz bilo koju kombinaciju teksta, zvuka i slike i generira bilo koju kombinaciju izlaza tj. vraća vam tekst, zvuk i/ili sliku. Može odgovoriti na audio unose za impresivnih 232 milisekundi, s prosjekom od 320 milisekundi, što je slično vremenu koje je ljudima potrebno da odgovore. Iako neki ljudi čekaju i nekoliko sekundi prije nego li vam odgovore ;). Ima performansae GPT-4 Turbo modela u tekstu na engleskom jeziku i u generiranju koda, uz značajna poboljšanja u jezicima koji nisu engleski, dok je ujedno mnogo brži ali i 50% jeftiniji u korištenju API pristupa. GPT-4o je značajno bolji u razumijevanju slika i zvuka u usporedbi s dosadašnjim modelima.
Besplatna dostupnost i nove značajke
Predstavljanje GPT-4o označava veliki korak naprijed u misiji OpenAI-a da učini napredne AI alate dostupnima što širem krugu korisnika. Murati je istaknula kako je smanjenje barijera za korištenje ključan cilj, jer omogućuje korisnicima da koriste ChatGPT gdje god se nalazili, bez potrebe za prijavom. Nova verzija također donosi Desktop aplikaciju koja će interakciju s ChatGPT-om učiniti još jednostavnijom i prirodnijom. Ova aplikacija će prvo biti dostupna na Mac računalima, dok se verzija za Windows očekuje krajem 2024. godine. Aplikacija će omogućiti pristup clipboard memoriji računala kao i pristup dijeljenom ekranu koji GPT-4o može vrlo dobro protumačiti.
Najveća novost je lansiranje GPT-4o modela koji, osim navedenih noviteta, omogućuje besplatan pristup GPT-4 modelu, koji su do sada korisnici morali plaćati. U live demonstracijama, istraživački tim OpenAI-a, uključujući Barretta Zopha i Marka Chena, pokazao je impresivne mogućnosti GPT-4o u stvarnom vremenu.
Prije GPT-4o, korisnici su mogli koristiti Voice Mode za razgovor s ChatGPT-om s latencijama od 2,8 sekundi (GPT-3.5) i 5,4 sekundi (GPT-4) u prosjeku. Da bi se to postiglo, Voice Mode je koristio tri odvojena modela: jedan model za transkripciju zvuka u tekst, GPT-3.5 ili GPT-4 za obradu teksta i model za pretvorbu teksta natrag u zvuk. S GPT-4o, trenirali smo novi model koji kombinira sve ove modalitete, što znači da svi ulazi i izlazi obrađuju isti neuronski mrežni sustav.
Ono sto je fascinantno je da je tako dobiven odziv bez laga i zvuči prirodno, kao čovjek. Možeš s njim razgovarati i prekidati razgovor kao da razgovaraš s čovjekom. Vrlo, vrlo fascinantno!
Emocionalna inteligencija i Real-Time interakcija
Jedna od najzanimljivijih demonstracija uključivala je Zopha, koji je pokazao kako GPT-4o može prepoznati ljudske emocije putem kamere pametnog telefona. Iako je isprva pogrešno identificirao njegovu sliku kao drveni stol, ChatGPT se brzo prilagodio i ispravno procijenio Zophove emocije. Ova sposobnost prepoznavanja emocija otvara vrata za brojne aplikacije u interakciji ljudi i AI.
GPT-4o donosi nekoliko ključnih unapređenja u odnosu na prethodne verzije. Prvo, model je značajno brži i učinkovitiji. Kao što je Murati istaknula, ovo omogućuje OpenAI-u da ponudi GPT-4o inteligenciju besplatnim korisnicima, nešto što su dugo željeli postići. Drugo, poboljšane su sposobnosti modela u obradi teksta, slike i zvuka, što ga čini svestranijim alatom za različite aplikacije.
GPT-4o postavlja nove standarde u prepoznavanju govora, nadmašujući Whisper-v3 u svim jezicima, posebno za jezike s manje dostupnih resursa. Također postavlja nove rekorde u prijevodu govora, nadmašujući Whisper-v3 na MLS benchmarku. U testovima vizualne percepcije, GPT-4o postiže vrhunske rezultate. Sve vizualne evaluacije su 0-shot, uključujući MMMU, MathVista i ChartQA.
Primjena u obrazovanju i rješavanju problema
Jedna od demonstracija uključivala je Marka Chena, koji je pokazao kako GPT-4o može pomoći u rješavanju matematičkih jednadžbi. Kroz interakciju s ChatGPT-om, Chen je korak po korak rješavao linearnu jednadžbu, uz korisne savjete i povratne informacije od AI modela. Ova vrsta interakcije pokazuje potencijal GPT-4o za korištenje u obrazovanju, gdje može pomoći studentima u učenju i rješavanju problema.
Uz to, GPT-4o nudi poboljšane mogućnosti glasovne interakcije. Chen je pokazao kako novi model omogućuje prirodniji i fluidniji razgovor, bez potrebe za čekanjem na odgovor AI-a. Model također može prepoznati emocije u glasu korisnika, pružajući povratne informacije u stvarnom vremenu koje mogu pomoći u različitim situacijama.
Dostupnost putem API-ja i sigurnost
OpenAI je također najavio da će GPT-4o biti dostupan putem API-ja, omogućujući programerima da grade napredne AI aplikacije i primjene ih u velikom opsegu. GPT-4o je ne samo brži nego i 50% jeftiniji za korištenje, s pet puta višim ograničenjima stope zahtjeva u usporedbi s GPT-4 Turbo.
Jedan od ključnih izazova s novim modelom je sigurnost, posebno s obzirom na rad u stvarnom vremenu s audio i vizualnim podacima. Tim OpenAI-a intenzivno radi na strategijama protiv zlouporabe i surađuje s različitim dionicima kako bi osigurali sigurno uvođenje ovih tehnologija.
GPT-4o ima ugrađene sigurnosne značajke koje uključuju filtriranje podataka za treniranje i prilagodbu ponašanja modela nakon treniranja. OpenAI je stvorio nove sigurnosne sustave za ograničavanje glasovnih izlaza. Model je prošao opsežno vanjsko testiranje sa 70+ vanjskih stručnjaka kako bi se identificirali rizici. Ograničili su dostupnost zvučnih izlaza na odabir unaprijed postavljenih glasova kako bi se smanjili sigurnosni rizici.
Ekskluzivne značajke za pretplatnike
Dok su mnoge značajke GPT-4o sada dostupne besplatnim korisnicima, pretplatnici na ChatGPT Plus i dalje imaju pristup nekim ekskluzivnim značajkama i većim kapacitetima. Pretplatnici mogu slati pet puta više upita prije nego što dosegnu ograničenje, što može biti korisno za one koji intenzivno koriste AI alat. Impresivni glasovni način rada koji je Zoph demonstrirao na pozornici stiže, po malo, u sljedećih nekoliko tjedana prema pretplatnicima na ChatGPT Plus.
Zaključak
U konačnici, lansiranje GPT-4o predstavlja značajan korak naprijed u razvoju AI tehnologije i njezinoj dostupnosti široj javnosti. Uz brojne nove značajke i poboljšane performanse, GPT-4o obećava transformirati način na koji komuniciramo s AI alatima, čineći ih pristupačnijima, učinkovitijima i korisnijima nego ikad prije.