Ang OpenAI ay ang kumpanyang bumuo ng DALL-E image at meme generation program at ang malakas na GPT-3 text autocomplete engine. Ang OpenAI ay naglunsad ng bagong open source na neural network, na nilayon upang i-transcribe ang audio sa nakasulat na text (sa pamamagitan ng TechCrunch).
Ito ay tinatawag na Whisper at sinasabi ng kumpanya na "Ang algorithm ay matatag at tumpak, may kakayahang magtrabaho sa antas ng tao sa English speech recognition" at maaari rin itong awtomatikong makilala, mag-transcribe at magsalin ng iba pang mga wika tulad ng Spanish, Italian at Japanese.
Bagama't ang mga serbisyong nakabatay sa cloud tulad ng Otter.ai at Trint ay gumagana nang "medyo mahusay", pagkatapos ng ilang pagsubok ay na-verify namin na ang resulta ay tiyak na lumalabas na napabuti.
Ang pag-install ng Whisper ay madali, nakumpleto sa pamamagitan ng pagpapatakbo ng isang Terminal command. Sa humigit-kumulang 10 minuto, nagamit namin ang Whisper para i-transcribe ang isang pansubok na audio na na-record ko.
Sa post sa blog pag-anunsyo ng Whisper, sinabi ng team na ang code nito ay maaaring "nagsisilbing batayan para sa pagbuo ng mga kapaki-pakinabang na aplikasyon at para sa karagdagang pananaliksik sa matatag na pagproseso ng pagsasalita"At sana"Ang mataas na katumpakan at kadalian ng paggamit ng Whisper ay magbibigay-daan sa mga developer na magdagdag ng mga voice interface sa isang mas malawak na hanay ng mga application". Ang diskarte na ito ay kapansin-pansin, gayunpaman: ang kumpanya ay may limitadong pag-access sa pinakasikat na mga proyekto sa pag-aaral ng makina tulad ng DALL-E o GPT-3, na nagbabanggit ng pagnanais na "matuto nang higit pa tungkol sa paggamit sa totoong mundo at patuloy na ulitin ang aming mga sistema ng seguridad . "
Para i-download ang Whisper paper, mag-click dito
Inihambing namin ang isang transcript na nabuo ng Whisper na may parehong ginawa gamit ang Otter.ai at Trint at sinasabi na ang resulta ay hindi maihahambing. Sa Otter.ai at Trint nagkaroon kami ng ilang mga error, at ang resulta ay nangangailangan ng mga pagwawasto upang magamit ito, siyempre, muling paglalaro ng audio. Ang bersyon ng Whisper sa halip ay gumawa ng isang mahusay na resulta, direktang magagamit at mai-publish.
Malamang na hindi gagawin ng Whisper na ganap na hindi na ginagamit ang mga serbisyong nakabatay sa cloud tulad ng Otter.ai at Trint. Ngunit kulang ang Whisper ng isa sa mga pinakadakilang katangian ng mga tradisyunal na serbisyo ng transkripsyon: ang kakayahang lagyan ng label kung sino ang nagsabi kung ano.
Ang pag-asa sa lokal na pagproseso, ang bilis ng pagpapatupad ay depende sa computer na ginamit. Isinasaalang-alang na ang isang audio na humigit-kumulang 25 minuto ay naproseso gamit ang Whisper sa loob ng humigit-kumulang 50 minuto, gamit ang isang MacBook Pro M1 - ito ay maaaring isang disbentaha.
Gayunpaman, ang teknolohiya ng OpenAI ay may malaking kalamangan: ang presyo. Ang mga serbisyo sa subscription na nakabatay sa cloud ay magkakahalaga ng pera kung gagamitin para sa mga propesyonal na layunin. May libreng tier ang Otter.ai, ngunit gagawing hindi gaanong kapaki-pakinabang ang mga paparating na pagbabago para sa mga taong madalas mag-transcribe ng mga bagay. Ang mga platform tulad ng Microsoft Word o Pixel ay nangangailangan ng pagbabayad para sa hiwalay na software o hardware. Ang Stage Whisper - at Whisper mismo - ay libre at maaaring patakbuhin sa computer na pagmamay-ari mo na.
Ang OpenAI ay may mataas na inaasahan para sa Whisper, kung isasaalang-alang ang modelo ng machine learning, na sinanay sa "680.000 oras ng pinangangasiwaang data ng multilingual at multitasking na nakolekta mula sa web." Ngunit ang katotohanan na mayroon din itong praktikal at tunay na paggamit ngayon ay mas nakakapanabik.
Ercole Palmeri: Adik sa inobasyon
Ang Microsoft Excel ay ang reference tool para sa data analysis, dahil nag-aalok ito ng maraming feature para sa pag-aayos ng mga data set,…
Ang Walliance, SIM at platform sa mga pinuno sa Europe sa larangan ng Real Estate Crowdfunding mula noong 2017, ay nag-anunsyo ng pagkumpleto…
Ang filament ay isang "pinabilis" na framework ng pag-develop ng Laravel, na nagbibigay ng ilang full-stack na bahagi. Ito ay dinisenyo upang gawing simple ang proseso ng…
«Kailangan kong bumalik upang kumpletuhin ang aking ebolusyon: Ipapakita ko ang aking sarili sa loob ng computer at magiging purong enerhiya. Kapag nanirahan sa…
Ang Google DeepMind ay nagpapakilala ng pinahusay na bersyon ng modelo ng artificial intelligence nito. Ang bagong pinahusay na modelo ay nagbibigay hindi lamang…
Ang Laravel, na sikat sa eleganteng syntax at malalakas na feature nito, ay nagbibigay din ng matatag na pundasyon para sa modular na arkitektura. doon…
Tinutulungan ng Cisco at Splunk ang mga customer na mapabilis ang kanilang paglalakbay sa Security Operations Center (SOC) ng hinaharap na may…
Nangibabaw ang Ransomware sa balita sa nakalipas na dalawang taon. Alam na alam ng karamihan na ang mga pag-atake ay...