Informatics

Available ang makabagong teknolohiya ng OpenAI. Ginamit namin ito upang direktang mag-transcribe ng audio sa PC

Ang OpenAI, isang kumpanyang kilala na para sa DALL-E at GPT, ay lumikha ng awtomatikong sistema ng pagkilala sa pagsasalita nito, na tinatawag na Whisper. Masusubok at magagamit na ito ng mga mananaliksik at developer.

Ang OpenAI ay ang kumpanyang bumuo ng DALL-E image at meme generation program at ang malakas na GPT-3 text autocomplete engine. Ang OpenAI ay naglunsad ng bagong open source na neural network, na nilayon upang i-transcribe ang audio sa nakasulat na text (sa pamamagitan ng TechCrunch).

Ito ay tinatawag na Whisper at sinasabi ng kumpanya na "Ang algorithm ay matatag at tumpak, may kakayahang magtrabaho sa antas ng tao sa English speech recognition" at maaari rin itong awtomatikong makilala, mag-transcribe at magsalin ng iba pang mga wika tulad ng Spanish, Italian at Japanese.

Bagama't ang mga serbisyong nakabatay sa cloud tulad ng Otter.ai at Trint ay gumagana nang "medyo mahusay", pagkatapos ng ilang pagsubok ay na-verify namin na ang resulta ay tiyak na lumalabas na napabuti.

Paanas

Ang pag-install ng Whisper ay madali, nakumpleto sa pamamagitan ng pagpapatakbo ng isang Terminal command. Sa humigit-kumulang 10 minuto, nagamit namin ang Whisper para i-transcribe ang isang pansubok na audio na na-record ko.

Sa post sa blog pag-anunsyo ng Whisper, sinabi ng team na ang code nito ay maaaring "nagsisilbing batayan para sa pagbuo ng mga kapaki-pakinabang na aplikasyon at para sa karagdagang pananaliksik sa matatag na pagproseso ng pagsasalita"At sana"Ang mataas na katumpakan at kadalian ng paggamit ng Whisper ay magbibigay-daan sa mga developer na magdagdag ng mga voice interface sa isang mas malawak na hanay ng mga application". Ang diskarte na ito ay kapansin-pansin, gayunpaman: ang kumpanya ay may limitadong pag-access sa pinakasikat na mga proyekto sa pag-aaral ng makina tulad ng DALL-E o GPT-3, na nagbabanggit ng pagnanais na "matuto nang higit pa tungkol sa paggamit sa totoong mundo at patuloy na ulitin ang aming mga sistema ng seguridad . "

Para i-download ang Whisper paper, mag-click dito

kumpara kina Trint at Otter.ai

Inihambing namin ang isang transcript na nabuo ng Whisper na may parehong ginawa gamit ang Otter.ai at Trint at sinasabi na ang resulta ay hindi maihahambing. Sa Otter.ai at Trint nagkaroon kami ng ilang mga error, at ang resulta ay nangangailangan ng mga pagwawasto upang magamit ito, siyempre, muling paglalaro ng audio. Ang bersyon ng Whisper sa halip ay gumawa ng isang mahusay na resulta, direktang magagamit at mai-publish.

newsletter ng pagbabago
Huwag palampasin ang pinakamahalagang balita sa pagbabago. Mag-sign up upang matanggap ang mga ito sa pamamagitan ng email.

Malamang na hindi gagawin ng Whisper na ganap na hindi na ginagamit ang mga serbisyong nakabatay sa cloud tulad ng Otter.ai at Trint. Ngunit kulang ang Whisper ng isa sa mga pinakadakilang katangian ng mga tradisyunal na serbisyo ng transkripsyon: ang kakayahang lagyan ng label kung sino ang nagsabi kung ano.

Ang pag-asa sa lokal na pagproseso, ang bilis ng pagpapatupad ay depende sa computer na ginamit. Isinasaalang-alang na ang isang audio na humigit-kumulang 25 minuto ay naproseso gamit ang Whisper sa loob ng humigit-kumulang 50 minuto, gamit ang isang MacBook Pro M1 - ito ay maaaring isang disbentaha.

gastos

Gayunpaman, ang teknolohiya ng OpenAI ay may malaking kalamangan: ang presyo. Ang mga serbisyo sa subscription na nakabatay sa cloud ay magkakahalaga ng pera kung gagamitin para sa mga propesyonal na layunin. May libreng tier ang Otter.ai, ngunit gagawing hindi gaanong kapaki-pakinabang ang mga paparating na pagbabago para sa mga taong madalas mag-transcribe ng mga bagay. Ang mga platform tulad ng Microsoft Word o Pixel ay nangangailangan ng pagbabayad para sa hiwalay na software o hardware. Ang Stage Whisper - at Whisper mismo - ay libre at maaaring patakbuhin sa computer na pagmamay-ari mo na.

Sa konklusyon

Ang OpenAI ay may mataas na inaasahan para sa Whisper, kung isasaalang-alang ang modelo ng machine learning, na sinanay sa "680.000 oras ng pinangangasiwaang data ng multilingual at multitasking na nakolekta mula sa web." Ngunit ang katotohanan na mayroon din itong praktikal at tunay na paggamit ngayon ay mas nakakapanabik.

Ercole Palmeri: Adik sa inobasyon


​  

newsletter ng pagbabago
Huwag palampasin ang pinakamahalagang balita sa pagbabago. Mag-sign up upang matanggap ang mga ito sa pamamagitan ng email.

Kamakailang Mga Artikulo

Paano pinakamahusay na ayusin ang data at mga formula sa Excel, para sa isang mahusay na pagsusuri

Ang Microsoft Excel ay ang reference tool para sa data analysis, dahil nag-aalok ito ng maraming feature para sa pag-aayos ng mga data set,…

14 Mayo 2024

Positibong konklusyon para sa dalawang mahalagang Walliance Equity Crowdfunding na proyekto: Jesolo Wave Island at Milano Via Ravenna

Ang Walliance, SIM at platform sa mga pinuno sa Europe sa larangan ng Real Estate Crowdfunding mula noong 2017, ay nag-anunsyo ng pagkumpleto…

13 Mayo 2024

Ano ang Filament at paano gamitin ang Laravel Filament

Ang filament ay isang "pinabilis" na framework ng pag-develop ng Laravel, na nagbibigay ng ilang full-stack na bahagi. Ito ay dinisenyo upang gawing simple ang proseso ng…

13 Mayo 2024

Sa ilalim ng kontrol ng Artificial Intelligences

«Kailangan kong bumalik upang kumpletuhin ang aking ebolusyon: Ipapakita ko ang aking sarili sa loob ng computer at magiging purong enerhiya. Kapag nanirahan sa…

10 Mayo 2024

Ang bagong artificial intelligence ng Google ay maaaring magmodelo ng DNA, RNA at "lahat ng mga molekula ng buhay"

Ang Google DeepMind ay nagpapakilala ng pinahusay na bersyon ng modelo ng artificial intelligence nito. Ang bagong pinahusay na modelo ay nagbibigay hindi lamang…

9 Mayo 2024

Paggalugad sa Modular Architecture ni Laravel

Ang Laravel, na sikat sa eleganteng syntax at malalakas na feature nito, ay nagbibigay din ng matatag na pundasyon para sa modular na arkitektura. doon…

9 Mayo 2024

Cisco Hypershield at pagkuha ng Splunk Nagsisimula ang bagong panahon ng seguridad

Tinutulungan ng Cisco at Splunk ang mga customer na mapabilis ang kanilang paglalakbay sa Security Operations Center (SOC) ng hinaharap na may…

8 Mayo 2024

Higit pa sa pang-ekonomiyang bahagi: ang hindi halatang halaga ng ransomware

Nangibabaw ang Ransomware sa balita sa nakalipas na dalawang taon. Alam na alam ng karamihan na ang mga pag-atake ay...

6 Mayo 2024