Eleven Labs dzięki syntezatorowi mowy w 2 lata stał się jednorożcem

Ostatnia aktualizacja 5 lutego 2024

5 lutego 2023

Ilość wyświetleń 2103

Dwójka Polaków stworzyła najlepszą na świecie technologię „synteza mowy”. W oparciu o swoje rozwiązanie zamierzają stworzyć całą paletę produktów, które mają pomóc w przekształceniu firmy w miliardowy biznes.

Mateusz Staniszewski i Piotr Dąbkowski założyli Eleven Labs w styczniu 2022 roku. Oferowane przez startup rozwiązanie pozwala na generowanie syntetycznego głosu na podstawie tekstu. A także klonowanie głosu na podstawie dostarczonej próbki dźwiękowej. Ponieważ dzięki technologii „synteza mowy” będzie można zrewolucjonizować szeroko rozumiany sektor rozrywkowy od branży audiobookowej po filmową i gamingową, inwestorzy szybko zainwestowali w nią $2M, a po 2 latach – aż $80M.

– Jesteśmy w stanie zbudować najlepszą na świecie firmę zajmującą się rozwojem technologii głosowych z użyciem sztucznej inteligencji. Naszym celem jest to, aby w przyszłości wszystkie treści mogły być dostępne z najwyższą jakością dźwięku. A do tego w każdym języku i przy użyciu dowolnego głosu – powiedział Mateusz Staniszewski.

– Przez wiele lat spotykaliśmy się co pół roku, realizując różne projekty technologiczne, głównie dla zabawy i treningu intelektualnego. W końcu zaczęliśmy się zastanawiać nad technologią, która potrafiłaby analizować mowę pod kątem sentymentu i emocji. To wtedy narodził się pomysł, z którego wykluło się Eleven Labs – powiedział Piotr Dąbkowski.

Droga do sukcesu

Było ku temu kilka sprzyjających okoliczności. Po pierwsze, Dąbkowski już od kilku lat prowadził badania z obszaru nauczania maszynowego. Po drugie, przestrzeń do rozwoju AI zmieniła się ostatnio na tyle, że nie jest już zarezerwowana tylko dla wielkich firm. A po trzecie, szybko zrozumieli, gdzie ich technologia mogłaby znaleźć zastosowanie, np. przy dubbingu angielskojęzycznych filmów. Okazało się, że o ile prace nad tworzeniem syntetycznego tekstu czy wideo są już całkiem zaawansowane, o tyle obszar głosu wciąż jest w bardzo wczesnej fazie rozwoju. Szybko ustalili, jakie są dostępne komponenty do badań i w jaki sposób można by się zabrać do tworzenia prototypu takiego rozwiązania. Spróbowali zbierając najpierw potężny zbiór danych. A potem trenując algorytmy z myślą o tym, żeby nie tylko uczyły się przekładu tekstu na głos, ale także kontekstu analizowanej treści.

Efekty były szokujące, bo już pół roku od założenia spółki znaleźli pierwszych inwestorów. $2 miliony zainwestował w nich brytyjski fundusz Concept Ventures, czeski Credo Ventures, a także kilka grup aniołów biznesu. Ich zdaniem firma stworzyła najlepszą na świecie technologię „text to voice”, pozwalającą generować długoformatowe wypowiedzi audio na podstawie tekstu. Dzięki niej będzie można oglądać filmy z Tomem Hanksem mówiącym po polsku czy słuchać audiobooków czytanych po angielsku przez polskich aktorów. Co więcje, każdy internetowy twórca treści dostanie możliwość publikowania swoich materiałów w dowolnym języku.

Milion użytkowników w 2 miesiące

W styczniu 2023 roku firma zaprezentowała swój pierwszy produkt. W ciągu zaledwie 2 miesięcy przyciągnął na jej platformę ponad 1 mln użytkowników. A w styczniu 2024 roku zebrała $80 mln dofinansowania. Główni inwestorzy to fundusz Andreessen Horowitz oraz przedsiębiorcy Nat Friedman i Daniel Gross. Ale odbyło się to przy udziale funduszu Sequoia Capital i SV Angel. W efekcie w ciągu dwóch lat Eleven Labs zostało jednorożcem z wyceną przekraczającą $1 mld. Przez rok jej klienci wygenerowali treści audio o czasie trwania 100+ lat, a zatrudnienie wzrosło z 5 do 40 osób. Z jej technologii korzystają pracownicy 41% firm z listy Fortune 500. Głównym celem firmy jest nadal zmiana sposobu interakcji z treściami poprzez przełamywanie barier językowych i komunikacyjnych.

Synteza mowy: perspektywy na przyszłość

Początkowo firma skupiała się na dostarczeniu rozwiązania dla niezależnych twórców operujących językiem polskim i angielskim. Przede wszystkim chodziło tu o autorów książek oraz newsletterów. Potem weszli do branży mediowej, umożliwiając serwisom informacyjnym emitowanie swoich treści pod postacią audio.

W planach mają też stworzenie rozwiązania do automatycznego dubbingu. Przy czym w pierwszej kolejności chcą wziąć na warsztat emocjonalnie stonowane filmy dokumentalne. Chcieliby jednak by już w 2024 r. pierwsza hollywoodzka produkcja zaczęła wykorzystywać ich rozwiązanie. Jeśli zdołają zbudować zestaw produktów do rozwiązywania problemów głosowych, mają szansę stać się miliardowym, niezależnym biznesem. Jeżeli nie, to z uwagi na samą technologię ich startup może zostać przejęty przez Google, Amazona czy OpenAI.

————————-

TOP-3

DeepL Translator, wydajne narzędzie nowej generacji do tłumaczeń online, bazujące na sieciach neuronowych. Serwis obsługuje 26 języków (stan na maj 2022).
Eleven Labs, najlepsza na świecie technologia do syntezy mowy.
Tomasz Czajka, Flight Software Engineer w SpaceX. Był członkiem ekipy, która jako pierwsza z Polski zwyciężyła w finałach ICPC 2003.

TOP-3 na angielskiej wersji strony (linki prowadzą do wersji po polsku)

Booksy, najbardziej popularna na świecie aplikacja do rezerwowania wizyt u fryzjerów i w salonach kosmetycznych.
Vasco Translator V4, urządzenie translacyjne, które działa online w 150+ krajach, mówi w 75 językach, a napisy ze zdjęć tłumaczy ze 108 w ciągu 0,5 sek.
TOP-10 polskich firm sektora gamedev 2023 – liderem jest CD Projekt przed Techlandem i PlayWay.

Poprzedni artykułSilent Eight wspomaga walkę z nadużyciami finansowymi

Następny artykułNomagic oferuje inteligentne roboty dla centrów logistycznych

Eleven Labs dzięki syntezatorowi mowy w 2 lata stał się jednorożcem

Droga do sukcesu

Milion użytkowników w 2 miesiące

Synteza mowy: perspektywy na przyszłość

TOP-3

TOP-3 na angielskiej wersji strony (linki prowadzą do wersji po polsku)

Najnowsze

XXX Bałtycka Olimpiada Informatyczna 2024: Adam-Gąsienica Samek zwycięzcą po raz 2 z rzędu

Brązowy medal dla Uniwersytetu Warszawskiego w ICPC 2023

InPost Pay ma już 1 milion użytkowników

1,35 mld zł na rozbudowę centrów danych Atman

Uniwersytet Warszawski zwycięzcą ICPC European Championship 2024

Uniwersytet Jagielloński zwycięża w CERC 2023 po raz drugi z rzędu

KONTAKT

PoLAND of IT masters: Information Hub

Privacy Policy

What data do we collect?

How will we use your data?

What are your data protection rights?

Cookies

How do we use cookies?

What types of cookies do we use?

How to manage cookies

Privacy policies of other websites

Changes to our privacy policy