Dwójka Polaków stworzyła najlepszą na świecie technologię „synteza mowy”. W oparciu o swoje rozwiązanie zamierzają stworzyć całą paletę produktów, które mają pomóc w przekształceniu firmy w miliardowy biznes.
Mateusz Staniszewski i Piotr Dąbkowski założyli Eleven Labs w styczniu 2022 roku. Oferowane przez startup rozwiązanie pozwala na generowanie syntetycznego głosu na podstawie tekstu. A także klonowanie głosu na podstawie dostarczonej próbki dźwiękowej. Ponieważ dzięki technologii „synteza mowy” będzie można zrewolucjonizować szeroko rozumiany sektor rozrywkowy od branży audiobookowej po filmową i gamingową, inwestorzy szybko zainwestowali w nią $2M, a po 2 latach – aż $80M.
– Jesteśmy w stanie zbudować najlepszą na świecie firmę zajmującą się rozwojem technologii głosowych z użyciem sztucznej inteligencji. Naszym celem jest to, aby w przyszłości wszystkie treści mogły być dostępne z najwyższą jakością dźwięku. A do tego w każdym języku i przy użyciu dowolnego głosu – powiedział Mateusz Staniszewski.
– Przez wiele lat spotykaliśmy się co pół roku, realizując różne projekty technologiczne, głównie dla zabawy i treningu intelektualnego. W końcu zaczęliśmy się zastanawiać nad technologią, która potrafiłaby analizować mowę pod kątem sentymentu i emocji. To wtedy narodził się pomysł, z którego wykluło się Eleven Labs – powiedział Piotr Dąbkowski.
Droga do sukcesu
Było ku temu kilka sprzyjających okoliczności. Po pierwsze, Dąbkowski już od kilku lat prowadził badania z obszaru nauczania maszynowego. Po drugie, przestrzeń do rozwoju AI zmieniła się ostatnio na tyle, że nie jest już zarezerwowana tylko dla wielkich firm. A po trzecie, szybko zrozumieli, gdzie ich technologia mogłaby znaleźć zastosowanie, np. przy dubbingu angielskojęzycznych filmów. Okazało się, że o ile prace nad tworzeniem syntetycznego tekstu czy wideo są już całkiem zaawansowane, o tyle obszar głosu wciąż jest w bardzo wczesnej fazie rozwoju. Szybko ustalili, jakie są dostępne komponenty do badań i w jaki sposób można by się zabrać do tworzenia prototypu takiego rozwiązania. Spróbowali zbierając najpierw potężny zbiór danych. A potem trenując algorytmy z myślą o tym, żeby nie tylko uczyły się przekładu tekstu na głos, ale także kontekstu analizowanej treści.
Efekty były szokujące, bo już pół roku od założenia spółki znaleźli pierwszych inwestorów. $2 miliony zainwestował w nich brytyjski fundusz Concept Ventures, czeski Credo Ventures, a także kilka grup aniołów biznesu. Ich zdaniem firma stworzyła najlepszą na świecie technologię „text to voice”, pozwalającą generować długoformatowe wypowiedzi audio na podstawie tekstu. Dzięki niej będzie można oglądać filmy z Tomem Hanksem mówiącym po polsku czy słuchać audiobooków czytanych po angielsku przez polskich aktorów. Co więcje, każdy internetowy twórca treści dostanie możliwość publikowania swoich materiałów w dowolnym języku.
Milion użytkowników w 2 miesiące
W styczniu 2023 roku firma zaprezentowała swój pierwszy produkt. W ciągu zaledwie 2 miesięcy przyciągnął na jej platformę ponad 1 mln użytkowników. A w styczniu 2024 roku zebrała $80 mln dofinansowania. Główni inwestorzy to fundusz Andreessen Horowitz oraz przedsiębiorcy Nat Friedman i Daniel Gross. Ale odbyło się to przy udziale funduszu Sequoia Capital i SV Angel. W efekcie w ciągu dwóch lat Eleven Labs zostało jednorożcem z wyceną przekraczającą $1 mld. Przez rok jej klienci wygenerowali treści audio o czasie trwania 100+ lat, a zatrudnienie wzrosło z 5 do 40 osób. Z jej technologii korzystają pracownicy 41% firm z listy Fortune 500. Głównym celem firmy jest nadal zmiana sposobu interakcji z treściami poprzez przełamywanie barier językowych i komunikacyjnych.
Synteza mowy: perspektywy na przyszłość
Początkowo firma skupiała się na dostarczeniu rozwiązania dla niezależnych twórców operujących językiem polskim i angielskim. Przede wszystkim chodziło tu o autorów książek oraz newsletterów. Potem weszli do branży mediowej, umożliwiając serwisom informacyjnym emitowanie swoich treści pod postacią audio.
W planach mają też stworzenie rozwiązania do automatycznego dubbingu. Przy czym w pierwszej kolejności chcą wziąć na warsztat emocjonalnie stonowane filmy dokumentalne. Chcieliby jednak by już w 2024 r. pierwsza hollywoodzka produkcja zaczęła wykorzystywać ich rozwiązanie. Jeśli zdołają zbudować zestaw produktów do rozwiązywania problemów głosowych, mają szansę stać się miliardowym, niezależnym biznesem. Jeżeli nie, to z uwagi na samą technologię ich startup może zostać przejęty przez Google, Amazona czy OpenAI.
————————-
TOP-3
- DeepL Translator, wydajne narzędzie nowej generacji do tłumaczeń online, bazujące na sieciach neuronowych. Serwis obsługuje 26 języków (stan na maj 2022).
- Eleven Labs, najlepsza na świecie technologia do syntezy mowy.
- Tomasz Czajka, Flight Software Engineer w SpaceX. Był członkiem ekipy, która jako pierwsza z Polski zwyciężyła w finałach ICPC 2003.
TOP-3 na angielskiej wersji strony (linki prowadzą do wersji po polsku)
- Booksy, najbardziej popularna na świecie aplikacja do rezerwowania wizyt u fryzjerów i w salonach kosmetycznych.
- Vasco Translator V4, urządzenie translacyjne, które działa online w 150+ krajach, mówi w 75 językach, a napisy ze zdjęć tłumaczy ze 108 w ciągu 0,5 sek.
- TOP-10 polskich firm sektora gamedev 2023 – liderem jest CD Projekt przed Techlandem i PlayWay.