Startup został założony zaledwie rok temu przez Mateusza Staniszewskiego i Piotra Dąbkowskiego. Oferowane przez niego rozwiązanie pozwala na generowanie syntetycznego głosu na podstawie tekstu albo klonowanie głosu na podstawie dostarczonej próbki dźwiękowej. Ponieważ dzięki tej technologii będzie można zrewolucjonizować szeroko rozumiany sektor rozrywkowy od branży audiobookowej po filmową i gamingową, inwestorzy szybko zainwestowali w nią 2 mln USD.
– Jesteśmy w stanie zbudować najlepszą na świecie firmę zajmującą się rozwojem technologii głosowych z użyciem sztucznej inteligencji. Naszym celem jest to, aby w przyszłości wszystkie treści mogły być dostępne z najwyższą jakością dźwięku, w każdym języku i przy użyciu dowolnego głosu – powiedział Mateusz Staniszewski.
– Przez wiele lat spotykaliśmy się co pół roku, realizując różne projekty technologiczne, głównie dla zabawy i treningu intelektualnego. W końcu zaczęliśmy się zastanawiać nad technologią, która potrafiłaby analizować mowę pod kątem sentymentu i emocji. To wtedy narodził się pomysł, z którego wykluło się Eleven Labs – powiedział Piotr Dąbkowski.
Było ku temu kilka sprzyjających okoliczności. Po pierwsze, Dąbkowski już od kilku lat prowadził badania z obszaru nauczania maszynowego, po drugie przestrzeń do rozwoju AI zmieniła się ostatnio na tyle, że nie jest już zarezerwowana tylko dla wielkich firm, a po trzecie, szybko zrozumieli, gdzie ich technologia mogłaby znaleźć zastosowanie, np. przy dubbingu angielskojęzycznych filmów. Okazało się, że o ile prace nad tworzeniem syntetycznego tekstu czy wideo są już całkiem zaawansowane, o tyle obszar głosu wciąż jest w bardzo wczesnej fazie rozwoju. Szybko ustalili, jakie są dostępne komponenty do badań i w jaki sposób można by się zabrać do tworzenia prototypu takiego rozwiązania. Spróbowali zbierając najpierw potężny zbiór danych, a potem trenując algorytmy z myślą o tym, żeby nie tylko uczyły się przekładu tekstu na głos, ale także kontekstu analizowanej treści.
Efekty były szokujące. W styczniu 2022 roku założyli spółkę, a już pół roku później 2 mln USD zainwestował w nich brytyjski fundusz Concept Ventures, czeski Credo Ventures, a także kilka grup aniołów biznesu. Ich zdaniem firma stworzyła najlepszą na świecie technologię „text to voice”, pozwalającą generować długoformatowe wypowiedzi audio na podstawie tekstu. Dzięki niej będzie można oglądać filmy z Tomem Hanksem mówiącym po polsku czy słuchać audiobooków czytanych po angielsku przez polskich aktorów, a każdy internetowy twórca treści dostanie możliwość publikowania swoich materiałów w dowolnym języku.
W tej chwili firma skupia się na dostarczeniu rozwiązania dla niezależnych twórców operujących językiem polskim i angielskim, przede wszystkim dla autorów książek czy newsletterów, a chęć przetestowania wersji beta ich produktu wyraziło już ok. tysiąca osób. Potem zamierzają wejść do branży mediowej, umożliwiając serwisom informacyjnym emitowanie swoich treści pod postacią audio. A później zamierzają stworzyć rozwiązanie do automatycznego dubbingu. W pierwszej kolejności wezmą na warsztat emocjonalnie stonowane filmy dokumentalne, ale chcieliby by w 2024 r. pierwsza hollywoodzka produkcja zaczęła wykorzystywać ich rozwiązanie. Jeśli zdołają zbudować zestaw produktów do rozwiązywania problemów głosowych, mają szansę stać się miliardowym, niezależnym biznesem. Jeżeli nie, to z uwagi na samą technologię ich startup może zostać przejęty przez Google, Amazona czy OpenAI.