Synerise zajęła trzecie miejsce, za Baidu i Deep Mind, w KDD Cup 2021, najważniejszym na świecie konkursie poświęconym AI i ML.
O KDD Cup
Konkurs KDD Cup odbył się w czasie konferencji KDD organizowanej przez ACM. Nieoficjalnie jest nazywany Mistrzostwami Świata w dziedzinie AI. Odbywająca się od 1989 roku konferencja KDD jest najstarszym i największym na świecie wydarzeniem poświęconym eksploracji danych. Innowacje takie jak crowdsourcing, zakrojone na szeroką skalę konkursy data science, algorytmy personalizowania reklam (np. Google), eksploracji danych (np. Facebook, LinkedIn) oraz systemy rekomendacji (np. Netflix, Amazon itp.) w dużej części pochodzą właśnie z KDD.
W 2020 roku konferencja przyciągnęła ponad 3 900 badaczy zarówno ze świata komercyjnego jak i uniwersyteckiego. Uczestnicy KDD pochodzą z największych firm technologicznych na świecie. Takich jak Google, Alibaba, Facebook, Netflix, LinkedIn, Tencent, Microsoft, IBM, Spotify czy Amazon. Równie ważny dla społeczności KDD jest głos instytucji państwowych takich jak NIH, NSF, DARPA. I przedstawicieli tych branż można było także spotkać w trakcie konferencji.
W tym roku niemal 2 500 zespołów z całego świata rywalizowało w trzech kategoriach konkursowych, z których nagrodzono trzech zwycięzców w każdej. Synerise wystąpił w KDD Cup 2021 w najtrudniejszej z nich, organizowanej między innymi przez Uniwersytet Stanford, Facebook AI, Google i Intel.
„Swoją pracą chcemy udowodnić, że nasz zespół AI może rywalizować z liderami innowacji z całego świata. Stworzyliśmy jeden z najdokładniejszych i najszybszych systemów. Czas przetworzenia zbioru testowego za pomocą modelu Synerise wynosi 7 minut, podczas gdy rozwiązanie Google DeepMind potrzebuje aż 12 godzin”, powiedział Michał Daniluk, AI Research Scientist w Synerise.
Zadanie konkursowe
Polegało ono na przewidywaniu tematyki publikacji naukowych na podstawie krawędzi zawartych w heterogenicznym grafie opracowań, cytowań, autorów i instytucji naukowych. Graf o bezprecedensowych rozmiarach (około 250 GB) zawierał ponad 244 mld wierzchołków trzec typów, połączonych aż 1,7 mld krawędziami. Pozwoliło to na weryfikację algorytmów pod kątem gotowości do działania na danych o bardzo dużej skali.
„Wielkie heterogeniczne grafy pojawiają się w wielu zastosowaniach praktycznych. Przetwarzany przez nas w ramach KDD Cup graf dotyczy cytowań akademickich. Jednak dane o podobnej strukturze są obecne również w e-commerce (grafy transakcji klientów), wielkich bazach wiedzy i bazach dokumentów. Mistrzostwo w przetwarzaniu danych tego typu prowadzi więc do uzyskania przewagi biznesowej. A konkretnie w ulepszaniu jakości rekomendacji i wyszukiwania danych. Cieszy mnie, że dane dotyczące tego typu praktycznych problemów coraz częściej pojawiają się w ramach konkursów na czołowych konferencjach”, powiedziała Barbara Rychalska, AI Research Scientist w Synerise.
Polska ekipa
Wystąpiła w składzie Jacek Dąbrowski, Michał Daniluk, Barbara Rychalska oraz Konrad Gołuchowski. W przeciwieństwie do większości drużyn, które usprawniły istniejące dotychczas algorytmy, zastosowała autorskie metody ML: Cleora oraz EMDE. Metody opracowane przez zespół Synerise pozwoliły wcześniej na zwycięstwa w dwóch konkursach. W SIGIR Rakuten Data Challenge 2020 oraz w WSDM Booking.com Data Challenge 2021. Stanowią one także kluczowy element systemu personalizacji dostępnego dla klientów Synerise. Rozwiązanie polskiego teamu zostało już opublikowane na stronach Uniwersytetu Stanforda.
W rywalizacji wzięli udział przedstawiciele najbardziej zaawansowanych technologicznie firm i uniwersytetów na świecie. Polski zespół pokonał drużyny z całego świata. W tym specjalistów firmy Intel, OPPO Research Topology Lab czy Huazhong University.
“W Synerise stawiamy na fundamentalne zrozumienie fenomenów matematycznych, leżących u podstaw działania deep learningu. W połączeniu z finezją inżynierii pozwala nam to konkurować z najlepszymi ośrodkami badawczymi na świecie, mimo że dysponujemy tylko ułamkiem dostępnych im zasobów”, powiedział Jacek Dąbrowski z Synerise.
Firma ma w swojej ofercie platformę Big Data i AI. Pozwalaja ona w oparciu o najnowsze rozwiązania technologiczne przetwarzać dane w czasie rzeczywistym z różnych źródeł. A wszystko to w oparciu o autorskie systemy bazodanowe, własne algorytmy AI. A także metody zautomatyzowanej egzekucji scenariuszy biznesowych dla segmentów takich jak retail, banking, telekomunikacja czy e-commerce. Wśród klientów Synerise znajdują się między innymi: CCC, Carrefour, Żabka, Orange, mBank, SharafDG.
Czytaj też o sukcesach młodych Polaków w Intel AI Global Impact Festival 2021.
A także o polskiej firmie Addepto, który za pomocą AI wspiera Madison Square Garden w łączeniu obrazów.