
Francuski startup Neuralk-AI dostrzega tę lukę i stawia na rozwój modeli sztucznej inteligencji, które koncentrują się właśnie na danych tabelarycznych. W tym tygodniu firma ogłosiła pozyskanie finansowania w wysokości 4 milionów dolarów, co ma pozwolić jej działać na jeszcze większą skalę.
W miarę jak modele językowe o dużej skali (LLM) zdobywają coraz większe uznanie z uwagi na ich zdolność do analizowania i generowania tekstu, napotykają one istotną barierę. Są one bowiem z natury „rozmyte” w projektowaniu, co oznacza, że manipulują danymi wejściowymi w postaci tokenów, aby stworzyć spójną odpowiedź, lecz niekoniecznie zachowują stałą strukturę danych. Pomimo swojej mocy, najlepsze dostępne LLM-y są kosztowne – zarówno w dostępie poprzez API, jak i w zastosowaniach na własnej infrastrukturze chmurowej.
Dzięki Neuralk-AI sprzedawcy detaliczni mogą automatyzować skomplikowane procesy związane z przetwarzaniem danych, takie jak deduplikacja czy ich wzbogacanie. Modele startupu mogą pomóc w wykrywaniu oszustw, optymalizacji rekomendacji produktowych oraz generowaniu prognoz sprzedażowych, co ułatwia zarządzanie zapasami czy ustalanie cen produktów.
Obecnie zespół intensywnie pracuje nad dalszym rozwojem swoich modeli. W planach ma przeprowadzenie testów z grupą wiodących francuskich detalistów i startupów handlowych, takich jak E.Leclerc, Auchan, Mirakl czy Lucky Cart, aby zweryfikować działanie i skuteczność swoich rozwiązań.
Dane tabelaryczne to pojęcie obejmujące strukturalne dane pasujące do określonych wierszy i kolumn. Może to być baza danych SQL, arkusz kalkulacyjny, plik .CSV i inne podobne formaty. W świecie sztucznej inteligencji dane tabelaryczne stanowią jednak osobne wyzwanie – szczególnie w porównaniu do danych nieustrukturyzowanych czy sekwencyjnych, które cieszą się większą popularnością w ostatnich latach.
Rundę finansowania w wysokości 4 milionów dolarów poprowadził fundusz Fly Ventures, przy wsparciu SteamAI. W inwestycję zaangażowało się również kilku aniołów biznesu, w tym Thomas Wolf z Hugging Face, Charles Gorintin z Alan, a także Philippe Corrot i Nagi Letaifa z Mirakl.
„Obecne modele językowe świetnie radzą sobie z wyszukiwaniem, interakcją z użytkownikami czy odpowiadaniem na pytania w oparciu o nieustrukturyzowane dokumenty. Jednak mają ograniczenia, gdy wracamy do klasycznego uczenia maszynowego opartego na danych tabelarycznych” – dodał Pasquiou.
Neuralk-AI widzi swoją szansę w ponownym przemyśleniu modelowania AI, skupiając się jednak głównie na danych strukturalnych. Na początku startup planuje oferować swoje modele jako API dla data scientistów pracujących w branży handlowej – sektorze, który od lat opiera się na danych, takich jak katalogi produktów, bazy klientów, trendy w zakupach czy analizy koszyków zakupowych.
„Dane, które mają prawdziwą wartość dla firm, to dane zidentyfikowane już dawno temu, uporządkowane w formie tabel i wykorzystywane przez zespoły data scientistów do budowania algorytmów uczenia maszynowego” – powiedział współzałożyciel i główny naukowiec Neuralk-AI, Alexandre Pasquiou, w rozmowie z serwisem TechCrunch.
„W ciągu najbliższych trzech-czterech miesięcy planujemy wypuścić pierwszą wersję naszego modelu oraz publiczny benchmark, który pozwoli porównać nasze rozwiązanie z najnowocześniejszymi standardami w tej dziedzinie” – zapowiedział Pasquiou. „Naszym celem na wrzesień jest stworzenie najlepszego modelu podstawowego dla danych tabelarycznych, jeśli chodzi o uczenie reprezentacji.”
Wiele firm posiada już strategie oparte na danych, wykorzystując hurtownie danych lub jeziora danych do centralizacji wszystkich kluczowych informacji. Przy wsparciu zespołów data scientistów mogą one eksplorować te zasoby, by poprawić strategie biznesowe. Jednak wciąż pozostaje przestrzeń do optymalizacji, szczególnie w obszarze korzystania z danych tabelarycznych.