Sztuczna inteligencja DeepMind lepsza od złotych medalistów Międzynarodowej Olimpiady Matematycznej

Sztuczna inteligencja DeepMind lepsza od złotych medalistów Międzynarodowej Olimpiady Matematycznej

System sztucznej inteligencji opracowany przez Google DeepMind osiągnął poziom przewyższający przeciętnego zdobywcę złotego medalu w rozwiązywaniu zadań geometrycznych w Międzynarodowej Olimpiadzie Matematycznej (IMO). Nowa wersja tego narzędzia, nazwana AlphaGeometry2, stanowi znaczące ulepszenie względem swojego poprzednika i z powodzeniem rozwiązała 84% wszystkich problemów geometrycznych pojawiających się na IMO w ciągu ostatnich 25 lat. To osiągnięcie jest krokiem milowym w kierunku opracowania bardziej wszechstronnych systemów AI zdolnych do rozwiązywania złożonych problemów matematycznych.

Rozwijanie sztucznej inteligencji w obszarze matematyki, a zwłaszcza geometrii euklidesowej, może przyczynić się do lepszego zrozumienia i opracowania algorytmów logicznego rozumowania. Udowadnianie twierdzeń wymaga zarówno umiejętności logicznego myślenia, jak i wyboru najlepszej ścieżki prowadzącej do rozwiązania. DeepMind wierzy, że rozwijanie sztucznej inteligencji zdolnej do skutecznego rozwiązywania takich zadań może stanowić przydatny element przyszłych modeli AI ogólnego przeznaczenia, które znajdą zastosowanie nie tylko w matematyce, ale i w naukach ścisłych czy inżynierii.

Latem tego roku inżynierowie DeepMind zaprezentowali system łączący AlphaGeometry2 z modelem AlphaProof, przeznaczonym do formułowania formalnych dowodów matematycznych. Ten hybrydowy system był w stanie rozwiązać cztery z sześciu problemów z edycji IMO 2024. Opracowana metodologia potencjalnie może zostać wykorzystana do analizy skomplikowanych obliczeń w dziedzinach takich jak fizyka, inżynieria czy informatyka.

Kluczową cechą AlphaGeometry2 jest połączenie dwóch elementów: modelu językowego z serii Gemini oraz tzw. „silnika symbolicznego”. Model Gemini pomaga w identyfikacji odpowiednich konstrukcji geometrycznych, które mogą ułatwić rozwiązanie zadania. Następnie silnik symboliczny stosuje zasady matematyczne do znalezienia poprawnych dowodów opartych na tych konstrukcjach.

Zadania geometryczne na IMO bazują na schematach rysunkowych, które często wymagają dodania dodatkowych elementów – takich jak nowe punkty, proste czy okręgi – aby znaleźć rozwiązanie. Model Gemini przewiduje, jakie elementy mogą okazać się przydatne w analizie danego problemu. Te propozycje są następnie wykorzystywane przez silnik symboliczny do wyciągania logicznych wniosków prowadzących do znalezienia pełnego dowodu.

Proces rozwiązywania problemów przez AlphaGeometry2 polega na tym, że model Gemini sugeruje kolejne kroki w formalnym języku matematycznym, a silnik symboliczny weryfikuje ich poprawność. Algorytm przeszukiwania pozwala systemowi prowadzić równolegle wiele ścieżek dochodzenia do rozwiązania, przechowując użyteczne wnioski w zbiorze wiedzy. Problem uznawany jest za rozwiązany, gdy system odnajduje dowód, który łączy sugestie modelu językowego z zasadami silnika symbolicznego.

Ze względu na skomplikowany charakter formalizacji matematycznych dowodów w sposób, który może być zrozumiały dla AI, istnieje niewielka ilość danych służących do trenowania algorytmów tego typu. Aby rozwiązać ten problem, DeepMind opracował własne syntetyczne dane treningowe, generując ponad 300 milionów twierdzeń i związanych z nimi dowodów o różnym stopniu złożoności.

Zespół naukowców wybrał 45 problemów geometrycznych z konkursów IMO z lat 2000-2024, a następnie zwiększył pulę do 50 zadań poprzez podział niektórych z nich. AlphaGeometry2 zdołał poprawnie rozwiązać 42 spośród nich, przewyższając średni wynik zdobywców złotych medali, który wynosił 40,9.

Jednakże system nadal ma pewne ograniczenia. Nie jest w stanie rozwiązywać problemów o zmiennej liczbie punktów ani tych opartych na nieliniowych równaniach i nierównościach. Ponadto, choć AlphaGeometry2 osiągnął historyczny wynik, nie jest pierwszym systemem AI, który uzyskał złoty poziom w IMO – jest natomiast pierwszym, który zrobił to na tak szerokim zbiorze testowym.

Model radził sobie gorzej w przypadku bardziej wymagających zadań. Zespół DeepMind podjął próbę rozwiązania 29 problemów geometrycznych, które zostały nominowane do IMO przez ekspertów matematycznych, ale jeszcze nie pojawiły się na zawodach. System udało się rozwiązać 20 spośród nich.

Wyniki badań nad AlphaGeometry2 rzucają nowe światło na debatę dotyczącą przyszłości sztucznej inteligencji – czy lepiej rozwijać systemy oparte na manipulacji symbolami, czy też polegać na modelach neuronowych przypominających ludzkie sieci nerwowe? AlphaGeometry2 stanowi hybrydowe rozwiązanie łączące oba podejścia. Model Gemini oparty jest na architekturze sieci neuronowej, natomiast silnik symboliczny wykorzystuje zestawy zasad logicznych.

Zwolennicy modeli neuronowych wskazują, że inteligentne zachowanie, takie jak rozpoznawanie mowy czy generowanie obrazu, może wynikać wyłącznie z wielkich zbiorów danych i ogromnej mocy obliczeniowej. Przeciwnicy twierdzą jednak, że tradycyjne systemy symboliczne mogą efektywniej modelować wiedzę o świecie, rozwiązywać skomplikowane problemy i dostarczać przejrzystych wyjaśnień dla uzyskanych odpowiedzi.

Eksperci podkreślają, że AI osiąga spektakularne wyniki w benchmarkach matematycznych, ale jednocześnie może mieć trudności ze zrozumieniem prostych problemów związanych ze zdrowym rozsądkiem. Profesor Vince Conitzer z Carnegie Mellon University zauważył, że nie zawsze jesteśmy w stanie przewidzieć, jakie zachowanie wykażą kolejne generacje systemów AI, co sprawia, że kluczowe jest ich dokładne badanie i ocena potencjalnych zagrożeń.

AlphaGeometry2 pokazuje, że połączenie podejścia symbolicznego i modelu neuronowego może stanowić skuteczną metodę rozwoju sztucznej inteligencji. Na chwilę obecną systemy takie jak OpenAI o1, które bazują wyłącznie na sieciach neuronowych, nie były w stanie rozwiązać żadnego z zadań IMO, które udało się rozwiązać AlphaGeometry2.

Naukowcy sugerują jednak, że przyszłość może przynieść zmiany. Wstępne badania wykazały, że model językowy AlphaGeometry2 był w stanie generować częściowe rozwiązania bez konieczności korzystania z silnika symbolicznego. Oznacza to, że w przyszłości modele AI mogą być w stanie samodzielnie radzić sobie z zadaniami matematycznymi, bez potrzeby korzystania z dodatkowych narzędzi weryfikacyjnych. Dopóki jednak modele te nie będą w pełni precyzyjne i nie zostanie wyeliminowany problem halucynacji, podejście hybrydowe pozostanie kluczowe dla rozwoju AI w matematyce i naukach ścisłych.