OmniSVG: Sztuczna Inteligencja Chwyta za Wektorowe Piórko. Czy Pen Tool Przejdzie do Lamusa?

|Mateusz Graś
OmniSVG: Sztuczna Inteligencja Chwyta za Wektorowe Piórko. Czy Pen Tool Przejdzie do Lamusa?

Drodzy Projektanci, Mistrzowie Krzywych Béziera i Pogromcy Pikselozy! Przywykliśmy już, że Scalable Vector Graphics (SVG) to nasz chleb powszedni – niezrównana skalowalność, edytowalność aż do bólu (czasem dosłownie), kompaktowy rozmiar. Ideał? Prawie. Bo kto z nas nie spędził długich godzin na żmudnym dłubaniu w punktach kontrolnych, walcząc o idealny łuk, czy też przeklinając pod nosem na widok setek linii kodu XML, by stworzyć coś więcej niż prosty piktogram?


Wtem na scenę wkracza Sztuczna Inteligencja, niczym cyfrowy Deus ex machina, szepcząc obietnice uwolnienia nas od tej wektorowej katorgi. Widzieliśmy już różne próby – niektóre generowały ikony tak proste, że aż ascetyczne, inne tworzyły plątaninę ścieżek godną labiryntu Minotaura, a jeszcze inne wymagały mocy obliczeniowej superkomputera i cierpliwości Hioba. Czyżby generowanie złożonych, estetycznych i faktycznie edytowalnych SVG miało pozostać Świętym Graalem generatywnej AI?


Badacze z Fudan University i StepFun mówią: "Potrzymajcie nam kawę!". Przedstawiamy OmniSVG – model, który ma ambicje stać się Waszym nowym, choć nieco bezdusznym, asystentem do spraw wektorów. I to nie byle jakich!


Od Ikonek po Anime – Wszechstronność (Prawie) Boska


Zapomnijcie o czasach, gdy AI potrafiła narysować co najwyżej kwadrat i kółko w odcieniach szarości. OmniSVG, jak sama nazwa sugeruje (choć skromności tu za grosz!), celuje we wszystko. Od minimalistycznych ikon, przez barwne ilustracje, aż po skomplikowane postaci w stylu anime – ten model zdaje się nie znać ograniczeń stylistycznych (przynajmniej na papierze... tfu, na ekranie!).


Co więcej, OmniSVG jest poliglotą w świecie poleceń. Potrafi tworzyć SVG na podstawie:


Tekstu: Wpisujesz "Urocza postać z kreskówki w zielono-żółtym kapeluszu grzybka i czerwonej pelerynie", a OmniSVG (teoretycznie) rysuje. Koniec z briefami typu "chcemy coś WOW!"? Nie sądzę, ale przynajmniej jest punkt zaczepienia.


Obrazu rastrowego: Dajesz mu JPG czy PNG, a on próbuje zamienić go na lśniące, edytowalne wektory. Idealne do szybkiej wektoryzacji logo znalezionego na serwetce? Być może.


Referencji postaci: Pokazujesz mu obrazek postaci, a on generuje jej wektorową wersję w nowej pozie. Marzenie twórców assetów do gier i animacji? Czas pokaże.


Sekretny Sos: Jak OmniSVG Unika "Halucynacji Koordynatów"?


Pytacie, jak to możliwe? Gdzie tkwi haczyk? Otóż twórcy OmniSVG podeszli do problemu sprytnie. Zamiast kazać AI generować bezpośrednio skomplikowany kod XML, co często prowadziło do błędów i wspomnianych w artykule naukowym "halucynacji koordynatów" (czyż to nie brzmi jak diagnoza dla przepracowanego grafika?), postanowili sparametryzować SVG.


W praktyce oznacza to, że polecenia rysowania (jak MoveTo, LineTo, CubicBezier, Arc, a nawet Fill dla koloru) oraz współrzędne punktów zamieniane są na specjalne "tokeny" – coś jak słowa w zdaniu dla modeli językowych. Dzięki temu OmniSVG najpierw uczy się logiki struktury (co narysować i w jakiej kolejności), a dopiero potem szczegółów geometrycznych. To trochę jakby najpierw szkicował ogólny zarys, a potem dopracowywał detale – brzmi znajomo, prawda?


Całość opiera się na potężnych modelach Wizyjno-Językowych (VLMs), konkretnie na architekturze Qwen2.5-VL, która potrafi jednocześnie rozumieć obrazy i tekst. A żeby AI miała się na czym uczyć, stworzono gigantyczny zbiór danych MMSVG-2M: DWA MILIONY przykładów SVG, od ikonek po złożone ilustracje. Wyobrażacie sobie przeglądanie takiej biblioteki w poszukiwaniu inspiracji? AI pewnie widziała więcej złego cliparta niż my wszyscy razem wzięci.


Pięknie, Szybko... Ale Czy Na Pewno Lepiej?


Wyniki prezentowane przez twórców (jak widać na "załączonych obrazkach" w oryginalnej pracy) są imponujące. OmniSVG wydaje się deklasować konkurencję zarówno pod względem jakości wizualnej, zgodności z poleceniem, jak i... no właśnie, tu zaczynają się schody.


Choć OmniSVG jest znacznie szybszy niż metody optymalizacyjne (gdzie generowanie jednego obrazka mogło trwać minuty), to przy bardzo skomplikowanych grafikach, wymagających dziesiątek tysięcy tokenów, czas generowania nadal może być zauważalny. To nie jest jeszcze magia na zawołanie.


Co więcej, jak każda AI, OmniSVG ma swoje ograniczenia. Radzi sobie świetnie ze stylistyką "wektorową", ale próba konwersji fotorealistycznego obrazu na SVG może skończyć się... cóż, artystycznym nieporozumieniem (patrz Rysunek 9 w pracy – porażka w konwersji naturalnych zdjęć). Wygląda na to, że duszy fotografa AI jeszcze nie posiadła.


No i pozostaje odwieczne pytanie: czy "edytowalne SVG" wygenerowane przez AI faktycznie będziecie chcieli edytować? Czy struktura kodu będzie czysta i logiczna z punktu widzenia projektanta, czy raczej będzie to misternie utkana pajęczyna, której lepiej nie tykać, tylko poprosić AI o nową wersję?


Przyszłość Jest Wektorowa... i Trochę Syntetyczna


OmniSVG to bez wątpienia krok milowy. Pokazuje, że generowanie złożonych, estetycznych wektorów przez AI jest możliwe i staje się coraz bardziej praktyczne. Twórcy już zapowiadają dalsze prace nad przyspieszeniem generowania i zwiększeniem kontroli użytkownika.


Dla nas, projektantów, oznacza to kolejne narzędzie w arsenale. Narzędzie potężne, które może przyspieszyć pracę, pomóc w eksploracji pomysłów, a może nawet przejąć część nudniejszych zadań. Czy zastąpi ludzką kreatywność, kunszt i intencję? Miejmy nadzieję, że nie. Ale na pewno zmieni zasady gry.


Być może niedługo, zamiast szlifować umiejętności obsługi Pen Toola, będziemy musieli zostać mistrzami... pisania promptów? Czas pokaże. Tymczasem, warto mieć OmniSVG na oku. Bo przyszłość, choć rysowana przez algorytmy, nadal potrzebuje naszego ludzkiego spojrzenia. I odrobiny zdrowego sceptycyzmu.

https://omnisvg.github.io/