Multimodalna sztuczna inteligencja, która słucha, patrzy, mówi
Al Capone, legendarny mafijny boss z lat 20. i 30. XX wieku miał „w kieszeni” zarówno polityków, jak i policjantów. Pozwoliło mu to kontrolować z niezrównaną skutecznością swoje otoczenie o wielkości imperium. Dzięki własnym wpływom i inteligencji, potrafił zdobyć przewagę oraz zbudować sobie pozycję, której zazdrościło mu wiele osób. Jak współcześni dekarze mogą poczuć się równie potężni na wymagającym rynku?
Tekst MARCIN WOJCIECHOWSKI
Niestety, Al Capone dominował w świecie przestępczym również dzięki swojej bezwzględności. Wyobrażamy sobie dziś jego działania na podstawie postaci ojca chrzestnego wszystkich ojców chrzestnych, czyli Vito Corleone z książki Mario Puzo. W filmach zagrało go dwóch aktorów: w pierwszej wersji Marlon Brando w 1972 roku (za tę rolę dostał Oskara), a następnie Robert De Niro w 1974 roku (który również dostał Oskara). Obaj przedstawili swoimi kreacjami umiejętność zarządzania ludźmi, trzymania ich „w kieszeni”, co uczyniło te charaktery ikonami nie tylko zbrodni, ale i strategicznego myślenia.
Jak współcześni dekarze mogą poczuć się potężni?
Odpowiedź na to pytanie jest prosta – wystarczy wrócić do filmowych ojców chrzestnych i przypomnieć sobie, że dobrze mieć „w kieszeni” wszystkich, których pomocy będziemy potrzebowali w trudnej sytuacji.
Dekarze mogą potrzebować wsparcia w różnych aspektach swojej pracy. Wiadomo, że gdy robota idzie sprawnie i projekt jest prosty, to jest dobrze, ale jeśli pojawiają się pytania lub problemy, mogą zacząć się schody. Dylematów i wyborów na budowie jest całe mnóstwo, a im więcej człowiek przeżył, tym więcej podobnych wyzwań może wymienić. Jednym z kluczowych tematów jest na przykład dopasowanie odpowiednich materiałów, gdy trzeba wybierać spośród różnorodnych typów pokryć dachowych oraz materiałów izolacyjnych i polecić te, które najlepiej odpowiadają specyfice danego projektu. W takich sytuacjach sięgamy po pomoc i konsultacje techniczne, które dostarczają cały wachlarz optymalnych rozwiązań dla konkretnego rodzaju dachu czy też budżetu inwestora.
Nieprzewidziane wyzwania techniczne mogą pojawić się jednak na każdym etapie projektu. Wówczas niezbędne wsparcie może też obejmować diagnostykę i naprawy, czyli na przykład identyfikację problemów z konstrukcją dachu lub przeciekami oraz szybkie wdrożenie odpowiednich rozwiązań. Wtedy konsultacje z ekspertami, inżynierami lub innymi specjalistami mogą okazać się konieczne.
Kolejna rzecz, która wymaga czasu, wiedzy i pewnych predyspozycji, to skuteczna komunikacja z klientami. Jest ona kluczowa dla sukcesu każdej inwestycji. Odpowiadanie na pytania klientów, informowanie ich na bieżąco o postępach prac i rozwiązywanie ewentualnych problemów to elementy, które wpływają na zadowolenie i powodzenie przedsięwzięcia. Wspomniane wcześniej doradztwo w zakresie wyboru najlepszych rozwiązań dachowych w danym momencie, zgodnie z potrzebami i oczekiwaniami inwestorów również odgrywa ważną rolę w budowaniu zaufania i relacji.
A do tego dochodzi jeszcze planowanie i dobra organizacja pracy, aby uniknąć opóźnień i zapewnić płynność realizacji zadania. Codzienna „walka” z pogodą i koordynacja zespołu, ułatwienie komunikacji i współpracy, w tym podziału zadań oraz monitorowania postępów. Dodatkowo, wsparcie w nagłych sytuacjach, szybka reakcja i pierwsza pomoc w razie niespodziewanego zdarzenia w miejscu pracy, co jest kluczowe dla ochrony zdrowia i życia. Do tego należy również dodać optymalizację kosztów, która jest jednym z najważniejszych elementów zarządzania każdym projektem budowlanym.
Wsparcie w tych wszystkich aspektach może pochodzić od współpracowników, przełożonych, dostawców, konsultantów technicznych, ale już teraz, a także w niedalekiej przyszłości również od nowoczesnych technologii, takich jak multimodalna sztuczna inteligencja.
Technologia, która słucha, patrzy i mówi, może wspierać na każdym etapie pracy i życia
W zeszłym roku na łamach magazynu „Nasz Dekarz” (1/2023) pisałem o tym, że każdy z nas używa różnych form AI (sztucznej inteligencji) od wielu, wielu lat i często dzieje się to w sposób naturalny. Różnorodne systemy pomagają i kierują naszym życiem, bo bez nawigacji „nie pojedziemy” w nowe miejsce, bez wyszukiwarki „nie znajdziemy”, gdzie kupić to, czego szukamy, a bez kasy automatycznej w sklepie „nie zjemy”. To tylko przykłady automatów, które uczestniczą w naszym codziennym życiu, ale działają według zaprogramowanego algorytmu. Co się jednak stanie, gdy zaczniemy używać narzędzia, które będzie rozumieć nasze pytania (zadawane w różnej formie) i potrzeby na budowie oraz elokwentnie, miło, spokojnie, uroczo i bez zbędnej zwłoki odpowiadać na każde z nich?
Coraz bardziej autonomiczne AI będziemy mogli zapytać o dowolną rzecz, za pomocą dowolnej techniki, na przykład szkicując, z użyciem głosu, pokazując zdjęcie lub też wybrany element na budowie nagrany kamerą smartfona. A wirtualny asystent odpowie wówczas, wyjaśni i rozwinie naszą myśl, przewidzi o co powinniśmy jeszcze dopytać lub też czego warto się jeszcze dowiedzieć. Chyba wtedy będziemy mogli już powiedzieć, jak grany przez Roberta De Niro ojciec chrzestny, że mamy wszystkich ważnych specjalistów (dosłownie) „w kieszeni”.
Multimodalność i sumaryzacja
W połowie maja 2024 roku jeden z liderów technologii AI – firma OpenAi – po raz kolejny w swojej krótkiej historii zaprezentowała milowy krok. Chodzi o rozwiązanie pokazujące, że w bliskim czasie czeka nas przesiadka na multimodalnego asystenta, który chętnie i bez zbędnej zwłoki zsumaryzuje nam każde zagadnienie.
W tym komunikacie występuje kilka nowych, magicznych słów. Po pierwsze multimodalność. To występująca nie tylko w LLM (czyli rodzaju zaawansowanego algorytmu sztucznej inteligencji specjalizującego się w przetwarzaniu i generowaniu języka naturalnego) zdolność systemów do przetwarzania i integrowania różnych typów danych, takich jak tekst, mowa i obrazy w jednym zapytaniu.
Można powiedzieć, że to kluczowa i przełomowa technologia w zakresie AI, tak samo jak wykształcona przez setki tysięcy lat podobna umiejętność u człowieka. Można ją porównać do sytuacji, gdy dziecko stopniowo, przez wiele miesięcy lub lat rozwija zdolność używania wzroku, słuchu, dotyku i innych zmysłów, aby w pełni zrozumieć i nawiązywać interakcje z otaczającym je światem.
Drugim ważnym terminem, który określa tę przydatność asystentów AI jest sumaryzacja. To technika polegająca na kondensowaniu dużej ilości wiedzy do krótszej, czasem wycinkowej odpowiedzi, zawierającej kluczowe informacje i główne wnioski. Podobnie jak człowiek, specjalista, mistrz, mentor, który latami zdobywa wiedzę i doświadczenie, aby szybko i trafnie odpowiadać na skomplikowane pytania korzysta ze swojej „sumy doświadczeń”. Systemy sztucznej inteligencji muszą być trenowane na obszernych, gigantycznych zestawach danych, aby efektywnie przeprowadzać sumaryzację. Proces ten umożliwia szybki dostęp do istotnych informacji bez potrzeby przeszukiwania przez człowieka dokumentów, pytania, słuchania czy też oglądania filmów. Sumaryzacja to posiadanie bezgranicznej biblioteki wiedzy bez potrzeby jej zdobywania. To nasz asystent (lub asystentka, jeśli wybierzemy głos żeński), który wie to, o co go pytamy, co mu pokazujemy, przesyłamy lub rysujemy.
Wszystkowiedzący i – prawie – wszystkomogący?
Już teraz trudno wyobrazić sobie życie bez smartfona z jego wszystkimi funkcjami, ułatwieniami, mapami i systemem komunikacji. Kieszonkowy kolega zastąpił nam bank, mapę w górach i atlas drogowy na trasie, dowód osobisty, kartę pokładową w samolocie, kamerę, aparat, odtwarzacz płyt (czy kaset), telewizor. Jest też najlepszym „przypominaczem” o urodzinach, notatnikiem, archiwum wykonanych prac. Mozolnie i w każdej chwili liczy nam też kroki :-) I w tym zakresie trudno bez niego funkcjonować. Wiele wskazuje jednak na to, że w bardzo szybkiej przyszłości stanie się jeszcze bardziej wszystkowiedzącym asystentem, z którym będzie można pogadać, pożartować, powspominać i zrobić nowe projekty. Sprawdzi, gdzie w okolicy kupić brakującą część do dachu i gdzie zakupić kwiaty na urodziny żony, o których miło nam przypomni szepcąc do ucha. Ciekawe, jak szybko i jak bardzo zmieni to nasze życie?
MARCIN WOJCIECHOWSKI
CEO & Creative Director w Marketing AVEEX. Przedsiębiorca, designer, wizjoner. W ciągu niemal dwóch dekad pracy współtworzył wiele globalnych brandów, między innymi: Pirelli, Electrolux, Philips, Unilever, Wiśniowski czy Betafence. Jego bogate życie zawodowe przełożyło się na wnikliwy wgląd w prawa rządzące światem biznesu. Dzięki wrażliwości wizualnej, potrafi wyrazić markę w formie atrakcyjnego dla jej odbiorców przekazu. Z zespołem agencji i przy pomocy narzędzi marketingowych AVEEX z łatwością zmienia produkty generycznie normalne w marki, które ludzie kochają.