Ile razy na filmach SF oglądaliśmy sceny, gdy bohaterowie obsługują komputer wyłącznie głosowo, czy też za pomocą gestów. To co dawniej wydawało się daleką przyszłością, dziś już funkcjonuje, ale nie jest do końca komfortowe w użyciu.
Oczywiście wszyscy korzystamy z coraz bardziej zaawansowanych asystentów głosowych, ale czy wejście AI do akcji zmienia zasady gry i nasze myszki oraz klawiatury niebawem wylądują w koszu? Sprawdziłem w działaniu klienta AI, które pozwala korzystać z aplikacji właśnie za pomocą gestów czy też głosu. Właściciele desktopów - pamiętajcie, że bez kamerki internetowej się nie obędzie.
AI dybie na nasze myszki i klawiatury
Moją uwagę przykuło oprogramowanie o nazwie Cephable - to agent AI który pozwala na obsługę zarówno oprogramowania użytkowego, jak i gier. Nie jest to jedyne oprogramowanie tego typu, ale ujęło mnie kilka rzeczy, w tym że Cephable działa lokalnie.

Sztuczna inteligencja rzuca wyzwanie temu mocarnemu zestawowi (Logitech MX Keys S i MX Master 3)
Nie chcę się tu specjalnie skupiać tylko na tym jednym rozwiązaniu, dlatego też o Cephable opowiem tylko w skrócie: dzięki temu oprogramowaniu możesz kontrolować aplikacje, zautomatyzować działania i generować treści, a to wszystko za pomocą głosu, czy gestów (np. ruchów głową) czy mimiki. Cephable jest przeszkolony do pracy z aplikacjami Google, Microsoft, Apple, a nawet z aplikacjami internetowymi. Dostępna jest darmowa wersja (z ograniczeniami), a więc każdy może ją sobie sprawdzić sam. Ja działałem właśnie na wersji darmowej, więc mogłem przetestować tylko podstawową funkcjonalność programu.

Logitech MX Brio - kamerka internetowa 4K UHD
Posiadacze laptopów mogą zacząć działać od razu, ale desktopowcy muszą sięgnąć po kamerkę internetową. Ja wykorzystałem model Logitech PX Brio, który generalnie jest jedną z najbardziej zaawansowanych kamer na rynku, włącznie z obsługą 4K UHD. Nie oznacza to jednak, że potrzebujesz topowej kamerki, bo do tego zadania doskonale nadadzą się również tańsze modele.
Cephable w akcji

Jeśli mamy do dyspozycji komputer wyposażony w kamerkę i mikrofon możemy działać. Wystarczy pobrać darmowego klienta Cephable oraz uruchomić zarówno jedno i drugie z panelu bocznego. Wszystko dzieje się automatycznie i program zacznie od razu rozpoznawać mowę, twarz i gesty (wyświetlane są odpowiednie komunikaty o rozpoznaniu).

Automatycznie zostaną uruchomione również akcje za ich pomocą, więc nie zdziw się, jeśli nagle komputer zacznie otwierać okienka, czy też zaznaczać ikony. Na bocznym panelu masz cztery główne menu sterowania: Quick Actions, Intelligent Tasks, App Controls oraz Global and Device Controls.
Zanim do nich przejdziemy, zerknij na ustawienia mikrofonu na samej górze bocznego panelu - może on działać w trybie komend (Controls) lub dyktowania (Dictation). Z kolei w ustawieniach kamery można znaleźć opcje sterowania kursorem myszy za pomocą ruchu głowy. Działa to niestety mocno nieprecyzyjnie.

Oczywiście są tu również opcje dot. czułości rozpoznawania konkretnych gestów (ruchy głową w różnych kierunkach), mimiki twarzy (uśmiech, otwarcie ust, uniesienie brwi),
-
Quick Actions - Szybkie akcje, które zależą od uruchomionej aplikacji. Na pulpicie (File Explorer Windows) możemy np. zakładać nowy folder, zmieniać nazwę, czy też zaznaczać, kopiować lub wklejać pliki. Jeśli uruchomimy Narzędzie Wycinanie otrzymamy dostęp do funkcji robienia zrzutów ekranowych itd.
-
Intelligent Tasks - Niedostępne w darmowej wersji. Służy do dyktowania promptów dla chata AI.
-
App Controls - W tym miejscu znajdziemy wszystkie akcje dotyczące uruchomionej aplikacji, np. przeglądarki Google Chrome. Dotyczy to zarówno komend głosowych, jak i gestów. Możemy między innymi przechodzić wstecz lub dalej, przeskakiwać pomiędzy kartami, otwierać nowe okna (również w trybie incognito)

-
Global and Device Controls - Ogólne komendy i gesty, jak i te związane z działaniem samego klienta Cephable. Można zmieniać podstawowe ustawienia, zminimalizować okno, czy też chować i pokazywać panel boczny. Można również między innymi uruchamiać programy wypowiadając ich nazwę (open x), minimalizować je, czy zamykać (close current).
Na koniec - jak bardzo Cephable obciąża sprzęt? Procesor był obciążony minimalnie, a NPU… jak zwykle się nudziło. Całą robotę odwala tu układ graficzny, a dodajmy, że mówimy tu praktycznie tylko o systemie wykrywania twarzy i ruchów, jako, że w darmowej wersji nie mogłem zaprzęgnąć do pracy lokalnego chata AI. Zintegrowany Radeon 780M był obciążony od 40 do 50%.

Obsługa aplikacji bez myszki i klawiatury - czy ma to w ogóle sens?
Zakładam, że większość z nas ma po dziurki w nosie “rewolucyjnych aplikacji AI”, które:
-
nie robią nic rewolucyjnego
-
bez AI robiłyby dokładnie to samo, a może i lepiej
Czy Cephable przełamuje ten schemat? Nie do końca. Szkoda, że na starcie nie ma jakiegoś samouczka, bo jak wspomniałem, od początku uruchomienia aplikacji zaczyna ona rozpoznawać naszą mowę i gesty. Wystarczy ruszyć głową by uruchomić jakąś akcję, co jest na początku niezwykle irytujące.
System rozpoznawania mowy działa kiepsko, albo też moja wymowa jest wyjątkowo bełkotliwa. Z innymi systemami nie miewam takich problemów, więc stawiam raczej na pierwszy powód. Generalnie można się było poczuć, tak jak na tym starym memie:

Niedoskonały system rozpoznawania mowy jest naprawdę irytujący. Zapewne z czasem będzie to działać lepiej. O sterowaniu kursorem myszy za pomocą ruchów głowy na razie można zapomnieć - działa to z dużym opóźnieniem i będzie przydatne chyba tylko dla osób, które z różnych powodów nie mogą używać myszki i podobnych kontrolerów.
System rozpoznawania twarzy oraz reagowania na gesty i mimikę działa z kolei bardzo sprawnie. Ze względu na ograniczenia darmowej wersji nie mogłem sprawdzić większości opcji, ale powiem, że… obsługa przeglądarki za ich pomocą jest naprawdę interesująca i działa szybko. Oczywiście trzeba się do tego przyzwyczaić, ale mimo wszystko ta eksperiencja była naprawdę ciekawa. Jeśli chodzi o obsługę samego systemu, to nie widzę powodu by podstawowe operacje wykonywać za pomocą gestów, czy komend głosowych. Wybranie plików, zmianę nazwy, stworzenie nowego katalogu i tym podobne trwa o wiele dłużej niż “normalnie”.

Kamera jak na razie pozostanie narzędziem do wideokonferencji, bo obsługa aplikacji gestami jest po prostu mało efektywna
Użyteczność tego rozwiązania? Niska. Przecież nikt z nas nie siedzi przed komputerem nieruchomo. A tymczasem każde poruszenie głowy może uruchomić inną akcję, a strojenie min do kamery jak małpa (uśmiech, otwarcie ust czy uniesienie brwi mogą uruchamiać operacje), może wyglądać naprawdę dziwnie dla osoby postronnej.
Na kanale Cephable można zobaczyć obsługę choćby edytorów wideo za pomocą komend głosowych, ale… za pomocą myszki i klawiatury zrobisz to szybciej i nieporównywalnie sprawniej. Oczywiście, może to być dobre rozwiązanie dla osób niepełnosprawnych.

Moja klawiatura i myszka na razie są bezpieczne - AI nie odbierze im pracy
Obcowanie z Cephable było ciekawym doświadczeniem, ale nic nie przebije komfortu pracy za pomocą myszki i klawiatury. Doceniam pewne zalety tego rozwiązania, ale na dziś dzień to wciąż ciekawostka.
Oczywiście agenci AI są coraz sprawniejsi i z czasem polecenia głosowe czy też gestami mogą być coraz częściej używane - chociaż zapewne w wybranych zadaniach. Jednak jak na razie producenci peryferiów komputerowych mogą spać spokojnie.

Pokaż / Dodaj komentarze do: Dni klawiatur i myszek są policzone? Sprawdzam klienta AI, który pozwala kontrolować aplikacje