ChatGPT, ridà vita agli smart speaker.
I servizi di assistenti di intelligenza artificiale sono stati in piena competizione da quando Alexa è iniziata nel 2014. A partire dal 2018, sono stati lanciati vari tipi di smart speaker, consentendo l’utilizzo degli assistenti AI non solo tramite app per smartphone, ma anche attraverso una varietà di altoparlanti.
Tuttavia, questi smart speaker non hanno impiegato molto a diventare fastidiosi. Prima di tutto, gli assistenti AI non comprendevano molto bene il linguaggio parlato. Spesso confondevano segnali involontari come comandi e si attivavano, disturbando la pace.
Inoltre, anche quando riuscivano a comprendere il linguaggio, le loro risposte erano spesso inadeguate. Potevano essere utilizzati solo per compiti di base come controllare il meteo, impostare una sveglia, riprodurre musica e ascoltare la radio, ma non erano molto utili nel rispondere alle domande o nel trovare informazioni.
Grazie a ChatGPT, tali smart speaker e assistenti AI di prima generazione stanno avendo l’opportunità di spiegare le ali della rinascita. Nel agosto 2022, Amazon ha presentato un nuovo modello di linguaggio AI che può migliorare Alexa. Questo modello, chiamato Alexa Teacher Models (AlexaTM), dimostra un’eccellente performance nella traduzione di varie lingue e nella sintesi del testo. Già nel 2021, Google aveva annunciato un chatbot open-domain chiamato LaMDA, che è un modello AI in grado di conversare con molteplici personalità su vari argomenti.
Una startup chiamata Gorilla Technology ha lanciato un’app chiamata Super Chat, che può conversare con figure storiche o personaggi famosi interpretando le loro personalità. Startup simili che offrono servizi di persona AI, come Poe di Quora, Character.ai e D-ID, stanno guadagnando attenzione.
Inoltre, una startup chiamata CygniContGraVitas ha lanciato un servizio chiamato AutoGPT che utilizza GPT-4. Dopo aver stabilito l’obiettivo finale per l’AI, questa stabilisce un piano per svolgere varie attività al fine di raggiungere l’obiettivo e si impegna per raggiungerlo. Mentre ChatGPT può solo rispondere a comandi e domande umane, AutoGPT può auto-migliorarsi e svolgere varie attività dettagliate per raggiungere l’obiettivo dopo il primo obiettivo e le istruzioni.
Ad esempio, se dai il comando “Crea un milione di account Instagram da seguire”, AutoGPT produrrà con diligenza contenuti e svolgerà varie attività dettagliate per raggiungere questo obiettivo. Se modelli simili vengono applicati agli smart speaker, possono offrire servizi di conversazione oltre le aspettative. Forse l’assistente AI di prima generazione sarà finalmente in grado di realizzare l’ideale di Jarvis nel film Iron Man.
Josh.ai, una società sviluppatrice di sistemi di automazione domestica controllati vocalmente fondata nel 2015, ha presentato un prototipo che utilizza l’API di ChatGPT per applicare funzionalità molto più naturali e intelligenti al loro smart speaker rispetto agli attuali assistenti AI. Grazie a ChatGPT, anche se gli utenti formulano domande errate o prive di senso considerando il contesto, Josh può considerare la situazione circostante e correggerle in modo che possano comprendere e rispondere appropriatamente.
Inoltre, può gestire in modo contestualmente pertinente gli oggetti circostanti collegati agli assistenti AI per offrire un’esperienza di servizio più integrata. Ad esempio, se un utente dice: “Sono molto stanco oggi. Quali sono alcuni modi per rilassarsi?”, lo smart speaker Josh collegato a ChatGPT può suggerire tecniche di rilassamento come la meditazione guidata o abbassare l’illuminazione e mostrare video rilassanti da YouTube sul televisore.
Studenti della Stanford University hanno sviluppato un prototipo di occhiali chiamati ‘RizzGPT’ che combina GPT-4 con gli occhiali per fornire un servizio che mostra varie informazioni attraverso gli occhiali come testo durante le conversazioni con altre persone.
La conversazione tra l’utente e l’altra persona viene convertita in testo attraverso gli occhiali AR, che sono collegati a uno smartphone e inviati a ChatGPT. Inoltre, vengono trasmessi a GPT-4 anche informazioni sulla scena che l’utente sta osservando, come il viso dell’altra persona, gli abiti, lo stato, gli oggetti circostanti e l’ambiente. Ciò consente conversazioni più fluide fornendo informazioni non solo attraverso la voce, ma anche su ciò che sta accadendo attorno all’utente.
Interpretando le informazioni trasmesse a GPT-4 e visualizzandole come testo attraverso il display degli occhiali, gli utenti possono avere conversazioni più efficaci. In futuro, sarà anche possibile fornire informazioni aggiuntive all’utente sotto forma di immagini, video o suono.
Ad esempio, gli occhiali potrebbero fornire informazioni tempestive e accurate durante una lezione, una presentazione importante o un progetto di cablaggio elettrico complesso, migliorando il valore per l’utente. Questa è la realizzazione di Jarvis, che abbiamo visto nei film. Grazie alla tecnologia AI come LLM (Large Language Model), che consente servizi AGI (Artificial General Intelligence) come ChatGPT.
In questo modo, ChatGPT sarà in grado di fornire nuove funzioni che in passato erano impossibili integrandosi con smart speaker, occhiali AR e vari dispositivi IoT (Internet of Things), garantendo una migliore qualità del servizio rispetto al passato. Naturalmente, un tale ChatGPT potrebbe essere incorporato anche nei robot, oltre al suo ruolo di assistente virtuale per aiutarci, e potrebbe persino avere una presenza fisica.
Questa è un’altra dimensione del problema in cui ChatGPT entra nella nostra realtà, non solo virtualmente, e la nostra società deve considerare e prepararsi a quali impatti sociali avrà questa tecnologia, e adottare misure per garantire che la tecnologia non rappresenti una minaccia per l’umanità.