Maggio 29, 2023

NbaRevolution

Covid crisi politica in Italia

Gli occhiali dotati di AI possono leggere il parlato silenzioso

Potrebbe sembrare che Ruidong Zhang stia parlando da solo, ma in realtà il dottorando nel campo delle scienze dell’informazione pronuncia silenziosamente il passcode per sbloccare il suo smartphone vicino e riprodurre il brano successivo nella sua playlist.

Non è un telepate: sono i normali occhiali che apparentemente indossa, chiamati EchoSpeech, un’interfaccia di riconoscimento vocale silenziosa che utilizza il rilevamento acustico e l’intelligenza artificiale per riconoscere continuamente fino a 31 comandi non udibili, basati sui movimenti delle labbra e della bocca.

Ruidong Zhang, uno studente di dottorato nel campo delle scienze dell’informazione, indossa gli occhiali EchoSpeech.

Sviluppato da Cornell Laboratorio di interfacce informatiche intelligenti per interazioni future (SciFi)I ricercatori hanno affermato che l’interfaccia indossabile a basso consumo richiede solo pochi minuti di dati di addestramento dell’utente prima che riconosca i comandi e possa essere eseguita su uno smartphone.

Zhang è l’autore principale di “EchoSpeech: riconoscimento continuo del parlato silenzioso su occhiali minimamente intrusivi alimentati dal rilevamento acustico‘, che sarà presentato alla conferenza dell’Association for Computing Machinery sui fattori umani nei sistemi informatici (CHI) questo mese ad Amburgo, in Germania.

“Per le persone che non sono in grado di articolare il suono, questa tecnologia del parlato silenzioso può essere un ottimo ingresso per un sintetizzatore vocale. Possibile utilizzo della tecnologia con ulteriore sviluppo”, ha affermato Zhang.

Nella sua forma attuale, EchoSpeech può essere utilizzato per comunicare con altri tramite smartphone in luoghi in cui parlare sarebbe scomodo o inappropriato, come un ristorante rumoroso o una biblioteca silenziosa. L’interfaccia vocale silenziosa può anche essere abbinata a una penna e utilizzata con software di progettazione come CAD, il tutto senza la necessità di tastiera e mouse.

READ  Razer afferma che il Blade 14 è il laptop da gioco da 14 pollici più potente fino ad oggi

Dotati di un paio di microfoni e altoparlanti più piccoli delle gomme da matita, gli occhiali EchoSpeech ora dispongono di un sistema sonar indossabile alimentato dall’intelligenza artificiale che invia e riceve onde sonore attraverso il viso e rileva i movimenti della bocca. Quindi un algoritmo di deep learning, anch’esso sviluppato dai ricercatori di SciFi Lab, analizza questi profili di eco in tempo reale con una precisione fino al 95%.

Disse: “Trasmettiamo il sonar sul corpo”. Cheng ChangPowers College of Computing and Information Science e direttore dello SciFi Lab.

“Siamo molto entusiasti di questo sistema”, ha affermato, “perché spinge davvero avanti il ​​campo in termini di prestazioni e privacy. È piccolo, a basso consumo e sensibile alla privacy, tutte funzionalità importanti per l’implementazione di nuove tecnologie indossabili nel mondo reale”.

Lo SciFi Lab ha sviluppato diversi dispositivi indossabili e di tracciamento corpoE consegnare E la faccia Movimenti che utilizzano l’apprendimento automatico e videocamere indossabili in miniatura. Di recente, il tester si è allontanato dalle fotocamere e si è rivolto al rilevamento acustico per tracciare i movimenti del viso e del corpo, citando una maggiore durata della batteria; rafforzare la sicurezza e la privacy; Dispositivi più piccoli e compatti. EchoSpeech costruisce un sensore acustico simile per il laboratorio chiamato EarIOUn auricolare indossabile che tiene traccia dei movimenti facciali.

Cheng Zhang ha affermato che la maggior parte delle tecniche di riconoscimento vocale silenzioso sono limitate a una selezione di comandi preimpostati e richiedono all’utente di affrontare o indossare la fotocamera, il che è poco pratico e inutile. Ha affermato che ci sono anche notevoli problemi di privacy relativi alle telecamere indossabili, sia per l’utente che per coloro con cui l’utente interagisce.

READ  Dove preordinare in Australia

La tecnologia di rilevamento vocale come EchoSpeech elimina la necessità di videocamere indossabili. Poiché i dati audio sono molto più piccoli dei dati immagine o video, richiedono meno larghezza di banda di elaborazione e possono essere trasmessi a uno smartphone tramite Bluetooth in tempo reale. Francois GempretierBowers CIS Professor of Information Science presso la Cornell University e coautore.

“E poiché i dati vengono elaborati localmente sul tuo smartphone anziché essere caricati sul cloud, le informazioni sensibili alla privacy non lasciano mai il tuo controllo”, ha affermato.

Anche la durata della batteria migliora notevolmente, ha affermato Cheng Chang: dieci ore con il rilevamento vocale contro 30 minuti con la fotocamera.

Il team sta esplorando la commercializzazione della tecnologia alla base di EchoSpeech, grazie in parte a Ignite: il laboratorio di ricerca Cornell per la finanza del mercato Gap.

Nel prossimo lavoro, i ricercatori di SciFi Lab esplorano le applicazioni del vetro intelligente per tracciare i movimenti del viso, degli occhi e della parte superiore del corpo.

“Crediamo che Glass sarà un’importante piattaforma di personal computing per comprendere le attività umane negli ambienti quotidiani”, ha affermato Cheng Zhang.

Altri coautori erano il dottorando in scienze dell’informazione Ke Li, Yihong Hao ’24, Yufan Wang ’24 e Zhengnan Lai ’25. Questa ricerca è stata finanziata in parte dalla National Science Foundation.

Luis DiPietro è uno scrittore presso il Cornell Ann S. Powers College of Computing and Information Sciences.