Massa sovint, tan sols posant-nos uns auriculars a les orelles, no és suficient per escoltar amb claredat allò que volem i, a la vegada, evitar interrupcions o brutícia a nivell d'àudio de l'entorn on estem, per la qual cosa, se'ns fa difícil percebre perfectament el que realment volem escoltar a través dels auriculars. Aquests entrebancs, també s'estan investigant per tal de resoldre's gràcies a la intel·ligència artificial. De fet, un nou prototip de sistema d'IA pretén solucionar aquest problema. Anomenat Target Speech Hearing (audició de parla objectiu), el sistema permet als usuaris seleccionar una persona la veu de la qual seguirà sent audible encara que s'anul·lin tots els altres sons.

Apple ja treballa en algunes proves

Tot i que la tecnologia és actualment una prova de concepte, els seus creadors diuen que estan en converses per incorporar-la a marques populars d'auriculars amb cancel·lació de soroll i també estan treballant perquè estigui disponible per a audiòfons. Precedents recents ja en trobem. L'última edició dels AirPods Pro d'Apple, per exemple, ajusta automàticament els nivells de so per als usuaris, detectant quan estan en conversa, per exemple, però l'usuari té poc control sobre a qui escoltar o quan passa això.

Però, ara, un equip de la Universitat de Washington ha desenvolupat un sistema d'intel·ligència artificial que permet a un usuari amb auriculars mirar una persona que parla durant tres o cinc segons per "inscriure-la". El sistema cancel·la tots els altres sons de l'entorn i reprodueix només la veu de l'altaveu inscrit en temps real, fins i tot quan l'oient es mou en llocs sorollosos i ja no s'enfronta a l'altaveu. L'equip va presentar les seves conclusions el 14 de maig a Honolulu a la Conferència ACM CHI sobre factors humans en sistemes informàtics. El codi del dispositiu de prova de concepte està disponible perquè altres puguin construir-los. El sistema no està disponible comercialment.

Com funciona?

"Ara tendim a pensar en la IA com a chatbots basats en web que responen a preguntes", va dir l'autor principal Shyam Gollakota , professor de la UW a la Paul G. Allen School of Computer Science & Engineering. "Però en aquest projecte, desenvolupem IA per modificar la percepció auditiva de qualsevol persona que porti auriculars, tenint en compte les seves preferències. Amb els nostres dispositius ara podeu escoltar un únic altaveu amb claredat, fins i tot si esteu en un entorn sorollós amb molta gent parlant", va afegir.

Per utilitzar el sistema, una persona que porta uns auriculars comercials equipats amb micròfons toca un botó mentre dirigeix ​​el cap cap a algú que parla. Les ones sonores de la veu d'aquest altaveu haurien d'arribar als micròfons dels dos costats dels auriculars simultàniament; hi ha un marge d'error de 16 graus. Els auriculars envien aquest senyal a un ordinador integrat , on el programari d'aprenentatge automàtic de l'equip aprèn els patrons vocals de l'altaveu desitjat. El sistema s'enganxa a la veu d'aquest altaveu i continua reproduint-la a l'oient, fins i tot mentre la parella es mou. La capacitat del sistema de centrar-se en la veu registrada millora a mesura que l'orador segueix parlant, donant al sistema més dades d'entrenament.