Un equipo de NUS computing presenta AiSee, unos auriculares con cámara que asisten en el reconocimiento de objetos a personas con discapacidad visual

La imagen muestra una mesa blanca sobre la cual se encuentra un dispositivo portátil AiSee, similar a unos auriculares de diadema trasera o gafas sin lentes, con
detalles en negro y un logotipo que dice "NUS". Está integrado por dos auriculares y otro componente similar, todos montados sobre piezas de color metálico.
Además, se observan cuatro cajas con diseños y colores variados en el fondo, indicando productos sanitarios, posiblemente médicos, alimenticios y otro
indeterminado debido al desenfoque. Un libro o caja con una portada que muestra un paisaje también es visible. La iluminación es interior y brillante,
y la profundidad de campo es limitada, enfocando principalmente en el dispositivo portátil y desenfocando el fondo.

Unos nuevos auriculares desarrollados por un equipo de investigadores de la Universidad Nacional de Singapur (NUS), han sido creados para asistir en el reconocimiento visual de objetos a las personas ciegas, a fin de que obtengan mayor autonomía en las actividades de su vida diaria. El propósito de sus desarrolladores es que su precio no exceda de 500 dólares.

Denominado AiSee, el prototipo analiza las imágenes que capta la cámara que lleva incorporada y proporciona información al usuario sobre el objeto mediante indicaciones verbales.
El profesor asociado Suranga Nanayakkara, investigador principal del proyecto AiSee, perteneciente al Departamento de Sistemas de Información y Análisis de la School of NUS Computing, manifestó: “Queremos replantearnos cómo las interfaces entre el ser humano y la tecnología pueden adaptarse a las capacidades y expectativas de los usuarios. Para lograr este objetivo es por lo que creamos interfaces e interacciones persona-ordenador novedosas que se integran a la perfección con la mente, el cuerpo y el comportamiento del usuario, proporcionando una percepción y cognición mejoradas. Las llamamos “assistive augmentations”, que no solo buscan compensar la falta de capacidad, sino que se centran en ayudar a que los usuarios desarrollen todo su potencial”.

En la actualidad, un número importante de apps ya ofrecen funciones de reconocimiento de objetos y de escena desde los propios terminales móviles de los usuarios. Seeing AI, Be My Eyes, Lookout, Envision y otras, además de manera gratuita. La propuesta que nos ofrecen los investigadores de la NUS Computing es la de prescindir del móvil y del uso de unas gafas inteligentes como soporte y, a cambio, nos ofrecen unos auriculares con una cámara que ejerce de ojo, un micrófono, un pulsador y un procesador dotado de IA que responderá a todo lo que le preguntemos, además de no exponer el terminal móvil en exceso con el riesgo que supone tal exhibición.
“Con AiSee, nuestro objetivo es satisfacer a los usuarios mediante una interacción más natural e intuitiva. A través de un meticuloso proceso de diseño centrado en el ser humano, hemos identificado y cuestionado el enfoque convencional de usar gafas equipadas con cámaras. Reconocemos que algunas personas con discapacidad visual pueden ser reticentes a usar estas gafas debido al riesgo de estigmatización. En respuesta, proponemos una solución alternativa: un hardware innovadorque integra un discreto auricular de conducción ósea. Esta alternativa busca minimizar el impacto visual del dispositivo, promoviendo una mayor aceptacióny comodidad para el usuario. Así lo explica el profesor Nanayakkara.

Conozcamos entonces la historia…

Durante su estancia posdoctoral en el Instituto Tecnológico de Massachusetts (MIT) en 2012, el profesor Nanayakkara observó a un compañero y amigo ciego fotografiando los apuntes de clase con la cámara de su móvil. Para lograrlo, palpaba con sus manos los bordes del papel y, seguidamente, sostenía el teléfono por encima de este, en posición cenital, para capturar la imagen con una app que tenía en su móvil llamada “KNFB Reader” (ahora “OneStep Reader”), una aplicación que permitía la captura, reconocimiento y lectura de documentos y textos de cualquier sitio a través de voz o Braille. Inspirado por esta necesidad, el profesor Nanayakkara concibió la idea de un dispositivo integrado, todo en uno, que dispusiera de su propia cámara, diseñado para optimizar y agilizar este proceso. “Esto fue lo que le motivó a desarrollar este dispositivo en concreto. Mi intención siempre fue desarrollar una interfaz que permitiera a la gente con dificultades para percibir imágenes interactuar con el mundo y que accedieran de esta forma a la información visible”, explica.

Descripción visual de los auriculares AiSee.

Los auriculares AiSee de la NUS Computing son dispositivos tecnológicamente estándar, con un diseño que se aleja de lo convencional al conectar las partes auditivas con patillas que se extienden hacia la zona posterior del cuello en lugar de hacia los ojos. En la zona de la nuca, se aloja una caja de aproximadamente 10 cm por 5 cm que contiene el procesador y la batería, dando al conjunto un tamaño similar al de unas gafas colocadas de atrás hacia delante. Las patillas miden entre un centímetro y centímetro y medio, e incorporan unos discretos auriculares de conducción ósea, un micrófono y una cámara, contenidos todos en unos recipientes que medirán 2 por 2 centímetros y medio. Aparentemente, la cámara y el micro estarían ubicados en el auricular derecho y el auricular izquierdo contaría con un pulsador y un panel táctil.
Este diseño de auriculares de diadema trasera permiten al dispositivo ofrecer funcionalidades similares a las de unas smartglasses, incluyendo la capacidad de conectarse de manera independiente a Internet, realizar capturas de imagen y la conversión automática de dichas imágenes y texto a voz, así como el reconocimiento de voz del usuario. Aunque el dispositivo no destaca por un nivel de tecnología superior ni por un diseño especialmente atractivo, su concepto de llevar la tecnología detrás de la cabeza, en vez de en la forma tradicional de unas gafas, presenta una novedad en términos de diseño y aplicación práctica. Según se aprecia en el vídeo de presentación, parece ser incompatible con el uso simultáneo de gafas, dado que el lugar donde irían las patillas está ocupado por el apoyo de los auriculares y la cámara frontal. Un verdadero hándicap.

Al consultarles a los investigadores del NUS Computing cómo funciona el dispositivo AiSee, lo explican de esta manera:

“AiSee se compone de tres componentes fundamentales:

• Primero estaría lo que hemos llamado “el Ojo”, un motor de Visión y software: AiSee integra una microcámara de 13 Mpx que captura aproximadamente lo que percibe el campo visual del usuario, constituyendo el núcleo del software también conocido como “el sistema de procesado del motor de visión”. Este software es capaz de identificar elementos como texto, logotipos y etiquetas en las imágenes capturadas para su posterior procesamiento.

• Luego estaría lo que se ha llamado “el Cerebro”, una unidad de procesamiento de imágenes con inteligencia artificial y sistema de Interacción mediante preguntas y respuestas: al capturar una imagen del objeto de interés, AiSee emplearía avanzados algoritmos de inteligencia artificial en la nube para procesar y analizar la imagen, identificando así el objeto en cuestión. El usuario puede realizar preguntas para obtener más detalles sobre el objeto. AiSee se vale de tecnología punta en reconocimiento y procesamiento de voz a texto y de texto a voz para identificar objetos y comprender las consultas del usuario. Este enfoque permite a AiSee sobresalir en la interacción interactiva mediante preguntas y respuestas, proporcionando respuestas precisas y detalladas de manera rápida. A diferencia de otros dispositivos de asistencia que requieren sincronización con un smartphone, AiSee opera de manera autónoma, eliminando la necesidad de dispositivos adicionales.

• Por último, estaría ”el Altavoz”, un sistema de sonido por conducción ósea: los auriculares de AiSee emplerían tecnología de conducción ósea, transmitiendo el sonido directamente a través de los huesos del cráneo. Esto aseguraría que las personas con discapacidad visual puedan recibir información auditiva sin obstruir la percepción de sonidos ambientales, como conversaciones cercanas o el tráfico, lo cual es vital para la seguridad y la toma de decisiones en su entorno.

Video promocional de AiSee.

La imagen muestra a dos hombres en un entorno que parece ser una oficina o un espacio de trabajo amplio con iluminación artificial. El hombre de la izquierda, el Profesor, tiene la piel morena, cabello corto y negro, y lleva una camiseta polo de color azul con el logo de NUS en el lado izquierdo del pecho. Sonríe suavemente y sostiene con su mano derecha una caja de color rojo que tiene texto impreso. La caja parece ser un producto o un paquete de algún tipo. El hombre de la derecha, Mark, tiene la piel clara, cabello corto en los lados y más largo en la parte superior, recogido en un pequeño moño rubio. Lleva una camiseta negra y está tocando un auricular en su oreja derecha con su dedo índice, pulsando el botón de acción para capturar la imagen de el dispositivo AiSee, que lleva puesto. También lleva un reloj con correa metálica en su muñeca izquierda y parece estar concentrado en la acción que está realizando. Ambos están de pie y el fondo de la imagen es un espacio interior con varias personas desenfocadas en la distancia, lo que sugiere que están en un lugar concurrido o una oficina con más trabajadores o colaboradores. La iluminación proviene de luces fluorescentes en el techo, comunes en espacios de trabajo.

Accede a este vídeo en inglés donde se observa el funcionamiento de AiSee, que sus creadores han titulado como “ojo” impulsado por IA para que las personas con discapacidad visual “vean” objetos.

Descripción del vídeo.

• Imagen fija antes del vídeo: primer plano del AiSee, dispositivo de asistencia visual de la NUS (Universidad Nacional de Singapur).
• Se muestra un breve texto en pantalla que dice: “El dispositivo puede ser de utilidad para identificar productos mientras se realiza la compra, tarea que puede resultar complicada para las personas con discapacidad visual”, viéndose por un instante la imagen de un supermercado.
INICIO:
• Visualización inicial: se presenta a Mark, una persona con discapacidad visual, quien utiliza un bastón blanco y accede a las instalaciones de la NUS para probar el dispositivo desarrollado para la identificación y reconocimiento de objetos.
DEMOSTRACIÓN DEL DISPOSITIVO:
• Presentación por el desarrollador: el profesor Suranga Nanayakkara, desarrollador del dispositivo, lo muestra a la cámara y ofrece una descripción breve del mismo definiéndolo como “un dispositivo discreto, confiable y económico diseñado para asistir a personas con discapacidad visual mediante inteligencia artificial.”
• Encuentro con Mark: en las instalaciones de la universidad, el profesor Nanayakkara recibe a Mark y le presenta el dispositivo. Mark, con una visión parcial y usando bastón blanco y gafas, toma asiento y se le presentan los auriculares con patillas que integran el dispositivo, incluyendo una cámara frontal.
FUNCIONAMIENTO DEL DISPOSITIVO:
• Interacción con el dispositivo: Mark debe quitarse sus gafas para ponerse el dispositivo, sostiene un objeto con su mano derecha y con la izquierda toca en el auricular del dispositivo que ha debido colocarse como si fueran unas gafas, pero que se pone por detrás; es decir, que las patillas del dispositivo quedan abrazando la cabeza y apoyándose en las orejas desde atrás hacia adelante. Se le instruye sobre cómo tomar una fotografía del objeto presionando un botón del auricular en la patilla izquierda.
• Prueba del dispositivo: se realiza una prueba con una caja de té. Mark toma una foto de la caja, colocada a 45 grados frente a él, y el dispositivo identifica el objeto como una caja de té de la marca Ringer; cuando Mark pregunta al dispositivo qué ingredientes tiene el té, la inteligencia artificial procesa su voz y le da una respuesta que completa la información inicial.
CARACTERÍSTICAS DEL DISPOSITIVO:
• Detalle del dispositivo: se muestra el dispositivo sobre un fondo blanco, destacando sus partes, que consisten en una cámara de 13 Mpx en la patilla derecha, una interfaz táctil en la patilla izquierda, y la unidad de procesamiento con una batería de 1200 mA situada en la nuca.
COMENTARIOS FINALES:
• Declaraciones del profesor Nanayakkara: se destaca la singularidad del dispositivo en Singapur y su objetivo de hacerlo más accesible y económico para la comunidad con discapacidad visual, mejorando el reconocimiento de imágenes y la calidad del dispositivo.
• Testimonio de Mark: Mark subraya que el dispositivo está diseñado para ser útil tanto para personas completamente ciegas como para aquellas con una discapacidad visual. Tras finalizar la prueba, se coloca nuevamente sus gafas y se retira satisfecho.

CONCLUSIÓN:
• Cierre del vídeo: se enfoca en el profesor Nanayakkara, que lleva un polo de la NUS y en Mark, destacando la utilidad del dispositivo para personas con discapacidad visual. El vídeo termina con el escudo de la Universidad Nacional de Singapur.

AiSee, que fue desarrollado por primera vez en 2018 por el profesor Nanayakkara y su equipo, ha sufrido distintas modificaciones desde entonces, pasando de ser una interfaz ubicada en la mano, (concretamente en el dedo -“FingerReader”- similar a un anillo), a ser un auricular, dotándolo así de función de “manos libres” y siendo mucho más fácil de llevar. Como ya se indicó anteriormente, el nuevo prototipo se apoya en un modelo lingüístico grande (LLM) para permitir a los usuarios una interacción más natural con el dispositivo. La investigación y el desarrollo iniciales del proyecto, que se inició en 2015, contaron con el apoyo de becas de investigación de diversas organizaciones. El equipo también ha recibido 150.000 dólares de B.P. de Silva Holdings para la siguiente fase de su proyecto. La decisión de BPH de contribuir al desarrollo de AiSee responde a su compromiso con la responsabilidad social corporativa y a su firme intención de generar un impacto positivo en la sociedad. Esta contribución se enmarca en un esfuerzo más amplio por promover la inclusión y la accesibilidad, reflejando la convicción de la empresa en el potencial transformador de la tecnología para abordar los desafíos sociales y fomentar un mundo más justo e integrador.
Se están manteniendo conversaciones con SG Enable para realizar pruebas de usuario con cinco personas con discapacidad visual. Los resultados ayudarán a perfeccionar y mejorar las funciones y el rendimiento de AiSee. Las pruebas de campo comenzarán en julio y durarán entre tres y cuatro meses. Ku Geok Boon, Consejera Delegada de SG Enable, ha afirmado que “las innovaciones en tecnologías asistivas tienen el poder de transformar las vidas de las personas con discapacidad, ya sea permitiéndoles llevar una vida más autónoma o mejorando su acceso al mercado laboral”. Como entidad coordinadora y promotora de la inclusión y los derechos de las personas con discapacidad en Singapur, SG Enable valora la colaboración con socios como NUS y B.P. De Silva Holdings para aprovechar la tecnología en beneficio de las personas con discapacidad. Además, SG Enable busca ampliar su colaboración con la NUS para investigar cómo la inteligencia artificial, la interfaz humano-computadora y la tecnología asistiva pueden ofrecer a las personas con discapacidad una gama más amplia de opciones tecnológicas.

El profesor Nanayakkara y su equipo están trabajando para que el próximo prototipo sea más ligero que el actual, de 140 gramos, y se pueda ajustar a todos los tamaños de cabeza. También se sustituirá el botón de la cámara por una palabra para capturar imágenes. Se reducirá el tiempo que tarda la IA en procesar la información y responder, y también se conseguirá que responda a múltiples preguntas. También hay planes para comercializar el producto, a la espera de futuros acuerdos.

“En la actualidad, las personas con discapacidad visual de Singapur no tienen acceso a una tecnología de apoyo a través de la inteligencia artificial de este nivel de sofisticación. Por eso creemos que AiSee tiene el potencial de ayudar a este colectivo a realizar de forma independiente tareas que en este momento requieren asistencia de un tercero. Nuestro próximo paso es hacer que AiSee sea asequible y accesible para el gran público. Para lograrlo, estamos introduciendo nuevas mejoras, como un diseño más ergonómico y una unidad de procesamiento más rápida”, explica el profesor Nanayakkara.

El estudiante de la NUS Mark Myres, que ayudó a probar AiSee como usuario con baja visión, comentó: “Muchas veces, los dispositivos de asistencia parecen únicamente dirigidos a personas con ceguera total. Creo que AiSee equilibra la situación, pues tanto las personas que tenemos discapacidad visual como las personas con ceguera podríamos sacarle mucho partido”.

Nuestra valoración

Desde Infotecnovisión, valoramos positivamente AiSee, que de forma resumida sería un dispositivo compacto que va situado en la cabeza, que permite a los usuarios identificar objetos enfocándolos y capturando una imagen con sólo pulsar un botón. Su cámara integrada extraería elementos reconocibles para luego procesarlos. Una unidad de procesamiento de imágenes en los propios auriculares, dotada de inteligencia artificial, utiliza grandes modelos lingüísticos (LLM) como ChatGPT 4.0 de OpenAI para comprender y responder rápidamente a las preguntas del usuario, y sus auriculares, al ser de conducción ósea, prescindirían de los oídos y transmitirían el sonido a través del cráneo. Su diseño nos agrada y si realmente hace lo que promete y su precio no supera los 500 dólares, podría resultar muy útil para consultar lo que tenemos ante nosotros sin necesidad de utilizar el móvil. El que sean unos auriculares de conducción ósea nos parece un soporte interesante, y su soporte con patillas nos parece moderadamente invasivo, pues el hecho de que llegara a ser incompatible su uso simultáneo con gafas, lo hacen mucho menos atractivo. Cuando mejore su ergonomía, el reconocimiento pueda activarse mediante una palabra, como Siri o Alexa, y su velocidad de procesamiento sea mayor, creemos que estará más que listo para su comercialización. Solo nos faltaría saber la autonomía de su batería dándole un uso moderado (1200 Mah). El hecho de que sea un desarrollo con casi nueve años de antigüedad también nos ofrece ciertas garantías. Sin duda, estaremos atentos a su evolución.

Sobre el Profesor asociado Suranga Nanayakkara.

Suranga Nanayakkara, es Profesor Asociado en la Universidad Nacional de Singapur, donde se desempeña en el Departamento de Sistemas de Información y Análisis de la Escuela de Informática. Además, ostenta el título de profesor honorario en el Instituto de Bioingeniería de Auckland (ABI) de la Universidad de Auckland (UoA). Antes de unirse a la NUS, Nanayakkara fue Profesor Asociado en el ABI, UoA, nombrado por invitación en el marco del programa estratégico de universidades emprendedoras. Previamente, ejerció como profesor adjunto en la Universidad de Tecnología y Diseño de Singapur (SUTD) y fue asociado postdoctoral en el grupo de interfaces fluidas del Laboratorio de Medios del MIT. Obtuvo su doctorado en 2010 y la licenciatura en ingeniería en el 2005 por la Universidad Nacional de Singapur. En 2011, Nanayakkara fundó el “Laboratorio Humano Aumentado” con el objetivo de explorar formas de diseñar interfaces humano-ordenador inteligentes que amplíen los límites de nuestras capacidades perceptivas y cognitivas. Por la totalidad y amplitud de sus logros, ha recibido numerosos premios, incluyendo el reconocimiento como joven inventor menor de 35 años (premio TR35) en la región de Asia y el Pacífico por MIT TechReview, Outstanding Young Persons of Sri Lanka (TOYP), y la Beca INK 2016.
En cuanto a su formación académica, Nanayakkara realizó su doctorado en Ingeniería Eléctrica e Informática en la Universidad Nacional de Singapur, con una adscripción de investigación en el Music Computation and Cognition (MuCoaCo) Laboratory de la Universidad del Sur de California. Su tesis se centró en la mejora de la experiencia musical de las personas con deficiencias auditivas mediante retroalimentación visual y háptica, bajo la asesoría de la Dra. Elizabeth Taylor, el Prof. Lonce Wyse, y el Prof. Ong Sim Heng. Además, obtuvo su Licenciatura en Ingeniería Eléctrica e Informática (Primera Clase) en la misma universidad, habiendo participado en un programa de intercambio de estudiantes en la Universidad de Birmingham, Reino Unido. Actualmente, sigue vinculado a la Universidad Nacional de Singapur como Profesor Asociado en el Departamento de Sistemas de Información y Análisis de la Escuela de Informática.

Sobre la School of Computing (NUS Computing).

Dentro del ecosistema académico de la Universidad Nacional de Singapur, la School of Computing (NUS Computing) emerge como un referente en tecnología e informática. Establecida en 1998, esta facultad ha ascendido rápidamente para ser reconocida entre las instituciones líderes a nivel mundial en su campo. A través de programas educativos que abarcan desde la ciencia de la computación hasta la ingeniería informática y la analítica de datos, NUS Computing se dedica a equipar a sus estudiantes con las habilidades esenciales para liderar en la era digital. Su enfoque innovador hacia la enseñanza y la investigación, impulsado por la colaboración con la industria y la exploración de soluciones tecnológicas avanzadas, refleja el compromiso de NUS con la excelencia académica y la innovación, destacando su papel esencial en la preparación de los líderes tecnológicos que vendrán.

Sobre la Universidad Nacional de Singapur (NUS).

La Universidad Nacional de Singapur (NUS), fundada en 1905 y convertida en la institución de educación superior más prominente y antigua de esta ciudad, es un importante centro de conocimiento y avance en el corazón de Asia. Con su adhesión a la International Alliance of Research Universities, NUS subraya su compromiso con la excelencia en la investigación y la educación a nivel global. Desde sus inicios como una escuela de medicina, la universidad ha experimentado transformaciones significativas, evolucionando a través de nombres y misiones hasta llegar a ser el gigante educativo que es hoy. La historia de NUS es un relato de crecimiento y adaptación, reflejando el dinamismo y la resiliencia de la educación superior en el contexto de Singapur y más allá.
En la actualidad, la NUS no solo es reconocida por su posición dominante en el Sureste Asiático, sino también por su aspiración de ser un epicentro global de conocimiento. Con más de 7.600 empleados, de los que casi 4.000 son docentes y 32.000 estudiantes y una oferta académica diversa que abarca desde la música hasta la medicina, la universidad se posiciona consistentemente en la cima de los rankings de educación superior, destacándose como la mejor universidad en Asia según importantes evaluadores internacionales.

A continuación cito las fuentes desde donde se ha extraído la información: diario singapurense “The Straits Times”; Wikipedia; nota de prensa de la NUS Computing, y el sitio web del Profesor Nanayakkara.

Insistimos, de nuevo, en que se trata de un prototipo, por lo que no existe producto. En Infotecnovisión elaboramos este artículo para que tengáis conocimiento de este desarrollo y lo podáis seguir si estáis interesados. Gracias por llegar hasta aquí. Nos leemos pronto.

Autor: Ricardo Abad

3 respuestas a «Un equipo de NUS computing presenta AiSee, unos auriculares con cámara que asisten en el reconocimiento de objetos a personas con discapacidad visual»

  1. Buenas noches como se puede hacer para adquirir un equipo de estos. Por favor, gracias.

  2. Hola, John Harol, al final del post se dice: “Insistimos, de nuevo, en que se trata de un prototipo, por lo que no existe producto. En Infotecnovisión elaboramos este artículo para que tengáis conocimiento
    de este desarrollo y lo podáis seguir si estáis interesados”. Así que de momento, no nos queda otra que esperar a que lo comercialicen. Saluduos y gracias por leer los artículos de Infotecnovisión.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Cumplimenta el siguiente captcha matemático introduciendo la cifra que falta *