Hasta hace poco, las reuniones y conferencias involucraban principalmente a personas que se reunían en persona. Sin embargo, hemos visto un cambio en los últimos años, donde las reuniones virtuales se han vuelto cada vez más populares y son al menos tan comunes como las interacciones cara a cara, si no más. Aunque las reuniones virtuales tienden a ser más prácticas, todavía no pueden imitar completamente el aspecto social de las interacciones personales y la tecnología está tratando de cerrar esa brecha.
Al mismo tiempo, el rápido crecimiento de inteligencia artificial generativa (GenAI) no se ha saltado el dominio de las reuniones virtuales. Las nuevas funciones impulsadas por GenAI son cada vez más comunes y tienen el poder de hacer que las reuniones virtuales sean más atractivas y productivas, ofreciendo experiencias cercanas a la vida real.
Pero para que estos avances tengan un impacto a escala, estas funciones deben estar disponibles en tiempo real con una latencia mínima y a un costo asequible. Esto significa que, como mínimo, algunas de las nuevas funciones deben estar disponibles en los puntos finales conectados. Algunos proveedores de soluciones ya están integrando la IA en plataformas de videoconferencia y computadoras personales para abordar cuestiones como mejoras virtuales, optimización en tiempo real y gestión automatizada de reuniones.
El impacto de la IA generativa en las videoconferencias
GenAI tiene el poder de transformar la experiencia de video, audio y texto de una reunión virtual. Imagina un reunión híbrida con participantes tanto de sala de juntas como remotos. En lugar de enviar una toma general estática de los participantes de la sala de juntas al equipo remoto, el procesamiento de video inteligente puede acercarse dinámicamente a los oradores, imitando la experiencia matizada de las interacciones en persona. Con el poder del campo de radiación neuronal (NeRF) o tecnologías similares, se puede generar una vista atractiva del lado del participante remoto, brindando una experiencia inmersiva y cambiando dinámicamente el ángulo de visión en cada punto final. La IA puede hacer maravillas para crear una vista de galería armónica y consistente, mostrando a todos los participantes en un tamaño, postura y estilo uniformes. Si hay una pizarra en la sala de juntas, la IA puede detectarla automáticamente y las notas escritas se pueden reconocer y convertir a un formato editable. Luego, se puede crear una versión personal para tomar notas y comentarios sobre la marcha.
En el frente del audio y el texto, GenAI puede considerarse como un asistente personal que cada uno de los participantes puede emplear para maximizar su productividad. Este asistente se puede utilizar para convertir audio en texto para crear un resumen de la reunión, tomar acciones a medida que se indican a los respectivos propietarios e incluso sugerir respuestas relevantes sobre la marcha. Para los equipos multilingües, las barreras del idioma se pueden mitigar con la ayuda de un asistente que pueda ofrecer traducción de audio instantánea.
Sin embargo, con todo el potencial que tiene, la GenAI tal como existe hoy está limitada por la tecnología que la habilita. Para que las videoconferencias basadas en IA sean útiles y efectivas en aplicaciones como las descritas anteriormente, no basta con utilizar los servicios existentes basados en la nube para que estén disponibles de forma predeterminada.
El poder y el potencial de GenAI en el borde
Para habilitar las aplicaciones descritas anteriormente, los sistemas de videoconferencia deben poder realizar el procesamiento GenAI en los propios puntos finales, ya sea en la computadora personal o en el dispositivo de puerta de enlace de la conferencia, sin necesidad de volver a la nube para el procesamiento.
Uno de los elementos clave de los sistemas de conferencias es su capacidad de escalar. Cuando se trata de escalabilidad, es fundamental identificar los casos en los que el procesamiento centralizado es relevante y aquellos que requieren procesamiento periférico.
Hay 3 casos principales en los que el procesamiento en un punto central resulta ventajoso:
- Intercambio de información: cuando todos los participantes deben compartir la misma información. Por ejemplo, una pizarra compartida sin comentarios personales por participante.
2. Compartir recursos: cuando la función tiene un procesamiento inherente que es común a todos los puntos finales, como la búsqueda en una base de datos compartida. En tales casos, el procesamiento compartido se puede aplicar una vez y es reutilizable para muchos o todos los puntos finales.
3. Tiempo compartido: cuando la funcionalidad requiere un procesamiento ligero que puede ser manejado fácilmente por una máquina central a una fracción de su capacidad, como una alerta cuando un participante ingresa a la sala o activa su micrófono, la máquina central puede atender a todos los puntos finales, cada uno en una franja horaria diferente sin impacto notable.
La mayoría de las capacidades descritas anteriormente no cumplen con estos tres casos. Por lo tanto, para construir sistemas de videoconferencia escalables que puedan hacer que estas funciones estén disponibles para todos los participantes, se requiere la distribución de las capacidades de IA en sentido descendente, equipando a los diferentes nodos con la capacidad informática de IA adecuada.
Esto resultará en varios beneficios, que incluyen:
- Costo: el gasto de las suscripciones mensuales a herramientas de inteligencia artificial generativa basadas en la nube puede resultar abrumador. Con múltiples herramientas que satisfacen las diversas necesidades de los usuarios, como motores de búsqueda, chat y creación de imágenes/videos, los costos pueden acumularse rápidamente hasta cientos de dólares por usuario al mes, lo que presiona aún más los presupuestos. Al migrar la IA generativa a la computadora personal de los usuarios o al dispositivo de conferencia, los usuarios se convierten en propietarios de las herramientas sin necesidad de suscripciones mensuales o compromisos a largo plazo, lo que presenta una solución financieramente más viable.
- Conectividad: las conferencias virtuales a menudo se ven afectadas por la escasez de ancho de banda, especialmente cuando los participantes tienen una conectividad a Internet limitada durante los viajes o en ubicaciones remotas. La IA generativa basada en el borde puede extraer localmente información irrelevante, garantizando que solo se transmitan datos relevantes e importantes y permitiendo reuniones productivas e ininterrumpidas.
- Latencia: en las conferencias virtuales, los resultados instantáneos son fundamentales para lograr interacciones fluidas, ya sea traducción en tiempo real, ajuste de video o creación de contenido. Aprovechar la IA generativa en los dispositivos perimetrales reduce la latencia, lo que garantiza una discusión fluida y una experiencia de usuario fluida y sin demoras.
- Sostenibilidad: no se puede subestimar el impacto ambiental del procesamiento de IA basado en la nube, ya que en el proceso se genera una contaminación y un consumo de energía significativos. Investigadores de la Universidad Carnegie Mellon y Hugging Face midieron la huella de carbono de diferentes tareas de aprendizaje automático y su Segun una investigacion muestra que las tareas de IA que implican la generación de contenido nuevo, como la generación de texto, subtítulos de imágenes, resúmenes y generación de imágenes, se destacan como las que consumen más energía. Los hallazgos también muestran que los modelos de IA que consumen más energía, como Stable Diffusion XL de Stability AI, producen casi 1,600 gramos de CO2 por sesión, lo que tiene un impacto ambiental similar al de conducir cuatro millas en un automóvil de gasolina. Los dispositivos perimetrales ofrecen una opción más sostenible para la IA generativa, ya que consumen menos energía, minimizan los requisitos de refrigeración y reducen la huella de carbono, por lo que presentan un enfoque más ecológico para las conferencias de IA.
Incorporación de capacidades de procesamiento de IA en dispositivos
La creación de un sistema de videoconferencia que procese la IA directamente en dispositivos perimetrales requiere sistemas de circuito cerrado capaces de gestionar tareas que normalmente se realizan en la nube. Al procesar la IA en dispositivos finales, como computadoras portátiles, dispositivos de salas de conferencias y cámaras, las reuniones pueden realizarse sin problemas y de manera rentable, al tiempo que se garantiza la seguridad del contenido generado por IA, como resúmenes automáticos o presentaciones dinámicas.
Hailo proporciona procesadores de IA diseñados específicamente que manejan modelos de IA como los descritos anteriormente, creando soluciones energéticamente eficientes y de precio adecuado para una variedad de dispositivos de vanguardia. Actualmente, la empresa está trabajando con fabricantes de conferencias para integrar procesadores de IA en su hardware.
En un futuro próximo, los integradores y diseñadores de AV tendrán acceso a sistemas de videoconferencia que estén listos para la era GenAI, ofreciendo las ventajas de GenAI junto con las ventajas de rendimiento, seguridad y confiabilidad del procesamiento de borde. Este diseño promete elevar la colaboración a nuevas alturas, ofreciendo la combinación óptima de capacidades para mejorar el trabajo en equipo.
Avi Baum es director de tecnología y cofundador de Hailo, un fabricante de chips con sede en Israel centrado en la IA que ha desarrollado un procesador de IA especializado para permitir un rendimiento de clase de centro de datos en dispositivos de vanguardia. Baum tiene más de 17 años de experiencia en ingeniería de sistemas, procesamiento de señales, algoritmos y telecomunicaciones y se ha centrado en tecnologías de comunicación inalámbrica durante los últimos 10 años.

Avi Baum
Avi Baum es director de tecnología y cofundador de Hailo, un fabricante de chips con sede en Israel centrado en la IA que ha desarrollado un procesador de IA especializado para permitir un rendimiento de clase de centro de datos en dispositivos de vanguardia. Baum tiene más de 17 años de experiencia en ingeniería de sistemas, procesamiento de señales, algoritmos y telecomunicaciones y se ha centrado en tecnologías de comunicación inalámbrica durante los últimos 10 años.