AI contextual: la próxima frontera de la inteligencia artificial

La inteligencia artificial (IA) alimenta cada vez más servicios y dispositivos que utilizamos a diario, como asistentes personales de voz, servicios de recomendación de películas o sistemas de asistencia a la conducción. Y mientras que la inteligencia artificial se ha vuelto mucho más sofisticada, todos conocemos las situaciones en las que nos preguntamos: “¿Por qué obtuve esta extraña recomendación?” O “¿Por qué hizo esto el asistente?” volvemos a encaminar nuestros sistemas de inteligencia artificial, pero nunca confiamos completamente y ciegamente en nuestro futuro impulsado por inteligencia artificial.

Una o las razones de esta desconfianza es que la mayoría de los sistemas de IA actuales funcionan como una “caja negra”, con capacidades de interacción limitadas, comprensión del contexto humano y explicaciones. Estas limitaciones han inspirado el llamado a una nueva fase de la IA, que creará una asociación más colaborativa entre humanos y máquinas. Apodada Contextual AI, esta nueva tecnología ya está recibiendo inversiones multimillonarias . La IA contextual es una tecnología que está incrustada en y comprende el contexto humano y es capaz de interactuar con los humanos. En este artículo, exploraré cómo funciona la IA contextual, cómo se compara con las fases anteriores de la IA, los desafíos que debemos superar y el progreso que estamos haciendo en Adobe.

Inteligencia artificial contextual: los componentes básicos de una relación exitosa entre humanos y AI

La IA contextual no se refiere a un algoritmo específico ni a un método de aprendizaje automático, sino que toma una visión y enfoque centrados en el ser humano para la IA. El núcleo es la definición de un conjunto de requisitos que permiten una relación simbiótica entre la IA y los seres humanos. La IA contextual debe ser inteligible, adaptable, personalizable, controlable y consciente del contexto. Esto es lo que parece en el mundo real:

La inteligibilidad en IA se refiere al requisito de que un sistema necesita poder explicarse, representar a sus usuarios lo que sabe, cómo lo sabe y qué está haciendo al respecto. Se requiere inteligibilidad para confiar en los sistemas de inteligencia artificial.

La adaptabilidad se refiere a la capacidad de un sistema de inteligencia artificial, cuando está capacitado o concebido para una situación o entorno específico, para ser lo suficientemente adaptable, por lo que puede ejecutarse de manera similar en una situación o entorno diferente y satisfacer las expectativas del usuario. Por ejemplo, un asistente de casa inteligente que controla mi casa conoce mis preferencias, pero ¿podrá traducirlas a la casa de mi madre cuando yo visite?

Un sistema de IA debe ser adaptable y personalizable por el usuario. Y el usuario debe poder obtener y mantener el mismo control sobre todas las funciones del sistema. Obviamente, esto va de la mano con la inteligibilidad porque el usuario necesita entender la base de las decisiones del sistema.

Finalmente, el conocimiento del contexto es un requisito fundamental que se refiere a la capacidad del sistema para “ver” al mismo nivel que un ser humano, es decir, tiene una percepción suficiente del entorno, la situación y el contexto del usuario para razonar adecuadamente. Un asistente de casa inteligente no puede conocer mi comportamiento y preferencias, y controlar mi casa con solo una cámara en el porche delantero como entrada.

Si bien la verdadera IA contextual aún no existe, nos estamos acercando a ella. Los autos que se conducen solos son un buen ejemplo: son un primer intento de comprender mejor el contexto humano (en este caso, la carretera, el estado de los pasajeros o las situaciones peligrosas). Sin embargo, la comprensión actual es todavía muy limitada y estrecha. En la serie de televisión de la década de 1980, Knight Rider , por ejemplo, el auto (KITT) demuestra los principios de la verdadera IA contextual, ya que fue capaz de interactuar a la perfección con el conductor, comprender todo lo que estaba sucediendo (e incluso más allá) y ayudar a situaciones peligrosas Obviamente, era inverosímil y ficticio, pero la esencia es que la IA contextual necesita tener una comprensión más profunda de la situación humana y poder interactuar y explicarse a sí misma.

¿Qué diferencia a la IA contextual de las fases anteriores de la IA?

La IA contextual aborda muchas de las deficiencias de los desarrollos o fases anteriores de la IA. Históricamente, la IA comenzó como un conocimiento artesanal. Esta IA basada en reglas no tenía capacidad de aprendizaje y fue diseñada principalmente por ingenieros. Piensa en las computadoras de ajedrez (¿recuerdas cuando Deep Blue venció a Garry Kasparov ?) O sistemas expertos. Tuvieron sus primeras aplicaciones exitosas desde la década de 1980 hasta principios de la década de 2000. Sin embargo, como una máquina no tiene la misma percepción que un humano, se quedó corta cuando no fue posible especificar claramente las reglas, en particular para la entrada de la señal del sensor (audio y video).

El aprendizaje estadístico, particularmente el aprendizaje profundo, abordó algunas de estas deficiencias al inferir patrones estadísticos (que un humano podría no ver o conocer) a partir de conjuntos de datos muy grandes y señales en bruto. Esto llevó al reciente éxito de AI en el reconocimiento de imágenes, voz, interfaces de conversación y muchas más aplicaciones. Sin embargo, la capacitación estadística a gran escala también tiene sus desventajas. Por un lado, los modelos estadísticos, como los modelos de aprendizaje profundo, pueden ser fácilmente atacados o confundidos. Pueden generarse y ajustarse ejemplos adversos para hacer un sistema de aprendizaje automático de grado de producción. Los cambios menores en los píxeles de la imagen de entrada, apenas visibles para el ojo humano, pueden producir resultados de reconocimiento muy diferentes. Incluso puedes generar tus propios ejemplos adversarios para engañar al algoritmo. Además, como la mayoría de los enfoques de IA se basan en datos a gran escala,

Mientras que la exageración sobre la inteligencia artificial sigue siendo impulsada por el aprendizaje estadístico, los investigadores líderes han comenzado a cuestionar la “inteligencia” real de los enfoques actuales de inteligencia artificial de la industria . Si bien los algoritmos estadísticos ayudaron con el conocimiento del contexto y la adaptabilidad que se necesita para un sistema de AI contextual, no cumplen con los requisitos para que los humanos entiendan lo que está sucediendo, y para personalizarlo y controlarlo. No se puede confiar en un algoritmo de ‘caja negra’ en situaciones críticas. No está claro qué estructuras aprenden realmente los algoritmos estadísticos de IA y si los algoritmos simplemente separan los ejemplos de datos o tienen una verdadera comprensión del contenido.

Como arquitecto de AI en Adobe, estoy trabajando en iniciativas que traerán AI contextual a las experiencias de nuestros clientes. Estas son algunas de las cosas en las que estamos trabajando:

Innovando AI con Adobe Sensei

Una de las áreas de enfoque para Adobe Sensei , nuestra inteligencia artificial y nuestra tecnología de aprendizaje automático, es la Inteligencia Creativa, definida como el aumento de las habilidades y capacidades de los creadores que utilizan la IA. En este caso, el ser humano creativo interactuará y formará un equipo con la IA, que debe tener un profundo conocimiento de la intención, los antecedentes, el comportamiento y las necesidades de la creatividad, e incluso ser capaz de explicar a la persona qué hace y por qué. La Inteligencia Creativa es la aplicación de la AI contextual en el mundo creativo.

Como se indicó anteriormente, la inteligibilidad y la explicación también son aspectos importantes de la Inteligencia Creativa, lo que significa que la IA debe poder representar y explicar (en términos sencillos) lo que ha aprendido. Técnicamente, necesita confiar mucho más en representaciones de conocimiento y ontologías que representan lo que se aprende. Aquí hay algunos ejemplos de proyectos en desarrollo en Adobe:

  1. Comprensión profunda del contenido.

La tecnología de aprendizaje profundo de Adobe Sensei para la comprensión del contenido va más allá del simple etiquetado de imágenes y, en cambio, se alinea con la forma en que un humano percibe una imagen. Mirando el ejemplo a continuación, el etiquetado simple de imágenes solo reconocería tres caras, el océano y la playa en esta imagen. Sin embargo, una taxonomía y representación más ricas permiten a Adobe Sensei capturar conceptos a nivel humano, como “Entretenimiento” y “Vida familiar” que no son tan explícitos.

Las emociones como “Felicidad” que solían estar completamente en el reino humano se descifran parcialmente mediante los algoritmos de AI. Esto hace que la recuperación de imágenes específicas sea mucho más comprensible y personalizable para el humano. También permite una experiencia del cliente más rica y contextual en relación con el contenido de la imagen y la búsqueda en Adobe Stock , la colección de la compañía de millones de imágenes sin royalties. Como resultado, la búsqueda de imágenes produce mejores resultados en menos tiempo.

  1. Búsqueda de imágenes mediante comandos de voz.

Otro proyecto en desarrollo en Adobe va más allá de la búsqueda facetada e ilustra el refinamiento en lenguaje natural de la búsqueda de imágenes mediante comandos de voz. En este ejemplo a continuación, aprovechando las imágenes de Adobe Stock, el usuario está interactuando casualmente con el “algoritmo de búsqueda”, agregando y eliminando contextualmente los criterios de búsqueda, así como refiriéndose a conceptos generales a nivel humano, como “autenticidad” y “diversidad”.

El asistente de voz rastrea el lugar donde se encuentra la búsqueda, y permite varias mejoras comprensibles para el ser humano, incluido el retroceso de los resultados de búsqueda. Adobe Sensei entiende el contexto, específicamente a lo que el usuario se refiere y podría buscar, y evoluciona la búsqueda en consecuencia.

Lograr una comprensión más profunda de las interacciones hombre-máquina.

Hemos recorrido un largo camino en el camino hacia la verdadera IA contextual. Ahora entendemos los conceptos a nivel humano en imágenes, y la IA puede interactuar de forma más natural con los humanos utilizando estos conceptos. Sin embargo, aún necesitamos una comprensión más profunda del lenguaje, así como nuevos paradigmas de interacción humano-computadora. ¿Cómo deberían un sistema de inteligencia artificial y los humanos interactuar en el futuro, por ejemplo? ¿A través de la voz, los gestos, o incluso los implantes?

Más importante aún, la representación y el reconocimiento de lo que los humanos piensan y hacen es todavía muy limitado. Por ejemplo, millones de creatividades utilizan los productos de Adobe todos los días y aunque estamos familiarizados con la forma en que utilizan nuestras herramientas como parte de su trabajo, seguimos trabajando para representar plenamente la “intención creativa”. ¿Qué quiere el usuario creativo? ¿hacer? ¿Cuáles son los pasos en el proceso? ¿Y qué puede necesitar él o ella para tener éxito? ¿Y cómo podría un usuario incluso enseñar a un sistema de IA cuál es su intención creativa?

Algunas orientaciones técnicas futuras que se están explorando actualmente son modelos de AI explicable y razonamiento de sentido común . ¿Cómo podríamos enseñar el sentido común de un niño de cinco años a un sistema de inteligencia artificial? ¿Y cómo podríamos hacer que se explique por sí misma y que sea completamente contextual? En Adobe, creemos que la inteligencia artificial mejora la creatividad y la inteligencia humanas cuando se trata de diseñar, optimizar y ofrecer experiencias digitales (la inteligencia artificial no la reemplaza). Por lo tanto, es importante aprovechar el poder de la IA contextual para ayudar a que la industria avance y aprovechar su poder para innovar continuamente.

Estos son algunos de los desafíos que estamos enfrentando en Adobe, y para darle un vistazo de lo que estamos trabajando, aquí está una demostración de prueba de concepto de nuestro asistente inteligente contextual (con tecnología de Adobe Sensei) que permite Interacción mediante voz y gestos. Bastante bien, ¿verdad?

 

Tomado de Adobe Blog



Deja un comentario

Este sitio usa Akismet para reducir el spam. Aprende cómo se procesan los datos de tus comentarios.