Las voces generadas por IA no son nada nuevo, ya que han existido durante décadas. Sea como fuere, las voces digitales que hemos experimentado a lo largo de los años no engañarían a nadie. Sin embargo, hoy en día creo que las voces digitales han llegado a un punto en el que pueden dar miedo. Esto se debe a varias razones. ¿Son las voces generadas por IA demasiado realistas hoy en día?
Hemos recorrido un largo camino desde esas voces clínicas e inconexas que hemos escuchado a lo largo de los años. Piense en las viejas voces digitales de las décadas de 2000 y 2010. El Asistente de Google y Alexa eran tan buenos como iban a ser. Sin embargo, con el auge de la IA generativa, hubo un gran impulso para hacerla más realista, y se puede apostar que esto tuvo un efecto profundo en el trabajo que la gente pone en sus voces digitales.
Ahora, piensa en el voces que mostró OpenAI cuando lanzó GPT-4o. En este momento, hay cuatro voces en la plataforma. Tampoco podemos olvidarnos de la voz de Gemini de Google. Si bien todas suenan realistas, no creo que estemos viendo cuán locas pueden llegar a ser estas voces. No fue hasta que probé la nueva herramienta de Google que me di cuenta de que las voces digitales podrían haber cruzado el umbral del realismo.
NotebookLM me mostró que las voces digitales son demasiado realistas
En caso de que no hayas oído hablar de él, Google lanzó un producto el año pasado llamado NotebookLM. Piense en ello como una computadora portátil asistida por IA. Puede cargar información como fuentes y documentos sobre un tema determinado y realizar un seguimiento del material. Google utilizará su IA para leer y extraer información del material que subiste.
Usando esta herramienta, puedes hacer preguntas sobre el material que subiste. Piense en ello como si utilizara un chatbot entrenado únicamente con el material que usted subió. Imagínese cargar un libro de texto completo sobre física y poder hacer preguntas sobre el material que contiene.
Si bien esta plataforma no es nada nuevo, hay una nueva funcionalidad que Google ideó y está probando ahora. Puedes tener una Google discusión estilo podcast basado en la información que subiste. Cuando digo estilo podcast, me refiero a que parece que dos personas realmente configuraron un micrófono y grabaron un podcast real.
Las voces suenan inquietantemente realistas por varias razones. Las frases fluyen con naturalidad y la cadencia e inflexión de los hablantes son sumamente naturales. No sólo eso, sino que Google incluso capturó algunas de las pequeñas cosas que diferencian al hombre de la máquina. Puedo escuchar ruidos de respiración, agrega los “ums” y “me gusta” que se escuchan cuando las personas hablan en la vida real, e incluso hubo un caso en el que uno de los hablantes tuvo un comienzo en falso con una palabra y se corrigió. Google incluso llegó a hacer reír a uno de los oradores.
Una cosa es crear una voz que suene bien al dar una respuesta directa o al leer un guión. Sin embargo, es otra bestia diseñar una voz que suene como si estuviera teniendo una discusión humana. Y Google lo logró.
Durante el episodio del podcast, una cosa que me llamó la atención fue esta:
Orador número 1: “Entonces, el artículo menciona específicamente dos aplicaciones. USB Audio Pro y Musicalot. ¿Has oído hablar de alguno de esos?
Orador #2: “USB Audio Pro. Eso me suena. Creo que un amigo mío lo usa”.
Literalmente apuntaba a una relación amistosa entre uno de los hablantes y una persona. Estos ejemplos se encuentran entre muchos otros ejemplos.
La voz de Google hizo lo más aterrador…
Vale, está bien, pero existen otras buenas voces digitales. ¿Qué hace que esto sea diferente? Bueno, lo que pasa con esto es que probablemente hizo lo más aterrador que una voz de IA podría hacer… me hizo olvidar que se trataba de un contenido generado por una IA.
Subí uno de mis artículos e hice que creara una discusión. NotebookLM escupió un mini episodio de podcast de 12 minutos y medio. Empecé a escucharlo y la sorpresa de que fuera una discusión generada por IA desapareció. Después de unos minutos, olvidé brevemente que estaba escuchando voces generadas por IA. Quizás fue por un minuto, quizás fue por 15 segundos. Pero, Google ha dominado el arte de hacer que las voces suenen tan sólidas y realistas.
Como puedes imaginar, eso me asustó muchísimo. Sabía que estaba generado por IA, pero era tan realista que en realidad lo olvidé.
Pieza final del rompecabezas
Las empresas están haciendo todo lo posible para hacernos tragar sus productos de IA, y esto se debe a varias razones. Claro, hay empresas que sólo intentan mantener contentos a los inversores, pero hay empresas equivocadas a las que les encantaría que usted se olvidara de la utilidad del contenido creado por humanos. Estamos viendo plataformas que literalmente generan videos completos para usted con un avatar generado por IA, un guión generado por IA y una voz generada por IA.
No solo eso, sino que estamos viendo empresas como Wix anunciando que los usuarios pueden crear sitios web completos en minutos con IA. Además, no podemos olvidarnos de las aplicaciones de citas con IA. Demonios, incluso hay un aplicación de redes sociales donde la IA genera su propio contenido y publicaciones por sí mismo. Vivimos en un mundo donde estamos empezando a olvidar la belleza de la creación humana, y lo que empeora esto es que hay personas que respaldan este comportamiento.
Ahora que las voces de la IA son tan buenas, esta tendencia va a empeorar. El caso es que la gente lo asocia con el habla; Una voz cálida y humana puede hacer que una persona se conecte con algo. Esto sólo se ve exacerbado por las empresas que hacen que las voces suenen más personales y adaptadas al individuo.
Las voces realistas son una de las últimas piezas del rompecabezas para que una persona se asocie plenamente con una IA. Si escuchas una IA con una voz fría y chiflada, es un recordatorio constante de que es un robot. Una vez que la voz se vuelve realista, hay más posibilidades de que la consideres humana.
Entonces, ¿qué podría pasar en el futuro?
Estamos en lo que parece un punto de inflexión en lo que respecta a las relaciones entre humanos y IA. Hay gente que ya se está asociando con la IA. OpenAI incluso emitió una declaración instando a la gente a no enamorarse de ChatGPT. ¿Sabes qué tiene de malo eso? Todas las personas con edad suficiente para asociarse con la IA han crecido en un mundo más tradicional donde las únicas interacciones eran humanas.
Pero, ahora que las empresas están superando los límites de lo que puede ser la IA humana y haciéndonos tragar su IA, ¿qué pasa con la próxima generación o la siguiente? Imaginemos a un niño que nacerá mañana y que crecerá en un mundo cada vez más impulsado por la IA. ¿Cómo sería ese niño en 2040 cuando sea adolescente? ¿Cuántos LLM habrían tenido un efecto en la vida de ese niño? ¿Este niño sabrá cuán equivocadas son las relaciones generadas por IA si le ha enseñado un chatbot en lugar de un maestro?
Ahora que las voces son tan reales, ¿de qué sirve grabar podcasts cuando puedes generar uno? Claro, hoy en día la gente pisará fuerte un podcast generado por IA, pero piense en cómo serán las cosas dentro de unos años, cuando la IA esté más normalizada. A los oyentes más jóvenes, que crecieron rodeados de IA, probablemente no les importe. En lugar de elogiar a un grupo de podcasters, los oyentes elogiarán al modelo al que se le suministran los datos.
Con las voces de la IA que suenan tan realistas, la humanidad está un paso más cerca de olvidarse de la humanidad misma. Google ha dominado el arte de la voz y no tenemos idea de qué tipo de consecuencias seguirán.
Fuente: Android Headlines