enseñar a la IA a sonar humana – El diario andino

Por Redactor Andino
marzo 31, 2026

En los últimos meses muchos hemos hablado con una inteligencia artificial sin pensar demasiado en ella. Le hemos hecho preguntas, le hemos pedido consejo o simplemente hemos probado hasta qué punto su capacidad para mantener una conversación naturalyo. Herramientas como ChatGPT o los modos de voz Gemini han acercado esa experiencia a algo que, no hace mucho, parecía reservado a la ciencia ficción, con inevitables ecos de ‘Ella’. Pero hay una pregunta que rara vez nos hacemos cuando hablamos con ellos: ¿cómo han aprendido estas máquinas a sonar cada vez menos como un sistema y más como una persona?

Para entenderlo conviene separar lo que vemos de lo que no vemos. Por un lado están las aplicaciones que utilizamos a diario, esos asistentes que responden con una voz cada vez más natural. Por otro lado, los sistemas que los sustentan, modelos entrenados con grandes volúmenes de datos que necesitan aprender no sólo qué decir, sino también cómo decirlo. No sabemos qué productos concretos acaban utilizando este tipo de grabaciones, pero sí sabemos que forman parte del ecosistema con el que se entrenan sistemas de voz cada vez más fluidos y creíbles.

La mano humana detrás de una voz artificial

Cuando entramos en detalles, lo que hacen estos trabajadores no se parece mucho a la idea clásica de “entrenar una IA”. En muchos casos, implica tener conversaciones con extraños sobre temas aparentemente triviales, desde gustos cotidianos hasta preguntas abiertas que requieren que desarrolles una respuesta. En otros, el encargo es más exigente: interpretar un papel, seguir un guión sin que lo parezca o entrar en terreno emocional. cuenta BloombergPor ejemplo, el caso de una trabajadora que contó recuerdos dolorosos de su vida mientras hablaba con un hombre que se presentó como pastor y que, dentro del ejercicio, desempeñaba el papel de terapeuta.

Todo ese material grabado tiene un propósito muy concreto: captar matices. No hablamos sólo de palabras, sino de pausas, respiraciones, cambios de tono, vacilaciones o reacciones emocionales que hacen que una conversación suene humana. También existen tareas de etiquetado, en las que los trabajadores tienen que distinguir si un audio contiene un sollozo, una risa o alguien hablando entre risas. La lógica subyacente es simple: si una máquina quiere dejar de parecer robótica, primero necesita ser expuesta a cómo hablamos realmente.

Después de pasar una prueba de voz inicial, pueden calificar para tareas que comienzan en aproximadamente $17 por hora grabada.

A partir de ahí, la pregunta es inevitable: ¿cómo se accede a este tipo de empleo y cuánto se gana realmente? Plataformas como Audio de Babel Funcionan como intermediarios que conectan a estos trabajadores con proyectos específicos. Tras superar una prueba de voz inicial, pueden optar por tareas que empiezan en unos 17 dólares la hora grabada, aunque el ingreso final depende de la valoración recibida y del volumen de pedidos disponibles. Los ingresos también varían mucho: un trabajador citado por el citado medio afirma ganar alrededor de 600 dólares a la semana.

Así luce la web de BabelAudio

A medida que avanzamos, la obra empieza a mostrar un lado menos visible. Más allá de las tarifas y la promesa de flexibilidad, los testimonios apuntan a un entorno marcado por la incertidumbre y el control constante. Las plataformas pueden limitar el acceso a tareas, interrumpir proyectos o suspender cuentas sin explicaciones detalladas, dejando a muchos trabajadores en una posición frágil. Además, cada conversación está sujeta a métricas en tiempo real que evalúan si alguien habla demasiado o demasiado poco, la expresividad, el dominio del idioma, la profundidad del intercambio e incluso la duración de las pausas.

Cuando ampliamos el foco, el debate deja de ser únicamente laboral y pasa a ser también personal. Parte del valor de estas grabaciones radica precisamente en que captan cómo hablamos y cómo nos relacionamos, lo que implica que los trabajadores están proporcionando algo más que una simple tarea mecánica. Los términos generalmente permiten que esas grabaciones se utilicen en asistentes de voz, síntesis de voz y «otros productos y servicios relacionados con el audio».

Cuando conectamos todas las piezas, lo que vemos es una industria que funciona gracias a una compleja cadena de producción. El Centro Pulitzer describe Este ecosistema es como una red de trabajo fragmentada en la que los trabajadores suelen estar sujetos a acuerdos de confidencialidad, operan con muy poca transparencia y, en muchos casos, ni siquiera saben en qué sistema se están formando ni a qué empresa acaba destinado su trabajo. En este contexto, las conversaciones que alimentan los sistemas de voz son sólo una parte de una máquina más grande, donde cada tarea contribuye a construir tecnologías cada vez más sofisticadas.

Imágenes | con Nano Plátano 2 | Captura de pantalla

En | Enhorabuena, ya programas sin saber programar. Ahora prepárate para esperar seis semanas hasta que Apple te escuche

Office Address

Phone Number

Email Address

enseñar a la IA a sonar humana – El diario andino

La mano humana detrás de una voz artificial

About Author

Redactor Andino

APEIM confirma el valor de las encuestas como herramienta técnica, rigurosa y transparente – El diario andino

Lula da Silva pide “madurez” al Consejo de Seguridad de la ONU y dejar de fomentar guerras | Brasil | Estados Unidos | Irán | El último – El diario andino

Noticias recientes

Archivos

Categorías

Noticias relacionadas

El Diario Andino

La mano humana detrás de una voz artificial

Etiquetas:

About Author

Redactor Andino

APEIM confirma el valor de las encuestas como herramienta técnica, rigurosa y transparente – El diario andino

Lula da Silva pide “madurez” al Consejo de Seguridad de la ONU y dejar de fomentar guerras | Brasil | Estados Unidos | Irán | El último – El diario andino

Noticias recientes

Archivos

Categorías

Noticias relacionadas

El precedente más cercano al gran apagón de España se vivió en

Esto es lo que él estima que llevo a España para recuperarme

60% menos de generación en cinco segundos