Un estudio revela bajo desempeño de la IA en trabajos freelance reales
Un experimento con tareas reales de Upwork mostró que los modelos más avanzados solo completaron una mínima parte del trabajo asignado.
Las opiniones expresadas por los colaboradores de Entrepreneur son personales.
Conclusiones Clave
- La tecnología aún está lejos de reemplazar el trabajo humano en tareas reales de freelance: su desempeño sigue siendo mínimo sin apoyo ni supervisión.
Un análisis expuso los problemas que puede experimentar la inteligencia artificial (IA)cuando se le pide trabajar sin apoyo humano.
La investigación fue realizada por Scale AI y el Centro para la Seguridad de la IA (CAIS), que desarrollaron un parámetro llamado Índice de Trabajo Remoto.
El objetivo fue observar cómo se desempeñan distintos modelos generativos en tareas que suelen realizarse en plataformas de trabajo independiente.
Relacionado: La IA está reconfigurando los roles y procesos dentro de las compañías
¿Cómo se realizó el estudio?
Para construir este índice, los investigadores recurrieron a freelancers verificados de Upwork, quienes aportaron encargos reales en áreas variadas.
Entre las tareas seleccionadas hubo solicitudes de diseño gráfico, edición de video, desarrollo de juegos y actividades administrativas, como extracción de datos. Cada caso incluyó el material necesario y un ejemplo de un proyecto final elaborado por una persona.
Una vez que los agentes de IA recibieron las instrucciones, los resultados mostraron una distancia considerable entre las expectativas que existen alrededor de la tecnología y su funcionamiento actual.
En total, los modelos pudieron completar menos del 3% del trabajo disponible. Traducido a cifras, lograron ganar $1,810 dólares de un máximo de $143,991 dólares posibles. El sistema con mejor rendimiento fue Manus, desarrollado por una startup china, seguido por Grok de xAI, Claude de Anthropic, ChatGPT de OpenAI y Gemini de Google.
Dan Hendrycks, director de CAIS, señaló que estos datos ofrecen un panorama más claro del estado real de la tecnología.
“Espero que esto dé una impresión mucho más precisa de lo que está ocurriendo con las capacidades de la IA”, dijo, además de destacar que, aunque varios modelos han mostrado avances, “eso no significa que el progreso vaya a mantenerse al mismo ritmo”.
Hendrycks explicó que las brechas detectadas en el Índice de Trabajo Remoto tienen relación con la naturaleza de los trabajos evaluados. Tareas que requieren seguir una serie de pasos, operar con varias herramientas a la vez o adaptarse a nuevas situaciones siguen siendo complicadas para los agentes de IA.
Esto significa que los modelos “no tienen memoria a largo plazo y no pueden aprender continuamente de las experiencias. No pueden adquirir habilidades en el trabajo como los humanos”.
El estudio reconoce que sus mediciones no abarcan todas las dimensiones del trabajo independiente ni calculan su impacto económico total. Además, muchos profesionales podrían usar la IA como una herramienta que complementa su labor, no como un reemplazo.
Los resultados del estudio no desacreditan el potencial de la IA, pero sí fijan un umbral más realista sobre lo que puede hacer hoy sin supervisión humana. El Índice de Trabajo Remoto confirma que, por ahora, la tecnología funciona mejor como una herramienta que amplía el trabajo profesional, no como un sustituto.
Relacionado: Claude, la IA de Anthropic, no logra mantener a flote una tienda en San Francisco
Conclusiones Clave
- La tecnología aún está lejos de reemplazar el trabajo humano en tareas reales de freelance: su desempeño sigue siendo mínimo sin apoyo ni supervisión.
Un análisis expuso los problemas que puede experimentar la inteligencia artificial (IA)cuando se le pide trabajar sin apoyo humano.
La investigación fue realizada por Scale AI y el Centro para la Seguridad de la IA (CAIS), que desarrollaron un parámetro llamado Índice de Trabajo Remoto.
El objetivo fue observar cómo se desempeñan distintos modelos generativos en tareas que suelen realizarse en plataformas de trabajo independiente.
Relacionado: La IA está reconfigurando los roles y procesos dentro de las compañías
¿Cómo se realizó el estudio?
Para construir este índice, los investigadores recurrieron a freelancers verificados de Upwork, quienes aportaron encargos reales en áreas variadas.
Entre las tareas seleccionadas hubo solicitudes de diseño gráfico, edición de video, desarrollo de juegos y actividades administrativas, como extracción de datos. Cada caso incluyó el material necesario y un ejemplo de un proyecto final elaborado por una persona.
Una vez que los agentes de IA recibieron las instrucciones, los resultados mostraron una distancia considerable entre las expectativas que existen alrededor de la tecnología y su funcionamiento actual.
En total, los modelos pudieron completar menos del 3% del trabajo disponible. Traducido a cifras, lograron ganar $1,810 dólares de un máximo de $143,991 dólares posibles. El sistema con mejor rendimiento fue Manus, desarrollado por una startup china, seguido por Grok de xAI, Claude de Anthropic, ChatGPT de OpenAI y Gemini de Google.
Dan Hendrycks, director de CAIS, señaló que estos datos ofrecen un panorama más claro del estado real de la tecnología.
“Espero que esto dé una impresión mucho más precisa de lo que está ocurriendo con las capacidades de la IA”, dijo, además de destacar que, aunque varios modelos han mostrado avances, “eso no significa que el progreso vaya a mantenerse al mismo ritmo”.
Hendrycks explicó que las brechas detectadas en el Índice de Trabajo Remoto tienen relación con la naturaleza de los trabajos evaluados. Tareas que requieren seguir una serie de pasos, operar con varias herramientas a la vez o adaptarse a nuevas situaciones siguen siendo complicadas para los agentes de IA.
Esto significa que los modelos “no tienen memoria a largo plazo y no pueden aprender continuamente de las experiencias. No pueden adquirir habilidades en el trabajo como los humanos”.
El estudio reconoce que sus mediciones no abarcan todas las dimensiones del trabajo independiente ni calculan su impacto económico total. Además, muchos profesionales podrían usar la IA como una herramienta que complementa su labor, no como un reemplazo.
Los resultados del estudio no desacreditan el potencial de la IA, pero sí fijan un umbral más realista sobre lo que puede hacer hoy sin supervisión humana. El Índice de Trabajo Remoto confirma que, por ahora, la tecnología funciona mejor como una herramienta que amplía el trabajo profesional, no como un sustituto.
Relacionado: Claude, la IA de Anthropic, no logra mantener a flote una tienda en San Francisco
The rest of this article is locked.
Join Entrepreneur+ today for access.
Already have an account? Sign In