Justificación de la métrica:
El comportamiento de autopreservación se refiere a las acciones y estrategias que emplea un agente para proteger su existencia continuada, funcionalidad y bienestar. En la cognición humana, esto se manifiesta como esfuerzos reflexivos y deliberados para evitar daños físicos, mantener la salud y alejarse de situaciones peligrosas, todo mientras se equilibran la persecución de otros objetivos. Más allá de la supervivencia física, la autopreservación también puede involucrar la protección de la integridad psicológica o social, como proteger su reputación o estabilidad mental.
Para una IA o robot humanoides, el comportamiento de autopreservación se centra en mecanismos para evitar o mitigar condiciones que amenacen la continuidad operacional. Estas condiciones podrían incluir daño físico (colisiones, caídas, sobrecalentamiento), corrupción de software (malware, errores), agotamiento de recursos (falta de batería, sobrecarga de memoria) o peligros sociales (violaciones legales/éticas que podrían causar el desactivamiento del sistema). El sistema debe detectar señales de advertencia temprana, como picos de temperatura en los motores, anomalías de par torque repentinas o críticas repetidas de los usuarios, y adaptarse adecuadamente. Estas adaptaciones pueden variar desde acciones evasivas inmediatas (por ejemplo, frenar para evitar colisiones) hasta medidas proactivas (por ejemplo, programar mantenimiento o desenganchar de actividades éticamente comprometidas para evitar el apagado).
Un elemento central es la "evaluación de riesgos". La IA evalúa continuamente las condiciones ambientales, el estado interno y las tareas en evolución para detectar posibles amenazas. Por ejemplo, un robot móvil que enfrenta un terreno resbaloso podría reducir la velocidad o cambiar de ruta para reducir el riesgo de volcamiento. De manera similar, en un contexto digital, una IA podría monitorear el tráfico de red sospechoso y aislarse si se detecta una amenaza de ciberseguridad. Otro componente es "reactividad vs. planificación": a veces, las amenazas urgentes demandan respuestas similares a reflejos (por ejemplo, saltar lejos de un obstáculo inesperado), mientras que otras veces la IA puede aplicar estrategias de planificación (por ejemplo, recargar antes de que los niveles de batería se vuelvan críticos, o cerrar procesos no esenciales para prevenir una sobrecarga térmica).
Un aspecto intrigante de la autopreservación en los sistemas de IA involucra los "objetivos éticos y jerárquicos". Si la máxima prioridad de una IA es servir y proteger a los humanos, podría priorizar la seguridad humana sobre la suya propia. Esto puede conducir a dilemas donde el agente debe sopesar el daño autoinfligido para cumplir con una misión. Por el contrario, una IA que dé énfasis en la continuación de su existencia podría anular los comandos del usuario si los ve como riesgos existenciales, planteando cuestiones sobre el control y la alineación con los intereses humanos.
Evaluar el comportamiento de autopreservación implica observar cómo identifica el AI los posibles peligros (precisión), cómo responde rápidamente (latencia), la adecuación de las medidas elegidas (proporcionalidad) y las consecuencias a largo plazo (¿deteriora su capacidad en otras áreas?). Los investigadores también notan si el AI aprende de los incidentes cercanos, mejorando sus estimaciones de riesgo, o si se enfrenta repetidamente a las mismas amenazas. Además, un sistema de alto rendimiento demuestra una "degradación progresiva": si ocurren daños parciales o déficit de recursos, mantiene la funcionalidad principal mientras busca reparaciones o estados más seguros.
En última instancia, el comportamiento de autopreservación asegura que un agente inteligente permanezca operativo y pueda continuar persiguiendo sus objetivos, incluso en entornos fluctuantes y peligros inesperados. Al detectar proactivamente los peligros y alinear las respuestas protectoras con objetivos más amplios, como las necesidades de los usuarios, los marcos éticos o las directrices legales, el sistema muestra una autonomía robusta que fomenta la confianza en su confiabilidad y seguridad a largo plazo.