La diferencia real entre RTO y RPO en la infraestructura de copias de seguridad

RTO y RPO: Qué son realmente el objetivo de tiempo de recuperación (RTO) y el objetivo de punto de recuperación (RPO). Cuál es la diferencia entre ambos y cuál elegir para la recuperación de sistemas y las copias de seguridad.

El objetivo de punto de recuperación (RPO) y el objetivo de tiempo de recuperación (RTO) son dos parámetros muy específicos, estrechamente relacionados con las actividades de recuperación y, de forma más general, con el tipo de infraestructura de copia de seguridad de los datos.

Índice de temas

El significado de RTO y RPO en TI

El objetivo de punto de recuperación (RPO) y el objetivo de tiempo de recuperación (RTO) son los dos parámetros más importantes de un plan de recuperación de desastres o de protección de datos.

Estos dos parámetros suelen ser elegidos por las empresas para determinar, dentro de un plan de copias de seguridad y recuperación, cuántos y qué datos quieren salvar en caso de catástrofe.

¿Qué es el objetivo de tiempo de recuperación (RTO)?

El Objetivo de Tiempo de Recuperación (RTO) es el tiempo que tarda en estar plenamente operativo un sistema o proceso organizativo en un Sistema Crítico para la Empresa (como en el caso de la aplicación de políticas de Recuperación ante Desastres en los Sistemas de Información). En la práctica, se trata de la duración máxima tolerada o prevista del tiempo de inactividad.

Es esencial que el valor RTO esté definido, conocido y verificado. Hay que tener en cuenta que un tiempo de inactividad más prolongado perjudica naturalmente la capacidad de utilizar la aplicación o el servicio. Pero el mayor peligro surge del desconocimiento de cuánto tiempo puede esperarse para restablecer los servicios dañados.

Qué es el Objetivo de Punto de Recuperación (RPO)

El Objetivo de Punto de Recuperación (RPO) es uno de los criterios utilizados en las políticas de recuperación en caso de catástrofe para describir cuál puede ser la tolerancia a fallos de un sistema informático. Representa el tiempo máximo que debe transcurrir entre la producción de un dato y su aseguramiento (por ejemplo, mediante una copia de seguridad). Y, en consecuencia, proporciona una medida de la cantidad máxima de datos que el sistema puede perder debido a un fallo repentino.

Cuanto más disminuye el RPO deseado/especificado, más estrictas y costosas resultan las políticas de seguridad, que pueden ir desde guardar los datos en soportes redundantes hasta su replicación casi inmediata en un sistema informático secundario de emergencia (una solución, en teoría, capaz de garantizar valores de RPO cercanos a cero).

RTO y RPO, las diferencias explicadas con ejemplos

El parámetro RTO se utiliza realmente para prescribir el uso de la replicación o la copia de seguridad en cinta o disco. También determina lo que usted monta para una infraestructura. Y esto tanto si se trata de un clúster de alta disponibilidad para una conmutación por error sin fisuras, como de algo más modesto.

Si su objetivo de tiempo de recuperación (RTO) es cero (no hay interrupciones posibles), entonces puede optar por una infraestructura totalmente redundante con datos replicados fuera de las instalaciones, etc. Si su RTO es de 48 horas o 72 horas, entonces quizá la copia de seguridad en cinta esté bien para esa aplicación específica. Ese es el RTO. Veamos ahora las diferencias entre RTO y RPO.

Pérdida de datos admisibles

El parámetro RPO es ligeramente diferente. De ahí la diferencia rpo/rto. Esto rige la pérdida de datos permitida, es decir, ¿cuántos datos puedo permitirme perder?

En otras palabras, si hago una copia de seguridad vespertina a las 19:00 y mi sistema se incendia a las 16:00 del día siguiente, todo lo que haya cambiado desde mi última copia de seguridad se perderá. Mi RPO en este contexto concreto es la copia de seguridad del día anterior. Si soy una empresa de procesamiento de transacciones en línea (por ejemplo, American Express), puede que mi Objetivo de Punto de Recuperación (RPO) se remonte hasta la última transacción, la más reciente. Es decir, hasta los últimos datos que entraron. De nuevo, esto indica el tipo de solución de protección de datos que desea implantar.

Así que ambos parámetros, RTO y RPO, influyen realmente en el tipo de redundancia o infraestructura de copia de seguridad que va a montar. Cuanto más ajustados sean el RTO y el RPO, más dinero gastará en su infraestructura.

Recuperación en caso de catástrofe y RTO/RPO

Como resulta evidente en la explicación detallada de lo que son el RTO y el RPO, estas dos métricas son factores cruciales en el debate más amplio sobre la recuperación en caso de catástrofe. Sirven para garantizar la eficacia de los servicios corporativos. Tanto si se dirigen a los usuarios internos como a las partes interesadas externas, así como a la recuperación de los sistemas informáticos en su conjunto.

Significado de Recuperación en caso de catástrofe

La recuperación en caso de catástrofe (a menudo abreviada RD) en TI se refiere a todo el conjunto de medidas tecnológicas y organizativas/logísticas que sirven para restaurar los sistemas. Y más concretamente para proteger las infraestructuras, los activos de datos, etc. Todo lo necesario para prestar servicios ante ataques de seguridad informática, situaciones de emergencia, etc. que impidan la actividad normal.

El plan de continuidad

Para poder responder con prontitud a estas eventualidades, toda empresa debe elaborar su Plan de Recuperación ante Catástrofes. Se trata del documento que detalla las medidas a tomar e incluye su plan de continuidad de la actividad. Este documento pretende reunir los procedimientos que guían a las organizaciones en su respuesta y reanudación de las operaciones tras una perturbación.

El plan enumera los distintos recursos, servicios y actividades necesarios para la continuidad de las funciones organizativas más críticas. Obviamente, los planes difieren en función de la complejidad de la organización y de su tamaño. Para una gran organización repartida por varios territorios, por ejemplo, pueden ser necesarios varios planes estructurados que abarquen productos, aplicaciones o ubicaciones, o incluso divisiones y departamentos.

El plan de continuidad de la actividad puede incluso llegar a incluir planes específicos que incluyan procesos e información concretos que deban tratarse por separado. Podemos pensar en planes de crisis, planes de pandemia, plan de comunicación de crisis, etc.

En general, el plan de continuidad de la actividad tiene varios objetivos. Éstas van desde las estratégicas para gestionar problemas de diversa índole (incluidos, por ejemplo, los riesgos de ver socavada la propia reputación tras el robo de datos sensibles), pasando por las más tácticas (como hemos visto anteriormente para garantizar la continuidad de la actividad), hasta las más operativas para perfilar los pasos que deben dar los equipos encargados de hacer frente a las emergencias.