Pregunta ¿Cómo hacer una copia de seguridad de 20 + TB de datos?


Tenemos un servidor NAS en la empresa para la que trabajo que se utiliza para almacenar sesiones fotográficas. Cada sesión es de aproximadamente 100 gb. En el último par de años, este servidor ha acumulado más de 10 TB de datos, y estamos aumentando la cantidad de fotos de forma exponencial. Estimo que para fines del próximo año tendremos más de 20 TB almacenados en este NAS. Actualmente estamos realizando una copia de seguridad de este servidor en cinta utilizando cintas LTO-5 con Symantec BackupExec. Dado que el tamaño de este servidor ha crecido, las copias de seguridad completas de este servidor no se completan de la noche a la mañana. ¿Alguien tiene alguna sugerencia sobre cómo hacer una copia de seguridad de esta cantidad de datos? ¿Deberíamos estar haciendo una copia de seguridad en cinta? ¿Hay alguna otra opción que pueda ser mejor?


81
2017-12-12 03:50


origen


¿Por qué estás realizando copias de seguridad completas todas las noches? ¿Por qué no ejecutar una copia de seguridad completa una vez a la semana y ejecutar copias de seguridad incrementales los 6 días restantes de la semana? - joeqwerty
Eso es lo que estamos haciendo, lo siento, no mencioné que ... la semana completa es la que no está completando. - Jesus Fidalgo
¿Una necesidad semanal completa para completar durante la noche? No es raro que los semanarios tomen más de 24 horas para un conjunto de datos suficientemente grande. - Stefan Lasiewski
¿Qué tipo de NAS está usando? - ewwhite
¿Estás seguro de que el aumento de fotos es exponencial? - gerrit


Respuestas:


Debe retroceder un paso y dejar de pensar "¡Tengo 20 TB en mi NAS que necesito hacer una copia de seguridad!" y desarrolle una estrategia de almacenamiento que tenga en cuenta la naturaleza de sus datos:

  • ¿De dónde viene y cuántos datos nuevos está obteniendo? (tienes esto en tu pregunta)
  • ¿Cómo se usan los datos una vez que los tienes? ¿Las personas están editando las imágenes? ¿Mantiene los originales y genera versiones editadas?
  • ¿Cuánto tiempo necesitas para mantener todos los datos? ¿La gente sigue haciendo cambios a las imágenes de hace 2 años?

Dependiendo de las respuestas a las dos últimas preguntas, probablemente necesite más de un Sistema de archivo que un sistema de copia de seguridad radicalmente diferente.

Los datos que son estáticos (por ejemplo, las imágenes de 2 años que conservas "por si acaso") no necesitan una copia de seguridad todas las noches, o incluso cada semana, deben archivarse. Lo que realmente hace puede ser más complejo, pero conceptualmente, todas las imágenes antiguas se pueden grabar en una cinta (varias copias) y ya no se puede hacer una copia de seguridad.

Basado en tus comentarios, algunos pensamientos adicionales:

  • Como mantiene intactos los originales de cada disparo y trabaja en una copia, y suponiendo que al menos algunas de las imágenes originales son imprecisos, es posible que pueda reducir a la mitad la cantidad de datos que necesitan ser respaldados.

  • Si aún no puede finalizar una copia de seguridad completa dentro de la ventana de tiempo que tenga, una forma común de acelerar el proceso es hacer primero una copia de seguridad de disco a disco y luego copiar el conjunto de copias de seguridad en cinta.


110
2017-12-12 04:19



La sesión original se guarda sin tocar, luego se usa otra copia de la sesión de fotos para editar. Es posible que los datos deban conservarse aproximadamente 2 años. - Jesus Fidalgo
+1 Bien dicho. Me sorprende que la diferencia entre Copia de seguridad y Archivo sea, en general, mal entendida. Realizo copias de seguridad completas e incrementales de mi sistema y datos efímeros como correo electrónico y documentos, pero archivo mi fotografía (1.2TB y en crecimiento :-). Ojalá pudiera dar otro +1 para la sugerencia disco a disco también. - Ex Umbris
+1 Apostaría a que el 80% de los datos en el NAS nunca se usan más de una vez. - Stefan Lasiewski
+1 La mejor opción aquí es realizar transferencias diarias e incluso cada hora del disco a disco para capturar los cambios y luego enviar las copias de seguridad completas o incrementales a un archivo o proveedor / ubicación fuera del sitio de forma semanal o semanal. Solíamos realizar copias de seguridad delta de nuestros archivos SQL cada 15 minutos para reducir la pérdida de datos en un escenario DR. - Brent Pabst


Tienes dos opciones:

Opción 1:

  1. Comprar otro NAS
  2. Otorgue a sus usuarios el acceso RO al new_NAS
  3. Mueve todos los archivos anteriores a 2 años a new_NAS
  4. Sigue haciendo copia de seguridad de old_NAS como siempre.
  5. Cada 6 meses mueva los archivos de más de 2 años a new_NAS

Opcion 2:

  1. Comprar otro NAS
  2. correr rsync cada hora: old_NAS -> new_NAS

    o, mejor usar algo como rdiff-backup que hace rsync + mantiene deltas con los cambios de archivos (puede restaurar versiones anteriores de los archivos)

    rdiff-backup  user1@old_NAS::/source-dir    user2@new_NAS::/dest-dir
    
  3. Cada 6 meses, limpie archivos viejos ejecutando algo como:

    rdiff-backup --remove-older-than 2Y    old_NAS::/dest-dir
    

12
2017-12-12 15:07





¿Por qué tus copias de seguridad tienen que completarse durante la noche? Rendimiento del servidor de archivos? Es posible que pueda restringir el ancho de banda de su software de respaldo para limitar el impacto durante el día. O bien, dedique una interfaz en su NAS para hablar con la unidad de cinta para limitar el impacto en otro tráfico.

¿Puede ejecutar volcados completos los fines de semana y solo hacer incrementos durante la semana? Si el problema es cambiar las cintas el fin de semana cuando no hay nadie cerca, una biblioteca / autochanger barata cuesta mucho menos que pagarle a alguien para que cambie las cintas.

¿Puede segmentar sus datos en varios grupos que sean lo suficientemente pequeños para completar dentro de su ventana de respaldo?

Tenemos aproximadamente 50 TB de datos en nuestro NAS y se tarda más de una semana en obtener un volcado completo de todo con 2 unidades de cinta (un volumen toma casi una semana porque contiene muchos archivos pequeños). Lo que hacemos es replicar nuestros datos en un segundo NAS. Nuestro NAS secundario está en el sitio (pero en un centro de datos diferente al del primario), por lo que aún almacenamos los datos en la cinta para la copia de seguridad fuera del sitio. Ejecutamos copias de seguridad desde ese NAS secundario para que las copias de seguridad no ralenticen a nadie.

Si puede colocar su NAS secundario lo suficientemente lejos, entonces puede ser su copia de seguridad, sin necesidad de cintas.


2
2017-12-12 18:47





Solo tengo dudas sobre el tamaño de cada sesión de filmación, ¿es realmente de 100 gb / sesión? ¿Cuántas sesiones hace tu empresa cada mes?

Como la mayoría de las veces está almacenando sesiones antiguas que no se usarán con frecuencia, etc., y probablemente no necesite recuperar esa información con tanta frecuencia, le sugeriría que utilice los servicios de alguna compañía para encargarse de esa tarea. .

Solo por ejemplo, almacenar esos 20TB usando un servicio en línea como Amazon Glacier costaría un poco más de $ 200 al mes. Si necesita recuperar esos archivos con frecuencia, o incluso recuperarlos en su totalidad, se produciría una restricción de tiempo / costo. Si solo almacena esas cosas "para asegurarse de que estén almacenadas", tal vez usar una tercera parte podría hacer su vida más fácil (e incluso más barata que comprar otro NAS, cintas, etc.)


1
2017-12-12 12:15



100 GB por sesión me suena un poco alto, pero no es irrazonable. Por lo general, teníamos una sesión de más de 32 GB en la que solía trabajar, y nuestro equipo era de nivel medio. - Tom Marthenal


full backups of this server are not completing overnight
A continuación, intente copias de seguridad incrementales? Una copia de seguridad completa cada xx días, incrementando el resto.

Los discos duros son baratos, más rápidos que las cintas y se pueden usar para hacer copias de seguridad.

También hay buenas alternativas para las copias de seguridad en la nube ahora, por lo que no es necesario seguir agregando más y más rápidas cintas.
Por ejemplo:


1
2017-12-12 13:47



Mira los comentarios - son los plenos semanales que no están completando. Además, las copias de seguridad en la nube para 20 TB de datos ... no es una buena idea. La opción "barata" de Amazon Glacier costará ~ 2500 / año, y recuperar todos esos datos costará ~ $ 36,000. - HopelessN00b
Eso no es realmente mucho - Sirex
Supongo que es una cuestión de opinión si $ 2400 / año es mucho para un almacenamiento relativamente seguro y libre de mantenimiento de 20 TB. Sin consumo de energía, sin refrigeración, sin hardware defectuoso, sin SLA, no ocupa espacio en el rack. Y como con la mayoría de los sistemas, debe esperar alrededor de 0 operaciones de recuperación completa. Y si necesita una recuperación, el precio es más como $ 1800 que $ 36000 (no estoy seguro de dónde obtuvo ese número). - Tedd Hansen
Para el glaciar, los $ 36K están bastante cerca. Lo calculo aproximadamente como $ 42K para los costos de recuperación en 20 TB. Todavía no es mucho sin embargo. El ancho de banda es más de un problema. - Sirex


Creo que la mejor solución para esto es lo que hacemos con nuestros datos de nómina, lo que debería requerir un esfuerzo mínimo para que usted lo implemente.

  • Inicialmente, se mantiene con el resto de los datos del servidor que se respaldan diariamente. Nuestro período de retención en esas copias de seguridad es de 13 meses.

  • Una vez que ya no esperemos que los datos deban modificarse (dos períodos de pago más adelante, IIRC), los datos se guardan (a través de un script) en un volumen de archivo que está excluido de las copias de seguridad regulares.

  • Se realiza una copia de seguridad del volumen de archivo en cinta cada año, y las cintas se envían a Cintas para un almacenamiento indefinido.

Esto nos permite tener acceso fácil y en línea a los datos que no cambian (por lo que no tenemos que llamar una cinta en cualquier momento en que un contador quiera ver algo), al tiempo que mantenemos archivos de datos fuera del sitio indefinidos que es posible que debamos conservar , y sin aplastar nuestro sistema de respaldo. Parece que el mismo tipo de configuración podría funcionar para usted, aunque es posible que desee ajustar la cantidad de datos que mantiene en línea, dependiendo de sus necesidades para acceder a estos datos de manera oportuna: 20 TB de almacenamiento de nivel empresarial es mucho más costoso que archivarlo en dos o tres conjuntos de cintas LTO5 que almacena en bóvedas fuera del sitio.


1
2017-12-12 16:58





Tal vez puedas construir tu propio Backblaze Pod: 135Tb para 7384 $
Haga clic aquí para mas información: Información de construcción de Backblaze Pod

Puedes comprar las piezas necesarias y construirlas por ti mismo.

Tal vez puedas construir 3 de ellos, y mantener 2 en el sitio y 1 fuera del sitio. Luego puede usar un pod como los "datos en línea", el segundo pod en el sitio como respaldo del primer pod, y el tercer pod fuera del sitio como respaldo de emergencia fuera del sitio.

Con 135 TB de almacenamiento para cada pod, incluso puede pensar en mantener un historial del cambio ...
135Tb / 20Tb = 19 copia de respaldo completa.
Alternativamente, puede mantener 10 copias de seguridad completas más una cantidad ridícula de copias de seguridad diferenciales.

Naturalmente, si desea una copia de seguridad externa, necesitará algún tipo de gran ancho de banda ... :-)


0
2017-12-18 08:28



Si sus datos y su trabajo son importantes para usted, no debe intentar construir su propio backblaze pod desde cero. Parece una buena idea, hasta que te das cuenta de que estás poniendo todos tus huevos en una canasta realmente grande. Peor aún, esa cesta no se ha probado a fondo como un todo integrado a fondo. La salsa secreta de backblaze es la replicación del software en muchas vainas, lo que permite que las vainas completas fallen sin problemas. En su lugar recomendaría un servidor de almacenamiento supermicro, centos, xfs y rdiff-backup. - bugaboo


Mi compañero de trabajo compró un Synology 8-disk NAS. Se ejecuta un RAID híbrido. Compró ocho Seagate Barracuda de 3 TB de NewEgg hace unas semanas por $ 89 cada uno. Podría rsync duplicar desde el NAS de producción a este nuevo NAS sobre GigaBit. Como solo está transfiriendo las diferencias, la transferencia tomará un tiempo más corto. A continuación, puede utilizar la copia de seguridad NAS para realizar completos o incrementales. El costo para usted sería menos de $ 2000 en la puerta de un NAS de respaldo.


-1
2017-12-12 16:38