Acronis almacenamiento: nodo Servidor Chunk está en 'Error' Estado

MDS WRN: CS#1025 have reported IO error on pushing chunk 1cee of 'data.0', please check disks
MDS ERR CS#1026 detected back storage I/O failure
MDS ERR CS#1026 detected journal I/O failure
MDS WRN: Integrity failed accessing 'data.0' by the client at 192.168.1.11:42356
MDS WRN: CS#1025 is failed permanently and will not be used for new chunks allocation

Porque

En caso de un error de E / S es devuelto por cualquier disco, Chunk servidor que se encuentra en este disco se conmuta al estado 'fracasado'. Acronis almacenamiento no se recuperaría automáticamente el CS de este estado, incluso después de un reinicio del nodo de almacenamiento.

Justo después se produce un error de E / S, el sistema de archivos se vuelve a montar en el modo de sólo lectura y almacenamiento de Acronis ya no se trata de asignar los fragmentos de datos en los CS. Al mismo tiempo, si la unidad se encuentra disponible para la lectura, Acronis almacenamiento intenta replicar todos los trozos de ella.

Solución

Se recomienda el siguiente flujo de trabajo para solucionar el problema:

Determinar disco afectado.
Comprobar su estado de salud.
Decidir si el dispositivo necesita ser reemplazado.
Con base en la información anterior, el retorno falló CS al estado activo o desmantelar la misma.

1. Determinar el dispositivo afectado

¿Cómo encontrar el nodo afectado y conducir con WebCP
En el menú de la izquierda, ir a los nodos y haga clic en el nodo marcado como Error . Anote el nombre de este nodo. Haga clic en discos y encontrar el disco marcado como Error. Tenga en cuenta el nombre de dispositivo para este disco (por ejemplo, la captura de pantalla SDC):
¿Cómo encontrar el disco afectado con SSH y CLI
Acceder a cualquier nodo de la agrupación de almacenamiento de Acronis con SSH.

Ejecuta el siguiente comando:
vStorage -c <nombre_clúster> stat | grep falló

Ejemplo de salida:

[root@ ~]# vstorage -c PCKGW1 stat | grep failed
connected to MDS#2
CS nodes: 6 of 6 (5 avail, 0 inactive, 0 offline, 1 out of space, 1 failed), storage version: 122
1026 failed 98.2GB 0B 6 2 0% 0/0 0.0 172.29.38.210 7.5.111-1.as7

Nota CS ID representada en la primera columna (1026 en el ejemplo anterior) y la dirección IP del nodo donde se encuentra CS (172.29.38.210 en el ejemplo anterior).

Entre para el nodo afectado.

Para determinar el disco donde se encuentra la CS afectada, el uso siguiente comando:
vStorage -c <nombre_clúster> Lista de servicios

Ejemplo de salida:

Aunque el CS se encuentra en el estado fallido, que se está ejecutando y la replicación de datos a otra CSS, si es posible. Por lo tanto, en la salida del comando de la lista de servicios que se muestra como activa.

[Root @ PCKGW1 ~] # vStorage PCKGW1 -c lista de servicios
TYPE ID ENABLED STATUS DEVICE/VOLUME GROUP DEVICE INFO PATH
CS 1025 enabled active [1297] /dev/sdd1 VMware Virtual disk /vstorage/df218335/cs
CS 1026 enabled active [1288] /dev/sdc1 VMware Virtual disk /vstorage/12bb6baf/cs
MDS 1 enabled active [1295] /dev/sdb1 VMware Virtual disk /vstorage/38b5fb92/mds

En la columna ID encontrar CS con el ID que ha anotado en el paso anterior. Nota dispositivo / volumen de los CS y su ruta (ver columna PATH). La columna PATH es útil que es necesario revisar el archivo de registro de CS dada. El archivo de registro se encuentra en ruta / logs ( / vStorage / 12bb6baf / cs / logs para el ejemplo anterior ).

2. Comprobar el estado de salud del disco afectado

El objetivo final de este paso es recoger la información necesaria para tomar una decisión si es posible seguir usando el disco afectado, o si debe ser reemplazado.

La siguiente información debe ser revisada y analizada para cualquier dato relacionado con el tema:

dmesg salida del comando. Es práctico el uso de -T dmesg para ver las marcas de tiempo legible.
Mensajes / var / log / archivo
Estado SMART del disco duro físico. Podría ser adquirido con: -un systemctl <dispositivo afectado>

3. Decidir si el dispositivo necesita ser reemplazado

Dependiendo del tipo físico de almacenamiento (JBOD unido directamente, iSCSI LUN, canal de fibra, etc.) y circunstancias particulares, e mensajes de error XACT y patrones varían mucho.

Aquí hay algunas reglas básicas para facilitar el proceso de toma de decisiones:

Si el estado SMART es insatisfactorio para el disco físico, esto generalmente significa que el disco necesita ser reemplazado.
Compruebe si problemas similares o cualesquiera otros mensajes de error se registran previamente para este disco. Si el problema aparece por primera vez, por lo general CS podría ser reutilizado sin cambios de configuración. Sin embargo prestar especial atención a los CS en el futuro.
Si hay varios mensajes de error presentes en dmesg y / o / var / log / mensajes para varios discos en un único plano posterior o controlador RAID, esto significa hardware en sí podría ser un culpable. Póngase en contacto con su proveedor de hardware para su revisión adicional.
En caso de dispositivo iSCSI cualquier error de E / S podría ser el resultado de la conectividad de red deficiente o configuración de la red incorrecta. Resolución de problemas debe comenzar con verificación de la red completa.
Si Acronis almacenamiento se instala en una máquina virtual y CS se encuentra en .vmdk o .vhd archivo almacenado en un NAS, tal sistema debe ser revisado cuidadosamente para la fiabilidad antes de ir a la producción. Naves de almacenamiento de Acronis una herramienta especial, vStorage-hwflush-cheque, para comprobar cómo una rubores de dispositivos de almacenamiento de datos en el disco en un caso de emergencia, tales como corte de energía. Se recomienda utilizar esta herramienta para asegurarse de que su almacenamiento se comporta correctamente en caso de eventos de apagado. En este artículo se explica cómo utilizar la herramienta.

4. Volver falló CS a nivel de Activo

Si se decide volver a utilizar el mismo SC en la misma unidad, siga los siguientes pasos:

Reinicie el nodo de almacenamiento de Acronis afectados
Compruebe dmesg | grep <nombre del disco> (. ej dmesg | grep SDC en el ejemplo anterior) para cualquier mensaje de error del sistema de archivos en la unidad afectada. En caso de errores comprobar el sistema de archivos con fsck o e2fsck

Use siguiente comando para anular el estado fallido para el CS:

vstorage -c <cluster_name> rm-cs -U <CSID>
Verificar y confirmar el estado activo para el CS con el comando siguiente:
vStorage -c <nombre_clúster> stat | grep <CSID>