Acronis almacenamiento: nodo Servidor Chunk está en 'Error' Estado

    MDS WRN: CS#1025 have reported IO error on pushing chunk 1cee of 'data.0', please check disks
    MDS ERR CS#1026 detected back storage I/O failure
    MDS ERR CS#1026 detected journal I/O failure
    MDS WRN: Integrity failed accessing 'data.0' by the client at 192.168.1.11:42356
    MDS WRN: CS#1025 is failed permanently and will not be used for new chunks allocation

    Porque

    En caso de un error de E / S es devuelto por cualquier disco, Chunk servidor que se encuentra en este disco se conmuta al estado 'fracasado'. Acronis almacenamiento no se recuperaría automáticamente el CS de este estado, incluso después de un reinicio del nodo de almacenamiento. 

    Justo después se produce un error de E / S, el sistema de archivos se vuelve a montar en el modo de sólo lectura y almacenamiento de Acronis ya no se trata de asignar los fragmentos de datos en los CS. Al mismo tiempo, si la unidad se encuentra disponible para la lectura, Acronis almacenamiento intenta replicar todos los trozos de ella. 

    Solución

    Se recomienda el siguiente flujo de trabajo para solucionar el problema: 

    1. Determinar disco afectado.
    2. Comprobar su estado de salud.
    3. Decidir si el dispositivo necesita ser reemplazado.
    4. Con base en la información anterior, el retorno falló CS al estado activo o desmantelar la misma.

    1. Determinar el dispositivo afectado

    ¿Cómo encontrar el nodo afectado y conducir con WebCP
    En el menú de la izquierda, ir a los nodos y haga clic en el nodo marcado como Error . Anote el nombre de este nodo. Haga clic en discos y encontrar el disco marcado como Error. Tenga en cuenta el nombre de dispositivo para este disco (por ejemplo, la captura de pantalla SDC): 
    ¿Cómo encontrar el disco afectado con SSH y CLI
    Acceder a cualquier nodo de la agrupación de almacenamiento de Acronis con SSH.

    Ejecuta el siguiente comando: 
    vStorage -c <nombre_clúster> stat | grep falló

    Ejemplo de salida: 

    [root@ ~]# vstorage -c PCKGW1 stat | grep failed
    connected to MDS#2
    CS nodes:  6 of 6 (5 avail, 0 inactive, 0 offline, 1 out of space, 1 failed), storage version: 122
      1026 failed     98.2GB     0B        6        2     0%       0/0    0.0  172.29.38.210 7.5.111-1.as7

    Nota CS ID representada en la primera columna (1026 en el ejemplo anterior) y la dirección IP del nodo donde se encuentra CS (172.29.38.210 en el ejemplo anterior).

    Entre para el nodo afectado. 

    Para determinar el disco donde se encuentra la CS afectada, el uso siguiente comando: 
    vStorage -c <nombre_clúster> Lista de servicios

    Ejemplo de salida: 

    Aunque el CS se encuentra en el estado fallido, que se está ejecutando y la replicación de datos a otra CSS, si es posible. Por lo tanto, en la salida del comando de la lista de servicios que se muestra como activa.

    [Root @ PCKGW1 ~] # vStorage PCKGW1 -c lista de servicios
    TYPE    ID      ENABLED  STATUS        DEVICE/VOLUME GROUP  DEVICE INFO             PATH
    CS      1025    enabled  active [1297] /dev/sdd1            VMware   Virtual disk   /vstorage/df218335/cs
    CS      1026    enabled  active [1288] /dev/sdc1            VMware   Virtual disk   /vstorage/12bb6baf/cs
    MDS     1       enabled  active [1295] /dev/sdb1            VMware   Virtual disk   /vstorage/38b5fb92/mds

    En la columna ID encontrar CS con el ID que ha anotado en el paso anterior. Nota dispositivo / volumen de los CS y su ruta (ver columna PATH). La columna PATH es útil que es necesario revisar el archivo de registro de CS dada. El archivo de registro se encuentra en ruta / logs ( / vStorage / 12bb6baf / cs / logs  para el ejemplo anterior ).

    2. Comprobar el estado de salud del disco afectado

    El objetivo final de este paso es recoger la información necesaria para tomar una decisión si es posible seguir usando el disco afectado, o si debe ser reemplazado.

    La siguiente información debe ser revisada y analizada para cualquier dato relacionado con el tema: 

    • dmesg salida del comando. Es práctico el uso de -T dmesg para ver las marcas de tiempo legible. 
    • Mensajes / var / log /  archivo
    • Estado SMART del disco duro físico. Podría ser adquirido con:  -un systemctl <dispositivo afectado> 

    3. Decidir si el dispositivo necesita ser reemplazado

    Dependiendo del tipo físico de almacenamiento (JBOD unido directamente, iSCSI LUN, canal de fibra, etc.) y circunstancias particulares, e mensajes de error XACT y patrones varían mucho.

    Aquí hay algunas reglas básicas para facilitar el proceso de toma de decisiones: 

    • Si el estado SMART es insatisfactorio para el disco físico, esto generalmente significa que el disco necesita ser reemplazado.
    • Compruebe si problemas similares o cualesquiera otros mensajes de error se registran previamente para este disco. Si el problema aparece por primera vez, por lo general CS podría ser reutilizado sin cambios de configuración. Sin embargo prestar especial atención a los CS en el futuro. 
    • Si hay varios mensajes de error presentes en dmesg y / o / var / log / mensajes para varios discos en un único plano posterior o controlador RAID, esto significa hardware en sí podría ser un culpable. Póngase en contacto con su proveedor de hardware para su revisión adicional.
    • En caso de dispositivo iSCSI cualquier error de E / S podría ser el resultado de la conectividad de red deficiente o configuración de la red incorrecta. Resolución de problemas debe comenzar con verificación de la red completa. 
    • Si Acronis almacenamiento se instala en una máquina virtual y CS se encuentra en .vmdk o .vhd archivo almacenado en un NAS, tal sistema debe ser revisado cuidadosamente para la fiabilidad antes de ir a la producción. Naves de almacenamiento de Acronis una herramienta especial, vStorage-hwflush-cheque, para comprobar cómo una rubores de dispositivos de almacenamiento de datos en el disco en un caso de emergencia, tales como corte de energía. Se recomienda utilizar esta herramienta para asegurarse de que su almacenamiento se comporta correctamente en caso de eventos de apagado. En este artículo se explica cómo utilizar la herramienta.

    4. Volver falló CS a nivel de Activo

    Si se decide volver a utilizar el mismo SC en la misma unidad, siga los siguientes pasos: 

    • Reinicie el nodo de almacenamiento de Acronis afectados
    • Compruebe  dmesg | grep <nombre del disco>  (. ej  dmesg | grep SDC  en el ejemplo anterior) para cualquier mensaje de error del sistema de archivos en la unidad afectada. En caso de errores comprobar el sistema de archivos con  fsck  o  e2fsck

     Use siguiente comando para anular el estado fallido para el CS: 

    • vstorage -c <cluster_name> rm-cs -U <CSID>

    • Verificar y confirmar el estado activo para el CS con el comando siguiente:

      vStorage -c <nombre_clúster> stat | grep <CSID>