Intermitencia en algunos de nuestros servidores el día 03 de Febrero 2023

Intermitencia en algunos de nuestros servidores el día 03 de Febrero 2023

Reporte completo: Intermitencia en algunos de nuestros servidores el día 03 de Febrero 2023

Fallas en los servicios de StudioVainilla
Incidente reportado y resguardado por nuestros partners.
Postmortem

Informe de Incidente postmorten – Informe proporcionado por nuestro Partner principal y proveedor de infraestructura y logística web.

Chihuahua, Chihuahua, 10 de febrero de 2023.

La información aquí expresada es responsabilidad de nuestro partner proveedor de infraestructura web.

 

Introducción al incidente

El viernes 3 de febrero a las 5:35 am GMT-5 se presentó un incidente sin precedentes causado por un ataque con el ransomware llamado “Nevada” a la infraestructura de nuestros partners. Normalmente, cuando ocurre un inconveniente con uno o varios servicios, se recibe una notificación en el segundo 30 a través del canal de #uptime en el chat interno de comunicación. Este canal recibe un tráfico moderado, con un promedio de 5 a 10 notificaciones prioritarias por día que todo el equipo puede ver.

Sin embargo, este no era un incidente normal. Se comenzaron a recibir “downtimes” de diferentes servidores y ubicaciones, lo cual no es común, ya que generalmente si un grupo de servicios tiene problemas, se localiza en una región geográfica. En cuestión de minutos, un 15% de la infraestructura de servidores dedicados, VPS y algunos servicios compartidos estaban caídos, aproximadamente 50 máquinas.

Este evento desconcertó y preocupó profundamente al equipo, especialmente porque era casi el comienzo de la jornada. Al verificar la conectividad en el datacenter, todo parecía estar bien, pero las máquinas estaban apagadas. Después de revisar algunos síntomas, al ingresar a la shell de gestión de cada nodo, se encontró el mensaje típico de ransomware que solicitaba 2 bitcoins para liberar la información. Este mensaje fue frío y escueto, con algunas particularidades que describiré más adelante.

Se estableció que el ataque estaba relacionado con ransomware, que infectaba los sistemas y encriptaba los datos importantes, bloqueándolos a los usuarios y empresas. Los atacantes exigían un rescate en criptomonedas a cambio de la descifración de los datos.

La investigación mostró que el malware se había propagado a través de un ataque orquestado por bots hacia un servicio llamado OpenSLP (este procedimiento se describirá en las notas).

Es importante reconocer que los clientes fueron víctimas de un delito de secuestro de información. Este fue un evento catastrófico para muchas empresas en todo el mundo. Aquí jugó la experiencia y habilidades del equipo para poner en operación rápidamente. Es importante entender que un evento de ransomware puede ocurrirte en cualquier proveedor, la diferencia es que el cliente debe tener la experticia para recuperar la operación rápidamente in house.

Afortunadamente no hubo ingreso a datos o robo de datos, debido a que los archivos de disco de VMware son imagenes de disco y no pueden ser accedidas sin que la máquina esté encendida y que haya un rompimiento de la clave de acceso, situación que no ocurrió.

El ataque causó un impacto significativo en la economía global, con empresas y organizaciones que perdieron grandes sumas de dinero debido a la paralización de sus sistemas y la necesidad de pagar el rescate. Algunas empresas incluso tuvieron que cerrar sus puertas debido a la pérdida irreparable de datos críticos.

La comunidad internacional se unió para trabajar en soluciones y prevenir futuros ataques similares. Los esfuerzos incluyen la colaboración entre gobiernos, empresas y organizaciones de seguridad para fortalecer las defensas contra esta vulnerabilidad específica.

Acerca del Ransomware

El ransomware es una técnica ilícita de secuestro de datos, en la que los ciberdelincuentes encriptan la información almacenada en discos duros u otros medios y exigen un rescate a cambio, a menudo a través de activos digitales no rastreables como el bitcoin. A nivel global, existen mafias millonarias dedicadas a este tipo de actividad, principalmente en China y Rusia. Según Business Insider, en 2022 se pagaron aproximadamente 500 millones de dólares en rescates, lo que representa una disminución del 40% en comparación con 2021.

Debido a la cantidad de variables que involucra, se ha determinado que la mejor manera de protegerse del ransomware es disponer de copia de respaldo en diferentes medios.

Vector de ataque

Se identificó la explotación de la vulnerabilidad CVE-2020-3992 y CVE-2021-21974 usando para ello el servicio OpenSLP de la ip de gestión principal de los servidores ESXi de Vmware mediante el uso masivo de bots.

Alcance

A la fecha se han contabilizado más de 1700 organizaciones afectadas según Shodan, en más de 30 países, habiendo alcanzado en nuestro proveedor de infraestructura web 50 servidores privados, dedicados y compartidos.

Timeline del Evento

La siguiente información está en horario GMT-5 (NY, Lima, Bogotá). Viernes 3 de Febrero.

  • El primer evento fue detectado a las 5:35 AM.
  • La primera comunicación con el centro de datos se realizó a través de chat a las 5:40 AM.
  • Se confirmó el ataque como ransomware a las 6:05 AM.
  • Comenzó la investigación y las pruebas a las 6:05 AM.
  • Se hizo el primer anuncio sobre el status del servicio a las 6:08 AM.
  • La primera reunión de emergencia se llevó a cabo a las 6:30 AM.
  • La primera reunión de coordinación de equipos tuvo lugar a las 7:30 AM.
  • El segundo anuncio sobre el estado del servicio se hizo a las 8:40 AM.
  • Se aisló el entorno de gestión de copias de seguridad a las 10:00 AM.
  • Se iniciaron algunas restauraciones a partir de las copias de seguridad a las 11:00 AM.
  • Se incrementó la infraestructura de copias de seguridad instalando más proxies para acelerar la carga a la 1:00 PM.
  • Investigadores turcos descubrieron cómo mitigar el problema, lo que permitió encontrar una solución que no fuera reiniciar todo desde las copias de seguridad a las 4:37 PM.
  • Se inició el plan de recuperación manual a las 5:00 PM.
  • El 90% de las máquinas afectadas están operativas, solo 5 aún están en proceso a las 7:00 PM.
  • Algunas de las máquinas dedicadas fueron afectadas por variantes de encriptación de discos VMDK. Fueron desencriptadas con el método del grupo de investigación YoreGroup Tech con un final satisfactorio. 11 pm.
  • El proceso de restauración de 4 máquinas compartidas se dilató hasta el día 5 debido a cuellos de botella en centro de datos y acceso al storage de backup.

 

Preparación para un ataque de Ransomware‌

Para protegerse contra el ransomware, es fundamental contar con copias de respaldo confiables. Debido a que no existe un sistema que sea completamente seguro (según el Teorema de Gödel de Completitud), siempre existe la posibilidad de ser vulnerado. Estos ataques aprovechan las vulnerabilidades del sistema para cifrar los archivos o bloquear el acceso al dispositivo con el objetivo de exigir un rescate.

Infortunadamente, este tipo de ataques suelen tener éxito debido a la falta de soluciones de seguridad completas, lo que significa que hay problemas sin resolver que podrían ser aprovechados por los atacantes.

Aunque pueda parecer alarmante, solo un 16% de las empresas realizan copias de respaldo en promedio. Para ayudar a proteger a nuestros clientes, hemos evolucionado nuestra política de copias de respaldo hasta ofrecer copias de respaldo para alguna de nuestra infraestructura en nuestros servicios que tengan el alcance de ofrecerlo.

En el pasado, hemos visto algunos casos de ransomware especialmente en servidores Windows, pero gracias a la tecnología más moderna que usamos, llamada CBT (Seguimiento de Cambios de Bloques), hemos logrado superar estos desafíos con éxito. Con CBT, a partir de una copia de respaldo, solo se revisan los bloques del disco que han cambiado y se realizan copias muy rápidamente. Por el contrario, las copias a nivel de archivo suelen ser funcionales a nivel de usuario final, siempre es recomendable contar con ambas soluciones: CBT (proporcionada por nuestro proveedor de servicios e infraestructura web), Copias a nivel de archivo (Responsabilidad del cliente)

En el pasado, clientes que han sufrido un ataque, la restauración se ha realizado en minutos gracias a que el delta (el espacio de tiempo en el que los datos han cambiado) se restaura de la misma manera, pasando solo los bloques que han cambiado. CBT representa un salto cuántico en la realización de copias de respaldo.

Acerca de Vmware

VMware es una empresa líder en tecnologías de cloud en el sector privado, y es ampliamente utilizada por muchas de las compañías en la lista Forbes Top 100. Con su tecnología de vanguardia, VMware ha sido un pionero en el campo y ha inspirado a otras nubes públicas como AWS y Google Cloud.

Los productos de VMware permiten a las empresas crear plataformas informáticas multicapa para mejorar la seguridad, reducir costos y aumentar la eficiencia, lo que los convierte en una solución ideal para empresas con requisitos de rendimiento elevado. En 2015, Dell realizó el acuerdo tecnológico más grande de todos los tiempos al adquirir VMware por 67 mil millones de dólares.

Actualmente, VMware es uno de los cinco principales jugadores en la gestión de cloud a nivel mundial y soporta más del 30% de las nubes privadas y públicas en todo el mundo. La infraestructura basada en VMware es versátil, moderna y segura, ofreciendo una solución confiable para la gestión de cloud.

Equipos de acción

Durante una reunión de emergencia, se constituyeron cuatro equipos de acción con el objetivo de abordar la situación de manera efectiva:

  1. Operación sin afectación: Un equipo se encargó de atender los requerimientos de la operación normal para un 85% de los clientes que no experimentaron ningún incidente.
  2. Manejo del incidente: Un segundo equipo se concentró en recuperar y mejorar la situación del incidente, con el fin de reducir el tiempo de respuesta (RTO).
  3. Atención a afectados: Un tercer equipo respondió a las necesidades de comunicación de aquellos que se vieron afectados por el incidente.
  4. Prevención e investigación: Un equipo se enfocó en tareas de prevención e investigación para evitar la propagación de la afectación, apagando servicios e investigando la mejor manera de restaurar el servicio.

Recomendaciones Estratégicas para Mitigar Riesgos para los Clientes

  • Importancia de Realizar Copias de Respaldo: Es importante destacar que es fundamental que los clientes realicen sus propias copias de respaldo de sus datos. Aunque en StudioVainilla ofrecemos copias de respaldo en muchos de los planes, con una antigüedad máxima de un día, es importante que los clientes tomen la responsabilidad de tener una copia de seguridad actualizada de sus datos. Para ello, existen servicios de pago que se pueden contratar.
  • Renovación de Servidores: Es importante considerar la renovación de servidores a nuevas gamas para garantizar una mayor seguridad. Un hardware con 5 años de operación puede ya no tener soporte y no permitir aplicar parches de seguridad, lo que pone en riesgo la información almacenada. En caso de que se presente la necesidad de adquirir nuevas gamas de servidores, es fundamental considerar la migración para mantener una plataforma segura y actualizada.
  • Educación sobre Phishing: Debido a incidentes previos de phishing con algunos clientes, es necesario promover una educación activa para detectar correos fraudulentos y prevenir ataques a través de este vector.
  • Uso de Mecanismos de Seguridad: Es recomendable utilizar mecanismos de seguridad disponibles en los servicios, como el almacenamiento seguro de contraseñas, la autenticación de doble factor y el uso de VPN para acceder a portales de gestión. Esto ayuda a proteger la información y aumentar la seguridad de las cuentas.

Conclusiones

Es importante reconocer que el incidente fue causado por un atacante malintencionado y que los clientes fueron víctimas de un ciberataque.

Este tipo de ataque no hubo ingreso de atacantes a los discos o hubo robo de archivos.

A pesar de ello, el esfuerzo y dedicación del personal, incluyendo el equipo de TI y operaciones, y de los profesionales de gestión TI en varios países, permitió responder de manera efectiva al incidente y minimizar su impacto.

El trabajo conjunto de ingenieros de todo el mundo también resultó crucial para prevenir un impacto aún mayor en el sistema. La planificación de emergencias y crisis tradicionalmente se enfoca en escenarios comunes que pueden generar un aumento temporal en la demanda de infraestructura de respaldo, pero un evento a escala es muy diferente y requiere una mayor capacidad de resiliencia.

Para aprovechar al máximo los aprendizajes de este incidente, es necesario ampliar las iniciativas existentes y diseñar una estrategia de restauración óptima que elimine cuellos de botella. Cabe destacar que en el 90% de los casos, no fue necesario recurrir a copias de respaldo ni a mecanismos de reparación y descifrado.

Notas:

Mecanismo de acción del Ransomware de este incidente https://www.varonis.com/blog/vmware-esxi-in-the-line-of-ransomware-fire

Qué es el Ransomware https://www.dongee.com/tutoriales/que-es-ransomware-ejemplo/
Medios
https://thehackernews.com/2023/02/new-wave-of-ransomware-attacks.html

https://www.voanews.com/a/ransomware-attacks-in-europe-target-old-vmware-agencies-say/6949349.html

https://www.armis.com/blog/ransomware-attack-targets-vmware-esxi-servers-worldwide/

https://www.cert.ssi.gouv.fr/alerte/CERTFR-2023-ALE-015/

https://www.redhotcyber.com/post/attacco-ransomware-su-larga-scala-acn-allerta-differenti-organizzazioni-ad-effettuare-le-mitigazioni/

Comunidad
https://enes.dev/

https://www.bleepingcomputer.com/forums/t/782193/esxi-ransomware-help-and-support-topic-esxiargs-args-extension/page-15

Contexto

https://www.marketwatch.com/press-release/cloud-computing-market-latest-research-and-development-2023-to-2030-amazon-web-services-vmware-microsoft-azure-aliyun-2023-01-30?mod=search_headline

https://cnnespanol.cnn.com/2015/10/12/historica-transaccion-dell-compra-emc-por-67-mil-millones-de-dolares/

Publicado: Feb 102023 – 12:33 GMT-05:00

 


 

Resolve – Se han restablecido la totalidad de los servidores y servicios.

Luego de la investigación del incidente y la recopilación de los laboratorios de investigación que trabajaron para una pronta solución, nuestro proveedor general a nivel internacional nos hará llegar un informe post suceso el cual, a su momento, entregaremos a ustedes nuestros clientes.

Nuestro equipo, nuestros aliados y proveedores en su totalidad nos encontramos felices y satisfechos, comprometidos de principio a fin en una situación que aquejó al mundo entero, agradecemos su paciencia, comprensión y mensajes de apoyo. 

Lograr lo que se logró el día 03 de Febrero 2023 a pesar de las dificultades, no cualquiera. Y gracias a ello, reforzamos el mensaje que siempre hemos compartido: Tenemos al mejor equipo de atención y soporte que tu empresa puede tener. Se demostró que aunque fue un problema mundial de una magnitud nunca antes visto en su afectación, salimos adelante con casi cero el delta la pérdida de datos.

Si necesitas más información al respecto, estamos disponibles en todos los canales de atención para brindarte el apoyo o resolución de dudas que requieras.

Feb 032023 – 23:48 GMT-05:00


Monitoring
 – En este momento se ha restablecido la mayoría de los servicios afectados.
Feb 032023 – 20:48 GMT-05:00

Update– El proceso avanza satisfactoriamente y muy rápido. Se logró tener en cero el Delta (¿Qué es?) de pérdida de datos en la mayoría, algunas pocas máquinas [servidores] (alrededor de 5) tienen un pequeño delta del backup de la madrugada del 3 de enero 2023.

Pronto estarán todas las máquinas al aire. Gracias por tu paciencia.
Feb 032023 – 19:11 GMT-05:00 

 
Update – Nuestro proveedor general esta trabajando en la infraestructura de restauración, diseñada para eventos generales, creando más servidores de restauración proxys para acelerar el trabajo, incrementando los hilos para disminuir el tiempo.
Feb 032023 – 15:55 GMT-05:00
 

Identified – Una nueva variante de Ransomware, un tipo de ataque sofisticado, alcanzo varios servidores de la infraestructura de Canadá haciendo que debamos acudir a nuestras copias de respaldo.

Nuestro proveedor general dispone de 2 tipos de copias de respaldo confirmadas que están en curso de restauración.

Debido a la gravedad (el ataque es una noticia mundial que afecta masivamente a varios centros de datos en Canadá y Europa, principalmente Francia) el ETA es incierto debido al volumen de datos a restaurar.

Nosotros y nuestro proveedor general está trabajando duro, con apoyo extra, para restaurar lo más pronto posible a clientes afectados.

Lamentamos el hecho, que nos preocupa debido a que es una situación global, pero tenemos copias de respaldo, algo importante.

Actualizaremos pronto.
Feb 032023 – 13:51 GMT-05:00

 
Update – Nuestro proveedor general identificó el inconveniente que afecta a varias cajas de servidores. Se está trabajando para restaurar pronto el mismo.

Feb 032023 – 08:40 GMT-05:00
 

Investigating – Debido a una falla en la infraestructura de nuestro proveedor general algunos servicios ofrecidos no se encuentran disponibles.

Nuestro equipo técnico y el de nuestro proveedor general está trabajando con el fin de identificar lo ocurrido.
Feb 032023 – 06:08 GMT-05:00

Anónimo Changed status to publish mayo 17, 2023
0
Write your answer.