12/12/2012

El siguiente paso en la infraestructura de Tienda Nube

Servidores

Mi nombre es Alejandro y soy el CTO de Tienda Nube, responsable de la infraestructura tecnológica en la empresa y el desarrollo de la plataforma.

Como ya hemos comunicado, el pasado Miércoles 5 de Diciembre nuestro servicio se vio interrumpido desde las 6.15 ART hasta las 16.29 ART, a causa de una falla en los servidores.

Nuestros servidores se encuentran en Estados Unidos, en la empresa Rackspace, una de las empresas de cloud hosting líder del mercado. Sin embargo, en uno de los datacenters ocurrió un problema físico en varios de los discos duros que utiliza Tienda Nube. Al ser un problema físico, es decir de Hardware y no de Software, no tuvimos la posibilidad de accionar directamente, y nuestro equipo debió trabajar junto al equipo de Rackspace para su solución. Por eso no pudimos responder con la velocidad que te mereces.

Ese día nos comprometimos a comunicarte un plan para que no se repitan caídas de esta magnitud. Hoy te escribo para comunicarte ese plan.

Seguramente lo que te estés preguntando es “¿Qué hará Tienda Nube para que en caso de que suceda lo mismo mi tienda no esté caída por tanto tiempo?“. Te cuento las distintas mejoras que realizaremos en la infraestructura:

  • Migraremos de Rackspace a Amazon Web Services. Proveedor que utilizan empresas líderes como Netflix, Unilever, la NASAHarvardPinterest, TicketMaster, Nokia Siemens Networks y Foursquare, entre otros.
  • Agregaremos 6 servidores dedicados a distintas tareas relevantes, las cuales hasta el momento estaban centralizadas.
  • Duplicaremos los Application Servers para que en caso de falla o de saturación en un servidor, otro pueda responder de forma efectiva el pedido del usuario.
  • Para el servidor de Base de Datos utilizaremos Amazon RDS, el cual mantiene la información sincronizada en otro servidor tal que en caso de una falla en el servidor de base de datos principal, automáticamente se active la réplica sin pérdida de información.
  • Utilizaremos Amazon S3 como servicio de almacenamiento, el cual según Amazon está “diseñado para tener una durabilidad de objetos del 99.999999999% y disponibilidad del 99,99% en un año determinado“. Al igual que el servidor de base de datos, esta información también se encontrará replicada para que en caso de falla, los datos estén disponibles.
  • Implementaremos un Cache Server para responder más rápido los pedidos más solicitados por los usuarios.
  • Crearemos un servidor de monitoreo especializado para darle seguimiento al estado de otros servidores y asegurarnos de que estén funcionando como corresponde.
  • Como consecuencia de los puntos mencionados anteriormente, tendremos al menos un nivel de redundancia para los datos, los archivos y la aplicación, los componentes más importantes del servicio. Esto quiere decir que en caso de una falla en alguno de los servidores responsables por uno de estos componentes, una réplica estará disponible en otro servidor.
  • Adicionalmente, toda la información que se encuentra duplicada estará alojada en otro datacenter ubicado en otra región geográfica (en la misma ciudad, pero en otra región). Esto nos protege frente a fallas como incendios o tormentas.
  • Por último, es importante destacar que utilizaremos los datacenters de Amazon ubicados en San Pablo, Brasil. Esto disminuye significativamente el tiempo de respuesta de los pedidos (también conocido como la latencia). Utilizando este servicio puedes probar la diferencia en los tiempos de respuesta de los datacenters de Amazon en distintas partes del mundo. Si te encuentras en Sudamérica, observarás que el tiempo de respuesta de Brasil es menos del 30% que el de los datacenters de Estados Unidos.

Este es un gran paso hacia adelante para la infraestructura de Tienda Nube y tendrá como resultado una enorme mejora en la disponibilidad del servicio.

Sin embargo, como lo hicimos en todo este proceso, me gustaría ser transparente en algunos puntos:

  • Un cambio de esta magnitud no se produce de la noche a la mañana. A pesar de que comenzamos a trabajar en este plan de mejora ni bien solucionamos el incidente del 5 de Diciembre, estimamos que la implementación del mismo demorará unas tres o cuatro semanas aproximadamente.
  • Esto no quiere decir que es imposible que ocurra una interrupción del servicio. Al igual que en todos los servicios de Internet, las caídas pueden suceder por diversas razones, a veces exógenas, como catástrofes naturales. Es por esto que ningún servicio garantiza una disponibilidad del 100%. Sin embargo, esta infraestructura nos permite evitar que el servicio caiga frente a un mayor número de causas y, en caso de una caída, poder restablecer el servicio significativamente más rápido.

Seguiremos trabajando y maximizando los esfuerzos para brindarte el mejor servicio y hacerte sonreír.

Saludos,

Alejandro Alfonso,
Co-Fundador & CTO, Tienda Nube

Fecha de la última actualización: 17/12/2014


¿Te gustó el contenido?


Alejandro Alfonso

Alejandro es un apasionado por la tecnología y es uno de los fundadores de Tienda Nube, donde ejerce el rol de CTO.


    Ecommerce por Expertos

    Conversaciones exclusivas con especialistas en comercio electrónico. ¡Llevá tu negocio a otro nivel!

    el-siguiente-paso-en-la-infraestructura-de-tienda-nube