Entradas etiquetadas con nosql
Facebook migra 30 Petabytes con Hadoop
16 Ago
Para aquellos que todavía no lo sepan, Facebook es un excelente usuario de Hadoop, y hace algunas cosas muy chulas para las necesidades tan únicas de Zuckerberg.
Hace unos pocos días compartieron una de sus últimas innovaciones, migrar un cluster de 30 Petabytes de un datacenter a otro. Paul Yang de FB lo explicaba en su página. La migración era necesaria ya que se estaban quedando sin energía ni espacio (WTF!) para expandir su cluster, que seguramente será el mayor del mundo. Yang proponía dos opciones, migrar físicamente los equipos o replicarlos: Facebook eligió la segunda para minimizar cualquier caída.
Una vez tomada la decisión, los duendes de la red social empezaron a copiar los datos, asegurandose de mantener la integridad de los mismos, es decir contemplar cualquier cambio que se aplicara sobre estos ficheros durante copia de los mismos. Evidentemenete, el mega-ultra-enorme cluster generó algunos problemas, tanto por la replicación como por la carga de los nuevos datos.
Buscando una plataforma Había que diseñar un sistema que pudiera manejar el tamaño de los almacenes. Se entiende por almacenes a estructuras de datos que contienen millones de archivos, carpetas e instancias anidadas. Ya habían utiliza un sistema de replicación similar en clusters más pequeños y no había aguantado… Más >
Dime como funciona: La arquitectura de YouTube
21 Jun
Youtube al igual de Google o Apple es una de esas empresas que nadie se plantea cómo funcionan, símplemente lo hacen. Es algo así como un mago en un escenario, sabes que hay un truco no lo ves pero ahí está, es magia.
Hace unos meses me topé con este video donde uno de estos magos se sube a un escenario, se trata del ingeniero jefe de Youtube, Coung Do. Durante una hora, nos enseñaba (con mucho humor) al resto de los mortales como funcionaba Youtube en sus inicios.
Os dejo el video original por si alguien se anima (52 minutos)
Las cifras- Youtube tiene un 12000 visitantes por segundo, mil millones por día
- Soporta la distribución de más de 100 millones de videos al día
- Fue comprada por Google en 2009 por 1650 millones de dólares
- Empezaron con el siguiente equipo (9 personas): 2 Sysadmins, 2 arquitectos de escalabilidad, 2 desarrolladores, 2 ingenieros de red y 1 administrador de bases de datos.
El video es muy ilustrativo, desde su inicio Youtube entró en una vorágine de cuellos de botella, ante el increible éxito que alcanzaban cada mes. Para escalar tenían que mantenerlo sencillo y barato, utilizando hardware de consumo (que como veis es la Más >
Cassandra y NoSQL, el futuro de las bases de datos
16 Ago
Desde que Twitter mencionó el nombre de la sacerdotisa que predijo la caida de Troya, todas las miradas apuntaron a una nueva tecnología. Se presentaba como el futuro de las bases de datos, solucionaría el problema de FAIL WHALE y de camino aprenderíamos cosas nuevas y divertidas, cuando se les pasó la borrachera decidieron utilizarlo sólo para las futuras herramientas de analytics que preparan, así que por el momento seguimos con nuestras herramientas de toda la vida, MySQL y las bases de datos relacionales la solución standard para el almacenamiento y recuperación de datos.
¿Donde está el problema entonces?
Las bases de datos relaciones se fundamentan en los principios ACID; Atomicity, Consistency, Isolation y Durability. En la entrada de la wikipedia explican estos conceptos con exquisita claridad, el quiz llega cuando las aplicaciones web actuales con encajan en esos esquemas. Tienen nuevas necesidades de las bases de datos, imagina el procesador de un Eurofighter y de un microondas, el tiempo de respuesta no es tan crítico en el segundo ¿verdad? además no es necesario que funcione a 0.2 atmosferas o -50ºC. Aquí pasa lo mismo, las nuevas estructuras de computación distribuida obligan a reconsiderar algunas de las herramientas al subirnos a la nube.
¿Por qué Cassandra?
Básicamente, porque es Más >

