Entradas

Azure Cosmos DB

En palabras de Microsoft, Cosmos DB es su servicio de base de datos multimodelo globalmente distribuida. Al ser globalmente distribuida permite la replicación y el uso de la base de datos sobre las regiones de Azure con unos cuantos clics y en muy poco tiempo. El ser multimodelo significa que no está atado a un modelo de datos como el relacional y deja al usuario la elección del modelo que mejor aplique para su caso de uso. 

Cosmos DB tiene otras características importantes, que fueron diseñadas para cumplir con los siguientes objetivos. 

  • Permitir a los clientes escalar el rendimiento y almacenamiento en demanda 
  • Permitir construir aplicaciones para misiones criticas de respuesta rápida 
  • El sistema debe estar siempre disponible 
  • Permitir a los desarrolladores elegir el nivel de trade-off entre consistencia y velocidad para su aplicación 
  • Automatizar la indexación si es deseado y deshacerse del uso de esquema de base de datos 
  • Soportar múltiples modelos de datos 

Cosmos DB entonces es ideal para algún proyecto o aplicación cuyas demandas puedan ser satisfechas por el cumplimiento de los puntos anteriores. 

Creando una cuenta de Cosmos DB  

Una vez que hemos accedido a nuestra cuenta de Azure buscamos y damos clic en agregar 

Nos mostrará la siguiente pantalla: 

La elección del API es muy importante. Como se ha mencionado Cosmos DB es un sistema multimodelo. Concretamente el nucleo de Cosmos es un sistema basado en ARS (Átomo, Registro y Secuencia) que es traducido al modelo de datos que hemos elegido. Al elegir un API elegimos una representación de nuestros datos así como el lenguaje que usaremos para interactuar con el. 

Las opciones son: 

  • Core (SQL). Modelo base de datos documental con lenguaje SQL. 
  • Mongo DB. Modelo base de datos documental con lenguaje Mongo DB y compatibilidad con herramientas de Mongo DB. 
  • Cassandra. Modelo base de datos columna-familia con lenguaje  Cassandra y  compatibilidad con herramientas de Cassandra. 
  • Tabla de Azure. Para aplicaciones de Azure Table Storage. 
  • Gremlin. Modelo base de datos de grafos con lenguaje Gremlin y compatibilidad con herramientas de Gremlin. 

Una vez creada la cuenta de Cosmos no podemos cambiar este API ni la manera como interactuar con él. En este tutorial usaremos Core (SQL). 

Redundancia geografica y escrituras en varias regiones habilitan los servicios globales pero estos pueden ser habilitados posteriormente. 

La sección de red nos servirá para gestionar los accesos a nuestra cuenta o si tenemos un servicio de redes virtuales. 

Una vez creado nuestro recurso accedamos a él y en la sección de explorador de datos veremos esta pantalla. 

Para empezar a trabajar con nuestros datos debemos crear una base de datos y un contenedor, esto se hace seleccionando el boton nombrado de esa manera. 

Dentro de los campos pedidos están las opciones de “Provision database throughput” y “Partition Key”.  

Provision database throughput establece un limite maximo de RUs para todos los contenedores de esa base de datos. Un RU (Request Unit) es la unidad manejada por Cosmos para determinar los costos y se usa para medir el numero de operaciones en la base de datos. Si aprovisionamos nuestra base de datos con 400RU/s seriamos capaces unicamente de realizar 400 operaciones de lectura sobre un documento de 1Kb. Para calcular con mayor detalle los costos se puede usar esta herramienta.  

Si elegimos aprovisionar la base de datos significará que cualquier contenedor dentro de esta base tendrá a lo más dicho rendimiento ya que las RUs se comparten entre todos los contenedores. Una mejor opción sería aprovisionar a nivel contenedor, que es posible. 

La opción Partition Key determina un campo de nuestro documento como llave de particiones. Es recomendado usar un campo que pueda garantizar particiones de tamaño similar. Dado que el rendimiento se distribuye entre las particiones el no seleccionar una llave de partición adecuada podría resultar en recursos no utilizados y cuellos de botella de rendimiento en las particiones más grandes. 

Habiendo creado nuestra base de Datos y Contenedor nos encontramos con esta pantalla. 

En las opciones de la izquierda vemos que podemos almacenar Items (Documentos JSON), así como Procedures, Triggers y funciones, estos últimos serán útiles si estamos interesados en implementar transacciones ya que Cosmos solo proporciona un ambiente transaccional para operaciones llevados a cabo dentro de ellos. 

El usar el API de SQL facilita a aquellos familiarizados con el lenguaje al no tener que aprender algún otro medio para interactuar con los datos. Aunque nuestros datos sean de tipo JSON podemos usar el SQL familiar para operar con ellos. 

Para ejemplificar su uso, creé dos documentos que se muestran a continuación. 

Podrán notar que ambos tienen una estructura distinta con campos distintos, esto es gracias al diseño sin esquema de Cosmos DB donde incluso podemos crear elementos complejos como arrays.

Además de esto en ningun momento tuvimos necesidad de crear indices, esto es gracias a que Cosmos se encarga automaticamente de la indexación. Para tener información a detalle sobre como los crea pueden consultar este documento.

Como ejemplo de las capacidades de SQL en cosmos estas imágenes muestran dos queries basicos.

Aunque el lenguaje es similar a SQL, existen escenarios que requieren el uso de funciones especiales. Adelante tenemos un ejemplo que en SQL clásico podría ser resuelto con el uso de la palabra reservada LIKE. En este caso, ya que los campos pueden ser desde strings hasta arrays debemos de usar la función Contains.

Utilizando el API podemos también interactuar con nuestra cuenta de Cosmos, podemos crear bases de datos y contenedores así como manejar la ingesta y manipulación de los datos.

Para mayor información pueden consultar los siguientes links.

Información Técnica.

Transacciones en Cosmos DB.

Particiones.