Diapositivas de la Universidad Europea sobre Big Data II: Herramientas. El Pdf presenta los principales instrumentos utilizados en proyectos Big Data, con un enfoque en los lenguajes de programación Python y Julia, así como motores de procesamiento y búsqueda para el análisis de grandes volúmenes de datos en Informática a nivel universitario.
Ver más49 páginas


Visualiza gratis el PDF completo
Regístrate para acceder al documento completo y transformarlo con la IA.
Ue Universidad Europea BIG DATA II TEMA 3: Herramientas Ve más alláve Universidad Europea
@ Copyright Universidad Europea. Todos los derechos reservados 2Ue Universidad Europea
PARADIGMA DE CAUSALIDAD Se buscan relaciones causa-efecto
PARADIGMA DE CORRELACIÓN Se buscan relaciones de cualquier tipo entre variables
@ Copyright Universidad Europea. Todos los derechos reservados 3ue Universidad Europea
Los datos masivos imponen un nuevo paradigma donde la correlación "sustituye" a la causalidad. Determinar la causalidad de un fenómeno pierde importancia y, en contraposición, "descubrir" las correlaciones entre las variables se convierte en uno de los objetivos principales del análisis.
¿Por qué? ¿Qué?
@ Copyright Universidad Europea. Todos los derechos reservados 4Ue Universidad Europea
@ Copyright Universidad Europea. Todos los derechos reservados 5Ue Universidad Europea
Computación en paralelo: enjoy algorithms Divide & Conquer Approach Base Case Sub-problem size n/2 Solution of Sub- problem size n/2 Problem size n Solution of Problem size n Sub-problem size n/2 Solution of Sub-problem size n/2 Divide Step Combine Step Conquer Step
@ Copyright Universidad Europea. Todos los derechos reservados 6Ue Universidad Europea
Sistema distribuido
@ Copyright Universidad Europea. Todos los derechos reservados 7Ue Universidad Europea
BASES DE DATOS DISTRIBUIDAS
@ Copyright Universidad Europea. Todos los derechos reservados 8ue Universidad Europea
BBDD relacionales: almacenan los datos en tablas y permiten las interconexiones o relaciones entre los datos de distintas tablas. Constan de registros (filas) y campos (columnas) que son los distintos tipos de información con que se relacionan. Se relacionana entre sí por medio de claves (identificadores).
Ejemplos de software para procesar BBDD relacionales: DB2, Oracle, MySQL, etc.
@ Copyright Universidad Europea. Todos los derechos reservados 9Ue Universidad Europea
BBDD no relacionales:
Ejemplos de software para procesar BBDD no relacionales: Mongo DB, Cassandra, Hadoop
@ Copyright Universidad Europea. Todos los derechos reservados 10ve Universidad Europea
Tipos de BBDD no relacionales:
@ Copyright Universidad Europea. Todos los derechos reservados 11ve Universidad Europea
Tipos de BBDD no relacionales: 1. Key value (clave valor)
Clave Valor Valor Valor
@ Copyright Universidad Europea. Todos los derechos reservados 12ve Universidad Europea
Tipos de BBDD no relacionales: 2. Column family (en columnas)
1 1 1 1 1 1 1 1
@ Copyright Universidad Europea. Todos los derechos reservados 13ve Universidad Europea
Tipos de BBDD no relacionales: 3. Graph DB
Nodo Aristas
@ Copyright Universidad Europea. Todos los derechos reservados 14ve Universidad Europea
Tipos de BBDD no relacionales: 4. Document
Lenguaje JSON
@ Copyright Universidad Europea. Todos los derechos reservados 15Ue Universidad Europea
TEOREMA CAP (Consistency, Availability, Partition tolerance)
Este teorema fue presentado por Eric Brewer en el año 2000 y su nombre está basado en los siguientes tres atributos claves de los sistemas distribuidos:
C - Consistencia (Consistency): Se refiere a la lectura coherente del valor actual del dato desde cualquier instancia, es decir que los datos se encuentran sincronizados y replicados en todos los nodos a la vez.
A - Disponibilidad (Availability): Se refiere a obtener una respuesta válida y rápida para todas las solicitudes, aunque existan nodos inactivos, es decir el acceso a los datos sin interrupciones.
P - Tolerancia a particiones (Partition tolerance): Se refiere a la capacidad del sistema para permanecer estable y continuar procesando solicitudes a pesar de ocurrir una partición (interrupción) entre la comunicación de los nodos.
@ Copyright Universidad Europea. Todos los derechos reservados 16Ue Universidad Europea
TEOREMA CAP (Consistency, Availability, Partition tolerance)
!Un sistema distribuido NO PUEDE CONSEGUIR las tres letras del teorema, es decir no se puede lograr la intersección de los tres atributos!
Consistencia y Disponibilidad: Availibility Consistency System continues to function even with node failures AC RDBMS All users see the same data at the same time Not possible AP Cassandra, CouchDB CP BigTable, MongoDB, HBase Partition Tolerance
Consistencia y Torelancia a particiones
Disponibilidad y Tolerancia a particiones
System continues to function even if the communication failes between nodes
@ Copyright Universidad Europea. Todos los derechos reservados 17Ue Universidad Europea
TEOREMA CAP (Consistency, Availability, Partition tolerance)
El Teorema CAP nos da tres opciones de combinaciones de pares de atributos que pueden garantizarse a la vez:
CA: Consistencia y Disponibilidad - Se garantiza el acceso a la información y el valor del dato es consistente (igual) para todas las peticiones atendidas; de haber cambios, se mostrarán inmediatamente. Sin embargo, la partición de los nodos no es tolerada por el sistema de forma simultánea.
AP: Disponibilidad y Tolerancia a la partición - Se garantiza el acceso a los datos y el sistema es capaz de tolerar (gestionar) la partición de los nodos, pero dejando en segundo plano la consistencia de los datos, ya que no se conserva y el valor de dato no estará replicado en los diferentes nodos al instante.
CP: Consistencia y Tolerancia a la partición - Se garantiza la consistencia de los datos entre los diferentes nodos y la partición de los nodos se tolera, pero sacrificando la disponibilidad de los datos, con lo cual, el sistema puede fallar o tardar en ofrecer una respuesta a la petición del usuario.
@ Copyright Universidad Europea. Todos los derechos reservados 18