Introducción y objetivos del módulo: Big Data, IA e IoT con herramientas de análisis

Diapositivas de Imf Smart Education sobre Introducción y objetivos de módulo. El Pdf, un material didáctico de Informática para Universidad, aborda big data, inteligencia artificial e Internet de las cosas, presentando herramientas como Alteryx, Power BI, BigML y KNIME.

Ver más

18 páginas

I. Introducción y objetivos de módulo
Introducción y objetivos de módulo
Ya no es una sorpresa oír hablar en cualquier medio de comunicación de big data, inteligencia artificial (IA),
el internet de las cosas (IoT), la industria 4.0, que los datos son el nuevo petróleo del siglo XXI, que cada día
se generan nuevos terabytes de datos y, sobre todo, que esta tendencia seguirá aumentando de forma
significativa; pero, si tantos datos hay y tantos se general, ¿cuál es la mejor forma de tratar los datos?,
¿cómo podemos asegurar el éxito de un proyecto basado en datos? Es aquí donde toma importancia el rol de
data scientist o científico de datos, ya que es la persona (o equipo) encargado de hacer brillar los datos de
una compía y sacar el ximo partido de los mismos para mejorar la capacidad de toma de decisiones de
esta.
Lección 1 de 1
I. Introducción y objetivos de módulo
1.1. Introducción general

Visualiza gratis el PDF completo

Regístrate para acceder al documento completo y transformarlo con la IA.

Vista previa

Introducción y objetivos del módulo

EAR Introducción y objetivos de módulo IME Smart Education = I. Introducción y objetivos de móduloLección 1 de 1 I. Introducción y objetivos de módulo 3 U R E W H G F 0 A B c 7 caps lock option 1 1.1. Introducción general delete 6 P o 1ekim L K M N Ya no es una sorpresa oír hablar en cualquier medio de comunicación de big data, inteligencia artificial (IA), el internet de las cosas (IoT), la industria 4.0, que los datos son el nuevo petróleo del siglo XXI, que cada día se generan nuevos terabytes de datos y, sobre todo, que esta tendencia seguirá aumentando de forma significativa; pero, si tantos datos hay y tantos se general, ¿cuál es la mejor forma de tratar los datos?, ¿cómo podemos asegurar el éxito de un proyecto basado en datos? Es aquí donde toma importancia el rol de data scientist o científico de datos, ya que es la persona (o equipo) encargado de hacer brillar los datos de una compañía y sacar el máximo partido de los mismos para mejorar la capacidad de toma de decisiones de esta.Dentro de un equipo de analítica, concretamente los científicos de datos se caracterizan por dominar las siguientes competencias:

Competencias del científico de datos

ESTADÍSTICA: DESARROLLO SOFTWARE: COMUNICACIÓN: CONOCIMIENTO DEL DOMINIO: No solamente para la aplicación y puesta en marcha de algoritmos, sino para ayudar a la compañía a conocer al detalle el dato y revelar las relaciones ocultas que cada variable o característica tiene con el resto, dentro de un conjunto de datos o dataset. Un buen científico de datos sabrá aplicar test estadísticos para comprobar sus hipótesis en cuanto a la naturaleza de los datos y, por supuesto, tendrá nociones de modelado estadístico.

ESTADÍSTICA: DESARROLLO SOFTWARE: COMUNICACIÓN: CONOCIMIENTO DEL DOMINIO: Es algo evidente, ya que cada vez más empresas se mueven en entornos digitales o están realizando procesos de digitalización; sumado a esto, los datos de una empresa pueden provenir de diferentes fuentes (heterogéneas) y estar en diferentes puntos de acceso (bases de datos, archivos Excel, archivos de texto plano, archivos de internet, PDF, etc.). Por lo tanto, un científico de datos tiene que saber de desarrollo software (principalmente, orientado a programación científica) para cargar los datos como datasets, saber limpiarlos y transformarlos para que estos tengan sentido.

ESTADÍSTICA: DESARROLLO SOFTWARE: COMUNICACIÓN: CONOCIMIENTO DEL DOMINIO: Este tipo de competencia tiene más que ver con las llamadas habilidades blandas o soft skills. No solamente vale con procesar datos, transformarlos, aplicar modelos y algoritmos para obtener resultados,sino que es indispensable saber comunicar estos resultados y, por otra parte, saber realizar visualizaciones de datos para comunicar resultados de un proceso, un proyecto o una investigación de forma visual.

ESTADÍSTICA: DESARROLLO SOFTWARE: COMUNICACIÓN: CONOCIMIENTO DEL DOMINIO: Los datos pueden ser de cualquier ámbito o sector (banca, salud, finanzas, industria, etc.). Una ventaja para saber interpretar la información que puede extraerse de los datos y saber qué preguntas pueden plantearse resolver ante los datos, es ser conocedores del dominio que presenten los datos ..

El proceso del análisis de datos

  • Transformar
  • Comunicar

Importar Visualizar Ordenar Modelar Comprender Figura 1. Fases de un proyecto de ciencia de datos Fuente: https://bitsandbricks.github.io/ciencia_de_datos_gente_sociable/que-es-la-ciencia-de- datos.htmlCONTINUAR Para realizar cualquier proyecto de ciencia de datos, es necesario utilizar una herramienta que permita al científico de datos trabajar con los datos; es por ello por lo que un científico de datos necesita conocer las principales herramientas en ciencia de datos. Este será el tema central del presente módulo. Existen una enorme cantidad de herramientas para realizar ciencia de datos. En la siguiente imagen, se podrán ver las herramientas que fueron líderes en 2019, según el cuadrante mágico de Gartner.CHALLENGERS LEADERS Alteryx SAS Databricks IBM TIBCO Software Dataiku MathWorks Microsoft DataRobot KNIME RapidMiner H20.ai Google Domino ABILITY TO EXECUTE Anaconda Altair NICHE PLAYERS VISIONARIES COMPLETENESS OF VISION As of November 2019 Gartner, Inc Gartner MQ for DSML GARTNER Figura 2. Magic Gartner Quadrant - Data Science 2019 Fuente: https://www.forbes.com/sites/janakirammsv/2020/02/20/gartners- 2020-magic-quadrant-for-data-science-and-machine-learning-platforms-has- many-surprises/#3c71463f550f CONTINUARA continuación, se describirán algunas de las herramientas más importantes dentro para realizar proyectos de ciencia de datos en la actualidad.

Herramientas de ciencia de datos

Alteryx Designer

  • Se trata de una plataforma de analítica de datos. Con su herramienta Alteryx Designer, permite realizar en modo de workflow operaciones de preparación de datos, análisis estadístico, análisis espacial y análisis estadístico, mediante el uso de una intuitiva interfaz, sin necesidad de desarrollar código.

Figura 3. Alteryx Designer Fuente: https://www.alteryx.com/designer-trial/free-trial O Dula Preparatles A B - A A - -- -- - - - O C

Microsoft Power BI

  • Es una solución de análisis de datos empresarial que permite realizar visualización de datos y compartir esta información con toda la organización o insertarla en un sitio web.

Figura 4. Microsoft Power BI Fuente: https://powerbi.microsoft.com/es-es/ X - Then VS GOAL CUSTOMER DASHBOARD PIPELINE BY ACCOUNT Visualizations Fields EXECUTIVE ET SHEETR ---- $3,978.178 35,870 $906,069 7,163 9.623 - Comme Dương Te Coens Cypuliteilies Revenue and Pipeline Pipeline Gap by Account - --- ·Actual Itwine # Opportunity Ville Pipeline Gag & Vety Low @Low @ Mediam @ High Drifthrough 0/5 Dollars) Dynamia The Phone Company PraneNar Wide World muerters Account Name Owner Estimated Close Date Close Probability Proseware Moodle 0023 Contotu Roberto Garcia Thientay, Ane 28 2019 Com Damon Turudry. April 2/3 24 Fabrikom The Norm Prosewww Musste 0279 The Norm May The saturday, June R. 2219 78 Opportunity Value Proseware Mobile 2901 Wide Word inporter Mondiry, June 24 . BigML

BigML para machine learning

  • provee de una solución que aglutina algoritmos robustos de machine learning para resolver problemas del mundo real a través de un framework sobre el que puede trabajar y operar toda una compañía.

Figura 5. BigML Fuente: https://bigml.com/features Q2 94 201 Open Opportunities Opportunity Name Current Relationship Strength 2019Sources Datasets Supervised Unsupervised . Predictions . Tasks WhizzML . Sarcasm ® = x MODEL SEA CLUSTER Namie Type FR ENSEMBLE STRANOMALÝ label ABC LINEAR REGRESSION ASSOCIATION LOGISTIC REGRESSION HẤP TOPIC MODEL comment text DEEPNET TIME SERIES author text subreddit 162.563,552 0 acore 162,963,553 D 0 162,963,553 0 0 downs 162.963,553 0 0 ! 162.963,553 0 0 123 162.063,553 O parent_comment text 162.049,297 14.256 0 10 : Sakide KNIME

KNIME Analytics Platform

  • con un sistema drag & drop puede realizarse todo un proyecto de analítica en modo workflow, gracias a su interfaz intuitiva. Simplemente se van arrastrando el entorno de trabajo los diferentes procesos a realizar y se van conectando entre sí.

Figura 6. KNIME Fuente: https://www.knime.com/knime-analytics-platform CONMIONLINE BUFERVEER 121100% 4 KNIME Explorer 83 O: Building a Simple Classifier 23 89 ¥ Å-EXAMPLES (knime-guest@http://p Simple Model Training for Classification 01_Data_Access 02_ETL_Data_Manipulation This workflow demonstrates how a simple classifier is built and applied to new data. It also ilustrales the use of KNIME': hating capabiltes, which allow interactive views to be connected within the same workdow. A 03_Visualization 04_Analytics 4 06_Reporting 4 106_Control_Structures 11 4) Workflow Coach 23 Community Decision Tree Learner Scorer . File Reader 309 EL. CSV Reader 19% if Table Creator 125 :- Database Reader 7% shr SOF Reader Excel Reader (XLS) Color Manager Partitioning Train model to predict departure delays Confusion matrix accuracy measurements Node Repository = 0 Read airline data Apply decision tree model Manipulation Q Views Statistics Bar Chart (JavaScript) Scatter Plot (JavaScript) Analytics Mining Statistics ++ Distance Calculation PMMI Database Bar Chart --- Og Other Data Types Databricks

Databricks en la nube

  • Se basa en ser una plataforma en la nube de análisis de datos unificados. Sobre todo, es una plataforma de ciencia de datos colaborativa, en donde se realiza todo el ciclo de vida de los datos y la puesta en marcha de algoritmos de aprendizaje automático.

Figura 7. Databricks Fuente: https://docs.databricks.com/getting-started/quick-start.html? _ga=2.231011606.861385632.1586095817-180461326.1586095817 4 PMML Writer Recommended Nodes Decision Tree PredictorWelcome to databricks" { } Drop files or click to browse { } Hacerrts + Explore the Quickstart Tutorial Import & Explore Data Create a Blank Notebook Spin up a cluster, run queries on preloaded data, and display results in 5 minutes. Quickly import data, preview its schema, create a table, and query It in a notebook. Create a notebook to start querying, visualizing, and modeling your data. Common Tasks Recents What's new in New Notebook Upload Data Search View latest release notes Create Table ஸ் New Cluster New Job New MLflow Experiment Import Library Read Documentation Matlab

MATLAB para analítica y modelos

  • Tanto para realizar analítica de datos, como para crear y aplicar modelos, MATLAB combina un entorno de escritorio preparado expresamente para el desarrollo software en matemáticas, matrices álgebra lineal y arrays.

Figura 8. MATLAB Fuente: https://es.mathworks.com/products/matlab.html MemeMATLAB × HOME PLOTS APPS LIVE EDITOR VEW ? Search Documentation Log in > C: > MATLAB El Live Editor - CAMATLAB\ExploringExoplanets.mix x Workspace 0 200 600 800 Light Years from Earth The nearest exoplanet is around Proxima Cen, 4.21 Light years from earth 7000 Temperature 5000 where T, is the planet's equilibrium temperature. Rearranging for T, gives E Command Window st_name at_distance st_right_ascension at_declination st_spectral_type st_solar_radiš st_mass st_lus A "K2-18" 34 7.5884 'M2.5 V* ** D V. 0.29 0.56 0.41 0.6 Nat 'K2-2' 42 172.56 172.33 -1.4548 Nal IBM Watson

IBM Watson y la inteligencia artificial

  • A través de IMB Watson, es posible utilizar aplicaciones de la inteligencia artificial para realizar predicciones precisas, automatizar decisiones y optimizar el tiempo de los empleados para que puedan centrase en trabajos de mayor valor.

Figura 9. IBM Watson Fuente: https://www.ibm.com/es-es/cloud/watson-studio . 0 ExploringExoplanets.mlx x + Current Folder where a is the planet's semi-major axis. Note that we have assumed a circular orbit so the semi-major axis is the same as the orbital distance. The value F. is the amount of energy reaching the planet per unit area. The light gathering area of the planet can be approximated by cross-sectional area. Then the total energy reaching the planet can be calculated as . E, = RF, where R is the planet's radius. We know that the planet must be in thermal equilibrium - not getter hofter or colder over time. The planet radiatel: energy into space at the same rate it receives it from its star. The temperature at thermal equilibrium is called the equilibrium temperature. We can use the same equation we used above to calculate the star's luminosity but this time using the planet's total energy input. E, = AmROT;

¿Non has encontrado lo que buscabas?

Explora otros temas en la Algor library o crea directamente tus materiales con la IA.