Adquisición y procesamiento de datos en la UCAM: una presentación

Diapositivas de la UCAM sobre Adquisición y Procesamiento de Datos. El Pdf, útil para estudiantes universitarios de Informática, aborda la adquisición y el pre-procesamiento de datos, con un enfoque en la limpieza, transformación y reducción de datos, como se detalla en el resumen y el esquema.

Ver más

43 páginas

Adquisición y procesamiento de datos
Juan Morales García
Grado en Ingeniería Informática
Ingeniería del Conocimiento
Tema 2.1
2
ÍNDICE
CONTENIDOS
1. Introducción
2. Adquisición de datos
3. Análisis exploratorio de datos
4. Preprocesamiento de datos

Visualiza gratis el PDF completo

Regístrate para acceder al documento completo y transformarlo con la IA.

Vista previa

Adquisición y procesamiento de datos

Ingeniería del Conocimiento

Juan Morales García Grado en Ingeniería InformáticaUCAM

ÍNDICE

CONTENIDOS

  1. Introducción
  2. Adquisición de datos
  3. Análisis exploratorio de datos
  4. Preprocesamiento de datos

2

ObjetivosUCAM

Objetivos

  • Conocer las técnicas de adquisición de datos.
  • Conocer las técnicas para realizar análisis exploratorios de los datos.
  • Conocer las técnicas de procesamiento de datos.

4

1. Introducción

7 I NT RUCAM

1. Introducción

Pipeline

Figura 1 Asignar título Adquisición de datos Análisis exploratorio: Preprocesamiento Algoritmo ML Optimización del modelo Predicción Clustering · Visualización · Normalización · Estadística · Reducción de dimensionalidad · Correlación · Combinación de variables Nota. Esta figura muestra ... Fuente: Autor, año.

6

1. Introducción

Conceptos

v Datos: hechos recogidos en la organización y que están todavía sin procesar. v Información: se obtiene una vez que esos hechos (datos) se procesan, agregan y presentan de manera adecuada para que puedan ser útiles a alguien dentro de la organización. V Conocimiento: es una mezcla de experiencia, valores, información y know-how que sirve como marco para la incorporación de nuevas experiencias e información, y es útil para la acción. > Datos Información - Conocimiento

7

1. Introducción

Conceptos

v Tipos de datos: · Datos de texto: una de las formas de datos más abundantes y destacadas. Los datos de texto se pueden estructurar en forma de información de bases de datos, unidades de navegación GPS, hojas de cálculo, dispositivos médicos, formularios y más. El texto no estructurado puede ser encuestas, documentos escritos a mano, imágenes de texto, respuestas por correo electrónico, comentarios de redes sociales y más. · Datos de audio: los conjuntos de datos de audio ayudan a las empresas a desarrollar mejores chatbots y sistemas, diseñar mejores asistentes virtuales y más. También ayudan a las máquinas a comprender los acentos y las pronunciaciones de las diferentes formas en que se puede hacer una sola pregunta o consulta.

8

1. Introducción

Conceptos

v Tipos de datos: · Datos de imagen: las imágenes son otro tipo de conjunto de datos destacado que se utiliza para diversos fines. Desde vehículos autónomos y aplicaciones como Google Lens hasta reconocimiento facial, las imágenes ayudan a los sistemas a encontrar soluciones perfectas. · Datos de vídeo: los videos son conjuntos de datos más detallados que permiten a las máquinas comprender algo en profundidad. Los conjuntos de datos de video provienen de visión por computadora, imágenes digitales y más.

9

1. Introducción

La importancia de los datos

V Las máquinas no tienen mente propia. · La ausencia de este concepto abstracto loas hace desprovistas de opiniones, hechos y capacidades como el razonamiento, la cognición y más. · Son simplemente cajas o dispositivos inamovibles que ocupan espacio. Para convertirlos en medios poderosos, necesitan algoritmos y, lo que es más importante, datos. Los algoritmos que se desarrollan necesitan datos relevantes, contextuales y recientes sobre lo que trabajar y procesar. v El proceso de recopilación de dichos datos para que las máquinas sirvan a los fines previstos se denomina recopilación de datos de IA. V Recopilación de datos de IA es el paso preliminar en el proceso de desarrollo de IA que desde el principio determina que tan efectivo y eficiente será un modelo de IA.

10

1. Introducción

Fases de los datos

Figura 1 Asignar título X Abastecimiento de conjuntos de datos relevantes Limpiar datos relevantes Sesgo de datos Estructurar y etiquetar los datos Comprenda su mercado, casos de con atributos y conocimientos que uso, datos demográficos para comprenden las máquinas y los algoritmos. obtener conjuntos de datos recientes, ya sean imágenes, videos, texto o audio. Elimine el sesgo de los conjuntos de datos, asegurándose de tener resultados e inferencias objetivos. Anotación de datos Desidentificación de datos Los expertos en la materia de dominios específicos se encargan de anotar piezas cruciales de información. Adhiérase a HIPAA, GDPR u otros protocolos y cumplimientos específicos de la industria para eliminar las complejidades legales. Nota. Esta figura muestra ... Fuente: Autor, año.

11

2. Adquisición de datosUCAM

2. Adquisición de datos

Introducción

v El primer paso en cualquier proyecto de IA es la recogida de datos. v La IA necesita abundantes datos de entrenamiento de IA para que sus modelos aprendan conceptos y entreguen resultados. v Tambien necesita datos de validación para probar sus resultados y optimizar sus algoritmos. v Los datos que necesitan los modelos de IA pueden ser sacados de diversas fuentes, entre las más destacables: · Fuentes libres · Recursos internos · Fuentes de pago

13

2. Adquisición de datos

Fuentes de datos

Figura 3 Asignar título 10 0000 $ Free Sources Internal Sources Paid Sources Nota. Esta figura muestra ... Fuente: Autor, año.

14

2. Adquisición de datos

Fuentes de datos - Fuentes libres

V Son recursos que ofrecen conjuntos de datos para fines de entrenamiento de IA de forma gratuita. Las fuentes gratuitas pueden ser cualquier cosa, desde foros públicos, motores de búsqueda, bases de datos y directorios hasta portales gubernamentales que mantienen archivos de información a lo largo de los años. V Aunque los recursos gratuitos parecen ser opciones convenientes, existen varias limitaciones asociadas con ellos. · No siempre puede estar seguro de que encontrará conjuntos de datos que coincidan exactamente con sus requisitos. Incluso si coinciden, los conjuntos de datos pueden ser irrelevantes en términos de líneas de tiempo. · Si el segmento de mercado es relativamente nuevo o inexplorado, no habría muchas categorías o categorías relevantes.

15

2. Adquisición de datos

Fuentes de datos - Fuentes libres

V Posibles fuentes de datos libres: Kaggle Google datasets AWS datasets Bases de datos UCI

16

2. Adquisición de datos

Fuentes de datos - Recursos internos

v Otro recurso de datos que actúa como un canal para que se puedan generar conjuntos de datos más relevantes y contextuales, los recursos internos. • Como bases de datos de CRM, formularios, clientes potenciales de marketing por correo electrónico, puntos de contacto definidos por productos o servicios, datos de usuario, datos de dispositivos portátiles, datos de sitios web, mapas de calor, conocimientos de redes sociales y más. V El propio administrador de datos puede definir, configurar y mantener estos recursos internos. V Por lo tanto, se puede estar seguro de su credibilidad, relevancia y actualidad. V Los recursos internos también tienen sus complicaciones y limitaciones. · Por ejemplo, la mayor parte del enfoque de su grupo de talentos se destinará a optimizar los puntos de contacto de datos. · Además, la coordinación entre sus equipos y recursos también debe ser impecable.

17

2. Adquisición de datos

Fuentes de datos - Fuentes de pago

v Son servicios que le ofrecen los conjuntos de datos más útiles y contextuales para sus proyectos y garantizan que se obtengan constantemente cuando se necesiten. V Se tiene la impresión de que las fuentes de pago o los proveedores de datos es que son caras. Sin embargo, son baratas a largo plazo (no a corto ni medio). v Gracias a sus redes expansivas y metodologías de abastecimiento de datos, se podrá recibir conjuntos de datos complejos para los proyectos de IA, independientemente de cuán inverosímiles sean. O

18

2

Diferencias entre las fuentes de datos

Tabla 1 Fuentes de datos Recursos gratuitos Recursos internos Recursos pagados Los conjuntos de datos están disponibles de forma gratuita. Los recursos internos también podrían ser gratuitos dependiendo de sus gastos operativos. Usted paga a un proveedor de datos para que le proporcione conjuntos de datos relevantes. Múltiples recursos gratuitos disponibles en línea para descargar conjuntos de datos preferidos. Obtiene datos personalizados según sus necesidades de entrenamiento en IA. Obtiene datos definidos de forma personalizada de forma coherente durante el tiempo que necesite. Debe trabajar manualmente en la compilación, la curación, el formateo y la anotación de conjuntos de datos. Incluso puede modificar sus puntos de contacto de datos para generar conjuntos de datos con la información requerida. Los conjuntos de datos de los proveedores están preparados para el aprendizaje automático. Es decir, están anotados y vienen con garantía de calidad. Tenga cuidado con las restricciones de licencia y cumplimiento de los conjuntos de datos que descarga. Los recursos internos se vuelven riesgosos si tiene un tiempo limitado para comercializar su producto. Puede definir sus plazos y hacer que los conjuntos de datos se entreguen en consecuencia. Nota. Esta tabla muestra las diferencias entre las fuentes de datos. Fuente: elaboración propia.

19

3. Análisis exploratorio de datosUCAM

3. Análisis exploratorio de datos

Conceptos

v El Análisis Exploratorio de Datos (EDA por sus siglas en inglés -Exploratory Data Analysis-) son técnicas utilizadas los científicos de datos para analizar e investigar conjuntos de datos y resumir sus principales características, empleando a menudo métodos de visualización de datos. V El análisis exploratorio de datos es un proceso de investigación en el que se usan estadísticas de resumen y herramientas gráficas para llegar a conocer los datos y comprender lo que se puede averiguar de ellos. · Ayuda a determinar la mejor manera de manipular los datos para obtener las respuestas que necesita, lo que permite a los científicos de datos descubrir patrones, detectar anomalías, probar una hipótesis o comprobar supuestos. V El EDA permite conocer mejor las variables de conjunto de datos y las relaciones entre ellas.

21

3. Análisis exploratorio de datos

¿Por qué es importante realizar un EDA?

v El principal objetivo del EDA es consultar los datos antes de hacer cualquier suposición. Permite identificar errores obvios, así como comprender mejor los patrones en los datos, detectar valores atípicos o sucesos anómalos y encontrar relaciones interesantes entre las variables. v Los científicos de datos pueden utilizar el EDA para garantizar que los resultados que generan son válidos y aplicables a las conclusiones y objetivos deseados. • El EDA también permite confirmar a las partes interesadas que están haciendo las preguntas correctas. El EDA ayuda a responder las preguntas sobre desviaciones estándar, variables categóricas e intervalos de confianza. v Una vez que se ha completado el EDA y se ha extraído la información útil, sus características pueden utilizarse para un análisis o modelado de datos más complejo, incluido el ML o el DL.

22

¿Non has encontrado lo que buscabas?

Explora otros temas en la Algor library o crea directamente tus materiales con la IA.