Gonzalo Diaz | Data Science

Portada
👋

Sobre mi

¡Hola! Soy Gonzalo, Analista de Datos de Argentina, con formación como Técnico Superior en Ciencia de Datos y actualmente estudiante de la Licenciatura en Ciencia de Datos en la Universidad del Gran Rosario. Me apasiona convertir datos en conocimiento útil y continúo aprendiendo y perfeccionando mis habilidades en análisis, modelado y visualización, junto con un fuerte interés en la ingeniería de datos y el desarrollo y puesta en producción de modelos predictivos.

Como Analista de Datos, ayudo a las empresas a optimizar sus operaciones y a tomar decisiones informadas mediante reportes y análisis. Mi experiencia incluye trabajar con datos de diversas fuentes, aplicando técnicas de limpieza, transformación y visualización para generar insights claros y accionables.

Estoy orientando mi perfil profesional hacia el rol de Analytics Engineer. En esta función, no solo analizo datos, sino que transformo y preparo conjuntos de datos limpios y confiables, aplicando buenas prácticas de ingeniería como control de versiones, testing automatizado y documentación clara, para que otros usuarios puedan responder sus propias preguntas con confianza.

Además, me estoy desarrollando en el campo de Machine Learning Engineering, enfocándome en el diseño, entrenamiento y despliegue de modelos predictivos escalables, con el objetivo de llevar las soluciones de IA desde la experimentación hasta entornos productivos.

Mi objetivo profesional es seguir creciendo como un perfil híbrido de datos capaz de conectar la analítica, el software y la infraestructura para construir soluciones eficientes, reproducibles y orientadas al impacto real en el negocio.

Te invito a explorar mi repositorio donde comparto mis proyectos. Si compartimos intereses o quieres hablar sobre datos, no dudes en conectarte conmigo. ¡Será un placer conversar!

🔍 Áreas de Enfoque

🧠

Ciencia de Datos

  • Desarrollo de modelos de predicción, clasificación, segmentación y series temporales para apoyar la toma de decisiones.
  • Aplicación de algoritmos de aprendizaje supervisado (regresión lineal y logística, árboles de decisión, random forest, XGBoost, redes neuronales) y no supervisado (clustering con k-means, DBSCAN, PCA).
  • Evaluación de desempeño mediante métricas como accuracy, precision, recall, F1-score, ROC-AUC, MAE, RMSE, entre otros.
  • Preprocesamiento de datos: limpieza, normalización, imputación, ingeniería de características y selección de variables.
  • Optimización y validación de modelos con técnicas de cross-validation, hiperparámetros y pipelines reproducibles en producción.
📊

Visualización de Datos

  • Construcción de dashboards interactivos y reportes visuales adaptados a usuarios técnicos y no técnicos.
  • Uso de herramientas de Business Intelligence como Power BI y Qlik Sense para representar datos de manera clara, accesible y visualmente atractiva.
  • Desarrollo de visualizaciones en Python con librerías especializadas como Plotly, Matplotlib y Seaborn
  • Enfoque en la comunicación efectiva de hallazgos, con énfasis en el storytelling con datos.
🗄️

Ingeniería de Datos

  • Administración, modelado y optimización de bases de datos relacionales y no relacionales.
  • Diseño y orquestación de flujos de transformación de datos (DAGs) utilizando Apache Airflow.
  • Construcción de pipelines de datos escalables para ingesta, transformación y carga de datos (ETL/ELT).
  • Implementación de estrategias de gobernanza de datos: seguridad, trazabilidad y calidad.
  • Desarrollo de tests de calidad y monitoreo continuo para garantizar la confiabilidad de la información.

🛠️ Tech Stack

Python Pandas NumPy scikit-learn Computer Vision MongoDB GitHub PostgreSQL TensorFlow Docker Linux Django Apache Airflow dbt DVC MLflow
🎓

Educación

Instituto Superior Tecnológico Empresarial Argentino

Tecnicatura en Ciencia de Datos e Inteligencia Artificial

Formación orientada al análisis estadístico, procesamiento de datos, desarrollo de modelos de machine learning y deep learning, con aplicaciones en visión por computadora, procesamiento de lenguaje natural y sistemas predictivos. Incluye conocimientos sólidos en programación (Python, R, SQL), bases de datos, matemáticas, estadística y ética en la inteligencia artificial.

Durante la carrera se adquieren competencias para liderar proyectos de ciencia de datos, diseñar soluciones basadas en IA, y comunicar resultados de forma clara y efectiva. Se trabajan herramientas como pandas, NumPy, scikit-learn, redes neuronales y técnicas de Big Data, aplicadas en contextos reales a través de prácticas profesionalizantes.

  • Análisis estadístico y matemático
  • Programación y desarrollo de software
  • Minería de datos y machine learning
  • Visualización de datos
  • Bases de datos y big data

Universidad del Gran Rosario

Licenciatura en Ciencia de Datos

La Licenciatura en Ciencia de Datos de la Universidad del Gran Rosario ofrece una formación sólida en estadística aplicada, ingeniería de software, aprendizaje automático, aprendizaje profundo, procesamiento de lenguaje natural y visión por computadora. A lo largo del plan de estudios se abordan herramientas de software para análisis de datos, metodologías de investigación y desarrollo de proyectos tecnológicos orientados a problemas reales.

El perfil del egresado está orientado a la aplicación práctica de técnicas avanzadas de ciencia de datos para resolver desafíos complejos en diversos sectores. Se adquieren competencias para:

  • Diseñar, implementar y comunicar soluciones analíticas
  • Desarrollar modelos predictivos
  • Gestionar sistemas de datos
  • Participar en equipos multidisciplinarios
  • Aportar valor estratégico a la toma de decisiones basada en datos
💻

Proyectos de Análisis de Datos

Este repositorio está pensado para demostrar no solo habilidades técnicas, sino también una visión integral del ciclo de vida del dato, desde la extracción y transformación hasta su análisis, visualización y presentación a usuarios finales o despliegue en entornos reales.

Proyecto 1: Visualización de Estadísticas

El objetivo de este proyecto es analizar y visualizar la fase ofensiva del Manchester City durante la temporada 2023/2024 en la Premier League, con un enfoque especial en los pases y tiros. Para realizar este análisis, se extrajeron datos mediante scraping de una página web de estadísticas de fútbol utilizando Python, y luego fueron transformados para su visualización en Power BI.

Proyecto 2: Caso de Negocio + Business Experimentation

Una empresa de retail nacional, líder en la venta de productos electrónicos, ha decidido expandirse a nuevos mercados regionales. Actualmente opera en cinco ciudades principales y desea extender su presencia a tres nuevas ciudades donde aún no tiene operaciones. La dirección necesita una estrategia basada en datos para maximizar la rentabilidad y minimizar los riesgos asociados con esta expansión.

Proyecto 3: Shipping Container OCR

Este proyecto implementa un pipeline híbrido de detección y OCR para identificar, validar y hacer seguimiento de códigos ISO 6346 en contenedores marítimos. Combina modelos YOLOv8 para detección de regiones y caracteres con EasyOCR como método de respaldo y métodos de validación

📚

Mis Cursos

Certificación Profesional en Análisis de Datos de Google

Resumen de la Certificación

La certificación en análisis de datos de Google cubre los conceptos fundamentales del análisis de datos, incluyendo herramientas y técnicas para transformar datos en insights significativos. Está orientada a principiantes y proporciona habilidades prácticas aplicables en el mundo real.

Descripción de los Cursos

  1. Fundamentos del Análisis de Datos: Introducción a los conceptos básicos del análisis de datos, incluyendo el ciclo de vida de los datos y las habilidades necesarias para ser un analista de datos.
  2. Habilidades de Preparación de Datos: Se centra en la recopilación y limpieza de datos. Aprenderás a usar hojas de cálculo y SQL para organizar datos de manera efectiva.
  3. Análisis de Datos en Excel: Enseña a usar Excel para realizar análisis de datos, incluyendo fórmulas, gráficos y análisis de tendencias, para extraer insights valiosos.
  4. Visualización de Datos: Aprendes a crear visualizaciones efectivas utilizando herramientas como Tableau y Google Data Studio para comunicar hallazgos de manera clara y atractiva.
  5. Análisis Predictivo: Introducción a técnicas de análisis predictivo utilizando herramientas de análisis y algoritmos para hacer pronósticos basados en datos históricos.
  6. Proyecto Final: Un proyecto práctico donde aplicas todas las habilidades adquiridas en un estudio de caso real, creando un análisis completo que demuestre tu capacidad como analista de datos.

Certificación Profesional en Análisis de Datos con Microsoft Power BI

Resumen de la Certificación

La certificación en Análisis de Datos con Microsoft Power BI está diseñada para capacitar a los estudiantes en el uso de Power BI como herramienta para transformar datos en insights significativos. Se enfoca en el manejo de datos, la visualización y la creación de informes interactivos.

Descripción de los Cursos

  1. Introducción a Power BI: Proporciona una visión general de Power BI, su interfaz, y cómo conectar y cargar datos desde diferentes fuentes.
  2. Preparación de Datos para el Análisis: Se centra en la limpieza y transformación de datos utilizando Power Query para garantizar que los datos estén listos para el análisis.
  3. Visualización de Datos: Enseña a crear visualizaciones interactivas y a utilizar gráficos y tablas para representar datos de manera efectiva en Power BI.
  4. Modelado de Datos: Introducción a la creación de modelos de datos, incluyendo relaciones y cálculos, utilizando DAX (Data Analysis Expressions).
  5. Creación de Informes y Dashboards: Aprendes a diseñar informes y dashboards interactivos en Power BI para comunicar resultados a diferentes audiencias.
  6. Compartir y Colaborar: Este curso aborda cómo compartir y colaborar en informes y dashboards utilizando el servicio en línea de Power BI.
  7. Proyecto Final: Aplicación de las habilidades adquiridas en un proyecto práctico que consiste en el desarrollo de un informe y un dashboard de Power BI a partir de un conjunto de datos real.

DataTalks - Machine Learning Zoomcamp

Parte 1: Algoritmos de Machine Learning

La Parte 1 se centra en los principales algoritmos de aprendizaje automático y su aplicación práctica utilizando Python. Los temas tratados incluyen:

  • Regresión Lineal: Ingeniería de características, manejo de variables categóricas y la importancia de la regularización.
  • Clasificación: Regresión logística y la importancia de las características.
  • Árboles de Decisión y Aprendizaje por Conjuntos: Técnica de boosting por gradiente y XGBoost, un popular algoritmo de aprendizaje por conjuntos.
  • Redes Neuronales y Aprendizaje Profundo: Redes Neuronales Convolucionales (CNN) y técnicas de transferencia de aprendizaje para abordar problemas complejos con aprendizaje profundo.
  • Python y Jupyter Notebooks: Trabajo de manera eficiente con código.
  • NumPy y Pandas: Conceptos de álgebra lineal como matrices y manipulación y análisis de datos.
  • Matplotlib y Seaborn: Visualización de datos y representaciones gráficas.
  • Scikit-Learn: Aplicación de varios algoritmos de aprendizaje automático a conjuntos de datos del mundo real.
  • TensorFlow y Keras: Frameworks populares para construir redes neuronales y modelos de aprendizaje profundo.
Part 1: Machine learning algorithms and their implementation

Parte 2: Despliegue de Modelos

La Parte 2 está dedicada al despliegue de modelos, que implica poner modelos de aprendizaje automático en producción. En esta sección, adquirirás habilidades prácticas utilizando marcos y herramientas populares. Los temas tratados incluyen:

  • Flask, Pipenv y Docker: Despliegue de modelos de aprendizaje automático, lo que te permitirá trasladar tus modelos de notebooks a servicios y aplicaciones.
  • AWS Lambda y TensorFlow Lite: Aprendizaje profundo sin servidor, comprendiendo cómo operar de manera eficiente dentro de este paradigma.
  • Kubernetes y TensorFlow Serving: Automatización del despliegue, escalado y gestión de aplicaciones en contenedores.
Part 2: Deployment