¿Qué es la ciencia de datos y cuáles son sus roles dentro de una empresa?

No se puede hablar de ciencia de datos sin antes entender un poco de Big Data y Machine Learning, porque son temas que están muy emparejados. La ciencia de datos es una disciplina muy nueva. Es vanguardia.

“Sin data no sos más que una persona con una opinión”

Edwards Deming

Ese es el mindset que vamos a usar detrás de Ciencia de Datos.

Data science mindset

Para iniciar la explicación sobre la ciencia de datos, utilizamos de ejemplo la película Moneyball (2011). Alí se muestra el mindset que hay que tener para entrar en esta disciplina. Además, tiene el plus de estar basada en hechos reales.

En la película aplican estadística avanzada para encontrar jugadores con potencial a través de la matemática. En contraposición al pensamiento mainstream (sesgos), que elige jugadores sin basarse en la experiencia o las métricas. Moneyball explica cómo se puede usar la matemática, la estadística y específicamente el pensamiento computacional para explicar y optimizar cosas que no se ven a un nivel básico y pasan desapercibidas por los humanos. Esto último ya que estamos llenos de sesgos. 

Ciencia de datos aplicada en las industrias

Existe también un ejemplo que grafica a la perfección las ventajas de utilizar a la ciencia de datos en los procesos industriales. Una empresa de cerveza se hizo famosa por ser una de las pioneras en usar machine learning e inteligencia artificial. Todo en pos de optimizar su modelo de producción de cerveza.

Antes de aplicar estas herramientas, perdían miles y miles de dólares al año por culpa de la producción de cerveza que se echaba a perder. No podían interpretar cuáles eran las causas.

Entonces, contrataron al equipo de ciencia de datos e inteligencia artificial de IBM, el cual colocó una serie de cámaras para seguir el trayecto de embotellamiento de la cerveza. Allí encontraron varios datos que les permitieron reducir el porcentaje de lotes de cerveza que se dañaban. A través de la inteligencia artificial lograron encontrar algo que a través de los ojos de expertos se podía ver.

Entonces, ¿qué es la ciencia de datos?

💡 La ciencia de datos es la conjunción de ciencia computacional, estadísticas, matemáticas y conocimientos de la empresa o del negocio 💡

Data Jobs: Los distintos trabajos dentro del área de datos.

Desde comienzos de este milenio, la cantidad de trabajos relacionados a los datos ha crecido y se ha profesionalizado. Actualmente se habla de un montón de puestos que son completamente diferentes. Si bien hay interacción cuando se trabaja en un equipo de Data, las tareas que los definen son diferentes entre sí. Estas son algunas de ellas:

  • Científico de datos (Data Scientist): Tiene foco en el modelado y los algoritmos. Está más relacionado con la parte computacional de pensar y entrenar modelos para que aprendan cómo resolver problemas en el mundo real. Suele usar Python, Matlab, SQL, Spark.

  • Ingeniero de datos (Data Engineer): Hace foco en el procesado, puesta en producción y mantenimiento.

  • Analista de BI (Bussines Intelligence Analist): Tiene foco en el negocio y en el cliente. Tiene un fuerte componente en lo que es marketing y economía. Entiende las necesidades del negocio en específico, para aplicar la data en consecuencia a esto. Suele usar herramientas más clásicas de negocio como lo es Excel, SQL y está muy relacionado a la visualización: crear dashboard para mostrar métricas y evolución.
  • Especialista en Machine Learning (Machine Learning Specialist): “Su principal función es la de construir y aplicar modelos capaces de seguir aprendiendo y mejorando su capacidad predictiva, mientras aumente el volumen de los datos recopilados.  

La demanda de ciencia de datos en el campo laboral está creciendo mucho. Esta es una proyección para el 2026, donde se proyecta la creación de11.5 millones de puestos de trabajos:

Fases de un proyecto de ciencia de datos:

Scoping: Le damos un marco al proyecto y entendemos el contexto. Hacemos las preguntas iniciales y entendemos cuál es la problemática. Es la parte más importante del proyecto.

Research: Investigamos el estado del arte. Es decir, tomamos en cuenta todo lo que ya se haya investigado o concluido respecto a nuestra problemática. 

Desarrollo: Levantamos la infraestructura.

Deployment: Puesta en producción y monitoreo luego que se le presentó al cliente y se evaluó el trabajo ya realizado.

Autores del artículo:

Juan Martín Elorriaga, Data Scientist

Oriana Ochoa, Community Manager

Noelia Di Pietro, Content Writer

Don’t Stop Here

More To Explore