Ingeniero de Datos en Infosys Consulting

Polonia

103 d

Descripción del trabajo

Estamos en la búsqueda de un ingeniero de datos con amplia experiencia y habilidades técnicas, que se una al equipo de trabajo especializado en datos. La persona seleccionada se encargará de diseñar, desarrollar y mantener arquitecturas y pipelines de datos robustos, escalables y eficientes para apoyar diversas iniciativas orientadas a datos. Trabajarás con científicos de datos, analistas y otros equipos para asegurar la calidad, disponibilidad y seguridad de los datos.

Responsabilidades:

Diseño y desarrollo de pipelines de datos:

Crear, implementar, probar y optimizar pipelines que permitan la ingesta, procesamiento y almacenamiento de grandes volúmenes de datos provenientes de múltiples fuentes.
Optimizar las arquitecturas de datos tanto para datos estructurados como no estructurados, asegurando el procesamiento eficiente de datos en tiempo real y por lotes.

Integración y manejo de datos:

Integrar datos desde diversas fuentes (APIs, bases de datos, servicios en la nube)
Desarrollar y gestionar procesos ETL (Extracción, Transformación, Carga) para asegurar la manipulación y transformación de datos de manera eficiente.
Asegurar la calidad y consistencia de los datos mediante validaciones y pruebas exhaustivas.

Soluciones de almacenamiento y bases de datos:

Diseñar y gestionar soluciones de bases de datos que faciliten el almacenamiento y consulta de datos de manera eficiente.
Desarrollar infraestructuras de almacenamiento que satisfagan las necesidades de análisis e inteligencia de negocio de la empresa.

Infraestructura en la nube:

Utilizar plataformas en la nube como AWS, Azure o Google Cloud para implementar y administrar arquitecturas de almacenamiento y procesamiento de datos.
Configurar la infraestructura de datos basada en la nube, garantizando su escalabilidad, seguridad y rendimiento.

Colaboración y gestión de stakeholders:

Trabajar junto a científicos de datos, analistas, equipos de software y áreas de negocio para comprender los requisitos y ofrecer soluciones que cumplan sus expectativas.
Documentar detalladamente los flujos de datos y pipelines, facilitando la transparencia y la comprensión dentro del equipo.

Gobernanza y seguridad de datos:

Implementar estándares de gobernanza, seguridad y cumplimiento de datos, protegiendo la información sensible.
Asegurar que la gestión de los datos cumpla con normativas como GDPR, CCPA, entre otras.
Establecer y mantener políticas de retención de datos siguiendo las mejores prácticas del sector.

Monitoreo y mejora continua:

Supervisar el rendimiento de las pipelines de datos.
Optimizar continuamente los procesos de datos para asegurar que sean eficientes y escalables conforme crecen los conjuntos de datos.

Automatización y desarrollo de herramientas:

Automatizar tareas repetitivas para mejorar los flujos de trabajo y aumentar la eficiencia.
Desarrollar herramientas internas que permitan a la organización acceder y gestionar los datos de manera más eficiente.

Requisitos:

Título en Ciencias de la Computación, Ingeniería o disciplinas afines.
Experiencia comprobada en roles similares como ingeniero de datos o ingeniero de software, con participación en proyectos de gran escala (equipos de 10+ personas o proyectos de 6 meses o más).
Conocimiento avanzado de SQL y experiencia con bases de datos relacionales como MySQL, PostgreSQL o Oracle.
Competencia en lenguajes como Python, Java o Scala para la manipulación de datos y desarrollo de procesos ETL.
Al menos 5 años de experiencia trabajando con herramientas ETL como Apache Nifi, Talend o Informatica.
Familiaridad con tecnologías de big data como Hadoop, Spark, Kafka, entre otras.
Mínimo 3 años de experiencia práctica en servicios de datos en la nube (por ejemplo, AWS S3, Azure Data Lake, Google BigQuery).

Habilidades deseadas:

Experiencia con bases de datos NoSQL como MongoDB o Cassandra.
Familiaridad con Databricks y Dataiku.
Conocimiento de pipelines CI/CD y herramientas como Jenkins, Docker o Kubernetes.
Experiencia con procesamiento de datos en tiempo real usando Apache Flink o Storm.
Comprensión de regulaciones de privacidad de datos como GDPR, CCPA, HIPAA.