Optimisation distribuée avec Spark + Docker by Yann Vernaz
Ce que nous ferons :
Quand on utilise des algorithmes de Machine Learning, on doit résoudre un problème d’optimisation pour estimer les paramètres du modèle. Ces méthodes d’optimisation sont souvent des boîtes noires pour les utilisateurs et leur fonctionnement reste invisible. L’objectif de ce meetup est de démystifier ces méthodes, en particulier lorsqu’on a énormément de données ou/et beaucoup de paramètres (Big Data).
Une première partie présentera comment on peut résoudre un problème d’optimisation en grande taille en utilisant la puissance de plusieurs machines (cluster). Ensuite, comme ce meetup se place sous le signe de l’action nous développerons ensemble (en Python) une méthode d’optimisation distribuée à travers le framework Spark sur un cas d’application pratique.
Venez donc avec vos portables, le matériel (outils à installer, données, …) pour la partie pratique sera disponible prochainement.
Références :
Spark - http://spark.apache.org (http://spark.apache.org/)
Docker - http://www.docker.com (http://www.docker.com/)
Bio de Yann Vernaz (LinkedIn) :
"My strength and passion: Bridge the gap between mathematical science and software products. I am an accomplished professional in examining large amounts of data of a variety of types to uncover hidden patterns, unknown relationships and other useful information. I have strong quantitative and coding skills."