page d'accueil   sommaire  

Gary VERHAEGEN


coordonnées


Gary VERHAEGEN
tel +32-2-650.49.06, fax +32-2-650.28.05, Gary.Verhaegen@ulb.ac.be
Campus du Solbosch
CP165/15, avenue F.D. Roosevelt 50, 1050 Bruxelles



unités de recherche


CoDE-WIT-Technologies de l'Information et Web [CoDE-WIT-Laboratory for Web and Information Technology] (CoDE-WIT)



projets


Gestion des Grand Données [Management of Big Data]
En informatique, le terme «grandes données» (Big Data en anglais) se réfère à des ensembles de données si vastes et complexes qu'il devient difficile de les traiter à l'aide d'applications traditionnelles de gestion des données.Des grandes données arrivent naturellement dans de nombreux environnements, y compris les sciences de la nature (génomique, expériences physiques complexes, la météorologie), l'informatique (recherche sur Internet), et dans la gestion et la finance (informatique décisionnelle ou business intelligence en anglais).Par exemple, l'expérience Large Hadron Collider du CERN contient environ 150 millions de capteurs fournissant des données 40 millions de fois par seconde. Il y a près de 600 millions de collisions par seconde. Après filtrage et le rejet de 99,999% de ces flux, il y a 100 collisions d'intérêt par seconde. En conséquence, seulement en travailler avec moins de 0,001% des flux de capteurs, l'expérience LHCproduit environ 25 pétaoctets de données par an.Parfois, les données sont générées à un rythme si rapide qu'il n'est pas possible de les stocker. Le développement de techniques de manipulation et de traitement des tels flux de données est très difficile. Généralement, on maintient des résumés du flux de petite taille qui permettent de répondre aux questions formulées sur l'ensemble du flux avec une précision garantie.Les grandes données ne sont pas seulement importantes en volume; ces données sont également peu structurées d'un point de vue informatique, et elles peuvent même être incohérentes. La gestion des grandes données entraîne la recherche et le développement de techniques nouvelles très efficaces pour la saisie, le nettoyage, le stockage, l'interrogation, la recherche et l'analyse de données non structurées et parfois incohérentes. [Management of Big DataIn computer science, the term ''big data'' refers to data sets solarge and complex that it becomes difficult to process them usingtraditional data processing applications.Big data sets naturally arise in many chanllenging environments,including the natural sciences (genomics, complex physicsexperiments, meterology), computer science (internet search),and business and finance (business intelligence).For example, the CERN Large Hadron Collider experiment containsabout 150 million sensors delivering data 40 million times persecond. There are nearly 600 million collisions per second. Afterfiltering and not recording more than 99.999% of these streams,there are 100 collisions of interest per second. As a result,only working with less than 0.001% of the sensor streams, the LHCexperiments produce about 25 petabytes of data per year.Sometimes the data is even generated at such a fast pace that it is no longerpossible to store the data. The development of techniques for handling andprocessing such data streams is very challenging. Usually small summariesare maintained over the streams that still allow to answer queriesformulated over the whole stream with guaranteed accuracy.Big data is not only large in volume; big data is also quiteunstructured from a computer science point of view, and it may even beinconsistent. Managing big data hence entails the development of newand very efficient techniques for capturing, curating, storing,querying and searching and analysing unstructured and sometimesinconsistent data. ]



disciplines et mots clés déclarés


Informatique de gestion Informatique générale

grand données