page d'accueil   sommaire   faculté  

CoDE-WIT-Technologies de l'Information et Web [CoDE-WIT-Laboratory for Web and Information Technology] (CoDE-WIT)
Faculté des Sciences appliquées - école polytechnique / Brussels School of Engineering (Faculty of Applied Sciences) - Technologies de l'information (unité ULB679)

La laboratoire de Technologies de l'Information et Web appartient au Service Ingénerie de l'Informatique et de la Décision (CoDE) de l'Ecole Polytechnique à l'ULB. La recherche du laboratoire concerne les problèmes liés à la gestion d'information, soit dans le contexte des systèmes d'information classiques (comme les bases de données et les entrepôts de données), soit sur le Web. Les axes principaux de recherche incluent: la business intelligence; data mining; les entrepôts de données; les bases de données spatio-temporelles et géographiques; les bases de données scientifiques; la web sémantique; et le traitement de requêtes. [The Laboratory for Web and Information Technologies belongs to the Department of Computer and Decision Engineering (CoDE) of the Ecole Polytechnique at the ULB. The laboratory's research focuses on all problems related to digital information management, both in classical information systems settings (e.g., databases, data warehouses) as well as on the Web. Particular attention in this respect is paid to problems involving: business intelligence; data warehousing; data mining; spatio-temporal and geographical information systems; scientific databases; the semantic web; and query processing.]



coordonnées / contact details


CoDE-WIT-Technologies de l'Information et Web [CoDE-WIT-Laboratory for Web and Information Technology]
tel +32-2-650.27.62/ 31.85, fax +32-2-650.28.05, wit@cs.ulb.ac.be
http://code.ulb.ac.be/wit.home.php
Campus du Solbosch, Solbosch, Bât. U, niveau 4
CP165/15, avenue F.D. Roosevelt 50, 1050 Bruxelles

Pour en savoir plus, consultez le site web de l'unité.



responsables / head


Prof. Esteban ZIMANYI Stijn VANSUMMEREN Toon CALDERS


composition / members


Aura ALEGRIA Orlando CASSANO Vinciane DE WILDE Zineb EL AKKAOUI Michelo Benoit FOE Amine GRAB Dilshod IBRAGIMO Arthur LESUISSE Karim LIDOUH Alain SILOVY Gary VERHAEGEN Ahmed WAQAS


projets / projects


Business Intelligence, Data Mining, et Entrepôts de données [Business Intelligence, Data Mining, and Data warehouses]
Dans notre société de la connaissance, le fait que les entreprises réussissent ou échouent repose en grande partie sur la façon dont elles peuvent efficacement collecter, nettoyer, intégrer, explorer, analyser et surveiller leurs informations pour mieux prédire les tendances futures et prendre les bonnes décisions. De nos jours, la collecte et le traitement des informations sur les processus métier d'une organisation sont devenus aussi importants que les processus eux-mêmes. Sur la base de ces informations, les processus peuvent être optimisés et la flexibilité de l'organisation peut être accrue, conduisant à des avantages concurrentiels. L'informatique décisionnelle, ou Business Intelligence (BI) en anglais, se réfère à la capacité d'une organisation de recueillir et analyser les données internes et externes dans le but de générer des connaissances et fournir un aide à la décision au niveau stratégique, tactique et opérationnel. Depuis sa création il y a 20 ans, la BI a émergé comme un domaine industriel majeur qui ne cesse de croître rapidement. La Business Intelligence a initialement été basée sur une combinaison des entrepôts de données (le processus de stockage des données historiques dans une structure conçue pour un traitement efficace) et l'analyse de données en ligne, tels que traitement analytique (OLAP) et la fouille de données (les méthodes mathématiques et statistiques nécessaires pour transformer les données brutes en informations précieuses pour prendre des décisions).Cependant, la BI aujourd'hui fait l'objet d'une révolution majeure. En effet, comme indiqué par le cabinet de conseil Gartner, ''les informations nécessaires pour prendre de nombreuses décisions ne résident pas dans les bases de données mais proviennent d'un mélange complexe de sources, y compris les e-mails, les messages vocaux, l'expérience personnelle, les informations multimédias et les communications externes de fournisseurs, clients, gouvernements, etc.''. Pour extraire des informations utiles à partir de ces données non structurées nos recherches combinent la BI traditionnelle avec la recherche d'informations et l'analyse de texte, et plus généralement le analyse de contenu. En outre, nous nous intéressons à la combinaison de la BI avec la gestion des processus métier, conduisant à l'intelligence des processus. [In our knowledge society, businesses succeed or fail based largely on how effectively they can collect, clean, integrate, explore, analyse, and monitor their information to predict future trends and make the best decisions. Business Intelligence (BI) refers to the capability of an organisation for collecting and analysing internal and external data with the objective of generate knowledge and value to provide decision support at the strategic, tactical, and operational levels. Since its inception 20 years ago, BI has emerged as a major industrial domain and driver that continues to grow rapidly. Business Intelligence has historically been based on a combination of data warehousing (the process of storing historical data in a structure designed for efficient processing) and data mining (the mathematical and statistical methods necessary to transform this raw data into valuable information for making business decisions). Our lab is in both research fields.BI, however, is undergoing a major revolution. Indeed, as stated by technology advisory firm Gartner, ''the information required to make many decisions does not reside in anyconvenient databases but comes from a complex mix of sources, including e-mails, voice messages, personal experience, multimedia information, and external communications from suppliers, customers, governments and so on.''. To extracting useful information from such unstructured data our research combines traditional BI with information retrieval or text analytics, and more generally content analytics. In addition, we are interested in combining business process management and BI, leading to process intelligence.]

Gestion des Grand Données [Management of Big Data]
En informatique, le terme «grandes données» (Big Data en anglais) se réfère à des ensembles de données si vastes et complexes qu'il devient difficile de les traiter à l'aide d'applications traditionnelles de gestion des données.Des grandes données arrivent naturellement dans de nombreux environnements, y compris les sciences de la nature (génomique, expériences physiques complexes, la météorologie), l'informatique (recherche sur Internet), et dans la gestion et la finance (informatique décisionnelle ou business intelligence en anglais).Par exemple, l'expérience Large Hadron Collider du CERN contient environ 150 millions de capteurs fournissant des données 40 millions de fois par seconde. Il y a près de 600 millions de collisions par seconde. Après filtrage et le rejet de 99,999% de ces flux, il y a 100 collisions d'intérêt par seconde. En conséquence, seulement en travailler avec moins de 0,001% des flux de capteurs, l'expérience LHCproduit environ 25 pétaoctets de données par an.Parfois, les données sont générées à un rythme si rapide qu'il n'est pas possible de les stocker. Le développement de techniques de manipulation et de traitement des tels flux de données est très difficile. Généralement, on maintient des résumés du flux de petite taille qui permettent de répondre aux questions formulées sur l'ensemble du flux avec une précision garantie.Les grandes données ne sont pas seulement importantes en volume; ces données sont également peu structurées d'un point de vue informatique, et elles peuvent même être incohérentes. La gestion des grandes données entraîne la recherche et le développement de techniques nouvelles très efficaces pour la saisie, le nettoyage, le stockage, l'interrogation, la recherche et l'analyse de données non structurées et parfois incohérentes. [Management of Big DataIn computer science, the term ''big data'' refers to data sets solarge and complex that it becomes difficult to process them usingtraditional data processing applications.Big data sets naturally arise in many chanllenging environments,including the natural sciences (genomics, complex physicsexperiments, meterology), computer science (internet search),and business and finance (business intelligence).For example, the CERN Large Hadron Collider experiment containsabout 150 million sensors delivering data 40 million times persecond. There are nearly 600 million collisions per second. Afterfiltering and not recording more than 99.999% of these streams,there are 100 collisions of interest per second. As a result,only working with less than 0.001% of the sensor streams, the LHCexperiments produce about 25 petabytes of data per year.Sometimes the data is even generated at such a fast pace that it is no longerpossible to store the data. The development of techniques for handling andprocessing such data streams is very challenging. Usually small summariesare maintained over the streams that still allow to answer queriesformulated over the whole stream with guaranteed accuracy.Big data is not only large in volume; big data is also quiteunstructured from a computer science point of view, and it may even beinconsistent. Managing big data hence entails the development of newand very efficient techniques for capturing, curating, storing,querying and searching and analysing unstructured and sometimesinconsistent data. ]

Web sémantique et Données Liées [Semantic Web and Linked Data]
Le web sémantique ou ''Web of Linked Data'' vise à permettre le partage d'informations structurées sur le web. De la même manière que HTML et les liens hypertextes sont utilisés pour publier de l'information dans le ''web de documents'' actuel, le modèle RDF associé aux liens RDF est utilisé pour publier de l'information structurée sur le web sémantique.Ceci permettrait de transformer le Web en une énorme base de données, dont la capacité à répondre à des requêtes structurés dépasserait les possibilités de recherche par mot-clés actuelles. Dans ce contexte notre recherche s'articule au tour de: - la gestion des ontologies, et en particulier sur la contextualisation, la modularisation, et la formalisation des aspects spatiaux et temporels dans les ontologies;- la conception de languages de requêtes pour le web sémantique;- le traitement efficace de ces requêtes. [The Semantic Web, also known as the Web of Linked Data, aims at enabling people to share structured information on the Web. In the same way as one uses HTML and hyperlinks to publish and connect information on the Web of Documents, one uses the RDF data model and RDF links to publish and connect structured information on the Web of Linked Data. This has the potential to turn the Web into one huge database with structured querying capabilities that vastly exceed the limited keyword search queries so common on the Web of Documents today. Unfortunately, this potential still remains to be realized. In this respect, our work revolves around several issues: - the management of ontologies, and especially in the contextualisation, modularization, and the formalization of spatial and temporal aspects in the ontologies;- the design of suitable query languages for the web; and - the design of efficient evaluation strategies for these query languages.]

Bases de données spatio-temporelles [Spatio-temporal databases]
La gestion des données localisées dans l'espace est devenue aujourd'hui une nécessité tant pour les organisations que pour les individus. Les domaines d'application sont nombreux : la cartographie, la gestion et aménagement du territoire, la gestion de réseaux de services (électricité, eau, transports, etc.), l'environnement, le géomarketing, les services géolocalisés (Location-Based Services ou LBS). De plus, la dimension géographique est souvent reliée a une dimension temporelle ou historique, c'est-à-dire que le système doit garder trace de l'évolution dans le temps des données contenues dans la base. Nos recherches visent à définir des modèles conceptuels permettantd'exprimer les aspects spatiaux et temporels des applications, ainsi que les mécanismes permettant la traduction automatique de ces spécifications dans les systèmes opérationnels. [Today, the management of data located in space is a necessity both for organizations and individuals. The application domains are numerous: cartography, land management, network utility management (electricity, water, transportation, etc.), environment, geomarketing, location-based services. In addition, the spatial dimension is often related to a temporal or historical dimension, which means that the systems must keep track of the evolution in time of the data contained in the database. Our research consists in defining conceptual models that allows the spatial and temporal aspects of applications to be expressed, and the mechanisms allowing the translation of these specifications into operational systems.]

Bases de données scientifiques [Scientific databases]
La diversité et les grands volumes de données traitées aujourd'hui dans les sciences naturelles a conduit à une prolifération de bases de données scientifiques hautement spécialisées. Des exemples représentatifs dans le domaine de la biologie sont notamment Genbank pour les gènes, Swissprot pour les protéines, Go pour les descriptions fonctionnelles des protéines (entre autres), Omim pour les maladies génétiques et Pubmed pour les publications. Des nouveaux résultats de recherche sont obtenus par (1) la copie et la modification de données provenant d'autres bases de données scientifiques, (2) l'ajout de données recueillies au moyen d'expériences, et (3) l'analyse de ces bases de données scientifiques nouvellement construites avec des techniques sophistiquées. Une fois publiés en ligne, les résultats obtenus peuvent être librement copiés dans d'autres bases de données scientifiques, après quoi l'ensemble du processus se répète.La gestion de ces bases de données scientifiques a certaines exigences particulières. Tout d'abord, il y a la nécessité évidente de localiser et interroger efficacement les données pertinentes dans les bases de données disponibles. En outre, pour assurer la qualité et l'exactitude des données stockées, il est indispensable d'enregistrer les informations de provenance. Cette information décrit, par exemple, d'où une donnée a été copié, comment elle a été modifiée, ou par quels analyses et programmes elle a été générée. Pour éviter que des données incorrectes soient copiées, il y a aussi un besoin de méthodes automatiques pour détecter et, si possible, corriger des incohérences. En effet, il a été estimé que entre un et cinq pourcent des données stockées dans une base de données d'entreprise classique ne sont pas correctes. La même analyse s'applique aux bases de données scientifiques. Dans ce contexte, notre recherche se concentre sur des modèles appropriés pour la définition et le suivi automatiquement de la provenance, ainsi que sur les techniques d'amélioration de la qualité des données. [The diversity and large volumes of data processed in the Natural Sciences today has led to a proliferation of highly-specialized scientific databases. Notable examples from biology include Genbank for genes; Swissprot for proteins; Go for functional descriptions of proteins (among other things); Omim for genetic diseases; and Pubmed for publications. New research results are obtained by (1) copying and modifying existing data from other scientific databases; (2) adding data gathered through experiments; and (3) analysing the hence newly constructed scientific database with sophisticated techniques. Once published online, the obtained results can freely be copied into other scientific database after which the whole process repeats itself. The management of such scientific databases has some particular requirements. First of all, there is the obvious need to locate and efficiently query the most pertinent data across the available databases. Furthermore, to ensure the quality and correctness of the stored data, it is vital to record provenance information. This information describes, for instance, from which database a result was copied, how it was modified, or by which analyses and programs it was generated. To prevent incorrect data from being copied, there is also a need for automatic methods to detect and, where possible, correct inconsistencies. Indeed, it has been estimated that one to five percent of the data stored in a typical enterprise database is incorrect. The same analysis applies to scientific databases. In this context, our research focuses on suitable models for defining and automatically tracking provenance, as well as on techniques for improving data quality.]



publications





theses


Picalausa, Francois. ''Guarded Structural Indexes: Theory and Application to Relational RDF databases''. Dir. prof. Stijn Vansummeren - Ecole Polytechnique., 2013

Servais, Frédéric. ''Visibly Pushdown Transducers''. Dir. Prof. Esteban Zimányi, Faculté des Sciences appliquées, ULB - Doctorat, 2011

Dricot, Jean-Michel. ''Routing Protocols for Indoor Wireless Ad-Hoc Networks: A Cross-Layer Perspective'', Dir. Prof. Esteban Zimanyi, Faculté des Sciences Appliquées, ULB, 2007

Minout, Mohammed ''Modélisation des aspects temporelles dans les bases de données spatiales'', Dir. Prof. Esteban Zimanyi, Faculté des Sciences Appliquées, ULB, 2007

Malinowski, Elzbieta. ''Designing traditional, spatial, and temporal data warehouses: Concepts and methodological framework''. Dir. Prof. E. Zimanyi, Faculté des Sciences appliquées, ULB, 2006

Norguet, Jean-Pierre, ''Semantic Analysis in Web Usage Mining'', Dir. Prof. Esteban Zimányi, Faculté des Sciences appliquées, ULB, 2006

Vansummeren, Stijn. ''Well-definedness, Semantic Type-Checking, and Type Inference for Database Query Languages'', School of Information Technology, Transnational University of Limburg, 2005

Zimányi, Esteban, ''Incomplete and Uncertain Information in Relational Databases''. Dir. Prof. Alain Pirotte, Faculté des Sciences, ULB, 1992



collaborations


Prof. Christophe Claramunt, Ecole Navale, Institut de Recherche, Brest, France

Prof. Stéphane Faulkner, Facultés Universitaires Notre-Dame de la Paix, Information Management Research Unit, Namur, Belgique

Prof. Jean-Luc Hainaut, Facultés Universitaires Notre-Dame de la Paix, Institut d'Informatique, Namur, Belgique

Anne Ruas, Institut Géographique Nationale, Laboratoire Cogit, Paris, France

Prof. Alain Pirotte, Université Catholique de Louvain, Institut d'Administration et de Gestion, Louvain-la-Neuve, Belgique

Prof. Yves Deville, Université Catholique de Louvain, Ingénierie Informatique, Louvain-la-Neuve, Belgique

Prof. Jacques van Helden, Université Libre de Bruxelles, Laboratoire de Bioinformatique des Génomes et des Réseaux, Bruxelles, Belgique

Prof. Yvan Bédard, Université de Laval, Département des sciences géomatiques, Laval, Canada

Prof. Christine Parent, Université de Lausanne, Ecole des Hautes Etudes Commerciales, Lausanne, Suisse

Prof. Thérèse Libourel, Université Montpellier II, Laboratoire d'Informatique, Montpellier, France

Prof. Markus Schneider, University of Florida, Department of Computer & Information Science & Engineering, Gainesville, Florida, Etats-Unis (USA)

Prof. Stefano Spaccapietra, Ecole Polytechnique Fédérale de Lausanne, Laboratoire de Bases de Données, Lausanne, Suisse

Prof. Alejandro Vaisman, Universidad de Buenos Aires, Departamento de Computacion, Buenos Aires, Argentine

Prof. Robert Wrembel, Poznań University of Technology, Institute of Computing Science, Poznań, Pologne

Prof. Marie-Aude Aufaure, Ecole Centrale Paris, Department of Mathematics Applied to Systems, Paris, France

Prof. Peter Buneman, University of Edinburgh, Laboratory for Foundations of Computer Science, Edinburgh, Grande-Bretagne

dr. James Cheney, University of Edinburgh, Laboratory for Foundations of Computer Science, Edinburgh, Grande-Bretagne

Prof. Dirk Van Gucht, Indiana University, Computer Science Department, Bloomington, Etats-Unis (USA)

Prof. George Fletcher, Eindhoven University of Technology, Department of Mathematics and Computer Science, Eindhoven, Pays-Bas

Prof. Jan Van den Bussche, Hasselt University, Database and theoretical computer science research group, Hasselt, Belgique

Prof. Frank Neven, Hasselt University, Database and theoretical computer science research group, Hasselt, Belgique

Prof. Marc Gyssens, Hasselt University, Database and theoretical computer science research group, Hasselt, Belgique

Prof. Jan Hidders, Technical University of Delft, Web Information Systems (WIS), Delft, Pays-Bas



savoir-faire/équipements / know-how, equipment


Gestion et traitement de données



mots clés pour non-spécialistes / keywords for non-specialists


bases de données business intelligence et entrepôts de données data mining systèmes d'information web sémantique


disciplines et mots clés / disciplines and keywords


Informatique administrative Informatique de gestion Informatique générale Informatique mathématique Systèmes d'information géographique

bases de données spatiales bases de données temporelles business intelligence data mining donées mobiles entrepôt de données extraction d'information grand données languages de requêtes logique des descriptions modélisation conceptuelle ontologies owl (ontology web language) provenance qualité de données raisonnement services web systèmes d'information géographique text mining traitement de requêtes


codes technologiques DGTRE


Informatique, théorie des systèmes Intelligence artificielle Sciences de l'ordinateur, analyse numérique, systèmes, contrôle