Ok

En poursuivant votre navigation sur ce site, vous acceptez l'utilisation de cookies. Ces derniers assurent le bon fonctionnement de nos services. En savoir plus.

AUDENTIA - Page 106

  • Les Yvelines, place centrale de l’industrie automobile

    Pin it! Imprimer

    Les Yvelines, place centrale de l’industrie automobile

    Technocentre

    13/01/2015 Selon l’hebdomadaire Industries&Technologies, les sites de Renault à Guyancourt et PSA à Vélizy occupent les première et deuxième places dans le classement des 100 premiers Centres de Recherche et Développement de France.

    Lire la suite

  • Les robots à la conquête de Paris

    Pin it! Imprimer

    "La capitale française a inauguré le premier incubateur européen dédié au secteur de la robotique. Des antennes en régions pourraient rapidement suivre."

    Lire la suite  :

    http://www.bpifrance.fr/Vivez-Bpifrance/Actualites/Les-robots-a-la-conquete-de-Paris-9190?utm_source=email&utm_medium=cabest&utm_content=130115&utm_campaign=basext

  • Objets connectés : une industrie est née

    Pin it! Imprimer

    Les entreprises françaises ont  le potentiel pour devenir des championnes mondiales dans le domaine des objets connectés. Pour créer une véritable filière, l’industrialisation est la prochaine étape. Elle a déjà commencé ! 

     

    Lire la suite :

    http://www.bpifrance.fr/Vivez-Bpifrance/Actualites/Objets-connectes-une-industrie-est-nee-9204?utm_source=email&utm_medium=cabest&utm_content=130115&utm_campaign=basext

  • Parallel Processing of Public Open Data with the MapReduce Paradigm : A Case Study

    Pin it! Imprimer

    Parallel Processing of Public Open Data with the MapReduce Paradigm : A Case Study

    Billel ARRES 1, * Omar Boussaid 1 Nadia KABACHI 1 Fadila Bentayeb 1 
    * Auteur correspondant
    1 SID
    ERIC - Equipe de Recherche en Ingénierie des Connaissances
    Abstract : Nowadays, many governments and states are involved in an opening strategy of their public data. However, the volume of these opened data is constantly increasing, and will reach in the near future limitations of current treatment and storage capacity. On the other hand, the MapReduce paradigm is one of the most used parallel programming models. With a master-slave architecture, it allows parallel processing of very large data sets. In this paper, we propose a parallel approach based on Mapreduce to process public open data. Applied, as a case study, to the official data sets from the French Ministry of Communication. We implement a parallel algorithm as a solution to define a ranking of national museums and galleries according to the accessibility degrees for people with disabilities. We studied the feasibility of our approach in two main parts: The performance in terms of execution time, and, the visualization of the obtained results in order to integrate them into solutions such as geographic BI. This work can be applied to other cases with very large data sets.
    Type de document : 
    Communication dans un congrès
    Big Spatial Data, Jul 2014, Orléans, France. pp.132-141

  • Scalable data-management systems for Big Data

    Pin it! Imprimer
    Sur le passage à l'échelle des systèmes de gestion des grandes masses de données
    Viet-Trung Tran 1 
     
    1 INRIA - IRISA - KERDATA
    ENS Cachan - École normale supérieure - Cachan, UR1 - Université de Rennes 1, INSA Rennes - Institut National des Sciences Appliquées - Rennes, INRIA, CNRS : UMR6074
    Résumé : La problématique "Big Data" peut être caractérisée par trois "V": - "Big Volume" se rapporte à l'augmentation sans précédent du volume des données. - "Big Velocity" se réfère à la croissance de la vitesse à laquelle ces données sont déplacées entre les systèmes qui les gèrent. - "Big Variety" correspond à la diversification des formats de ces données. Ces caractéristiques imposent des changements fondamentaux dans l'architecture des systèmes de gestion de données. Les systèmes de stockage doivent être adaptés à la croissance des données, et se doivent de passer à l'échelle tout en maintenant un accès à hautes performances. Cette thèse se concentre sur la construction des systèmes de gestion de grandes masses de données passant à l'échelle. Les deux premières contributions ont pour objectif de fournir un support efficace des "Big Volumes" pour les applications data-intensives dans les environnements de calcul à hautes performances (HPC). Nous abordons en particulier les limitations des approches existantes dans leur gestion des opérations d'entrées/sorties (E/S) non-contiguës atomiques à large échelle. Un mécanisme basé sur les versions est alors proposé, et qui peut être utilisé pour l'isolation des E/S non-contiguës sans le fardeau de synchronisations coûteuses. Dans le contexte du traitement parallèle de tableaux multi-dimensionels en HPC, nous présentons Pyramid, un système de stockage large-échelle optimisé pour ce type de données. Pyramid revoit l'organisation physique des données dans les systèmes de stockage distribués en vue d'un passage à l'échelle des performances. Pyramid favorise un partitionnement multi-dimensionel de données correspondant le plus possible aux accès générés par les applications. Il se base également sur une gestion distribuée des métadonnées et un mécanisme de versioning pour la résolution des accès concurrents, ce afin d'éliminer tout besoin de synchronisation. Notre troisième contribution aborde le problème "Big Volume" à l'échelle d'un environnement géographiquement distribué. Nous considérons BlobSeer, un service distribué de gestion de données orienté "versioning", et nous proposons BlobSeer-WAN, une extension de BlobSeer optimisée pour un tel environnement. BlobSeer-WAN prend en compte la hiérarchie de latence et favorise les accès aux méta-données locales. BlobSeer-WAN inclut la réplication asynchrone des méta-données et une résolution des collisions basée sur des "vector-clock". Afin de traîter le caractère "Big Velocity" de la problématique "Big Data", notre dernière contribution consiste en DStore, un système de stockage en mémoire orienté "documents" qui passe à l'échelle verticalement en exploitant les capacités mémoires des machines multi-coeurs. Nous montrons l'efficacité de DStore dans le cadre du traitement de requêtes d'écritures atomiques complexes tout en maintenant un haut débit d'accès en lecture. DStore suit un modèle d'exécution mono-thread qui met à jour les transactions séquentiellement, tout en se basant sur une gestion de la concurrence basée sur le versioning afin de permettre un grand nombre d'accès simultanés en lecture.
    Type de document : 
    Thèse
    Other. École normale supérieure de Cachan - ENS Cachan, 2013. English. <NNT : 2013DENS0001>

    FICHIER

    Tran2013.pdf
    Version validée par le jury (STAR)

     

    Source : 

    https://hal.archives-ouvertes.fr/tel-00920432

  • A Big Data Platform for Large Scale Event Processing

    Pin it! Imprimer

    A Big Data Platform for Large Scale Event Processing

    Vincenzo Gulisano 1 Ricardo Jimenez-Peris 1 Marta Patiño-Martinez 1 Claudio Soriente 1 Patrick Valduriez 2 
     
    2 ZENITH - ZENITH: Scientific Data Management
    LIRMM - Laboratoire d'Informatique de Robotique et de Microélectronique de Montpellier, INRIA
    Abstract : To date, big data applications have focused on the store-and-process paradigm. In this paper we describe an initiative to deal with big data applications for continuous streams of events.
    Type de document : 
    Article dans des revues

     

    Source :

    https://hal.archives-ouvertes.fr/lirmm-00748582v1

  • Understanding Vertical Scalability of I/O Virtualization for MapReduce Workloads: Challenges and Opportunities

    Pin it! Imprimer

    Understanding Vertical Scalability of I/O Virtualization for MapReduce Workloads: Challenges and Opportunities

    Bogdan Nicolae 1, * 
    * Auteur correspondant
    Abstract : As the explosion of data sizes continues to push the limits of our abilities to efficiently store and process big data, next generation big data systems face multiple challenges. One such important challenge relates to the limited scalability of I/O, a determining factor in the overall performance of big data applications. Although paradigms like MapReduce have long been used to take advantage of local disks and avoid data movements over the network as much as possible, with increasing core count per node, local storage comes under increasing I/O pressure itself and prompts the need to equip nodes with multiple disks. However, given the rising need to virtualize large datacenters in order to provide a more flexible allocation and consolidation of physical resources (transforming them into public or private/hybrid clouds), the following questions arise: is it possible to take advantage of multiple local disks at virtual machine (VM) level in order to speed up big data analytics? If so, what are the best practices to achieve a high virtualized aggregated I/O throughput? This paper aims to answer these questions in the context of I/O intensive MapReduce workloads: it analyzes and characterizes their behavior under different virtualization scenarios in order to propose best practices for current approaches and speculate on future areas of improvement.
    Type de document : 
    Communication dans un congrès
    BigDataCloud'13: 2nd Workshop on Big Data Management in Clouds, Aug 2013, Aachen, Germany

    FICHIER

    main.pdf
    Fichiers produits par l'(les) auteur(s)

     

     

    Source : https://hal.archives-ouvertes.fr/hal-00856877v1

     

    Understanding Vertical Scalability of I/O Virtualization for MapReduce Workloads: Challenges and Opportunities

    Bogdan Nicolae 1, * 
    * Auteur correspondant
    Abstract : As the explosion of data sizes continues to push the limits of our abilities to efficiently store and process big data, next generation big data systems face multiple challenges. One such important challenge relates to the limited scalability of I/O, a determining factor in the overall performance of big data applications. Although paradigms like MapReduce have long been used to take advantage of local disks and avoid data movements over the network as much as possible, with increasing core count per node, local storage comes under increasing I/O pressure itself and prompts the need to equip nodes with multiple disks. However, given the rising need to virtualize large datacenters in order to provide a more flexible allocation and consolidation of physical resources (transforming them into public or private/hybrid clouds), the following questions arise: is it possible to take advantage of multiple local disks at virtual machine (VM) level in order to speed up big data analytics? If so, what are the best practices to achieve a high virtualized aggregated I/O throughput? This paper aims to answer these questions in the context of I/O intensive MapReduce workloads: it analyzes and characterizes their behavior under different virtualization scenarios in order to propose best practices for current approaches and speculate on future areas of improvement.
    Type de document : 
    Communication dans un congrès
    BigDataCloud'13: 2nd Workshop on Big Data Management in Clouds, Aug 2013, Aachen, Germany

    FICHIER

    main.pdf
    Fichiers produits par l'(les) auteur(s)

     

     

    Source : https://hal.archives-ouvertes.fr/hal-00856877v1

     

  • Semantic HMC for Big Data Analysis

    Pin it! Imprimer

    Semantic HMC for Big Data Analysis

    Abstract : Analyzing Big Data can help corporations to im-prove their efficiency. In this work we present a new vision to derive Value from Big Data using a Semantic Hierarchical Multi-label Classification called Semantic HMC based in a non-supervised Ontology learning process. We also proposea Semantic HMC process, using scalable Machine-Learning techniques and Rule-based reasoning.
    Type de document : 
    Poster
    2014 IEEE International Conference on Big Data, Oct 2014, Washington, United States.<http://cci.drexel.edu/bigdata/bigdata2014/new.htm>

     

    FICHIERS

    poster-SHMC.pdf
    Fichiers produits par l'(les) auteur(s)

    Source : https://hal.archives-ouvertes.fr/hal-01089741v1

     

    Semantic HMC for Big Data Analysis

    Abstract : Analyzing Big Data can help corporations to im-prove their efficiency. In this work we present a new vision to derive Value from Big Data using a Semantic Hierarchical Multi-label Classification called Semantic HMC based in a non-supervised Ontology learning process. We also proposea Semantic HMC process, using scalable Machine-Learning techniques and Rule-based reasoning.
    Type de document : 
    Poster
    2014 IEEE International Conference on Big Data, Oct 2014, Washington, United States.<http://cci.drexel.edu/bigdata/bigdata2014/new.htm>

     

    FICHIERS

    poster-SHMC.pdf
    Fichiers produits par l'(les) auteur(s)

    Source : https://hal.archives-ouvertes.fr/hal-01089741v1

     

  • Modélisation et implémentation de parallélisme implicite pour les simulations scientifiques basées sur des maillages

    Pin it! Imprimer
    Modélisation et implémentation de parallélisme implicite pour les simulations scientifiques basées sur des maillages
    Résumé : Le calcul scientifique parallèle est un domaine en plein essor qui permet à la fois d’augmenter la vitesse des longs traitements, de traiter des problèmes de taille plus importante ou encore des problèmes plus précis. Ce domaine permet donc d’aller plus loin dans les calculs scientifiques, d’obtenir des résultats plus pertinents, car plus précis, ou d’étudier des problèmes plus volumineux qu’auparavant. Dans le monde plus particulier de la simulation numérique scientifique, la résolution d’équations aux dérivées partielles (EDP) est un calcul particulièrement demandeur de ressources parallèles. Si les ressources matérielles permettant le calcul parallèle sont de plus en plus présentes et disponibles pour les scientifiques, à l’inverse leur utilisation et la programmation parallèle se démocratisent difficilement. Pour cette raison, des modèles de programmation parallèle, des outils de développement et même des langages de programmation parallèle ont vu le jour et visent à simplifier l’utilisation de ces machines. Il est toutefois difficile, dans ce domaine dit du “parallélisme implicite”, de trouver le niveau d’abstraction idéal pour les scientifiques, tout en réduisant l’effort de programmation.Ce travail de thèse propose tout d’abord un modèle permettant de mettre en œuvre des solutions de parallé- lisme implicite pour les simulations numériques et la résolution d’EDP. Ce modèle est appelé “Structured Implicit Parallelism for scientific SIMulations” (SIPSim), et propose une vision au croisement de plusieurs types d’abs- traction, en tentant de conserver les avantages de chaque vision. Une première implémentation de ce modèle, sous la forme d’une librairie C++ appelée SkelGIS, est proposée pour les maillages cartésiens à deux dimensions. Par la suite, SkelGIS, et donc l’implémentation du modèle, est étendue à des simulations numériques sur les réseaux (permettant l’application de simulations représentant plusieurs phénomènes physiques). Les performances de ces deux implémentations sont évaluées et analysées sur des cas d’application réels et complexes et démontrent qu’il est possible d’obtenir de bonnes performances en implémentant le modèle SIPSim.
    Type de document : 
    Thèse
    Distributed, Parallel, and Cluster Computing. Université d'Orléans, 2014. French

     

    FICHIER

     

    Source : 

    https://hal.archives-ouvertes.fr/tel-01094327

  • Analyse de sécurité de logiciels système par typage statique

    Pin it! Imprimer
    Analyse de sécurité de logiciels système par typage statique
    Résumé : Les noyaux de systèmes d'exploitation manipulent des données fournies par les programmes utilisateur via les appels système. Si elles sont manipulées sans prendre une attention particulière, une faille de sécurité connue sous le nom de Confused Deputy Problem peut amener à des fuites de données confidentielles ou l'élévation de privilèges d'un attaquant. Le but de cette thèse est d'utiliser des techniques de typage statique afin de détecter les manipulations dangereuses de pointeurs contrôlés par l'espace utilisateur. La plupart des systèmes d'exploitation sont écrits dans le langage C. On commence par en isoler un sous-langage sûr nommé Safespeak. Sa sémantique opérationnelle et un premier système de types sont décrits, et les propriétés classiques de sûreté du typage sont établies. La manipulation des états mémoire est formalisée sous la forme de lentilles bidirectionnelles, qui permettent d'encoder les mises à jour partielles des états et variables. Un première analyse sur ce langage est décrite, permettant de distinguer les entiers utilisés comme bitmasks, qui sont une source de bugs dans les programmes C.
    Type de document : 
    Thèse
    Other. Université Pierre et Marie Curie - Paris VI, 2014. French. <NNT : 2014PA066120>
    Domaine :

     

    FICHIER

    these_archivage_2970115opti.pd...
    Version validée par le jury (STAR)

    Source : 

    https://hal.archives-ouvertes.fr/tel-01067475