Advanced search in Research products
Research products
arrow_drop_down
Searching FieldsTerms
Any field
arrow_drop_down
includes
arrow_drop_down
Include:
The following results are related to DARIAH EU. Are you interested to view more results? Visit OpenAIRE - Explore.
4 Research products, page 1 of 1

  • DARIAH EU
  • Publications
  • Research data
  • Doctoral thesis
  • Mémoires en Sciences de l'Information et de la Communication

Relevance
arrow_drop_down
  • French
    Authors: 
    Gianola, Lucie;
    Publisher: HAL CCSD
    Country: France

    Criminal analysis is a discipline that supports investigations practiced within the National Gendarmerie. It is based on the use of the documents compiled in the judicial procedure file (witness interviews, search warrants, expert reports, phone and bank data, etc.) to synthesize the information collected and to propose a new understanding of the facts examined. While criminal analysis uses data visualization software (i. e. IBM Analyst's Notebook) to display the hypotheses formulated, the digital and textual management of the file documents is entirely manual. However, criminal analysis relies on entities to formalize its practice. The presentation of the research context details the practice of criminal analysis as well as the constitution of judicial procedure files as textual corpora. We then propose perspectives for the adaptation of natural language processing (NLP) and information extraction methods to the case study, including a comparison of the concepts of entity in criminal analysis and named entity in NLP. This comparison is done on the conceptual and linguistic plans. A first approach to the detection of entities in witness interviews is presented. Finally, since textual genre is a parameter to be taken into account when applying automatic processing to text, we develop a structure of the 'legal' textual genre into discourse, genres, and sub-genres through a textometric study aimed at characterizing different types of texts (including witness interviews) produced by the field of justice.; L'analyse criminelle est une discipline d'appui aux enquêtes pratiquée au sein de la Gendarmerie Nationale. Elle repose sur l'exploitation des documents compilés dans le dossier de procédure judiciaire (auditions, perquisitions, rapports d'expertise, données téléphoniques et bancaires, etc.) afin de synthétiser les informations collectées et de proposer un regard neuf sur les faits examinés. Si l'analyse criminelle a recours à des logiciels de visualisation de données (i. e. Analyst's Notebook d'IBM) pour la mise en forme des hypothèses formulées, la gestion informatique et textuelle des documents de la procédure est entièrement manuelle. Or, l'analyse criminelle s'appuie entre autres sur le concept d'entités pour formaliser son travail. La présentation du contexte de recherche détaille la pratique de l'analyse criminelle ainsi que la constitution du dossier de procédure judiciaire en tant que corpus textuel. Nous proposons ensuite des perspectives pour l'adaptation des méthodes de traitement automatique de la langue (TAL) et d'extraction d'information au cas d'étude, notamment la mise en parallèle des concepts d'entité en analyse criminelle et d'entité nommée en TAL. Cette comparaison est réalisée sur les plans conceptuels et linguistiques. Une première approche de détection des entités dans les auditions de témoins est présentée. Enfin, le genre textuel étant un paramètre à prendre en compte lors de l'application de traitements automatiques à du texte, nous construisons une structuration du genre textuel « légal » en discours, genres et sous-genres par le biais d'une étude textométrique visant à caractériser différents types de textes (dont les auditions de témoins) produits par le domaine de la justice.

  • English
    Authors: 
    Khemakhem, Mohamed;
    Publisher: HAL CCSD
    Country: France
    Project: EC | PARTHENOS (654119), ANR | BASNUM (ANR-18-CE38-0003)

    Dictionaries could be considered as the most comprehensive reservoir of human knowledge, which carry not only the lexical description of words in one or more languages, but also the common awareness of a certain communityabout every known piece of knowledge in a time frame. Print dictionaries are the principle resources which enable the documentation and transfer of such knowledge. They already exist in abundant numbers, while new onesare continuously compiled, even with the recent strong move to digital resources.However, a majority of these dictionaries, even when available digitally, is still not fully structured due to the absence of scalable methods and techniques that can cover the variety of corresponding material. Moreover, the relatively few existing structured resources present limited exchange and query alternatives, given the discrepancy of their data models and formats.In this thesis we address the task of parsing lexical information in print dictionaries through the design of computer models that enable their automatic structuring. Solving this task goes hand in hand with finding a standardised output for these models to guarantee a maximum interoperability among resources and usability for downstream tasks.First, we present different classifications of the dictionaric resources to delimit the category of print dictionaries we aim to process. Second, we introduce the parsing task by providing an overview of the processing challengesand a study of the state of the art. Then, we present a novel approach based on a top-down parsing of the lexical information. We also outline the archiecture of the resulting system, called GROBID-Dictionaries, and the methodology we followed to close the gap between the conception of the system and its applicability to real-world scenarios.After that, we draw the landscape of the leading standards for structured lexical resources. In addition, we provide an analysis of two ongoing initiatives, TEI-Lex-0 and LMF, that aim at the unification of modelling the lexical information in print and electronic dictionaries. Based on that, we present a serialisation format that is inline with the schemes of the two standardisation initiatives and fits the approach implemented in our parsing system.After presenting the parsing and standardised serialisation facets of our lexical models, we provide an empirical study of their performance and behaviour. The investigation is based on a specific machine learning setup andseries of experiments carried out with a selected pool of varied dictionaries.We try in this study to present different ways for feature engineering and exhibit the strength and the limits of the best resulting models. We also dedicate two series of experiments for exploring the scalability of our models with regard to the processed documents and the employed machine learning technique.Finally, we sum up this thesis by presenting the major conclusions and opening new perspectives for extending our investigations in a number of research directions for parsing entry-based documents.; Les dictionnaires peuvent être considérés comme le réservoir le plus compréhensible de connaissances humaines, qui contiennent non seulement la description lexicale des mots dans une ou plusieurs langues, mais aussi la conscience commune d’une certaine communauté sur chaque élément de connaissance connu dans une période de temps donnée. Les dictionnaires imprimés sont les principales ressources qui permettent la documentation et le transfert de ces connaissances. Ils existent déjà en grand nombre, et de nouveaux dictionnaires sont continuellement compilés.Cependant, la majorité de ces dictionnaires dans leur version numérique n’est toujours pas structurée en raison de l’absence de méthodes et de techniques évolutives pouvant couvrir le nombre du matériel croissant et sa variété. En outre, les ressources structurées existantes, relativement peu nombreuses, présentent des alternatives d’échange et de recherche limitées, en raison d’un sérieux manque de synchronisation entre leurs schémas de structure.Dans cette thèse, nous abordons la tâche d’analyse des informations lexicales dans les dictionnaires imprimés en construisant des modèles qui permettent leur structuration automatique. La résolution de cette tâche va depair avec la recherche d’une sortie standardisée de ces modèles afin de garantir une interopérabilité maximale entre les ressources et une facilité d’utilisation pour les tâches en aval.Nous commençons par présenter différentes classifications des ressources dictionnaires pour délimiter les catégories des dictionnaires imprimés sur lesquelles ce travail se focalise. Ensuite, nous définissions la tâche d’analyse en fournissant un aperçu des défis de traitement et une étude de l’état de l’art.Nous présentons par la suite une nouvelle approche basée sur une analyse en cascade de l’information lexicale. Nous décrivons également l’architecture du système résultant, appelé GROBID-Dictionaries, et la méthodologie quenous avons suivie pour rapprocher la conception du système de son applicabilité aux scénarios du monde réel.Ensuite, nous prestons des normes clés pour les ressources lexicales structurées. En outre, nous fournissons une analyse de deux initiatives en cours, TEI-Lex-0 et LMF, qui visent à unifier la modélisation de l’information lexicale dans les dictionnaires imprimés et électroniques. Sur cette base, nous présentons un format de sérialisation conforme aux schémas des deux initiatives de normalisation et qui est assorti à l’approche développée dans notresystème d’analyse lexicale.Après avoir présenté les facettes d’analyse et de sérialisation normalisées de nos modèles lexicaux, nous fournissons une étude empirique de leurs performances et de leurs comportements. L’étude est basée sur une configuration spécifique d’apprentissage automatique et sur une série d’expériences menées avec un ensemble sélectionné de dictionnaires variés. Dans cette étude, nous essayons de présenter différentes manières d’ingénierie des caractéristiques et de montrer les points forts et les limites des meilleurs modèles résultants. Nous consacrons également deux séries d’expériences pour explorer l’extensibilité de nos modèles en ce qui concerne les documents traités et la technique d’apprentissage automatique employée.Enfin, nous clôturons cette thèse en présentant les principales conclusions et en ouvrant de nouvelles perspectives pour l’extension de nos investigations dans un certain nombre de directions de recherche pour l’analyse des documents structurés en un ensemble d’entrées.

  • Open Access French
    Authors: 
    Gruson-Daniel Célya;
    Publisher: HAL CCSD
    Country: France

    Cette recherche prend la forme d’une enquête au sein des milieux de production des savoirs français contemporains et vise à comprendre les différentes significations du terme open en sciences. J’ai considéré le qualificatif open comme une formule. L’analyse de ses traductions en français (ouvert, libre, gratuit), tout autant que des noms qui lui sont associés (science, data, access), constitue le fil directeur de mon étude. Cette enquête, qui a débuté en 2013, s’est surtout centrée sur un évènement particulier, la consultation sur le projet de loi pour une République numérique (septembre-octobre 2015), en particulier l’article 9 sur « le libre accès aux publications scientifiques de la recherche publique ». Cette consultation en ligne a donné une envergure nationale et publique aux problématiques d’accès aux savoirs. En tant qu’épreuve de réalité « équipée » d’un dispositif numérique participatif, elle a été l’occasion d’observer presque « en direct » la défense de différentes conceptions de « ce que devrait être » le régime contemporain des savoirs en France. M’inscrivant dans une démarche par théorisation ancrée, j’ai constitué progressivement, à propos de ce moment particulier de cristallisation des débats sur l’open en sciences, un corpus de documents reflétant le déploiement des échanges sur des espaces/dispositifs numériques distincts : site web de la consultation, blogs scientifiques, revues académiques, médias « grand public », rapports. Les mouvements itératifs de cette enquête, alliant méthodes numériques (réalisation d’une cartographie de similarité des votes) et analyse qualitative du corpus, tout autant que les concepts théoriques mobilisés à la croisée entre sciences de l’information et de la communication et sociologie pragmatique de la critique, ont donné lieu à une modélisation. Cette dernière expose les perspectives argumentatives et les stratégies dans l’épreuve mises en œuvre par diverses parties prenantes pour faire valoir leurs conceptions. Elle montre qu’elles sont sous-tendues par des logiques que j’ai rattachées à des esprits successifs du régime français des savoirs. Par la suite, en passant de la modélisation à une théorisation transposable à d’autres terrains de recherche, je montre comment, derrière les discours sur l’open, la distinction entre deux logiques (technoindustrielle ou processuelle) peut être pertinente pour analyser les reconfigurations actuelles d’autres agencements sociétaux. Les stratégies dans l’épreuve employées lors de la consultation illustrent dans ce sens la coexistence de deux conceptions « numériques » de la démocratie (représentative étendue ou contributive), présentes dans le design même de la plateforme consultative. Dans la dernière partie, je propose d’expliquer les dynamiques de reconfiguration d’un esprit et d’un agencement sociétal dans une interprétation énactive en considérant les couplages permanents entre cognition, actions médiées par les technologies et environnement sociotechnique. L’expérience même du doctorat narrée tout au long de ce récit constitue aussi l’exemple d’un processus d’énaction sur mes propres conceptions de l’open. En ce sens, elle ouvre une piste de réflexion sur la nature située et incarnée de toute production de savoirs, qui n'échappe pas aux limites tout autant qu’aux potentialités de la métacognition. THE FRENCH REGIME OF KNOWLEDGES AND ITS DYNAMICS: OPEN IN SCIENCES AND DIGITAL TECHNOLOGIES IN DEBATE. THE CASE STUDY OF THE FRENCH BILL FOR A "DIGITAL REPUBLIC" (2015) This research investigates the worlds of contemporary French knowledge production in order to understand the different meanings of the term 'open' in sciences. Specific attention has been drawn to the qualifying adjective 'open' in relation to the French translations (ouvert, libre gratuit) as well as associated terms (science, data, access) with this formula. This inquiry began in 2013 and focused mainly on a specific event, the consultation on the bill for a "Digital Republic" (September-October 2015), in particular Article 9 on "open access to scientific publications in public research". This online consultation has allowed for a national and public scope to the issue of access to knowledges. As an "equipped" reality test via a participative website, arose the opportunity to observe almost "live" the defense of different conceptions of "what should be" the contemporary regime of knowledges in France. Through a grounded theory approach around this particular crystallisation moment of the debates on open in sciences has led me to gradually constitute a corpus of documents, reflecting the deployment of the exchanges on different digital spaces/apparatus (consultation website, scientific blogs, academic notebooks, mainstream press, etc.). Within an iterative research process, I combined digital methods (digital mapping of the similarity of votes) and qualitative analysis of the corpus, as well as the theoretical concepts mobilized at the crossroads between information and communication sciences and "pragmatic sociology of critique". This enabled the development of a model which shows that the argumentative perspectives and the strategies in the test implemented by various stakeholders to promote their own conceptions are underpinned by logics, which I have attached to "spirits" of the French regime of knowledges. Subsequently, by switching from modeling to transposable theorization into other fields of research, I show how the distinction between two logics (technoindustrial or processual), behind the discourses on open, can be relevant to analyze the current reconfigurations of other "societal arrangements". The consultation by itself illustrates this point with the coexistence of two "digital" conceptions of democracy (extended representative or contributive), embodied in the design of the consultative platform. In the last part, I propose to explain the dynamics between the reconfiguration of a spirit and its social arrangement, by considering the permanent coupling between cognition, technologically mediated actions and socio-technical environment. Finally, the PhD experience narrated throughout this inquiry is also an example of an enaction process on my own conceptions of open. In this sense, it opens further reflections on the situated and incarnated nature of any production of knowledges, which escapes neither the limits nor the potentialities of metacognition. Keywords: open, regime of knowledges, democracy, debate, digital technologies, enaction

  • Publication . Doctoral thesis . 2016
    Italian
    Authors: 
    Nurra, Federico;
    Publisher: HAL CCSD

    The issue of this PhD thesis is a Web Mapping platform on a global scale based on XML interchange protocols and accepted standards.The focus was on the minimum specifications that the archaeological data should have in order to be uniform and interoperable, and above all, on the geometric and cartographic characteristics that would allow the production of a homogeneous archaeological mapping. Until this moment, the proposals for the production of archaeological cartography have been developed at local, regional, national or, with rare exceptions, continental scale.Thanks to recent advances in information technology, it is now possible to create an open platform for the implementation, storage, exchange, discussion and verification of spatial archaeological data on a global scale.We have identified the primary categories for the acquisition of archaeological data, by defining the minimum standards of compliance of the data, without, however, trivialize the data themselves, thus avoiding a dangerous loss of historical-topographical information. The identification of the four coordinates of objects acquired and a minimum data set of attributes, plus a set of metadata was fundamental.The proposal is therefore the development of a Web Mapping platform, open and collaborative, for positioning and representation of archaeological remains, a sort of "cadaster", and an analytical and detailed knowledge base to assist, support and address each territorial study.; L’objet de cette thèse de doctorat est une plate-forme de cartographie en ligne à l’échelle mondiale basée sur les protocoles d'échange XML et des normes standardisées.L’accent a été mis sur les spécifications minimales que les données archéologiques devraient avoir afin d’être uniformes et interopérables et, surtout, sur les caractéristiques géométriques et cartographiques qui permettraient la production d'une cartographie archéologique homogène. Jusqu’à présent, les propositions pour la production de la cartographie archéologique ont été élaborées à l'échelle locale, régionale, nationale ou, à de rares exceptions près, continentale.Grâce aux récents progrès des technologies de l’information, il est maintenant possible de créer une plate-forme ouverte pour la mise en œuvre, le stockage, l’échange, la discussion et la vérification de données archéologiques spatiales à l’échelle mondiale.Nous avons identifié les principales catégories pour l’acquisition de données archéologiques, en définissant les normes minimales de conformité des données, sans toutefois banaliser les données elles-mêmes, en évitant ainsi une perte dangereuse d’informations historico-topographiques. L’identification des quatre coordonnées des objets acquis et d’un ensemble minimal de données descriptives, plus un ensemble de métadonnées, a été fondamentale.La proposition consiste donc à développer une plateforme de cartographie en ligne, ouverte et collaborative, pour le positionnement et la représentation des vestiges archéologiques ; une sorte de « cadastre », et une base de connaissances analytique et détaillée pour aider, soutenir et traiter chaque étude territoriale.