Advanced search in Research products
Research products
arrow_drop_down
Searching FieldsTerms
Any field
arrow_drop_down
includes
arrow_drop_down
Include:
The following results are related to DARIAH EU. Are you interested to view more results? Visit OpenAIRE - Explore.
19 Research products, page 1 of 2

  • DARIAH EU
  • 2018-2022
  • FR
  • US
  • French
  • Hyper Article en Ligne
  • Mémoires en Sciences de l'Information et de la Communication
  • Hal-Diderot
  • HAL AMU
  • DARIAH EU

10
arrow_drop_down
Relevance
arrow_drop_down
  • Open Access French
    Authors: 
    Angela Cossu;
    Publisher: HAL CCSD
    Country: France

    International audience

  • Open Access French
    Authors: 
    Gruson-Daniel, Célya;
    Publisher: HAL CCSD
    Country: France

    Cette recherche prend la forme d’une enquête au sein des milieux de production des savoirs français contemporainset vise à comprendre les différentes significations du terme open en sciences. J’ai considéré le qualificatif open comme une formule. L’analyse de ses traductions en français (ouvert, libre, gratuit), tout autant que des noms qui lui sont associés (science, data, access), constitue le fil directeur de mon étude. Cette enquête, qui a débuté en 2013, s’est surtout centrée sur un évènement particulier, la consultation sur le projet de loi pour une République numérique (septembre octobre 2015), en particulier l’article 9 sur « le libre accès aux publications scientifiques de la recherche publique ».Cette consultation en ligne a donné une envergure nationale et publique aux problématiques d’accès aux savoirs. Entant qu’épreuve de réalité « équipée » d’un dispositif numérique participatif, elle a été l’occasion d’observer presque« en direct » la défense de différentes conceptions de « ce que devrait être » le régime contemporain des savoirs enFrance.M’inscrivant dans une démarche par théorisation ancrée, j’ai constitué progressivement, à propos de ce momentparticulier de cristallisation des débats sur l’open en sciences, un corpus de documents reflétant le déploiement deséchanges sur des espaces/dispositifs numériques distincts : site web de la consultation, blogs scientifiques, revuesacadémiques, médias « grand public », rapports. Les mouvements itératifs de cette enquête, alliant méthodesnumériques (réalisation d’une cartographie de similarité des votes) et analyse qualitative du corpus, tout autant que les concepts théoriques mobilisés à la croisée entre sciences de l’information et de la communication et sociologiepragmatique de la critique, ont donné lieu à une modélisation.Cette dernière expose les perspectives argumentatives et les stratégies dans l’épreuve mises en oeuvre par diversesparties prenantes pour faire valoir leurs conceptions. Elle montre qu’elles sont sous-tendues par des logiques que j’airattachées à des esprits successifs du régime français des savoirs. Par la suite, en passant de la modélisation à unethéorisation transposable à d’autres terrains de recherche, je montre comment, derrière les discours sur l’open, ladistinction entre deux logiques (technoindustrielle ou processuelle) peut être pertinente pour analyser lesreconfigurations actuelles d’autres agencements sociétaux. Les stratégies dans l’épreuve employées lors de laconsultation illustrent dans ce sens la coexistence de deux conceptions « numériques » de la démocratie (représentative étendue ou contributive), présentes dans le design même de la plateforme consultative.Dans la dernière partie, je propose d’expliquer les dynamiques de reconfiguration d’un esprit et d’un agencementsociétal dans une interprétation énactive en considérant les couplages permanents entre cognition, actions médiées par les technologies et environnement sociotechnique. L’expérience même du doctorat narrée tout au long de ce récitconstitue aussi l’exemple d’un processus d’énaction sur mes propres conceptions de l’open. En ce sens, elle ouvre une piste de réflexion sur la nature située et incarnée de toute production de savoirs, qui n'échappe pas aux limites tout autant qu’aux potentialités de la métacognition. This research investigates the worlds of contemporary French knowledge production in order to understand thedifferent meanings of the term ‘open’ in sciences. Specific attention has been drawn to the qualifying adjective ‘open’in relation to the French translations (ouvert, libre gratuit) as well as associated terms (science, data, access) with thisformula. This inquiry began in 2013 and focused mainly on a specific event, the consultation on the bill for a “DigitalRepublic” (September-October 2015), in particular Article 9 on "open access to scientific publications in publicresearch". This online consultation has allowed for a national and public scope to the issue of access to knowledges.As an “equipped” reality test via a participative website, arose the opportunity to observe almost "live" the defense ofdifferent conceptions of "what should be" the contemporary regime of knowledges in France.Through a grounded theory approach around this particular crystallisation moment of the debates on open in scienceshas led me to gradually constitute a corpus of documents, reflecting the deployment of the exchanges on differentdigital spaces/apparatus (consultation website, scientific blogs, academic notebooks, mainstream press, etc.). Withinan iterative research process, I combined digital methods (digital mapping of the similarity of votes) and qualitativeanalysis of the corpus, as well as the theoretical concepts mobilized at the crossroads between information andcommunication sciences and “pragmatic sociology of critique”.This enabled the development of a model which shows that the argumentative perspectives and the strategies in thetest implemented by various stakeholders to promote their own conceptions are underpinned by logics, which I haveattached to “spirits” of the French regime of knowledges. Subsequently, by switching from modeling to transposabletheorization into other fields of research, I show how the distinction between two logics (technoindustrial orprocessual), behind the discourses on open, can be relevant to analyze the current reconfigurations of other “societalarrangements”. The consultation by itself illustrates this point with the coexistence of two "digital" conceptions ofdemocracy (extended representative or contributive), embodied in the design of the consultative platform.In the last part, I propose to explain the dynamics between the reconfiguration of a spirit and its social arrangement,by considering the permanent coupling between cognition, technologically mediated actions and socio-technicalenvironment. Finally, the PhD experience narrated throughout this inquiry is also an example of an enaction processon my own conceptions of open. In this sense, it opens further reflections on the situated and incarnated nature ofany production of knowledges, which escapes neither the limits nor the potentialities of metacognition.

  • French
    Authors: 
    Masclet De Barbarin, Marie;
    Publisher: HAL CCSD
    Country: France

    International audience; Ce guide de bonnes pratiques éthiques et juridiques pour la diffusion des données en SHS est né de la réflexion d’un groupe de chercheurs, de professionnels de la documentation et de juristes structuré dans le cadre d’un groupe de travail Éthique et Droit. Face au renouvellement des problématiques liées aux droits d’auteurs, à la confidentialité, à la sécurisation et à la validation des données dans un contexte de mutation technologique, le groupe de travail Éthique et Droit a lancé un appel à communication ouvert à toutes les personnes s’intéressant aux problématiques éthiques et juridiques en matière de diffusion des données en SHS. Les auteurs ont été invités à proposer soit des retours d’expériences soit des articles portant sur les enjeux éthiques et juridiques en matière de diffusion des données en SHS, en explorant les solutions concrètes envisageables ou envisagées dans le cadre des cinq étapes de diffusion identifiées au préalable : la préparation de la recherche et l’anticipation de l’archivage ; la collecte des données ; le traitement, l’archivage et la description des données ; la diffusion des résultats de la recherche et la réutilisation des données.Il est important ici de souligner le caractère ambitieux de la démarche, à la fois prospective et réflexive, empirique et comparative, et surtout résolument pragmatique. Ce projet, labellisé par la Digital Research Infrastructure for the Arts and Humanities (DARIAH) en 2015 et financé par le Service commun de documentation (SCD) d’AMU, par la MMSH et par le consortium des ethnologues de la Très Grande Infrastructure de recherche (TGIR) Huma-Num a été supervisé par un comité scientifique qui s’est porté garant de la rigueur scientifique de la démarche.

  • French
    Authors: 
    Ginouvès, Véronique; Gras, Isabelle;
    Publisher: HAL CCSD
    Country: France

    International audience; En guise de postface, il nous a semblé nécessaire de revenir sur le processus collaboratif de la fabrication de cet ouvrage et de vous confier la genèse de ce projet. Tout est parti d'un constat pragmatique, de nos situations quotidiennes de travail : le/la chercheur·e qui produit ou utilise des données a besoin de réponses concrètes aux questions auxquelles il/elle est confronté·e sur son terrain comme lors de tous ses travaux de recherche. Produire, exploiter, diffuser, partager ou éditer des sources numériques fait aujourd'hui partie de notre travail ordinaire. La rupture apportée par le développement du web et l'arrivée du format numérique ont largement facilité la diffusion et le partage des ressources (documentaires, textuelles, photographiques, sonores ou audiovisuelles...) dans le monde de la recherche et, au-delà, auprès des citoyens de plus en plus curieux et intéressés par les documents produits par les scientifiques.

  • French
    Authors: 
    Cuxac, Pascal; Collignon, Alain; Gregorio, Stéphanie; Parmentier, François;
    Publisher: HAL CCSD
    Country: France

    International audience; In this paper we present an automatic approach to disambiguate and align geographic entities. A method based on word embeddings allows, from unsupervised learning, to remove ambiguity with polysemic terms. This allows automatic alignment with different databases (BNF, wikidata...) having a triplestore. We then use semantic web technologies, both to expose the data in a different way (data.istex) but also to allow complex queries that cannot be solved from traditional search engines. We will discuss a concrete case based on the ISTEX database, and a qualitative evaluation of the method will be proposed.; Dans cet article nous présentons une approche automatique visant à désambiguïser et aligner des entités géographiques de type placeName. Une méthode basée sur des plongements lexicaux permet, à partir d'un apprentissage non supervisé de lever l'ambiguïté face à un terme polysémique. Cela permet alors un alignement automatique avec différents réservoirs (BNF, wikidata…) possédant un triplestore. Nous utilisons alors les technologies du web sémantique, pour à la fois exposer les données de façon différente (data.istex) mais également autoriser des requêtes complexes impossibles à résoudre à partir de moteurs de recherche classiques. Nous aborderons un cas concret basé sur le réservoir ISTEX, et une évaluation qualitative de la méthode sera proposée.

  • Publication . Doctoral thesis . Other literature type . 2020
    Open Access French
    Authors: 
    Gianola, Lucie;
    Publisher: HAL CCSD
    Country: France

    L'analyse criminelle est une discipline d'appui aux enquêtes pratiquée au sein de la Gendarmerie Nationale. Elle repose sur l'exploitation des documents compilés dans le dossier de procédure judiciaire (auditions, perquisitions, rapports d'expertise, données téléphoniques et bancaires, etc.) afin de synthétiser les informations collectées et de proposer un regard neuf sur les faits examinés. Si l'analyse criminelle a recours à des logiciels de visualisation de données (i. e. Analyst's Notebook d'IBM) pour la mise en forme des hypothèses formulées, la gestion informatique et textuelle des documents de la procédure est entièrement manuelle. Or, l'analyse criminelle s'appuie entre autres sur le concept d'entités pour formaliser son travail. La présentation du contexte de recherche détaille la pratique de l'analyse criminelle ainsi que la constitution du dossier de procédure judiciaire en tant que corpus textuel. Nous proposons ensuite des perspectives pour l'adaptation des méthodes de traitement automatique de la langue (TAL) et d'extraction d'information au cas d'étude, notamment la mise en parallèle des concepts d'entité en analyse criminelle et d'entité nommée en TAL. Cette comparaison est réalisée sur les plans conceptuels et linguistiques. Une première approche de détection des entités dans les auditions de témoins est présentée. Enfin, le genre textuel étant un paramètre à prendre en compte lors de l'application de traitements automatiques à du texte, nous construisons une structuration du genre textuel « légal » en discours, genres et sous-genres par le biais d'une étude textométrique visant à caractériser différents types de textes (dont les auditions de témoins) produits par le domaine de la justice. Criminal analysis is a discipline that supports investigations practiced within the National Gendarmerie. It is based on the use of the documents compiled in the judicial procedure file (witness interviews, search warrants, expert reports, phone and bank data, etc.) to synthesize the information collected and to propose a new understanding of the facts examined. While criminal analysis uses data visualization software (i. e. IBM Analyst's Notebook) to display the hypotheses formulated, the digital and textual management of the file documents is entirely manual. However, criminal analysis relies on entities to formalize its practice. The presentation of the research context details the practice of criminal analysis as well as the constitution of judicial procedure files as textual corpora. We then propose perspectives for the adaptation of natural language processing (NLP) and information extraction methods to the case study, including a comparison of the concepts of entity in criminal analysis and named entity in NLP. This comparison is done on the conceptual and linguistic plans. A first approach to the detection of entities in witness interviews is presented. Finally, since textual genre is a parameter to be taken into account when applying automatic processing to text, we develop a structure of the 'legal' textual genre into discourse, genres, and sub-genres through a textometric study aimed at characterizing different types of texts (including witness interviews) produced by the field of justice.

  • French
    Authors: 
    Chagué, Alix; Terriel, Lucas; Romary, Laurent;
    Publisher: HAL CCSD
    Country: France

    International audience

  • French
    Authors: 
    Carmen Brando; Francesca Frontini; Mathieu Roche;
    Publisher: HAL CCSD
    Country: France

    International audience

  • Open Access French
    Authors: 
    Pascal Cuxac; Alain Collignon; Stéphanie Gregorio; François Parmentier;
    Publisher: HAL CCSD
    Country: France

    Dans cet article nous présentons une approche automatique visant à désambiguïser et aligner des entités géographiques de type placeName. Une méthode basée sur des plongements lexicaux permet, à partir d'un apprentissage non supervisé de lever l'ambiguïté face à un terme polysémique. Cela permet alors un alignement automatique avec différents réservoirs (BNF, wikidata…) possédant un triplestore. Nous utilisons alors les technologies du web sémantique, pour à la fois exposer les données de façon différente (data.istex) mais également autoriser des requêtes complexes impossibles à résoudre à partir de moteurs de recherche classiques. Nous aborderons un cas concret basé sur le réservoir ISTEX, et une évaluation qualitative de la méthode sera proposée. In this paper we present an automatic approach to disambiguate and align geographic entities. A method based on word embeddings allows, from unsupervised learning, to remove ambiguity with polysemic terms. This allows automatic alignment with different databases (BNF, wikidata...) having a triplestore. We then use semantic web technologies, both to expose the data in a different way (data.istex) but also to allow complex queries that cannot be solved from traditional search engines. We will discuss a concrete case based on the ISTEX database, and a qualitative evaluation of the method will be proposed.

  • French
    Authors: 
    Guichard, Éric;
    Publisher: HAL CCSD
    Country: France

    International audience

Advanced search in Research products
Research products
arrow_drop_down
Searching FieldsTerms
Any field
arrow_drop_down
includes
arrow_drop_down
Include:
The following results are related to DARIAH EU. Are you interested to view more results? Visit OpenAIRE - Explore.
19 Research products, page 1 of 2
  • Open Access French
    Authors: 
    Angela Cossu;
    Publisher: HAL CCSD
    Country: France

    International audience

  • Open Access French
    Authors: 
    Gruson-Daniel, Célya;
    Publisher: HAL CCSD
    Country: France

    Cette recherche prend la forme d’une enquête au sein des milieux de production des savoirs français contemporainset vise à comprendre les différentes significations du terme open en sciences. J’ai considéré le qualificatif open comme une formule. L’analyse de ses traductions en français (ouvert, libre, gratuit), tout autant que des noms qui lui sont associés (science, data, access), constitue le fil directeur de mon étude. Cette enquête, qui a débuté en 2013, s’est surtout centrée sur un évènement particulier, la consultation sur le projet de loi pour une République numérique (septembre octobre 2015), en particulier l’article 9 sur « le libre accès aux publications scientifiques de la recherche publique ».Cette consultation en ligne a donné une envergure nationale et publique aux problématiques d’accès aux savoirs. Entant qu’épreuve de réalité « équipée » d’un dispositif numérique participatif, elle a été l’occasion d’observer presque« en direct » la défense de différentes conceptions de « ce que devrait être » le régime contemporain des savoirs enFrance.M’inscrivant dans une démarche par théorisation ancrée, j’ai constitué progressivement, à propos de ce momentparticulier de cristallisation des débats sur l’open en sciences, un corpus de documents reflétant le déploiement deséchanges sur des espaces/dispositifs numériques distincts : site web de la consultation, blogs scientifiques, revuesacadémiques, médias « grand public », rapports. Les mouvements itératifs de cette enquête, alliant méthodesnumériques (réalisation d’une cartographie de similarité des votes) et analyse qualitative du corpus, tout autant que les concepts théoriques mobilisés à la croisée entre sciences de l’information et de la communication et sociologiepragmatique de la critique, ont donné lieu à une modélisation.Cette dernière expose les perspectives argumentatives et les stratégies dans l’épreuve mises en oeuvre par diversesparties prenantes pour faire valoir leurs conceptions. Elle montre qu’elles sont sous-tendues par des logiques que j’airattachées à des esprits successifs du régime français des savoirs. Par la suite, en passant de la modélisation à unethéorisation transposable à d’autres terrains de recherche, je montre comment, derrière les discours sur l’open, ladistinction entre deux logiques (technoindustrielle ou processuelle) peut être pertinente pour analyser lesreconfigurations actuelles d’autres agencements sociétaux. Les stratégies dans l’épreuve employées lors de laconsultation illustrent dans ce sens la coexistence de deux conceptions « numériques » de la démocratie (représentative étendue ou contributive), présentes dans le design même de la plateforme consultative.Dans la dernière partie, je propose d’expliquer les dynamiques de reconfiguration d’un esprit et d’un agencementsociétal dans une interprétation énactive en considérant les couplages permanents entre cognition, actions médiées par les technologies et environnement sociotechnique. L’expérience même du doctorat narrée tout au long de ce récitconstitue aussi l’exemple d’un processus d’énaction sur mes propres conceptions de l’open. En ce sens, elle ouvre une piste de réflexion sur la nature située et incarnée de toute production de savoirs, qui n'échappe pas aux limites tout autant qu’aux potentialités de la métacognition. This research investigates the worlds of contemporary French knowledge production in order to understand thedifferent meanings of the term ‘open’ in sciences. Specific attention has been drawn to the qualifying adjective ‘open’in relation to the French translations (ouvert, libre gratuit) as well as associated terms (science, data, access) with thisformula. This inquiry began in 2013 and focused mainly on a specific event, the consultation on the bill for a “DigitalRepublic” (September-October 2015), in particular Article 9 on "open access to scientific publications in publicresearch". This online consultation has allowed for a national and public scope to the issue of access to knowledges.As an “equipped” reality test via a participative website, arose the opportunity to observe almost "live" the defense ofdifferent conceptions of "what should be" the contemporary regime of knowledges in France.Through a grounded theory approach around this particular crystallisation moment of the debates on open in scienceshas led me to gradually constitute a corpus of documents, reflecting the deployment of the exchanges on differentdigital spaces/apparatus (consultation website, scientific blogs, academic notebooks, mainstream press, etc.). Withinan iterative research process, I combined digital methods (digital mapping of the similarity of votes) and qualitativeanalysis of the corpus, as well as the theoretical concepts mobilized at the crossroads between information andcommunication sciences and “pragmatic sociology of critique”.This enabled the development of a model which shows that the argumentative perspectives and the strategies in thetest implemented by various stakeholders to promote their own conceptions are underpinned by logics, which I haveattached to “spirits” of the French regime of knowledges. Subsequently, by switching from modeling to transposabletheorization into other fields of research, I show how the distinction between two logics (technoindustrial orprocessual), behind the discourses on open, can be relevant to analyze the current reconfigurations of other “societalarrangements”. The consultation by itself illustrates this point with the coexistence of two "digital" conceptions ofdemocracy (extended representative or contributive), embodied in the design of the consultative platform.In the last part, I propose to explain the dynamics between the reconfiguration of a spirit and its social arrangement,by considering the permanent coupling between cognition, technologically mediated actions and socio-technicalenvironment. Finally, the PhD experience narrated throughout this inquiry is also an example of an enaction processon my own conceptions of open. In this sense, it opens further reflections on the situated and incarnated nature ofany production of knowledges, which escapes neither the limits nor the potentialities of metacognition.

  • French
    Authors: 
    Masclet De Barbarin, Marie;
    Publisher: HAL CCSD
    Country: France

    International audience; Ce guide de bonnes pratiques éthiques et juridiques pour la diffusion des données en SHS est né de la réflexion d’un groupe de chercheurs, de professionnels de la documentation et de juristes structuré dans le cadre d’un groupe de travail Éthique et Droit. Face au renouvellement des problématiques liées aux droits d’auteurs, à la confidentialité, à la sécurisation et à la validation des données dans un contexte de mutation technologique, le groupe de travail Éthique et Droit a lancé un appel à communication ouvert à toutes les personnes s’intéressant aux problématiques éthiques et juridiques en matière de diffusion des données en SHS. Les auteurs ont été invités à proposer soit des retours d’expériences soit des articles portant sur les enjeux éthiques et juridiques en matière de diffusion des données en SHS, en explorant les solutions concrètes envisageables ou envisagées dans le cadre des cinq étapes de diffusion identifiées au préalable : la préparation de la recherche et l’anticipation de l’archivage ; la collecte des données ; le traitement, l’archivage et la description des données ; la diffusion des résultats de la recherche et la réutilisation des données.Il est important ici de souligner le caractère ambitieux de la démarche, à la fois prospective et réflexive, empirique et comparative, et surtout résolument pragmatique. Ce projet, labellisé par la Digital Research Infrastructure for the Arts and Humanities (DARIAH) en 2015 et financé par le Service commun de documentation (SCD) d’AMU, par la MMSH et par le consortium des ethnologues de la Très Grande Infrastructure de recherche (TGIR) Huma-Num a été supervisé par un comité scientifique qui s’est porté garant de la rigueur scientifique de la démarche.

  • French
    Authors: 
    Ginouvès, Véronique; Gras, Isabelle;
    Publisher: HAL CCSD
    Country: France

    International audience; En guise de postface, il nous a semblé nécessaire de revenir sur le processus collaboratif de la fabrication de cet ouvrage et de vous confier la genèse de ce projet. Tout est parti d'un constat pragmatique, de nos situations quotidiennes de travail : le/la chercheur·e qui produit ou utilise des données a besoin de réponses concrètes aux questions auxquelles il/elle est confronté·e sur son terrain comme lors de tous ses travaux de recherche. Produire, exploiter, diffuser, partager ou éditer des sources numériques fait aujourd'hui partie de notre travail ordinaire. La rupture apportée par le développement du web et l'arrivée du format numérique ont largement facilité la diffusion et le partage des ressources (documentaires, textuelles, photographiques, sonores ou audiovisuelles...) dans le monde de la recherche et, au-delà, auprès des citoyens de plus en plus curieux et intéressés par les documents produits par les scientifiques.

  • French
    Authors: 
    Cuxac, Pascal; Collignon, Alain; Gregorio, Stéphanie; Parmentier, François;
    Publisher: HAL CCSD
    Country: France

    International audience; In this paper we present an automatic approach to disambiguate and align geographic entities. A method based on word embeddings allows, from unsupervised learning, to remove ambiguity with polysemic terms. This allows automatic alignment with different databases (BNF, wikidata...) having a triplestore. We then use semantic web technologies, both to expose the data in a different way (data.istex) but also to allow complex queries that cannot be solved from traditional search engines. We will discuss a concrete case based on the ISTEX database, and a qualitative evaluation of the method will be proposed.; Dans cet article nous présentons une approche automatique visant à désambiguïser et aligner des entités géographiques de type placeName. Une méthode basée sur des plongements lexicaux permet, à partir d'un apprentissage non supervisé de lever l'ambiguïté face à un terme polysémique. Cela permet alors un alignement automatique avec différents réservoirs (BNF, wikidata…) possédant un triplestore. Nous utilisons alors les technologies du web sémantique, pour à la fois exposer les données de façon différente (data.istex) mais également autoriser des requêtes complexes impossibles à résoudre à partir de moteurs de recherche classiques. Nous aborderons un cas concret basé sur le réservoir ISTEX, et une évaluation qualitative de la méthode sera proposée.

  • Publication . Doctoral thesis . Other literature type . 2020
    Open Access French
    Authors: 
    Gianola, Lucie;
    Publisher: HAL CCSD
    Country: France

    L'analyse criminelle est une discipline d'appui aux enquêtes pratiquée au sein de la Gendarmerie Nationale. Elle repose sur l'exploitation des documents compilés dans le dossier de procédure judiciaire (auditions, perquisitions, rapports d'expertise, données téléphoniques et bancaires, etc.) afin de synthétiser les informations collectées et de proposer un regard neuf sur les faits examinés. Si l'analyse criminelle a recours à des logiciels de visualisation de données (i. e. Analyst's Notebook d'IBM) pour la mise en forme des hypothèses formulées, la gestion informatique et textuelle des documents de la procédure est entièrement manuelle. Or, l'analyse criminelle s'appuie entre autres sur le concept d'entités pour formaliser son travail. La présentation du contexte de recherche détaille la pratique de l'analyse criminelle ainsi que la constitution du dossier de procédure judiciaire en tant que corpus textuel. Nous proposons ensuite des perspectives pour l'adaptation des méthodes de traitement automatique de la langue (TAL) et d'extraction d'information au cas d'étude, notamment la mise en parallèle des concepts d'entité en analyse criminelle et d'entité nommée en TAL. Cette comparaison est réalisée sur les plans conceptuels et linguistiques. Une première approche de détection des entités dans les auditions de témoins est présentée. Enfin, le genre textuel étant un paramètre à prendre en compte lors de l'application de traitements automatiques à du texte, nous construisons une structuration du genre textuel « légal » en discours, genres et sous-genres par le biais d'une étude textométrique visant à caractériser différents types de textes (dont les auditions de témoins) produits par le domaine de la justice. Criminal analysis is a discipline that supports investigations practiced within the National Gendarmerie. It is based on the use of the documents compiled in the judicial procedure file (witness interviews, search warrants, expert reports, phone and bank data, etc.) to synthesize the information collected and to propose a new understanding of the facts examined. While criminal analysis uses data visualization software (i. e. IBM Analyst's Notebook) to display the hypotheses formulated, the digital and textual management of the file documents is entirely manual. However, criminal analysis relies on entities to formalize its practice. The presentation of the research context details the practice of criminal analysis as well as the constitution of judicial procedure files as textual corpora. We then propose perspectives for the adaptation of natural language processing (NLP) and information extraction methods to the case study, including a comparison of the concepts of entity in criminal analysis and named entity in NLP. This comparison is done on the conceptual and linguistic plans. A first approach to the detection of entities in witness interviews is presented. Finally, since textual genre is a parameter to be taken into account when applying automatic processing to text, we develop a structure of the 'legal' textual genre into discourse, genres, and sub-genres through a textometric study aimed at characterizing different types of texts (including witness interviews) produced by the field of justice.

  • French
    Authors: 
    Chagué, Alix; Terriel, Lucas; Romary, Laurent;
    Publisher: HAL CCSD
    Country: France

    International audience

  • French
    Authors: 
    Carmen Brando; Francesca Frontini; Mathieu Roche;
    Publisher: HAL CCSD
    Country: France

    International audience

  • Open Access French
    Authors: 
    Pascal Cuxac; Alain Collignon; Stéphanie Gregorio; François Parmentier;
    Publisher: HAL CCSD
    Country: France

    Dans cet article nous présentons une approche automatique visant à désambiguïser et aligner des entités géographiques de type placeName. Une méthode basée sur des plongements lexicaux permet, à partir d'un apprentissage non supervisé de lever l'ambiguïté face à un terme polysémique. Cela permet alors un alignement automatique avec différents réservoirs (BNF, wikidata…) possédant un triplestore. Nous utilisons alors les technologies du web sémantique, pour à la fois exposer les données de façon différente (data.istex) mais également autoriser des requêtes complexes impossibles à résoudre à partir de moteurs de recherche classiques. Nous aborderons un cas concret basé sur le réservoir ISTEX, et une évaluation qualitative de la méthode sera proposée. In this paper we present an automatic approach to disambiguate and align geographic entities. A method based on word embeddings allows, from unsupervised learning, to remove ambiguity with polysemic terms. This allows automatic alignment with different databases (BNF, wikidata...) having a triplestore. We then use semantic web technologies, both to expose the data in a different way (data.istex) but also to allow complex queries that cannot be solved from traditional search engines. We will discuss a concrete case based on the ISTEX database, and a qualitative evaluation of the method will be proposed.

  • French
    Authors: 
    Guichard, Éric;
    Publisher: HAL CCSD
    Country: France

    International audience