- home
- Advanced Search
11 Research products, page 1 of 2
Loading
- Publication . Other literature type . Conference object . 2015FrenchAuthors:Perrin, Emmanuelle;Perrin, Emmanuelle;Publisher: HAL CCSDCountry: France
L’étude des fonds iconographiques ou textuels relatifs aux monuments du Caire soulève des difficultés de traitement en raison des multiples variantes issues de la translittération, en caractères latins, des toponymes arabes. Le laboratoire InVisu a établi un référentiel multilingue arabe, français et anglais, qui propose une solution innovante pour identifier, décrire et localiser les 600 édifices classés du Caire. Ce thésaurus est publié au format SKOS (Simple Knowledge Organization System) et aligné sur des jeux de données de référence (data.bnf, Library of Congress, Getty, DBpedia, VIAF et GeoNames).
- Publication . Conference object . 2017Open Access FrenchAuthors:Marchand, Joël;Marchand, Joël;Publisher: HAL CCSDCountry: France
Huma-Num is a Very Large Research Infrastructure (known by its initials in French as TGIR) led by the French Ministry of Higher Education and Research and operated by the CNRS (the French National Centre for Scientific Research).It provides services to the entire Humanities and Social Sciences (HSS) academic community and particularly digital services that are focused on research data management with the aim of helping researchers manage the lifecycle of their data.Huma-Num has designed and provided to the community a new storage service for large volumes (several terabytes) of cold or warm data, so-called because it is rarely accessed or modified, but which does have a high value and therefore needs to be safely secured.How the project was designed, the desired outcomes compared with the previous solution (iRods), the selected solution (Active-Circle software on generally-available hardware), the features of the solution, the network architecture implemented (deployment on RENATER through VPN) and the integration with an LDAP directory will be presented.The collaboration that has been set up with the MSH (Houses of the Human Sciences), the information systems directorates of the affiliated universities and with RENATER will also be described.A progress report on the deployment of the project in seven points of presence in France will be provided, and the project’s development opportunities will be pointed out. Huma-Num est une Très Grande Infrastructure de Recherche (TGIR) pilotée par le Ministère de l'enseigne-ment supérieur et de la recherche, et opérée par le CNRS. Elle rend des services à l'ensemble de la communauté académique en Sciences Humaines et Sociales (SHS) et notamment des services numériques, orientés sur la gestion des données de la recherche, ceci dans le but d'aider les chercheurs à gérer la vie de leurs données. Huma-Num a conçu et proposé à la communauté un nouveau service de stockage nommé Huma-Num Box et destiné aux gros volumes de données (plusieurs To) dites « froides » ou « tièdes », c'est-à-dire peu accédées et modifiées, mais à forte valeur et donc nécessitant une sécurisation importante. Il sera exposé la façon dont le projet a été conçu, les objectifs recherchés par rapport à la solution pré-cédente (iRods), la solution retenue (logiciel Active-Circle sur matériel banalisé), les fonctionnalités de la solution, l'architecture réseau mise en oeuvre (déploiement sur RENATER au travers de VPN) et l'intégra-tion avec un annuaire LDAP. Il sera également indiqué les collaborations qui ont été mises en place avec les Maisons des Sciences de l'Homme (MSH), les DSI des universités de rattachement, et RENATER. Il sera fait un point d'étape sur le déploiement du projet dans 7 points de présence sur le territoire, et indiqué les perspectives d'évolution du projet.
- Publication . Conference object . 2017Open Access FrenchAuthors:Baude, Olivier; Joffres, Adeline; Larrousse, Nicolas; Pouyllau, Stéphane;Baude, Olivier; Joffres, Adeline; Larrousse, Nicolas; Pouyllau, Stéphane;Publisher: HAL CCSDCountry: France
International audience
- Publication . Other literature type . Conference object . 2007Open Access FrenchAuthors:Petitjean, Etienne; Pierrel, Jean-Marie;Petitjean, Etienne; Pierrel, Jean-Marie;Publisher: HAL CCSDCountry: France
Créé en 2005 à l'initiative du Centre National de la Recherche Scientifique, le CNRTL propose une plateformeunifiée pour l'accès aux ressources et documents électroniques destinés à l'étude et l'analyse de la languefrançaise. Les services du CNRTL comprennent le recensement, la documentation (métadonnées), la normalisation,l'archivage, l'enrichissement et la diffusion des ressources. La pérennité du service et des données est garantie par lesoutien institutionnel du CNRS, l'adossement à un laboratoire de recherche en linguistique et informatique du CNRS etde Nancy Université (ATILF – Analyse et Traitement Informatique de la Langue Française), ainsi que l'intégration dansles réseaux européens CLARIN et DARIAH. Founded in 2005 under the auspices of the French National Centre for Scientific Research (CNRS), theCNRTL offers a unified platform to access electronic resources and documents for linguistic research on the Frenchlanguage. Provided services include identification, documentation (metadata), standardisation, archiving, enrichment anddistribution of resources. The sustainability of services and data is ensured through the CNRS institutional support, thehosting by a public research institute in linguistics and NLP of CNRS and Nancy University (ATILF – Analyse etTraitement Informatique de la Langue Française), and integration into the european networks of resource centres for thehumanities (CLARIN and DARIAH).
- Publication . Part of book or chapter of book . Conference object . 2012Open Access FrenchAuthors:Sophie Duchesne; Guillaume Garcia;Sophie Duchesne; Guillaume Garcia;
handle: 2441/6bepl9034o9merg5eb6rienb1c
Publisher: HAL CCSDCountry: FranceProject: ANR | REANALYSE (ANR-10-BLAN-1813)Ce texte rend compte du projet de construction d'une banque d'enquêtes qualitatives mis en œuvre par les auteurs avec l'équipe qualitative du Centre de données sociopolitiques (UMS NRS/Sciences Po). Il relate les tensions entre les logiques patrimoniale et scientifique que combine le projet et prend position pour l'usage scientifique de cet équipement. Il souligne la difficulté de construire un équipement pérenne à une période où la recherche est essentiellement financée par contrat et appel à projets.
add Add to ORCIDPlease grant OpenAIRE to access and update your ORCID works.This Research product is the result of merged Research products in OpenAIRE.
You have already added works in your ORCID record related to the merged Research product. - Publication . 2013Open Access FrenchAuthors:Chanier, Thierry;Chanier, Thierry;Publisher: HAL CCSDCountry: France
Conférence invitée, voir la vidéo de la présentation : http://videocampus.univ-bpclermont.fr/?v=SXX3gjZtTjYZ , à partir du temps : 00:17:46; Le monde universitaire est producteur de données de différentes natures. L'ouverture et le partage de chaque type de données introduit des problématiques spécifiques. Cette variété s'explique en premier lieu par les situations particulières qui ont gouverné leur création. Mais les enjeux d'utilisation, par les communautés universitaires, les communautés de chercheurs ou la société en général, diffèrent aussi suivant chaque type de données. Nous évoquerons brièvement un premier type de données, celles pédagogiques, en lien avec le mouvement en accès libre intitulé Open Educational Ressources (OER). Le second type de données, cette fois faisant partie du résultat de la recherche, concerne les publications. Notre communication rappellera brièvement, afin de mieux les distinguer du dernier type de données, les contraintes particulières qui ont motivé le développement de l'accès libre (open access) aux publications, les différentes voies suivies, l'état actuel après plus de 10 ans d'existence. L'essentiel de notre propos sera consacré au partage des données de la recherche, qui peuvent ou non être reliées aux publications. Nous décrirons les motivations de ce mouvement OpenData, les enjeux pour les chercheurs, les conditions particulières de mise à disposition que devront avoir ces données pour être réellement OpenData. Nous évoquerons enfin les transformations profondes du métier de chercheur qui peuvent en résulter, en nous appuyant sur des exemples provenant principalement des sciences humaines.
- Publication . 2012Open Access FrenchAuthors:Schöch, Christof;Schöch, Christof;Publisher: HAL CCSDCountry: France
Le tournant numérique n'est plus aujourd'hui uniquement un phénomène de technologie et de société, mais concerne pleinement l'enseignement et la recherche en sciences humaines et sociales. En effet, la transdiscipline des humanités numériques est la manifestation autant que le moteur de modifications en profondeur de nos pratiques de chercheurs. On peut aborder ces modifications par le biais des nouvelles configuration textuelles que les méthodes numériques permettent de découvrir dans les textes littéraires, par les re-configurations que l'existence de données et d'outils numériques produit au niveau des méthodes de la recherche en lettres, et par l'apparition des infrastructures numériques et de leur rôle transformateur pour les conditions de la recherche en sciences humaines. Il importe aujourd'hui de prendre la mesure de ces transformations pour mieux comprendre les chances et les risques qu'apporte le numérique aux études de lettres.
- Publication . Other literature type . Article . Conference object . 2019Open Access FrenchAuthors:Blandine Nouvel;Blandine Nouvel;Publisher: HAL CCSDCountry: France
Cree par le reseau Frantiq (Federation et Ressources sur l'Antiquite), initialement pour l'indexation documentaire de la litterature scientifique, PACTOLS est un reservoir unique de metadonnees thematiques reserve a l'archeologie. Le gestionnaire de thesaurus sur lequel il s'appuie, Opentheso, lui confere en outre des capacites techniques d'ouverture et d'interoperabilite qui completent sa normalisation. De plus, l'attribution d'un identifiant perenne a chaque concept fait de chacun un objet web, reperable et citable. PACTOLS constitue ainsi, de fait, un vocabulaire pivot qui repond aux standards du web semantique et de la science ouverte. Il respecte les principes FAIR : il est consultable et accessible librement en ligne, il est interoperable et reutilisable. Ses caracteristiques lexicales et normatives representent un outil au potentiel rare, propose aujourd'hui a tous les acteurs de l'archeologie. Le projet de developpement des PACTOLS, conduit dans le cadre du Consortium MASA de la Tres Grande Infrastructure de Recherche Huma-Num, est destine a offrir a la communaute des archeologues un vocabulaire de reference qui facilite le partage, sur le web, des donnees et des productions scientifiques en archeologie. Il s'oriente dans deux directions : il s'agit d'une part de consolider la structure semantique qui aboutit a la reorganisation des domaines, facilitant la navigation dans le thesaurus. D'autre part, les contenus terminologiques sont enrichis, notamment par l'ajout de vocabulaires de specialites et par l'alignement avec des vocabulaires et des programmes scientifiques du domaine, presents sur le web. La reorganisation du thesaurus se conduit en etroite collaboration avec les experts concernes. Pour cela, les modalites de contribution dynamique au thesaurus sont elargies a tous les acteurs de la discipline, sur la base de niveaux d'autorisation specifiques. Une communaute elargie s'organise, formee et accompagnee a la prise en main partagee du thesaurus. Car PACTOLS, comme vocabulaire de reference, est preconise des le traitement des donnees de fouilles, par exemple a l'Inrap. Il est aussi associe a des programmes de valorisation des donnees de la recherche et integre par plusieurs revues d'archeologie a leur production, via la chaine de production editoriale Metopes en XML-TEI. PACTOLS, reservoir commun pour les metadonnees en archeologie et archeoscience, constitue une brique a l'interoperabilite des donnees. Il s'insere aisement dans des systemes simples de bases de donnees ou organises plus puissamment avec des ontologies pour un web des donnees liees.
Average popularityAverage popularity In bottom 99%Average influencePopularity: Citation-based measure reflecting the current impact.Average influence In bottom 99%Influence: Citation-based measure reflecting the total impact.add Add to ORCIDPlease grant OpenAIRE to access and update your ORCID works.This Research product is the result of merged Research products in OpenAIRE.
You have already added works in your ORCID record related to the merged Research product. - Publication . 2019Open Access FrenchAuthors:Cuxac, Pascal; Collignon, Alain; Gregorio, Stéphanie; Parmentier, François;Cuxac, Pascal; Collignon, Alain; Gregorio, Stéphanie; Parmentier, François;Publisher: HAL CCSDCountry: France
Dans cet article nous présentons une approche automatique visant à désambiguïser et aligner des entités géographiques de type placeName. Une méthode basée sur des plongements lexicaux permet, à partir d'un apprentissage non supervisé de lever l'ambiguïté face à un terme polysémique. Cela permet alors un alignement automatique avec différents réservoirs (BNF, wikidata…) possédant un triplestore. Nous utilisons alors les technologies du web sémantique, pour à la fois exposer les données de façon différente (data.istex) mais également autoriser des requêtes complexes impossibles à résoudre à partir de moteurs de recherche classiques. Nous aborderons un cas concret basé sur le réservoir ISTEX, et une évaluation qualitative de la méthode sera proposée. In this paper we present an automatic approach to disambiguate and align geographic entities. A method based on word embeddings allows, from unsupervised learning, to remove ambiguity with polysemic terms. This allows automatic alignment with different databases (BNF, wikidata...) having a triplestore. We then use semantic web technologies, both to expose the data in a different way (data.istex) but also to allow complex queries that cannot be solved from traditional search engines. We will discuss a concrete case based on the ISTEX database, and a qualitative evaluation of the method will be proposed.
- Publication . Conference object . 2020FrenchAuthors:Chagué, Alix; Terriel, Lucas; Romary, Laurent;Chagué, Alix; Terriel, Lucas; Romary, Laurent;Publisher: HAL CCSDCountry: France
International audience
11 Research products, page 1 of 2
Loading
- Publication . Other literature type . Conference object . 2015FrenchAuthors:Perrin, Emmanuelle;Perrin, Emmanuelle;Publisher: HAL CCSDCountry: France
L’étude des fonds iconographiques ou textuels relatifs aux monuments du Caire soulève des difficultés de traitement en raison des multiples variantes issues de la translittération, en caractères latins, des toponymes arabes. Le laboratoire InVisu a établi un référentiel multilingue arabe, français et anglais, qui propose une solution innovante pour identifier, décrire et localiser les 600 édifices classés du Caire. Ce thésaurus est publié au format SKOS (Simple Knowledge Organization System) et aligné sur des jeux de données de référence (data.bnf, Library of Congress, Getty, DBpedia, VIAF et GeoNames).
- Publication . Conference object . 2017Open Access FrenchAuthors:Marchand, Joël;Marchand, Joël;Publisher: HAL CCSDCountry: France
Huma-Num is a Very Large Research Infrastructure (known by its initials in French as TGIR) led by the French Ministry of Higher Education and Research and operated by the CNRS (the French National Centre for Scientific Research).It provides services to the entire Humanities and Social Sciences (HSS) academic community and particularly digital services that are focused on research data management with the aim of helping researchers manage the lifecycle of their data.Huma-Num has designed and provided to the community a new storage service for large volumes (several terabytes) of cold or warm data, so-called because it is rarely accessed or modified, but which does have a high value and therefore needs to be safely secured.How the project was designed, the desired outcomes compared with the previous solution (iRods), the selected solution (Active-Circle software on generally-available hardware), the features of the solution, the network architecture implemented (deployment on RENATER through VPN) and the integration with an LDAP directory will be presented.The collaboration that has been set up with the MSH (Houses of the Human Sciences), the information systems directorates of the affiliated universities and with RENATER will also be described.A progress report on the deployment of the project in seven points of presence in France will be provided, and the project’s development opportunities will be pointed out. Huma-Num est une Très Grande Infrastructure de Recherche (TGIR) pilotée par le Ministère de l'enseigne-ment supérieur et de la recherche, et opérée par le CNRS. Elle rend des services à l'ensemble de la communauté académique en Sciences Humaines et Sociales (SHS) et notamment des services numériques, orientés sur la gestion des données de la recherche, ceci dans le but d'aider les chercheurs à gérer la vie de leurs données. Huma-Num a conçu et proposé à la communauté un nouveau service de stockage nommé Huma-Num Box et destiné aux gros volumes de données (plusieurs To) dites « froides » ou « tièdes », c'est-à-dire peu accédées et modifiées, mais à forte valeur et donc nécessitant une sécurisation importante. Il sera exposé la façon dont le projet a été conçu, les objectifs recherchés par rapport à la solution pré-cédente (iRods), la solution retenue (logiciel Active-Circle sur matériel banalisé), les fonctionnalités de la solution, l'architecture réseau mise en oeuvre (déploiement sur RENATER au travers de VPN) et l'intégra-tion avec un annuaire LDAP. Il sera également indiqué les collaborations qui ont été mises en place avec les Maisons des Sciences de l'Homme (MSH), les DSI des universités de rattachement, et RENATER. Il sera fait un point d'étape sur le déploiement du projet dans 7 points de présence sur le territoire, et indiqué les perspectives d'évolution du projet.
- Publication . Conference object . 2017Open Access FrenchAuthors:Baude, Olivier; Joffres, Adeline; Larrousse, Nicolas; Pouyllau, Stéphane;Baude, Olivier; Joffres, Adeline; Larrousse, Nicolas; Pouyllau, Stéphane;Publisher: HAL CCSDCountry: France
International audience
- Publication . Other literature type . Conference object . 2007Open Access FrenchAuthors:Petitjean, Etienne; Pierrel, Jean-Marie;Petitjean, Etienne; Pierrel, Jean-Marie;Publisher: HAL CCSDCountry: France
Créé en 2005 à l'initiative du Centre National de la Recherche Scientifique, le CNRTL propose une plateformeunifiée pour l'accès aux ressources et documents électroniques destinés à l'étude et l'analyse de la languefrançaise. Les services du CNRTL comprennent le recensement, la documentation (métadonnées), la normalisation,l'archivage, l'enrichissement et la diffusion des ressources. La pérennité du service et des données est garantie par lesoutien institutionnel du CNRS, l'adossement à un laboratoire de recherche en linguistique et informatique du CNRS etde Nancy Université (ATILF – Analyse et Traitement Informatique de la Langue Française), ainsi que l'intégration dansles réseaux européens CLARIN et DARIAH. Founded in 2005 under the auspices of the French National Centre for Scientific Research (CNRS), theCNRTL offers a unified platform to access electronic resources and documents for linguistic research on the Frenchlanguage. Provided services include identification, documentation (metadata), standardisation, archiving, enrichment anddistribution of resources. The sustainability of services and data is ensured through the CNRS institutional support, thehosting by a public research institute in linguistics and NLP of CNRS and Nancy University (ATILF – Analyse etTraitement Informatique de la Langue Française), and integration into the european networks of resource centres for thehumanities (CLARIN and DARIAH).
- Publication . Part of book or chapter of book . Conference object . 2012Open Access FrenchAuthors:Sophie Duchesne; Guillaume Garcia;Sophie Duchesne; Guillaume Garcia;
handle: 2441/6bepl9034o9merg5eb6rienb1c
Publisher: HAL CCSDCountry: FranceProject: ANR | REANALYSE (ANR-10-BLAN-1813)Ce texte rend compte du projet de construction d'une banque d'enquêtes qualitatives mis en œuvre par les auteurs avec l'équipe qualitative du Centre de données sociopolitiques (UMS NRS/Sciences Po). Il relate les tensions entre les logiques patrimoniale et scientifique que combine le projet et prend position pour l'usage scientifique de cet équipement. Il souligne la difficulté de construire un équipement pérenne à une période où la recherche est essentiellement financée par contrat et appel à projets.
add Add to ORCIDPlease grant OpenAIRE to access and update your ORCID works.This Research product is the result of merged Research products in OpenAIRE.
You have already added works in your ORCID record related to the merged Research product. - Publication . 2013Open Access FrenchAuthors:Chanier, Thierry;Chanier, Thierry;Publisher: HAL CCSDCountry: France
Conférence invitée, voir la vidéo de la présentation : http://videocampus.univ-bpclermont.fr/?v=SXX3gjZtTjYZ , à partir du temps : 00:17:46; Le monde universitaire est producteur de données de différentes natures. L'ouverture et le partage de chaque type de données introduit des problématiques spécifiques. Cette variété s'explique en premier lieu par les situations particulières qui ont gouverné leur création. Mais les enjeux d'utilisation, par les communautés universitaires, les communautés de chercheurs ou la société en général, diffèrent aussi suivant chaque type de données. Nous évoquerons brièvement un premier type de données, celles pédagogiques, en lien avec le mouvement en accès libre intitulé Open Educational Ressources (OER). Le second type de données, cette fois faisant partie du résultat de la recherche, concerne les publications. Notre communication rappellera brièvement, afin de mieux les distinguer du dernier type de données, les contraintes particulières qui ont motivé le développement de l'accès libre (open access) aux publications, les différentes voies suivies, l'état actuel après plus de 10 ans d'existence. L'essentiel de notre propos sera consacré au partage des données de la recherche, qui peuvent ou non être reliées aux publications. Nous décrirons les motivations de ce mouvement OpenData, les enjeux pour les chercheurs, les conditions particulières de mise à disposition que devront avoir ces données pour être réellement OpenData. Nous évoquerons enfin les transformations profondes du métier de chercheur qui peuvent en résulter, en nous appuyant sur des exemples provenant principalement des sciences humaines.
- Publication . 2012Open Access FrenchAuthors:Schöch, Christof;Schöch, Christof;Publisher: HAL CCSDCountry: France
Le tournant numérique n'est plus aujourd'hui uniquement un phénomène de technologie et de société, mais concerne pleinement l'enseignement et la recherche en sciences humaines et sociales. En effet, la transdiscipline des humanités numériques est la manifestation autant que le moteur de modifications en profondeur de nos pratiques de chercheurs. On peut aborder ces modifications par le biais des nouvelles configuration textuelles que les méthodes numériques permettent de découvrir dans les textes littéraires, par les re-configurations que l'existence de données et d'outils numériques produit au niveau des méthodes de la recherche en lettres, et par l'apparition des infrastructures numériques et de leur rôle transformateur pour les conditions de la recherche en sciences humaines. Il importe aujourd'hui de prendre la mesure de ces transformations pour mieux comprendre les chances et les risques qu'apporte le numérique aux études de lettres.
- Publication . Other literature type . Article . Conference object . 2019Open Access FrenchAuthors:Blandine Nouvel;Blandine Nouvel;Publisher: HAL CCSDCountry: France
Cree par le reseau Frantiq (Federation et Ressources sur l'Antiquite), initialement pour l'indexation documentaire de la litterature scientifique, PACTOLS est un reservoir unique de metadonnees thematiques reserve a l'archeologie. Le gestionnaire de thesaurus sur lequel il s'appuie, Opentheso, lui confere en outre des capacites techniques d'ouverture et d'interoperabilite qui completent sa normalisation. De plus, l'attribution d'un identifiant perenne a chaque concept fait de chacun un objet web, reperable et citable. PACTOLS constitue ainsi, de fait, un vocabulaire pivot qui repond aux standards du web semantique et de la science ouverte. Il respecte les principes FAIR : il est consultable et accessible librement en ligne, il est interoperable et reutilisable. Ses caracteristiques lexicales et normatives representent un outil au potentiel rare, propose aujourd'hui a tous les acteurs de l'archeologie. Le projet de developpement des PACTOLS, conduit dans le cadre du Consortium MASA de la Tres Grande Infrastructure de Recherche Huma-Num, est destine a offrir a la communaute des archeologues un vocabulaire de reference qui facilite le partage, sur le web, des donnees et des productions scientifiques en archeologie. Il s'oriente dans deux directions : il s'agit d'une part de consolider la structure semantique qui aboutit a la reorganisation des domaines, facilitant la navigation dans le thesaurus. D'autre part, les contenus terminologiques sont enrichis, notamment par l'ajout de vocabulaires de specialites et par l'alignement avec des vocabulaires et des programmes scientifiques du domaine, presents sur le web. La reorganisation du thesaurus se conduit en etroite collaboration avec les experts concernes. Pour cela, les modalites de contribution dynamique au thesaurus sont elargies a tous les acteurs de la discipline, sur la base de niveaux d'autorisation specifiques. Une communaute elargie s'organise, formee et accompagnee a la prise en main partagee du thesaurus. Car PACTOLS, comme vocabulaire de reference, est preconise des le traitement des donnees de fouilles, par exemple a l'Inrap. Il est aussi associe a des programmes de valorisation des donnees de la recherche et integre par plusieurs revues d'archeologie a leur production, via la chaine de production editoriale Metopes en XML-TEI. PACTOLS, reservoir commun pour les metadonnees en archeologie et archeoscience, constitue une brique a l'interoperabilite des donnees. Il s'insere aisement dans des systemes simples de bases de donnees ou organises plus puissamment avec des ontologies pour un web des donnees liees.
Average popularityAverage popularity In bottom 99%Average influencePopularity: Citation-based measure reflecting the current impact.Average influence In bottom 99%Influence: Citation-based measure reflecting the total impact.add Add to ORCIDPlease grant OpenAIRE to access and update your ORCID works.This Research product is the result of merged Research products in OpenAIRE.
You have already added works in your ORCID record related to the merged Research product. - Publication . 2019Open Access FrenchAuthors:Cuxac, Pascal; Collignon, Alain; Gregorio, Stéphanie; Parmentier, François;Cuxac, Pascal; Collignon, Alain; Gregorio, Stéphanie; Parmentier, François;Publisher: HAL CCSDCountry: France
Dans cet article nous présentons une approche automatique visant à désambiguïser et aligner des entités géographiques de type placeName. Une méthode basée sur des plongements lexicaux permet, à partir d'un apprentissage non supervisé de lever l'ambiguïté face à un terme polysémique. Cela permet alors un alignement automatique avec différents réservoirs (BNF, wikidata…) possédant un triplestore. Nous utilisons alors les technologies du web sémantique, pour à la fois exposer les données de façon différente (data.istex) mais également autoriser des requêtes complexes impossibles à résoudre à partir de moteurs de recherche classiques. Nous aborderons un cas concret basé sur le réservoir ISTEX, et une évaluation qualitative de la méthode sera proposée. In this paper we present an automatic approach to disambiguate and align geographic entities. A method based on word embeddings allows, from unsupervised learning, to remove ambiguity with polysemic terms. This allows automatic alignment with different databases (BNF, wikidata...) having a triplestore. We then use semantic web technologies, both to expose the data in a different way (data.istex) but also to allow complex queries that cannot be solved from traditional search engines. We will discuss a concrete case based on the ISTEX database, and a qualitative evaluation of the method will be proposed.
- Publication . Conference object . 2020FrenchAuthors:Chagué, Alix; Terriel, Lucas; Romary, Laurent;Chagué, Alix; Terriel, Lucas; Romary, Laurent;Publisher: HAL CCSDCountry: France
International audience