Connaissances déclaratives - un aperçu / Sujets ScienceDirect

3.3.3 Hypergraphes canalisés et RDF

Le Cadre de description des ressources (RDF) modélise les informations via des graphiques dirigés (Refs. sont de bonnes discussions sur les technologies du Web sémantique du point de vue de la théorie des graphes), dont les bords sont étiquetés avec des concepts qui, dans des contextes bien structurés, sont tirés d’Ontologies publiées (ces étiquettes jouent un rôle similaire aux « classificateurs » dans CHs). En principe, toutes les données exprimées via des graphiques RDF sont définies par des ensembles non ordonnés d’arêtes étiquetées, également appelés « triples » (« SubjectSujet, Prédicat, Objet〉 », où le « Prédicat » est l’étiquette). Dans la pratique, cependant, les notations RDF de niveau supérieur telles que TTL (Turtle ou « Laconique Triple langage RDF ») et Notation3 (N3) traitent de groupes agrégés de données, tels que les conteneurs et les collections RDF.

Par exemple, imaginez une représentation du fait « (A/La personne nommée) Nathaniel, 46 ans, a vécu à Brooklyn, Buffalo et Montréal » (illustré à la Fig. 3.2 en tant que CH et en RDF). Si nous considérons Turtle ou N3 comme des langages et pas seulement des notations, il semblerait que leur sémantique soit construite autour d’hyperedges plutôt que de triples. Il semblerait que ces langages codent des assertions plusieurs à plusieurs ou un à plusieurs, représentées sous forme d’arêtes ayant plus d’un sujet et/ou prédicat. En effet, Tim Berners-Lee lui-même suggère que « Les implémentations peuvent traiter list comme un type de données plutôt qu’une simple échelle de propriétés rdf:first et rdf:rest ». Autrement dit, la spécification des structures de données de type liste RDF nous invite à considérer qu’elles peuvent être considérées comme des unités intégrales plutôt que comme de simples agrégats qui sont séparés dans l’interprétation sémantique.

Techniquement, c’est peut-être une illusion. Malgré leur expressivité de plus haut niveau, les langages d’expression RDF sont peut-être censés être considérés comme du « sucre syntaxique » pour une liste plus primitive de triplets: la sémantique de Turtle et de N3 est conçue pour être définie en traduisant des expressions jusqu’aux ensembles triples qu’elles impliquent logiquement (voir aussi). Cette intention accepte le paradigme selon lequel fournir de la sémantique pour un langage formel est étroitement lié à la définition des propositions qui sont logiquement entraînées par ses énoncés.

Il existe cependant une tradition divergente en sémantique formelle qui est davantage orientée vers la théorie des types que vers la logique. Il est cohérent avec cette approche alternative de voir une sémantique différente pour un langage comme Turtle, où les agrégats à plus grande échelle deviennent des valeurs de « première classe ». Donc, 〈⌈Nathaniel⌉, ⌈46⌉〉 peuvent être considérés comme un seul, de l’intégrale) de la valeur dont le type est une 〈nom, l’âge〉 paire. Une telle valeur a une « structure interne » qui subsume plusieurs points de données. La version RDF est plutôt organisée autour d’un nœud vide qui relie des points de données disparates, tels que mon nom et mon âge. Ce nœud vide est également connecté à un autre nœud vide qui relie place et party. Les nœuds vides jouent un rôle organisationnel, car les nœuds sont regroupés dans la mesure où ils se connectent au même nœud vide. Mais l’organisation implicite est moins strictement impliquée; on pourrait supposer que les nœudsBrooklynBrooklyn⌉,DemocratDémocrate could pourraient tout aussi facilement être attachés individuellement au blanc « nom / âge » (c’est-à-dire que j’habite à Brooklyn et que je vote démocrate).

Pourquoi, c’est-à-dire, Brooklyn et Democratic sont-ils regroupés? Quel est le concept de ce modèle de fusion? Il y a une justification présomptive pour le nom / âge vide (c.-à-d., le nom / âge de fusion en les joignant à un nœud vide plutôt que de leur permettre de prendre des bords indépendamment): il y a peut-être plusieurs personnes de 46 ans nommées Nathaniel, de sorte que le nœud vide joue un rôle sémantique clé (analogue au quantificateur dans « Il y a un Nathaniel, âge 46… »); il fournit un lien sans ambiguïté afin que d’autres prédicats puissent être attachés à un Nathaniel spécifique de 46 ans plutôt qu’à n’importe quel vieuxNathNathaniel4,446⌉〉. Mais il n’y a pas de rôle sémantique suggéré de la même manière pour le groupement « lieu / fête ». Le nom ne peut logiquement pas être taquiné en dehors du vide nom / âge (car il y a plusieurs Nathaniels), mais il ne semble pas y avoir de signification logique pour le regroupement de lieux / partis. Pourtant, l’appariement de ces valeurs peut être motivé par une convention de modélisation — reflétant le fait que les données géographiques et d’affiliation à un parti sont regroupées dans un ensemble de données ou un modèle de données. La sémantique logique de RDF rend plus difficile l’expression de ce type d’hypothèses de modélisation qui sont motivées par la convention plus que par la logique — une abstraction de l’environnement de modélisation des données qui peut être souhaitable dans certains contextes mais pas dans d’autres.

Alors, pourquoi la communauté du Web sémantique insiste-t-elle efficacement sur une interprétation sémantique de Turtle et de N3 comme une simple commodité de notation pour les N-Triples plutôt que comme des langages de niveau supérieur avec une sémantique de niveau supérieur différente — et malgré des déclarations comme la précédente citation de Tim Berners-Lee insinuant qu’une interprétation alternative a été envisagée même par ceux qui sont au cœur des spécifications du Web sémantique? De plus, la définition de hiérarchies de composition matérielle ou d’organisation structurelle — et donc par extension, potentiellement, d’échelles distinctes de résolution de modélisation — a été identifiée comme faisant partie intrinsèque de la conception d’ontologie spécifique à un domaine (voir Refs. , ou Réf. ). Cependant, les défenseurs du Web sémantique n’ont pas fondamentalement promu la structure multitier en tant que caractéristique des modèles sémantiques, par opposition à la critériologie au sein d’Ontologies spécifiques. Dans la mesure où cela a une explication, cela a probablement quelque chose à voir avec les moteurs de raisonnement: les outils qui évaluent les requêtes SPARQL fonctionnent sur une base triplestore. Ainsi, l’interprétation sémantique « réductrice » est sans doute justifiée par le fait que les critères définitifs des représentations du Web sémantique ne sont pas leur élégance conceptuelle vis-à-vis des jugements humains mais leur utilité dans les déductions inter-ontologiques et inter-contextuelles.

Comme contre-argument, notez cependant que de nombreux moteurs d’inférence dans la Résolution de contraintes, la Vision par ordinateur, etc., reposent sur des algorithmes spécialisés et ne peuvent pas être réduits à un format de requête canonique. Les bibliothèques telles que GeCODE et ITK sont importantes car la résolution de problèmes dans de nombreux domaines nécessite une ingénierie au niveau de l’application. Nous pouvons considérer ces bibliothèques comme prenant en charge des moteurs de raisonnement spéciaux ou spécifiques à un domaine, souvent construits pour des projets spécifiques, alors que les raisonneurs basés sur OWL comme Fact ++ sont des moteurs généraux qui fonctionnent sur des données RDF à usage général sans autre qualification. Afin d’appliquer des raisonneurs « spéciaux » à RDF, un contingent de nœuds doit être sélectionné qui est compatible avec les exigences d’exécution des raisonneurs.

Bien sûr, on ne peut pas s’attendre à ce que les raisonneurs spéciaux s’exécutent sur le domaine de l’ensemble du Web sémantique, ni même sur de « très grands » ensembles de données en général. Une analyse typique subdivise son problème en parties plus petites qui sont chacune traçables à des raisonneurs personnalisés — en radiologie, par exemple, un diagnostic peut commencer par sélectionner une série d’images médicales, puis effectuer une segmentation image par image. Appliqué au RDF, ce processus en deux étapes peut être considéré comme une combinaison de raisonneurs généraux et spéciaux: un langage général comme SPARQL filtre de nombreux nœuds vers un sous-ensemble plus petit, qui sont ensuite mappés/ désérialisés sur des représentations spécifiques au domaine (y compris la mémoire d’exécution). Par exemple, RDF peut lier un patient à un test de diagnostic, commandé à une date donnée par un médecin particulier, dont les résultats peuvent être obtenus sous forme d’une suite d’images — sélectionnant ainsi la série particulière pertinente pour une tâche de diagnostic. Les raisonneurs généraux peuvent trouver les images qui les intéressent, puis les transmettre à des raisonneurs spéciaux (tels que des algorithmes de segmentation) pour les analyser. Dans la mesure où cette architecture est en vigueur, les données du Web sémantique sont un site pour de nombreux types de moteurs de raisonnement. Certains de ces moteurs doivent fonctionner en transformant les données et les ressources RDF en une représentation interne optimisée. De plus, la sémantique de ces représentations sera généralement plus proche d’une sémantique N3 de haut niveau considérée comme sui generis, plutôt que comme interprétée de manière réductrice comme une commodité de notation pour des formats de niveau inférieur comme N-Triple. Cela semble saper la justification de la sémantique réductrice en termes de raisonneurs de HIBOU.

Le paradigme le plus précis est peut-être que les données du Web sémantique ont deux interprétations différentes, qui diffèrent par leur cohérence avec la sémantique spéciale et générale, respectivement. Il est logique de les étiqueter « interprétation sémantique spéciale » ou « interprétation sémantique pour les raisonneurs à usage spécial » (SSI, peut-être) et « interprétation sémantique générale » (GSI), respectivement. Ces deux interprétations doivent être considérées comme ayant un rôle dans la « sémantique » du Web sémantique.

Un autre ordre de considérations implique la sémantique des nœuds RDF et des hypernodes CH, en particulier en ce qui concerne l’unicité. Les nœuds de RDF se divisent en trois classes : les nœuds vides ; les nœuds avec des valeurs provenant d’un petit ensemble de types de base tels que des chaînes et des entiers ; et les nœuds avec des URL considérées comme uniques sur l’ensemble du World Wide Web. Il n’y a pas de nœuds vides dans CH, et intrinsèquement pas d’URL non plus, bien qu’on puisse certainement définir un type d’URL. Rien dans la sémantique des URL ne garantit que chaque URL désigne une ressource Internet distincte; il ne s’agit que d’une convention qui se réalise essentiellement de facto car elle structure un réseau de pratiques commerciales et juridiques, pas seulement numériques; par exemple, la propriété est accordée de manière unique pour chaque nom de domaine Internet. En CH, un type de données peut être structuré pour refléter les pratiques institutionnelles qui garantissent l’unicité des valeurs dans un contexte donné: les livres ont des codes ISBN uniques; les lieux ont des emplacements SIG distincts, etc. Ces exigences d’unicité, cependant, ne font pas intrinsèquement partie de CH et doivent être exprimées avec des axiomes supplémentaires. En général, un hypernode CH est un tuple de valeurs relativement simples et toute sémantique supplémentaire est déterminée par des définitions de type (il peut être utile de voir les hypernodes CH comme à peu près analogues aux structures C — qui n’ont pas de mécanisme d’unicité a priori).

De plus, les types RDF sont moins intrinsèques à la sémantique RDF que dans CH. Les éléments fondamentaux de CH sont des tuples de valeurs (via des nœuds exprimant des valeurs, dont les tuples sont à leur tour des hypernodes). Les tuples sont indexés par position, pas par étiquettes: le tupleNathNathaniel⌉,446 does ne dessine pas en soi les étiquettes « name » ou « age », qui sont plutôt définies au niveau du type (dans la mesure où les définitions de type peuvent stipuler que l’étiquette « age » est un alias pour le nœud dans sa deuxième position, etc.). Il n’y a donc aucun moyen de déterminer l’intention sémantique / conceptuelle des hypernodes sans considérer à la fois les types hyponode et hypernode. Inversement, RDF n’a pas de tuples réels (bien que ceux-ci puissent être représentés comme des collections, si vous le souhaitez); et les nœuds sont toujours reliés à d’autres nœuds via des connecteurs étiquetés — il n’y a pas d’équivalent direct à l’unité de modélisation CH d’un hyponode incluse dans un hypernode par position.

À la base, la sémantique RDF est donc construite sur la proposition que de nombreux nœuds peuvent être déclarés globalement uniques par fiat. Cela n’a pas besoin d’être vrai pour tous les nœuds — les types RDF comme les entiers et les flottants sont plus éthérés; le nombre 46 dans un graphique est indiscernable de 46 dans un autre graphique. Cela peut être formalisé en disant que certains nœuds peuvent être des objets mais jamais des sujets. Si de telles restrictions n’étaient pas appliquées, les graphes RDF pourraient devenir en quelque sorte surdéterminés, impliquant des relations en vertu de grandeurs quantitatives dépourvues de contenu sémantique. Cela ouvrirait la porte à des jugements bizarres comme « mon âge n’est pas premier » ou « Je suis plus âgé que les totaux de buts de Mohamed Salah en 2018. »Une façon de bloquer ces inférences est d’empêcher les nœuds comme « le nombre 46 » d’être des sujets ainsi que des objets. Mais les nœuds qui ne sont pas des valeurs primitives — celles, par exemple, désignant Mohamed Salah lui—même plutôt que ses totaux d’objectifs – sont à juste titre uniques au monde, car nous avons des raisons impérieuses d’adopter un modèle où il y a exactement une chose qui est que Mohamed Salah. Ainsi, la sémantique RDF marie essentiellement certains types primitifs qui sont des objets mais jamais des sujets avec un réseau de valeurs globalement uniques mais non structurées en interne qui peuvent être sujet ou objet.

En CH, les types « primitifs » sont effectivement des hypotypes; les hyponodes sont (au moins indirectement) analogues aux nœuds RDF objets uniquement dans la mesure où ils ne peuvent être représentés que par inclusion à l’intérieur d’hypernodes. Mais les hypernodes CH ne sont ni (en eux-mêmes) globalement uniques ni dépourvus de structure interne. En substance, une sémantique RDF basée sur une unicité garantie pour les primitives de type atome est remplacée par une sémantique basée sur des blocs de construction structurés sans unicité garantie. Cette alternative peut être envisagée dans le contexte des raisonneurs généraux par rapport aux raisonneurs spéciaux: étant donné que les raisonneurs généraux prennent potentiellement l’ensemble du Web sémantique comme domaine, l’unicité globale est une propriété plus souhaitée que la structure interne. Cependant, étant donné que les raisonneurs spéciaux ne s’exécutent que sur des données spécialement sélectionnées, l’unicité globale est moins importante qu’un mappage efficace sur des représentations spécifiques à un domaine. Il n’est pas optimal sur le plan informatique de désérialiser les données en exécutant des requêtes SPARQL.

Enfin, comme dernier point de la comparaison entre la sémantique RDF et la sémantique CH, il convient de considérer la distinction entre « connaissance déclarative » et « connaissance procédurale » (voir, par exemple,). Selon cette distinction, les données RDF canoniques illustrent les connaissances déclaratives car elles affirment des faits apparents sans chercher explicitement à les interpréter ou à les traiter. Les connaissances déclaratives circulent parmi les logiciels dans des formats de données canoniques et réutilisables, permettant aux composants individuels d’utiliser ou de faire des déductions à partir des données selon leurs propres objectifs.

Contre ce paradigme, revenons à des exemples hypothétiques de cyber-physique, tels que la conversion de données de tension en données d’accélération, qui est une condition préalable à l’utilité des lectures des accéléromètres dans la plupart des contextes. Un logiciel possédant des capacités de traitement d’accéléromètres révèle donc ce que l’on peut appeler des connaissances procédurales, car un logiciel ainsi caractérisé reçoit non seulement des données, mais traite également ces données de manière standardisée.

La distinction déclarative / procédurale ne parvient peut—être pas à saisir comment les transformations procédurales peuvent être comprises comme intrinsèques à certains domaines sémantiques – de sorte que même les informations que nous percevons comme « déclaratives » ont un élément procédural. Par exemple, le fait même que les « accéléromètres » ne soient pas appelés « Voltmètres » (qui sont autre chose) suggère comment la communauté informatique omniprésente perçoit les calculs de tension à accélération comme intrinsèques aux données des accéléromètres. Mais à proprement parler, les composants qui participent aux réseaux USH ne sont pas seulement engagés dans le partage de données; ce sont des parties fonctionnelles du réseau car ils peuvent effectuer plusieurs calculs largement reconnus qui sont considérés comme centraux dans le domaine concerné — en d’autres termes, ils ont (et partagent avec leurs pairs) une certaine « connaissance procédurale. »

Le RDF est structuré comme si le partage de données statiques était le seul arbitre des interactions sémantiquement informées entre différents composants, qui peuvent avoir une variété de conceptions et de justifications — c’est-à-dire un Web sémantique. Mais un compte rendu approfondi de la sémantique de la communication formelle doit tenir compte de la façon dont les modèles sémantiques sont informés par l’hypothèse implicite, parfois inconsciente, que les producteurs et / ou les consommateurs de données auront certaines capacités opérationnelles: les processus dynamiques prévus dans le cadre du partage des données sont difficiles à séparer conceptuellement des données statiques qui sont littéralement transférées. Pour continuer l’exemple de l’accéléromètre, les concepteurs peuvent considérer de tels instruments comme « mesurant l’accélération » même si physiquement ce n’est pas strictement vrai; leur sortie doit être transformée mathématiquement pour qu’elle soit interprétée en ces termes. Qu’elle soit représentée par des graphes RDF ou des Hypergraphes Dirigés, la sémantique des données partagées est incomplète à moins que les opérations pouvant accompagner l’envoi et la réception des données ne soient reconnues comme des conditions préalables à un alignement sémantique légitime.

Alors que les ontologies sont précieuses pour coordonner et intégrer des modèles sémantiques disparates, le Web sémantique a peut-être influencé les ingénieurs à concevoir le partage de données informées sémantiquement comme une question de présentation de données statiques conformes aux Ontologies publiées (c’est-à-dire l’alignement des « connaissances déclaratives »). En réalité, un partage de données robuste nécessite également un « alignement des connaissances procédurales »: dans un réseau sémantique idéal, les capacités procédurales sont encerclées entre les composants, favorisant une « connaissance procédurale collective » émergente animée par la transparence sur le code et les bibliothèques ainsi que sur les données et les formats. Le modèle CH soutient sans doute cette possibilité car il rend les assertions de type fondamentales pour la sémantique. Le typage rigoureux jette à la fois les bases de l’alignement procédural et exige que les capacités procédurales soient prises en compte dans les évaluations des composants du réseau, car une attribution de type n’a pas de sens sans bibliothèques et code adéquats pour construire et interpréter des valeurs spécifiques au type.

Malgré leurs différences, le Web sémantique, d’une part, et les frameworks basés sur l’hypergraphe, d’autre part, appartiennent tous deux à l’espace global des modèles sémantiques orientés graphes. Les hypergraphes peuvent être émulés en RDF, et les graphes RDF peuvent être mappés organiquement à une représentation Hypergraphique (dans la mesure où les Hypergraphes dirigés avec annotations sont un superespace approprié de Graphes étiquetés Dirigés). Les ontologies du Web sémantique pour le code source informatique peuvent ainsi être modélisées par des DHs correctement typés, même si nous pouvons également formuler des Ontologies de Code source basées sur des hypergraphes. Nous sommes donc justifiés de supposer qu’une ontologie suffisante existe pour la plupart ou tous les langages de programmation. Cela signifie que, pour une procédure donnée, nous pouvons supposer qu’il existe une représentation DH correspondante qui incarne la mise en œuvre de cette procédure.Les procédures

dépendent bien sûr des entrées qui sont fixes pour chaque appel et produisent des « sorties » une fois qu’elles se terminent. Dans le contexte d’une représentation graphique, cela implique que certains hypernodes représentent et / ou expriment des valeurs qui sont des entrées, tandis que d’autres représentent et/ ou expriment ses sorties. Ces hypernodes sont abstraits dans le sens (comme dans le Lambda Calcul) qu’ils n’ont pas de valeur spécifique assignée dans le corps, qua structure formelle. Au lieu de cela, une manifestation d’exécution d’un DH (ou de manière équivalente d’un CH, une fois les types canalisés introduits) remplit les hypernodes abstraits avec des valeurs concrètes, ce qui permet à son tour d’évaluer les expressions décrites par le CH.

Ces points suggèrent une stratégie d’unification des calculs Lambda avec les Ontologies du Code Source. La construction essentielle des λ-calculs est que les formules mathématiques incluent des « symboles libres » qui sont résumés: sites où une formule peut donner naissance à une valeur concrète, en fournissant des valeurs à des inconnues ; ou donner naissance à de nouvelles formules, via des expressions imbriquées. De manière analogue, les nœuds d’une représentation de code source basée sur un graphique sont effectivement abstraites λ s’ils modélisent des paramètres d’entrée, qui reçoivent des valeurs concrètes lors de l’exécution de la procédure. La connexion de la sortie d’une procédure à l’entrée d’une autre — qui peut être modélisée comme une opération graphique, reliant deux nœuds — est alors un analogue basé sur un graphique pour intégrer une expression complexe dans une formule (via un symbole libre dans cette dernière).

En approfondissant cette analogie, j’ai déjà mentionné différentes extensions de λ-Calcul inspirées de fonctionnalités de langage de programmation telles que l’orientation d’objet, les exceptions et les captures par référence ou par valeur. Ceux-ci peuvent également être incorporés dans une Ontologie de Code Source : par example, la connexion entre un nœud contenant une valeur transmise à un nœud de paramètre d’entrée, dans une signature de procédure, est sémantiquement distincte des nœuds contenant des » Objets » qui sont des expéditeurs et des récepteurs de « messages « , en langage orienté objet. Les protocoles d’entrée/ sortie variant, y compris les objets, les captures et les exceptions, sont certainement des constructions sémantiques (dans le domaine du code informatique) que les ontologies de code source devraient reconnaître. Nous pouvons donc voir une convergence dans la modélisation de protocoles d’entrée/ sortie multiformes via le λ-Calcul et via des Ontologies de Code Source. Je vais maintenant discuter d’une expansion correspondante dans le domaine de la théorie des Types appliquée, dans le but de finalement plier la théorie des types dans cette convergence également.

3.3.3 Hypergraphes canalisés et RDF

Laisser un commentaire Annuler la réponse