Conoscenza dichiarativa

3.3.3 Ipergrafi canalizzati e RDF

Il framework di descrizione delle risorse (RDF) modella le informazioni tramite grafici diretti (Ref. sono buone discussioni sulle tecnologie del Web semantico da una prospettiva grafico-teorica), i cui bordi sono etichettati con concetti che, in contesti ben strutturati, sono tratti da Ontologie pubblicate (queste etichette svolgono un ruolo simile ai “classificatori” in CHs). In linea di principio, tutti i dati espressi tramite grafici RDF sono definiti da insiemi non ordinati di bordi etichettati, chiamati anche “tripli” (“Subject Soggetto, Predicato, Oggetto Object”, dove il “Predicato” è l’etichetta). In pratica, tuttavia, le notazioni RDF di livello superiore come TTL (Turtle o “Terse RDF Triple Language”) e Notation3 (N3) trattano gruppi aggregati di dati, come contenitori e raccolte RDF.

Ad esempio, immagina una rappresentazione del fatto “(A/La persona di nome) Nathaniel, 46 anni, ha vissuto a Brooklyn, Buffalo e Montreal” (mostrato in Fig. 3.2 sia in CH che in RDF). Se consideriamo Turtle o N3 come linguaggi e non solo notazioni, sembrerebbe che la loro semantica sia costruita attorno a iperedge piuttosto che a tripli. Sembrerebbe che queste lingue codifichino asserzioni molti-a-molti o uno-a-molti, graficamente come bordi con più di un soggetto e / o predicato. In effetti, lo stesso Tim Berners-Lee suggerisce che” Le implementazioni possono trattare list come un tipo di dati piuttosto che solo una scala di proprietà rdf:first e rdf:rest”. Cioè, la specifica per le strutture di dati di tipo elenco RDF ci invita a considerare che possono essere considerate unità integrali piuttosto che solo aggregati che vengono separati nell’interpretazione semantica.

Fig. 3.2. CH contro collezioni RDF.

Tecnicamente, forse, questa è un’illusione. Nonostante la loro espressività di livello superiore, i linguaggi di espressione RDF sono, forse, dovrebbero essere considerati “zucchero sintattico” per un elenco più primitivo di triple: la semantica di Turtle e N3 è concepita per essere definita traducendo le espressioni fino ai tripli insiemi che implicano logicamente (vedi anche ). Questa intenzione accetta il paradigma che fornire semantica per un linguaggio formale è strettamente correlato alla definizione di quali proposizioni sono logicamente implicate dalle sue affermazioni.

C’è, tuttavia, una tradizione divergente nella semantica formale che è orientata alla teoria dei tipi più che alla logica. È coerente con questo approccio alternativo vedere una semantica diversa per un linguaggio come Turtle, in cui gli aggregati su larga scala diventano valori di “prima classe”. Così, 〈⌈Nathaniel⌉, ⌈46⌉〉 può essere visto come una singola (integrale) valore il cui tipo è un 〈nome〉 coppia. Tale valore ha una “struttura interna” che sussume più punti dati. La versione RDF è organizzata, invece, attorno a un nodo vuoto che lega insieme punti dati disparati, come il mio nome e la mia età. Questo nodo vuoto è anche collegato a un altro nodo vuoto che lega insieme place e party. I nodi vuoti svolgono un ruolo organizzativo, poiché i nodi sono raggruppati nella misura in cui si connettono allo stesso nodo vuoto. Ma l’organizzazione implicita è meno strettamente implicata; si potrebbe supporre che i nodi Brooklyn Brooklyn Democrat, Democrat Democrat could potrebbero essere facilmente attaccati individualmente al “nome/età” vuoto (cioè, vivo a Brooklyn e voto democratico).

Perché, cioè, Brooklyn e Democratic sono raggruppati insieme? Che concetto fa questo modello di fusione? Esiste una logica presuntiva per il nome / età vuoto (cioè la fusione di nome/età di unirsi a loro per un vuoto nodo piuttosto che permettere loro di prendere i bordi in modo indipendente): in teoria ci sono più di 46 anni di nome Nathaniel, in modo che il vuoto nodo ha un ruolo semantico di ruolo (analogamente al quantificatore in “C’è un Nathaniel, 46 anni,…”); fornisce una chiara nexus in modo che ulteriori predicati possono essere collegati a uno specifico 46-anno-vecchio Nathaniel, piuttosto che qualsiasi vecchio 〈⌈Nathaniel⌉, ⌈46⌉〉. Ma non esiste un ruolo semantico suggerito allo stesso modo per il raggruppamento “luogo/partito”. Il nome non può essere logicamente preso in giro a parte il nome / età vuoto (perché ci sono più Nathaniel), ma sembra che non ci sia alcun significato logico per il raggruppamento di luoghi/parti. Tuttavia, l’associazione di questi valori può essere motivata da una convenzione di modellazione, che riflette il fatto che i dati di affiliazione geografica e di partito sono raggruppati in un set di dati o modello di dati. La semantica logica di RDF rende più difficile esprimere questo tipo di ipotesi di modellazione che sono guidate dalla convenzione più che dalla logica—un’astrazione dall’ambiente di modellazione dei dati che può essere desiderabile in alcuni contesti ma non in altri.

Così, perché il Web Semantico comunità efficacemente insistere su una interpretazione semantica di Tartaruga, N3, come solo una notazione convenienza per N-Triples, piuttosto che come linguaggi di alto livello con un diverso livello superiore semantica—e malgrado le dichiarazioni come quelle precedenti Tim Berners-Lee preventivo insinuare che un’interpretazione alternativa è stato previsto anche nel cuore di Web Semantico specifiche? Inoltre, la definizione di gerarchie di composizione del materiale o organizzazione strutturale—e quindi per estensione, potenzialmente, scale distinte di risoluzione della modellazione-è stata identificata come una parte intrinseca del design ontologico specifico del dominio (vedi Refs. , o Ref. ). I sostenitori del Web semantico non hanno, tuttavia, promosso la struttura multilivello come una caratteristica dei modelli semantici fondamentalmente, al contrario di criteriologia all’interno di ontologie specifiche. Nella misura in cui questo ha una spiegazione, probabilmente ha qualcosa a che fare con i motori di ragionamento: gli strumenti che valutano le query SPARQL operano su base triplestore. Quindi l’interpretazione semantica” riduttiva ” è probabilmente giustificata tramite una garanzia che i criteri definitivi per le rappresentazioni del Web Semantico non sono la loro eleganza concettuale nei confronti dei giudizi umani, ma la loro utilità in inferenze cross-ontologiche e cross-context.

Come contro-argomento, tuttavia, si noti che molti motori di inferenza nella risoluzione dei vincoli, nella visione artificiale e così via, si basano su algoritmi specializzati e non possono essere ridotti a un formato di query canonico. Librerie come GeCODE e ITK sono importanti perché la risoluzione dei problemi in molti domini richiede un’ingegneria a livello di applicazione ottimizzata. Possiamo pensare che queste librerie supportino motori di ragionamento speciali o specifici del dominio, spesso costruiti per progetti specifici, mentre i ragionatori basati su OWL come Fact++ sono motori generali che lavorano su dati RDF generici senza ulteriori qualifiche. Per applicare i reasoner “speciali” a RDF, è necessario selezionare un contingente di nodi coerente con i requisiti di runtime dei reasoner.

Naturalmente, non ci si può aspettare che i ragionatori speciali funzionino sul dominio dell’intero Web Semantico, o anche su set di dati “molto grandi” in generale. Un’analisi tipica suddividerà il suo problema in parti più piccole che sono ciascuna trattabili ai ragionatori personalizzati-in radiologia, diciamo, una diagnosi può procedere selezionando prima una serie di immagini mediche e quindi eseguendo la segmentazione immagine per immagine. Applicato a RDF, questo processo in due fasi può essere considerato una combinazione di ragionatori generali e speciali: un linguaggio generale come SPARQL filtra molti nodi in un sottoinsieme più piccolo, che vengono quindi mappati/deserializzati a rappresentazioni specifiche del dominio (inclusa la memoria di runtime). Ad esempio, RDF può collegare un paziente a un test diagnostico, ordinato in una data particolare da un particolare medico, i cui risultati possono essere ottenuti come una suite di immagini—selezionando così la serie particolare rilevante per un compito diagnostico. Ragionatori generali possono trovare le immagini di interesse e poi passarle a ragionatori speciali (come algoritmi di segmentazione) per analizzare. Nella misura in cui questa architettura è in vigore, i dati Web semantici sono un sito per molti tipi di motori di ragionamento. Alcuni di questi motori devono funzionare trasformando i dati e le risorse RDF in una rappresentazione interna ottimizzata. Inoltre, la semantica di queste rappresentazioni sarà in genere più vicina a una semantica N3 di alto livello presa come sui generis, piuttosto che come interpretata riduttivamente come una convenienza notazionale per formati di livello inferiore come N-Triple. Ciò sembra minare la giustificazione per la semantica riduttiva in termini di ragionatori GUFO.

Forse il paradigma più accurato è che i dati del Web semantico hanno due diverse interpretazioni, che differiscono per essere coerenti con la semantica speciale e generale, rispettivamente. Ha senso etichettare questi “interpretazione semantica speciale “o” interpretazione semantica per ragionatori speciali “(SSI, forse) e” interpretazione semantica generale ” (GSI), rispettivamente. Entrambe queste interpretazioni dovrebbero essere considerate avere un ruolo nella “semantica” del Web Semantico.

Un altro ordine di considerazioni coinvolge la semantica dei nodi RDF e degli ipernodi CH in particolare per quanto riguarda l’unicità. I nodi in RDF rientrano in tre classi: nodi vuoti; nodi con valori da un piccolo insieme di tipi di base come stringhe e numeri interi; e nodi con URL che sono intesi come unici in tutto il World Wide Web. Non ci sono nodi vuoti in CH e intrinsecamente nemmeno URL, anche se si può certamente definire un tipo di URL. Non c’è nulla nella semantica degli URL che garantisca che ogni URL designi una risorsa Internet distinta; questa è solo una convenzione che essenzialmente si realizza de facto perché struttura una rete di pratiche commerciali e legali, non solo digitali; ad esempio, la proprietà è concessa in modo univoco per ogni nome di dominio Internet. In CH, un tipo di dati può essere strutturato in modo da riflettere pratiche istituzionali che garantiscono l’unicità dei valori in un certo contesto: i libri hanno codici ISBN univoci; i luoghi hanno posizioni GIS distinte, ecc. Questi requisiti di unicità, tuttavia, non sono intrinsecamente parte di CH e devono essere espressi con assiomi aggiuntivi. In generale, un ipernodo CH è una tupla di valori relativamente semplici e qualsiasi semantica aggiuntiva è determinata dalle definizioni di tipo(può essere utile vedere gli ipernodi CH come approssimativamente analoghi alle strutture C-che non hanno un meccanismo di unicità a priori).

Inoltre, i tipi RDF sono meno intrinseci alla semantica RDF rispetto a CH . Gli elementi fondamentali di CH sono tuple di valore (tramite nodi che esprimono valori, le cui tuple a loro volta sono ipernodi). Le tuple sono indicizzate per posizione, non per etichette: la tupla N Nathaniel⌉, 4 46 not non disegna di per sé le etichette “nome” o “età”, che invece sono definite a livello di tipo(nella misura in cui le definizioni di tipo possono stabilire che l’etichetta “età” è un alias per il nodo nella sua seconda posizione, ecc.). Quindi non c’è modo di accertare l’intento semantico/concettuale degli ipernodi senza considerare entrambi i tipi di iponodo e ipernodo. Al contrario, RDF non ha tuple effettive (sebbene queste possano essere rappresentate come raccolte, se lo si desidera); e i nodi sono sempre uniti ad altri nodi tramite connettori etichettati—non esiste un equivalente diretto all’unità di modellazione CH di un iponodo incluso in un ipernodo per posizione.

Al suo centro, quindi, la semantica RDF è costruita sulla proposizione che molti nodi possono essere dichiarati globalmente unici da fiat. Questo non deve essere vero per tutti i nodi: i tipi RDF come interi e float sono più eterei; il numero 46 in un grafico è indistinguibile da 46 in un altro grafico. Questo può essere formalizzato dicendo che alcuni nodi possono essere oggetti ma mai soggetti. Se tali restrizioni non fossero applicate, i grafici RDF potrebbero diventare in un certo senso sovradeterminati, implicando relazioni in virtù di grandezze quantitative prive di contenuto semantico. Ciò aprirebbe la porta a giudizi bizzarri come” la mia età non è primaria “o” Sono più vecchio dei totali degli obiettivi 2018 di Mohamed Salah.”Un modo per bloccare queste inferenze è impedire a nodi come “il numero 46” di essere soggetti e oggetti. Ma i nodi che non sono valori primitivi-quelli, diciamo, che designano Mohamed Salah stesso piuttosto che i suoi totali di obiettivi—sono giustamente unici a livello globale, dal momento che abbiamo ragioni convincenti per adottare un modello in cui c’è esattamente una cosa che è Mohamed Salah. Quindi la semantica RDF sposa fondamentalmente alcuni tipi primitivi che sono oggetti ma mai soggetti con una rete di valori globalmente unici ma internamente non strutturati che possono essere oggetto o oggetto.

In CH, i tipi “primitivi” sono effettivamente ipotipi; gli iponodi sono (almeno indirettamente) analoghi ai nodi RDF solo oggetto nella misura in cui possono essere rappresentati solo tramite inclusione all’interno degli ipernodi. Ma gli ipernodi CH non sono (di per sé) globalmente unici né privi di struttura interna. In sostanza, una semantica RDF basata sull’unicità garantita per primitive atom-like viene sostituita da una semantica basata su blocchi strutturati senza unicità garantita. Questa alternativa può essere considerata nel contesto di ragionatori generali rispetto a quelli speciali: poiché i ragionatori generali prendono potenzialmente l’intero Web Semantico come dominio, l’unicità globale è una proprietà più desiderata della struttura interna. Tuttavia, poiché i ragionatori speciali vengono eseguiti solo su dati appositamente selezionati, l’unicità globale è meno importante della mappatura efficiente alle rappresentazioni specifiche del dominio. Non è computazionalmente ottimale deserializzare i dati eseguendo query SPARQL.

Infine, come ultimo punto nel confronto tra semantica RDF e CH, vale la pena considerare la distinzione tra” conoscenza dichiarativa “e” conoscenza procedurale ” (vedi, ad esempio, ). Secondo questa distinzione, i dati RDF canonici esemplificano la conoscenza dichiarativa perché affermano fatti apparenti senza cercare esplicitamente di interpretarli o elaborarli. La conoscenza dichiarativa circola tra i software in formati di dati canonici e riutilizzabili, consentendo ai singoli componenti di utilizzare o fare inferenze dai dati in base ai propri scopi.

Contro questo paradigma, tornare a ipotetici esempi Cyber-fisici, come la conversione dei dati di tensione in dati di accelerazione, che è un prerequisito per le letture degli accelerometri utili nella maggior parte dei contesti. Il software che possiede capacità per elaborare gli accelerometri rivela quindi ciò che può essere chiamato conoscenza procedurale, perché il software così caratterizzato non solo riceve dati ma elabora anche tali dati in modi standardizzati.

La distinzione dichiarativa/procedurale forse non riesce a capire come le trasformazioni procedurali possano essere intese come intrinseche ad alcuni domini semantici—così che anche le informazioni che percepiamo come “dichiarative” hanno un elemento procedurale. Ad esempio, il fatto stesso che gli “accelerometri” non sono chiamati “Voltmetri” (che sono qualcos’altro) suggerisce come la comunità di calcolo onnipresente percepisca i calcoli di tensione-accelerazione come intrinseci ai dati degli accelerometri. Ma a rigor di termini, i componenti che partecipano alle reti USH non sono solo impegnati nella condivisione dei dati; stanno funzionando parti della rete perché possono eseguire diversi calcoli ampiamente riconosciuti che sono intesi come centrali per il dominio pertinente—in altre parole, hanno (e condividono con i loro coetanei) una certa “conoscenza procedurale.”

RDF è strutturato come se la condivisione statica dei dati fosse l’unico arbitro di interazioni semanticamente informate tra componenti diversi, che possono avere una varietà di disegni e logiche—vale a dire, un Web semantico. Ma un resoconto approfondito della semantica della comunicazione formale deve fare i conti con il modo in cui i modelli semantici sono informati dal presupposto implicito, a volte inconscio, che i produttori e / o i consumatori di dati avranno determinate capacità operative: i processi dinamici previsti come parte della condivisione dei dati sono difficili da separare concettualmente dai dati statici che vengono letteralmente trasferiti. Per continuare l’esempio dell’accelerometro, i progettisti possono pensare a strumenti come “misurare l’accelerazione” anche se fisicamente questo non è strettamente vero; il loro output deve essere matematicamente trasformato per essere interpretato in questi termini. Sia che siano rappresentati tramite grafici RDF o Hypergraph diretti, la semantica dei dati condivisi è incompleta a meno che le operazioni che possono accompagnare l’invio e la ricezione dei dati non siano riconosciute come precondizioni per un allineamento semantico legittimo.

Mentre le ontologie sono preziose per coordinare e integrare modelli semantici disparati, il Web Semantico ha forse influenzato gli ingegneri a concepire la condivisione di dati semanticamente informati come principalmente una questione di presentare dati statici conformi alle ontologie pubblicate (cioè l’allineamento della “conoscenza dichiarativa”). In realtà, una solida condivisione dei dati richiede anche un “allineamento delle conoscenze procedurali”: in una rete semantica ideale, le capacità procedurali sono circondate tra i componenti, promuovendo una” conoscenza procedurale collettiva ” emergente guidata dalla trasparenza su codice e librerie, nonché su dati e formati. Il modello CH supporta probabilmente questa possibilità perché rende le asserzioni di tipo fondamentali per la semantica. La digitazione rigorosa pone entrambe le basi per l’allineamento procedurale e impone che le capacità procedurali siano prese in considerazione nelle valutazioni dei componenti di rete, poiché un’attribuzione di tipo non ha significato senza librerie e codice adeguati per costruire e interpretare valori specifici del tipo.

Nonostante le loro differenze, il Web Semantico, da un lato, e i framework basati su Hypergraph, dall’altro, appartengono entrambi allo spazio generale dei modelli semantici orientati al grafico. Gli ipergrafi possono essere emulati in RDF e i grafici RDF possono essere mappati organicamente su una rappresentazione dell’ipergrafo (nella misura in cui gli ipergrafi diretti con annotazioni sono un superspazio appropriato di grafici etichettati diretti). Le ontologie del Web semantico per il codice sorgente del computer possono quindi essere modellate anche da DHS opportunamente tipizzati, anche se possiamo anche formulare ontologie di codice sorgente basate su Hypergraph. Quindi, siamo giustificati nell’assumere che esista un’ontologia sufficiente per la maggior parte o tutti i linguaggi di programmazione. Ciò significa che, per una determinata procedura, possiamo supporre che esista una rappresentazione DH corrispondente che incarni l’attuazione di tale procedura.

Le procedure, ovviamente, dipendono dagli input che sono fissi per ogni chiamata e producono “output” una volta terminati. Nel contesto di una rappresentazione grafica, ciò implica che alcuni ipernodi rappresentano e / o esprimono valori che sono input, mentre altri rappresentano e/o esprimono i suoi output. Questi ipernodi sono astratti nel senso (come nel calcolo Lambda) che non hanno uno specifico valore assegnato all’interno del corpo, qua struttura formale. Invece, una manifestazione di runtime di un DH (o equivalentemente un CH, una volta introdotti i tipi canalizzati) popola gli ipernodi astratti con valori concreti, che a loro volta consentono di valutare le espressioni descritte dal CH.

Questi punti suggeriscono una strategia per unificare i calcoli Lambda con le ontologie del codice sorgente. Il costrutto essenziale in λ-calculi è che le formule matematiche includono “simboli liberi” che sono astratti: siti in cui una formula può dare origine a un valore concreto, fornendo valori a incognite; o dare origine a nuove formule, tramite espressioni nidificate. Analogamente, i nodi in una rappresentazione del codice sorgente basata su grafici sono effettivamente λ-astratti se modellano i parametri di input, a cui vengono dati valori concreti quando viene eseguita la procedura. Collegare l’output di una procedura all’input di un’altra—che può essere modellata come un’operazione di grafico, collegando due nodi—è quindi un analogo basato su grafico per incorporare un’espressione complessa in una formula (tramite un simbolo libero in quest’ultimo).

Portando avanti questa analogia, in precedenza ho menzionato diverse estensioni λ-Calculus ispirate a caratteristiche del linguaggio di programmazione come l’orientamento agli oggetti, le eccezioni e le catture per riferimento o per valore. Anche questi possono essere incorporati in un’Ontologia del codice sorgente: ad esempio, la connessione tra un nodo che contiene un valore passato a un nodo di parametro di input, in una firma di procedura, è semanticamente distinta dai nodi che contengono “Oggetti” che sono mittenti e ricevitori per “messaggi”, nel linguaggio orientato agli oggetti. I protocolli di input/output varianti, inclusi oggetti, acquisizioni ed eccezioni, sono certamente costrutti semantici (nel dominio del codice del computer) che le ontologie del codice sorgente dovrebbero riconoscere. Quindi possiamo vedere una convergenza nella modellazione di molteplici protocolli di input / output tramite λ-Calculus e tramite Ontologie del codice sorgente. Ora discuterò una corrispondente espansione nel regno della teoria dei tipi applicata, con l’obiettivo di piegare in ultima analisi anche la teoria dei tipi in questa convergenza.

Lascia un commento

Il tuo indirizzo email non sarà pubblicato.