Deklarativní Znalosti

3.3.3 načítané s kanály hypergraphs a RDF

Resource Description Framework (RDF) modely informace prostřednictvím orientované grafy (Refs. jsou dobré diskuse o Sémantické Webové technologie z grafu-teoretické perspektivy), jejichž okraje jsou označeny pojmy, které, v dobře strukturovaných kontextů, jsou čerpány z publikovaných Ontologie (tyto štítky hrát podobnou roli „klasifikátory“ v CHs). V zásadě, všechny údaje vyjádřené prostřednictvím RDF grafů je definován neuspořádané množiny označených hran, nazývané také „trojky“ („〈Subjekt, Predikát, Objekt〉,“ kde „Predikát“ je na štítku). V praxi však vyšší úrovni RDF notace jako TTL (Želva nebo „Hutný RDF Triple Language“) a Notation3 (N3) jednat s agregační skupiny dat, například RDF kontejnery a kolekce.

představte si například, reprezentace skutečnosti „(/osoba jménem) Nathaniel, 46, žije v Brooklynu, Buffalo, Montreal“ (znázorněno na Obr. 3.2 jak CH, tak RDF). Pokud vezmeme v úvahu Turtle nebo N3 jako jazyky a ne jen notace, vypadalo by to, jako by jejich sémantika byla postavena spíše na hyperedzích než na trojicích. Zdá se, že tyto jazyky kódují mnoho-k-mnoho nebo jeden-k-mnoho tvrzení, grafovány jako hrany, které mají více než jeden předmět a / nebo predikát. Tim Berners-Lee sám naznačuje, že „implementace mohou zacházet se seznamem spíše jako s datovým typem než jen s žebříkem rdf: First a rdf:rest properties“. To znamená, že SPECIFIKACE datových struktur typu RDF seznam nás vyzývá, abychom zvážili, že mohou být považovány za integrální jednotky spíše než jen agregáty, které se v sémantické interpretaci rozpadnou.

obr. 3.2. CH versus RDF sbírky.

technicky je to možná iluze. Přes jejich expresivitu na vyšší úrovni, výrazové jazyky RDF jsou, možná, měl být považován za „syntaktický cukr“ pro primitivnější seznam trojic: sémantika Turtle a N3 je koncipována tak, aby byla definována překladem výrazů do trojitých množin, které logicky naznačují (viz také). Tento záměr přijímá paradigma, že poskytování sémantiky formálnímu jazyku úzce souvisí s definováním toho, které výroky jsou logicky spojeny s jeho výroky.

existuje však rozdílná tradice ve formální sémantice, která je orientována spíše na teorii typů než na logiku. Je v souladu s tímto alternativním přístupem vidět jinou sémantiku pro jazyk, jako je želva, kde se agregáty ve větším měřítku stávají hodnotami „první třídy“. Takže, 〈⌈Nathaniel⌉, ⌈46⌉〉 může být viděn jako (jediné, integrální) hodnota, jejíž typ je 〈jméno, věk〉 pár. Taková hodnota má „vnitřní strukturu“, která zahrnuje více datových bodů. RDF verze je organizována, místo toho, kolem prázdného uzlu, který spojuje nesourodé datové body, jako je moje jméno a můj věk. Tento prázdný uzel je také připojen k jinému prázdnému uzlu, který spojuje místo a stranu. Prázdné uzly hrají organizační roli, protože uzly jsou seskupeny, pokud se připojují ke stejnému prázdnému uzlu. Ale předpokládané organizace je méně přísně nařízeného; jeden by mohl předpokládat, že 〈⌈Brooklynu⌉, ⌈Demokrat⌉〉 uzly mohl právě jak snadno být připojeny jednotlivě do „jméno/věk,“ prázdné (tj., jsem žil v Brooklynu, a já jsem se hlasování, Demokratický).

proč jsou Brooklyn a demokratické seskupeny dohromady? Jaký koncept má tento fúzní model? Existuje domnělé zdůvodnění prázdného jména/věku (tj., fixační jméno/věk spojením je prázdný uzel spíše než dovolit jim, aby se hrany nezávisle na sobě): teoreticky existuje více 46 let jmenoval Nathaniel, takže prázdný uzel hraje klíčovou sémantické role (podobně jako kvantifikátor „Existuje Nathaniel, věk 46…“); to poskytuje jednoznačné nexus tak, že další predikáty mohou být připojeny k jedné konkrétní 46-rok-starý Nathaniel spíše než nějaké staré 〈⌈Nathaniel⌉, ⌈46⌉〉. Neexistuje však žádná podobně navrhovaná sémantická role pro seskupení „místo/strana“. Jméno nelze logicky dráždit kromě jména / věku prázdné (protože existuje více Nathaniels), ale zdá se, že nemá logický význam pro seskupení místa/strany. Přesto párování těchto hodnot může být motivováno konvencí modelování-odrážející, že data geografické a stranické příslušnosti jsou seskupena do datové sady nebo datového modelu. Logické sémantiky RDF dělat to těžší, aby vyjádřit tyto druhy modelování předpokladů, které jsou poháněny úmluvy více než logické—abstrahovat od data modelování prostředí, které může být žádoucí, v některých kontextech, ale v jiných nikoli.

Takže, proč Sémantický Web společenství účinně trvat na sémantické interpretace Želva a N3 jako notační pohodlí pro N-Triples, spíše než jako vyšší úrovně jazyků s jinou vyšší úroveň sémantiky—a to navzdory prohlášení jako dříve Tim Berners-Lee citát naznačuje, že alternativní výklad je zmiňováno i ti v srdci Sémantického Webu specifikace? Kromě toho bylo definování hierarchií materiálového složení nebo strukturální organizace—a tím i rozšíření, potenciálně odlišné stupnice rozlišení modelování-identifikováno jako vnitřní součást návrhu ontologie specifické pro doménu (viz Refs . , nebo Ref. ). Zastánci sémantického webu však zásadně nepropagovali vícestrannou strukturu jako rys sémantických modelů, na rozdíl od kriteriologie v rámci specifických ontologií. Do té míry, že to má vysvětlení, pravděpodobně to má něco společného s uvažovacími motory: nástroje, které vyhodnocují dotazy SPARQL, fungují na trojnásobném základě. Takže „reduktivní“ sémantická interpretace je pravděpodobně oprávněná, přes povolení, že konečná kritéria pro Sémantický Web reprezentace nejsou jejich koncepční elegance vis-à-vis lidských rozhodnutí, ale jejich užitečnost v cross-ontologie a cross-souvislosti závěry.

jako protiargument si však všimněte, že mnoho inferenčních motorů při řešení omezení, počítačovém vidění atd. se spoléhá na specializované algoritmy a nelze je redukovat na kanonický formát dotazu. Knihovny jako GeCODE a ITK jsou důležité, protože řešení problémů v mnoha doménách vyžaduje vyladěné inženýrství na úrovni aplikací. Můžeme si z těchto knihoven jako podpůrné zvláštní nebo domény specifické uvažování motory, často postavené na konkrétní projekty, vzhledem k tomu, že SOVA na bázi reasoners jako Skutečnost++ jsou obecné motory, které pracují na univerzální RDF data bez další kvalifikace. Aby bylo možné použít“ speciální „reasonery na RDF, musí být vybrán kontingent uzlů, který je v souladu s požadavky reasoners‘ runtime.

samozřejmě nelze očekávat, že speciální reasonery budou běžet na doméně celého sémantického webu, nebo dokonce na „velmi velkých“ datových sadách obecně. Typická analýza bude dále rozdělit problém na menší části, které jsou každá povolný k vlastní reasoners—v radiologii, řekněme, diagnóza může pokračovat tím, že první výběr lékařské snímek série a pak provedení obrazu-segmentace obrazu. Aplikováno na RDF, tento dvoustupňový proces lze považovat za kombinaci obecných a zvláštních důvodů: obecný jazyk SPARQL filtry mnoho uzlů na menší podskupiny, které jsou pak mapovány/deserialized do domény-konkrétní reprezentace (včetně runtime paměti). Například RDF lze propojit pacienta na diagnostický test, objednat se na konkrétní datum, konkrétní lékař, jehož výsledky mohou být získány jako sadu obrazů, čímž výběru konkrétní série relevantní pro diagnostický úkol. Obecné důvody mohou najít obrázky zájmu a poté je předat speciálním důvodům (jako jsou segmentační algoritmy) k analýze. Pokud je tato architektura platná, sémantická Webová data jsou místem pro mnoho druhů uvažovacích motorů. Některé z těchto motorů musí pracovat transformací dat a zdrojů RDF na optimalizovanou interní reprezentaci. Navíc, sémantika těchto prohlášení, bude obvykle blíže k high-level N3 sémantika brát jako sui generis, spíše než jak je vykládán reduktivně jako notační pohodlí pro nižší úrovni formátů, jako je N-Triple. Zdá se, že to podkopává ospravedlnění reduktivní sémantiky, pokud jde o důvody sovy.

snad nejpřesnějším paradigmatem je, že data sémantického webu mají dvě různé interpretace, které se liší v souladu se speciální a obecnou sémantikou. Má smysl je označit jako „speciální sémantickou interpretaci „nebo“ sémantickou interpretaci pro účelové reasonery „(možná SSI) a“ obecnou sémantickou interpretaci “ (GSI). Obě tyto interpretace by měly být považovány za roli v „sémantice“ sémantického webu.

další pořadí úvah zahrnuje sémantiku RDF uzlů a CH hypernodů, zejména s ohledem na jedinečnost. Uzly v RDF spadají do tří tříd: prázdné uzly; uzly s hodnotami z malé sady základních typů, jako jsou řetězce a celá čísla; a uzly s adresami URL, které jsou chápány jako jedinečné v celém webu. V CH nejsou žádné prázdné uzly a ve skutečnosti ani adresy URL, i když lze určitě definovat typ adresy URL. V sémantice adres URL není nic, co by zaručovalo, že každá adresa URL označuje odlišný internetový zdroj; jedná se pouze o konvenci, která se v podstatě de facto naplňuje, protože strukturuje síť obchodních a právních praktik, nejen digitálních; například vlastnictví je jedinečně uděleno pro každý název internetové domény. V CH, datový typ, mohou být strukturovány tak, aby odrážely institucionální postupy, které zaručují jedinečnost hodnot v nějaké souvislosti: knihy mají jedinečné ISBN kódy; místa mají odlišné GIS místech, atd. Tyto požadavky na jedinečnost však nejsou ve své podstatě součástí CH a je třeba je vyjádřit dalšími axiomy. Obecně platí, CH hypernode je n-tice relativně jednoduché hodnoty, a jakékoli další sémantika určuje typ definice (to může být užitečné vidět, CH hypernodes jako zhruba analogický k structs C—které nemají a priori jedinečnost mechanismu).

typy RDF jsou také méně vlastní sémantice RDF než v CH . Základní prvky CH jsou value-n-tice (prostřednictvím uzlů vyjadřujících hodnoty, jejichž n-tice jsou zase hypernodes). N-tice jsou indexovány podle polohy, ne podle štítků: n-tice 〈⌈Nathaniel⌉, ⌈46⌉〉 sám o sobě nemusí kreslit v etiketách „jméno“ nebo „věku“, který místo toho jsou definovány na typ-úroveň (pokud typ-definice může stanovit, že označení „věk“ je alias pro uzel v jeho druhé poloze, atd.). Neexistuje tedy žádný způsob, jak zjistit sémantický / koncepční záměr hypernod bez zvážení typů hyponod i hypernod. Naopak RDF nemá skutečné n-tice (i když tyto mohou být reprezentovány jako sbírky, pokud je to žádoucí); a uzly jsou vždy spojeny s jinými uzly pomocí označených konektorů—neexistuje přímý ekvivalent k modelovací jednotce ch hyponody, která je zahrnuta do hypernody podle polohy.

v jádru je pak sémantika RDF postavena na tvrzení, že mnoho uzlů může fiat prohlásit za globálně jedinečné. To nemusí platit pro všechny uzly-typy RDF, jako jsou celá čísla a plováky, jsou éteričtější; číslo 46 V jednom grafu je nerozeznatelné od 46 v jiném grafu. To lze formalizovat tím, že některé uzly mohou být objekty, ale nikdy předměty. Pokud by taková omezení nebyla vynucena, pak by grafy RDF mohly být v určitém smyslu přehnané, což by znamenalo vztahy na základě kvantitativních veličin bez sémantického obsahu. To by otevřelo dveře bizarním úsudkům jako „můj věk není primární „nebo“ jsem starší než celkové cíle Mohameda Salaha v roce 2018.“Jedním ze způsobů, jak tyto závěry zablokovat, je zabránit tomu, aby uzly jako „číslo 46“ byly předměty i objekty. Ale uzly, které nejsou primitivními hodnotami-ty, řekněme, označující Mohameda Salaha spíše než jeho cíle-jsou oprávněně celosvětově jedinečné, protože máme přesvědčivé důvody přijmout model, kde je přesně jedna věc, kterou je Mohamed Salah. Takže RDF sémantiku v podstatě vezme nějaký primitivní typy, které jsou objekty, ale nikdy subjektů s webovou celosvětově unikátní, ale vnitřně nestrukturované hodnoty, které mohou být buď subjekt nebo objekt.

v CH jsou“ primitivní “ typy účinně hypotypy; hyponodes jsou (alespoň nepřímo) analogické k uzlům RDF pouze pro objekty, pokud je lze reprezentovat pouze začleněním do hypernodes. CH hypernody však nejsou (samy o sobě) globálně jedinečné ani postrádají vnitřní strukturu. Sémantika RDF založená na zaručené jedinečnosti atomových primitiv je v podstatě nahrazena sémantikou založenou na strukturovaných stavebních blocích bez zaručené jedinečnosti. Tuto alternativu lze zvážit v kontextu obecných versus zvláštních důvodů: od obecné reasoners potenciálně trvat celý Sémantický Web jako svou doménu, globální jedinečnost je více, požadované vlastnosti, než vnitřní strukturu. Nicméně, protože speciální reasonery běží pouze na speciálně vybraných datech, globální jedinečnost je méně důležitá než efektivní mapování na reprezentace specifické pro doménu. Není výpočetně optimální deserializovat data spuštěním dotazů SPARQL.

Konečně, jako poslední bod ve srovnání mezi RDF a CH sémantika, je to stojí za úvahu rozdíl mezi „deklarativní znalosti“ a „procedurální znalost“ (viz např. ). Podle tohoto rozlišení jsou kanonická data RDF příkladem deklarativních znalostí, protože tvrdí zjevná fakta, aniž by se je výslovně pokoušela interpretovat nebo zpracovávat. Deklarativní znalosti cirkuluje mezi software v canonical, opakovaně použitelné formáty dat, což umožňuje jednotlivé komponenty použít, nebo dělat závěry z údajů, podle jejich vlastní účely.

proti tomuto paradigmatu, návrat do hypotetické Cyber-Fyzikální příklady, jako je přeměna napětí data na zrychlení dat, což je předpokladem pro zrychlení čtení je užitečné v mnoha kontextech. Software disponuje schopností zpracovat akcelerometry proto odhaluje, co lze nazvat procesní znalosti, protože software se tak vyznačuje nejen přijímá data, ale i procesy, data ve standardizované způsoby.

deklarativní/procedurální rozdíl možná nedokáže zachytit, jak procesní transformací lze chápat jako neoddělitelnou některé sémantické domény—tak, že i informace, které vnímáme jako „deklarativní“ má procesní prvek. Například samotná skutečnost, že “ akcelerometry „nejsou nazývány“ voltmetry “ (což je něco jiného), naznačuje, jak všudypřítomná výpočetní komunita vnímá výpočty napětí na zrychlení jako vlastní datům akcelerometrů. Ale přísně vzato, komponenty, které se podílejí USH sítě nejsou jen zapojeni do sdílení údajů; jsou funkční částí sítě, protože se mohou provádět několik široce uznávaných výpočty, které jsou zřejmé, bude centrální příslušné domény—jinými slovy, mají (a podělte se s jejich vrstevníky) určité „procedurální znalosti.“

RDF je strukturován jako kdyby statického sdílení dat jediným arbitrem sémanticky informován interakce mezi různými složkami, které mohou mít různé vzory a zdůvodnění—což znamená, že Sémantický Web. Ale důkladnou úvahu formální sémantika komunikace musí počítat s tím, jak se sémantické modely jsou informováni o implicitní, někdy v bezvědomí předpokladu, že výrobce nebo spotřebitele dat, bude mít určité provozní kapacity: dynamické procesy předpokládané jako součást sdílení dat je těžké koncepčně oddělit od statických dat, která jsou doslova přenášena. Pokračovat akcelerometru příklad, návrháři mohou myslet, že takové nástroje jako „měření zrychlení“, i když fyzicky to není tak úplně pravda, jejich výkon musí být matematicky transformován na to musí být vykládán v těchto podmínkách. Zda zastoupeny prostřednictvím RDF grafy nebo Řídil Hypergraphs, sémantika sdílených dat je neúplný, pokud operace, které mohou doprovázet odesílání a přijímání dat jsou uznávány jako předpoklady pro legitimní sémantické zarovnání.

Zatímco ontologie jsou cenné pro koordinaci a integraci různorodých sémantických modelů je Sémantický Web má možná vliv inženýři představit sémanticky informován, sdílení dat, jako především o prezentaci statických dat v souladu s publikovanými Ontologie (tj. zarovnání „deklarativní znalosti“). Ve skutečnosti, robustní sdílení dat také potřebuje „zarovnání procesní znalosti“: v ideálním Sémantické Sítě, procesní schopnosti jsou v kroužku mezi komponenty, podpora vznikající „kolektivní procedurální znalost“ je řízen transparentnost, pokud jde o kód a knihovny, jakož i o data a formáty. Model CH tuto možnost pravděpodobně podporuje, protože činí typová tvrzení základem sémantiky. Důsledné psaní jak stanoví základ pro procesní zarovnání a nařizuje, že procesní schopnosti být vzaty v úvahu při hodnocení síťových komponent, protože typ atribuce, nemá žádný význam bez odpovídajících knihoven a kódu sestavit a interpretovat typ-konkrétní hodnoty.

Přes jejich rozdíly, Sémantický Web, na jedné straně, a Hypergraph na bázi rámců, na druhé straně, oba patří k celkovému prostoru graf-orientovaný sémantické modely. Hypergraphs může být emulován v RDF a RDF grafy mohou být organicky mapovány na Hypergraph zastoupení (pokud Zaměřena Hypergraphs s popisy jsou správné superspace Režii Označené Grafy). Sémantické webové ontologie pro zdrojový kód počítače tak mohou být modelovány také vhodně napsanými DHs, i když můžeme také formulovat ontologie zdrojového kódu založené na Hypergrafu. Jsme tedy oprávněni předpokládat, že pro většinu nebo všechny programovací jazyky existuje dostatečná ontologie. To znamená, že pro daný postup můžeme předpokládat, že existuje odpovídající DH reprezentace, která ztělesňuje implementaci tohoto postupu.

procedury samozřejmě závisí na vstupech, které jsou pro každý hovor fixovány, a po ukončení vytvářejí „výstupy“. V kontextu grafové reprezentace to znamená, že některé hypernody představují a / nebo vyjadřují hodnoty, které jsou vstupy, zatímco jiné představují a / nebo vyjadřují své výstupy. Tyto hypernodes jsou abstraktní v tom smyslu (jako v Lambda Kalkulu), že nemají specifickou přiřazené hodnoty v těle, qua formální struktury. Místo toho runtime manifestace DH (nebo ekvivalentně CH, jakmile jsou zavedeny channelizované typy) naplní abstraktní hypernodes konkrétními hodnotami, což zase umožňuje vyhodnotit výrazy popsané CH.

tyto body navrhují strategii pro sjednocení Lambda kalkulů s Ontologiemi zdrojového kódu. Základním konstruktem v λ-kalkulech je, že matematické vzorce zahrnují“ volné symboly“, které jsou abstrahovány: stránky, kde vzorec může vést ke konkrétní hodnotě, dodáním hodnot neznámým; nebo vést k novým vzorcům, pomocí vnořených výrazů. Analogicky jsou uzly v grafové reprezentaci zdrojového kódu účinně abstrahovány, pokud modelují vstupní parametry, které jsou při spuštění procedury uvedeny konkrétní hodnoty. Připojení výstup z jednoho postupu na vstup jiného—což může být modelován jako graf, operace, spojující dva uzly—je pak graf-založené analogového na vkládání složitého výrazu do vzorce (prostřednictvím volného symbol v druhé).

Nesoucí tuto analogii dále, jsem již dříve zmínil, různé λ-Kalkul rozšíření inspirované programování-funkce jazyka jako objekt-orientace, výjimky, a by-reference nebo hodnoty zachycuje. Tyto, také mohou být začleněny do Zdrojového Kódu Ontologie: například připojení mezi uzlu drží hodnoty předané vstupní parametr uzlu, v řízení podpis, je sémanticky odlišné od uzly drží „Objekty“, které jsou odesílatel a příjemce pro „zprávy“ v Objektově Orientovaném jazyce. Variantní vstupní / výstupní protokoly, včetně objektů, zachycení a výjimek, jsou jistě sémantické konstrukty (v doméně počítačového kódu), které by ontologie zdrojového kódu měly rozpoznat. Můžeme tedy vidět konvergenci v modelování rozmanitých vstupních / výstupních protokolů pomocí λ-kalkulu a ontologií zdrojového kódu. Nyní budu diskutovat o odpovídající expanzi v oblasti aplikované teorie typů, s cílem nakonec skládat teorii typů do této konvergence.

Napsat komentář

Vaše e-mailová adresa nebude zveřejněna.