Declarative Knowledge

3.3.3 Channelized hypergraphs and RDF

the Resource Description Framework (RDF) modeluje informacje za pomocą ukierunkowanych Wykresów (Refs. są dobre dyskusje na temat Semantic Web technologies z perspektywy grafowo-teoretycznej), których krawędzie są oznaczone pojęciami, które w dobrze ustrukturyzowanych kontekstach są zaczerpnięte z opublikowanych ontologii (etykiety te odgrywają podobną rolę do „klasyfikatorów” w CHs). Zasadniczo wszystkie dane wyrażone za pomocą wykresów RDF są definiowane przez nieuporządkowane zestawy oznakowanych krawędzi, zwane również „potrójnymi” („〈Subject, Predicate, Object〉”, gdzie „Predicate” jest etykietą). W praktyce jednak notacje RDF wyższego poziomu, takie jak TTL (Turtle lub „Terse RDF Triple Language”) I Notation3 (N3) zajmują się zbiorczymi grupami danych, takimi jak kontenery i kolekcje RDF.

na przykład wyobraź sobie przedstawienie faktu „(A/osoba o imieniu) Nathaniel, 46, mieszkał w Brooklynie, Buffalo i Montrealu” (pokazane na Fig. 3.2 zarówno jako CH, jak i w RDF). Jeśli uznamy Turtle ’ a lub N3 za języki, a nie tylko notacje, wydaje się, że ich semantyka opiera się na hiperedytacjach, a nie trójkach. Wydawałoby się, że języki te kodują twierdzenia wiele-do-wielu lub jeden-do-wielu, wykresowane jako krawędzie mające więcej niż jeden podmiot i/lub orzeczenie. Rzeczywiście, sam Tim Berners-Lee sugeruje, że” implementacje mogą traktować list jako typ danych, a nie tylko drabinę właściwości RDF:first i RDF:rest”. Oznacza to, że specyfikacja struktur danych typu List RDF zachęca nas do rozważenia, że mogą one być traktowane jako jednostki integralne, a nie tylko agregaty, które zostają rozdzielone w interpretacji semantycznej.

Fig. 3.2. Kolekcje CH kontra RDF.

technicznie, być może, jest to iluzja. Pomimo ich ekspresji wyższego poziomu, języki wyrażeniowe RDF są prawdopodobnie uważane za „cukier składniowy” dla bardziej prymitywnej listy potrójnych: semantyka Turtle ’ a i N3 ma być zdefiniowana poprzez przełożenie wyrażeń w dół na zestawy potrójne, które logicznie implikują (Zobacz też ). Intencja ta przyjmuje paradygmat, zgodnie z którym dostarczanie semantyki dla języka formalnego jest ściśle związane z określeniem, które propozycje są logicznie związane z jego wypowiedziami.

istnieje jednak rozbieżna tradycja w semantyce formalnej, która jest bardziej zorientowana na teorię typów niż na logikę. Jest to zgodne z tym alternatywnym podejściem, aby zobaczyć inną semantykę dla języka takiego jak Turtle, gdzie agregaty o większej skali stają się wartościami „pierwszej klasy”. Tak, 〈⌈Nathaniel⌉, ⌈46⌉〉 można traktować jako (jeden, całościowy) wartość, którego rodzaj jest para 〈imię, nazwisko, wiek〉. Taka wartość ma „wewnętrzną strukturę”, która podpuszcza wiele punktów danych. Wersja RDF jest zorganizowana wokół pustego węzła, który łączy różne punkty danych, takie jak moje imię i mój wiek. Ten pusty węzeł jest również połączony z innym pustym węzłem, który łączy miejsce i stronę. Puste węzły odgrywają rolę organizacyjną, ponieważ węzły są zgrupowane razem, o ile łączą się z tym samym pustym węzłem. Ale implikowana organizacja jest mniej ściśle związana; można założyć, że węzły Brooklyn Brooklyn⌉, Democrat Demokrata ⌉ 〉 mogą równie łatwo być dołączone indywidualnie do pustego „imienia/wieku” (tj. mieszkam na Brooklynie i głosuję demokratycznie).

dlaczego Brooklyn i Demokraci są ze sobą zgrupowani? Jaką koncepcję ma ten model fuzji? Istnieje domniemane uzasadnienie dla pustego imienia/wieku (tj., połączenie nazwy / wieku poprzez połączenie ich z pustym węzłem, a nie umożliwienie im samodzielnego nabierania krawędzi): możliwe, że istnieje wiele 46-latków o imieniu Nathaniel, tak że pusty węzeł odgrywa kluczową rolę semantyczną (analogicznie do kwantyfikatora w „jest Nathaniel, wiek 46…”); zapewnia jednoznaczny związek, dzięki czemu dalsze predykaty mogą być dołączone do jednego konkretnego 46-letniego Nathaniela, a nie do jakiegokolwiek starego 〈 ⌈ Nathaniel⌉, 4 46⌉ 〉. Ale nie ma podobnie sugerowanej roli semantycznej dla grupowania „miejsce/partia”. Nazwa nie może być logicznie dokuczliwa poza pustą nazwą / wiekiem (ponieważ istnieje wiele Nathanielów), ale wydaje się, że nie ma logicznego znaczenia dla grupowania miejsc/partii. Jednak parowanie tych wartości może być motywowane konwencją modelowania-odzwierciedlającą, że dane geograficzne i przynależność partyjną są zgrupowane razem w zbiorze danych lub modelu danych. Semantyka logiczna RDF sprawia, że trudniej jest wyrazić tego rodzaju założenia modelowania, które są napędzane konwencją bardziej niż logiką – abstrakcją ze środowiska modelowania danych, które może być pożądane w niektórych kontekstach, ale nie w innych.

dlaczego więc społeczność Semantic Web skutecznie nalega na semantyczną interpretację Turtle ’ a i N3 jako tylko notacyjną wygodę dla N-Triple, A NIE jako języki wyższego poziomu z inną semantyką wyższego poziomu-i pomimo stwierdzeń takich jak wcześniejszy Tim Berners-Lee cytuje insynuowanie, że alternatywna interpretacja została rozważona nawet przez tych, którzy są w centrum specyfikacji Semantic Web? Co więcej, definiowanie hierarchii składu materiału lub organizacji strukturalnej – a więc przez rozszerzenie, potencjalnie, różnych skal rozdzielczości modelowania-zostało zidentyfikowane jako nieodłączna część projektowania ontologii specyficznej dla danej dziedziny (patrz Refs. , lub Ref. ). Zwolennicy Semantic Web nie promowali jednak zasadniczo struktury wielowątkowej jako cechy modeli semantycznych, w przeciwieństwie do kryteriów w ramach określonych ontologii. Do tego stopnia, że ma to Wyjaśnienie, prawdopodobnie ma to coś wspólnego z mechanizmami rozumowania: narzędzia, które oceniają zapytania SPARQL działają na zasadzie triplestore. Tak więc „redukcyjna” interpretacja semantyczna jest prawdopodobnie uzasadniona poprzez gwarancję, że definitywnymi kryteriami reprezentacji semantycznych sieci nie są ich konceptualna elegancja w stosunku do ludzkich osądów, ale ich użyteczność w Cross-ontologii i cross-kontekstowych wnioskowaniach.

jako kontrargument należy jednak zauważyć, że wiele silników wnioskowania w rozwiązywaniu ograniczeń, wizji komputerowej itp. opiera się na wyspecjalizowanych algorytmach i nie może być zredukowana do kanonicznego formatu zapytań. Biblioteki takie jak Gecode i ITK są ważne, ponieważ rozwiązywanie problemów w wielu dziedzinach wymaga precyzyjnej inżynierii na poziomie aplikacji. Możemy myśleć o tych bibliotekach jako o wspieraniu specjalnych lub specyficznych dla domeny silników rozumowania, często budowanych dla konkretnych projektów, podczas gdy reasonery oparte na sowie, takie jak Fact++, są silnikami ogólnymi, które pracują na ogólnych danych RDF bez dalszych kwalifikacji. Aby zastosować” specjalne ” reasonery do RDF, należy wybrać kontyngent węzłów, który jest zgodny z wymaganiami uruchomieniowymi reasonerów.

oczywiście nie można oczekiwać, że specjalne reasonery będą działać na domenie całego Semantic Web, a nawet na” bardzo dużych ” zbiorach danych w ogóle. Typowa analiza podzieli swój problem na mniejsze części, z których każda jest tractable do niestandardowych reasoners-w radiologii, powiedzmy, diagnoza może postępować najpierw wybierając serię obrazów medycznych, a następnie wykonując segmentację obraz po obrazie. Zastosowany do RDF, ten dwuetapowy proces można uznać za połączenie przyczyn ogólnych i specjalnych: język ogólny, taki jak SPARQL, filtruje wiele węzłów do mniejszych podzbiorów, które są następnie mapowane/deserializowane do reprezentacji specyficznych dla domeny (w tym pamięci uruchomieniowej). Na przykład RDF może połączyć pacjenta z testem diagnostycznym, zamówionym w określonym terminie przez konkretnego lekarza, którego wyniki można uzyskać jako zestaw obrazów—wybierając w ten sposób konkretną serię istotną dla zadania diagnostycznego. General reasoners mogą znaleźć interesujące obrazy, a następnie przekazać je specjalnym reasonerom (takim jak algorytmy segmentacji) do analizy. O ile ta architektura jest w praktyce, dane Semantic Web są miejscem dla wielu rodzajów mechanizmów rozumowania. Niektóre z tych silników muszą działać poprzez przekształcenie danych i zasobów RDF w zoptymalizowaną, wewnętrzną reprezentację. Co więcej, semantyka tych reprezentacji będzie zazwyczaj bliższa semantyce N3 wysokiego poziomu przyjmowanej jako sui generis, a nie jako interpretowana redukcyjnie jako notacyjna wygoda dla formatów niższego poziomu, takich jak N-Triple. Wydaje się to podważać uzasadnienie semantyki redukcyjnej w kategoriach rozumowania sów.

chyba najdokładniejszym paradygmatem jest to, że dane semantyczne mają dwie różne interpretacje, różniące się odpowiednio spójnością z semantyką specjalną i ogólną. Sensowne jest oznaczanie ich odpowiednio” specjalną interpretacją semantyczną „lub” interpretacją semantyczną dla reasonerów specjalnego przeznaczenia „(SSI, być może) i” ogólną interpretacją semantyczną ” (GSI). Obie te interpretacje należy uznać za mające znaczenie w” semantyce ” sieci semantycznej.

inny porządek rozważań dotyczy semantyki węzłów RDF i hipernod CH, szczególnie w odniesieniu do wyjątkowości. Węzły w RDF dzielą się na trzy klasy: puste węzły; węzły z wartościami z małego zestawu podstawowych typów, takich jak ciągi znaków i liczby całkowite; i węzły z adresami URL, które są rozumiane jako unikalne w całym World Wide Web. W CH nie ma pustych węzłów, a samo w sobie również nie ma adresów URL, chociaż z pewnością można zdefiniować typ adresu URL. W semantyce adresów URL nie ma nic, co gwarantowałoby, że każdy adres URL oznacza odrębny zasób internetowy; jest to po prostu konwencja, która zasadniczo spełnia się de facto, ponieważ tworzy sieć praktyk handlowych i prawnych, a nie tylko cyfrowych; na przykład własność jest jednoznacznie przyznawana dla każdej nazwy domeny internetowej. W CH typ danych może być skonstruowany tak, aby odzwierciedlał praktyki instytucjonalne, które gwarantują wyjątkowość wartości w pewnym kontekście: książki mają unikalne kody ISBN; miejsca mają różne lokalizacje GIS itp. Te wymagania unikalności nie są jednak nieodłączną częścią CH i muszą być wyrażone dodatkowymi aksjomatami. Ogólnie rzecz biorąc, hipernoda CH jest krotką stosunkowo prostych wartości i każda dodatkowa semantyka jest określona przez Definicje typów (może być użyteczne postrzeganie hipernod CH jako mniej więcej analogicznych do struktur C-które nie mają mechanizmu wyjątkowości a priori).

również typy RDF są mniej nieodłączne dla semantyki RDF niż w CH . Podstawowymi elementami Ch są krotki wartości (poprzez węzły wyrażające wartości, których krotki z kolei są hipernodami). Krotki są indeksowane według pozycji, a nie według etykiet: krotka〈 ⌈, 4 46 ⌉ 〉 sama w sobie nie rysuje etykiet „nazwa” lub „Wiek”, które zamiast tego są definiowane na poziomie typu (O ile definicje typów mogą przewidywać, że etykieta „wiek” jest aliasem dla węzła na jego drugiej pozycji, itp.). Tak więc nie ma sposobu, aby ustalić semantyczne/koncepcyjne intencje hipernod bez uwzględnienia obu typów hiponod i hipernod. Odwrotnie, RDF nie ma rzeczywistych krotek (chociaż mogą one być reprezentowane jako kolekcje, jeśli jest to pożądane); a węzły są zawsze łączone z innymi węzłami za pomocą znakowanych złączy—nie ma bezpośredniego odpowiednika jednostki modelującej Ch hiponody będącej częścią hipernody według pozycji.

w swej istocie semantyka RDF opiera się na założeniu, że wiele węzłów może być uznanych za unikalne globalnie przez fiat. Nie musi to być prawdą dla wszystkich węzłów – typy RDF, takie jak liczby całkowite i Floaty, są bardziej eteryczne; liczba 46 W Jednym grafie jest nie do odróżnienia od 46 w innym grafie. Można to sformalizować, mówiąc, że niektóre węzły mogą być obiektami, ale nigdy obiektami. Gdyby takie ograniczenia nie były egzekwowane, wówczas wykresy RDF mogłyby stać się w pewnym sensie przesadnie określone, implikując relacje na mocy wielkości ilościowych pozbawionych treści semantycznych. To otworzyłoby drzwi do dziwacznych osądów, takich jak” mój wiek nie jest prime „lub” jestem starszy niż suma bramek Mohameda Salaha w 2018 roku.”Jednym ze sposobów zablokowania tych wnioskowań jest uniemożliwienie węzłom takim jak „liczba 46” bycia zarówno podmiotami, jak i obiektami. Ale węzły, które nie są prymitywnymi wartościami-tymi, powiedzmy, wyznaczającymi samego Mohameda Salaha, a nie jego sumy celów—są uzasadnione globalnie unikalne, ponieważ mamy przekonujące powody, aby przyjąć model, w którym jest dokładnie jedna rzecz, którą jest Mohamed Salah. Tak więc semantyka RDF zasadniczo łączy niektóre prymitywne typy, które są obiektami, ale nigdy podmiotami, z siecią globalnych unikalnych, ale wewnętrznie nieustrukturyzowanych wartości, które mogą być podmiotem lub obiektem.

w CH „prymitywne” typy to skutecznie hipotypy; hiponody są (przynajmniej pośrednio) analogiczne do węzłów RDF tylko obiektowych, o ile mogą być reprezentowane tylko poprzez włączenie wewnątrz hipernod. Ale hipernody CH nie są (same w sobie) globalnie unikalne ani pozbawione wewnętrznej struktury. W istocie, semantyka RDF oparta na gwarantowanej wyjątkowości dla atomowych prymitywów jest zastępowana semantyką opartą na strukturyzowanych blokach konstrukcyjnych bez gwarantowanej wyjątkowości. Alternatywę tę można rozpatrywać w kontekście rozważań ogólnych i specjalnych: ponieważ ogólni logicy potencjalnie biorą całą sieć semantyczną za swoją domenę, globalna wyjątkowość jest bardziej pożądaną właściwością niż struktura wewnętrzna. Ponieważ jednak specjalne reasonery działają tylko na specjalnie wyselekcjonowanych danych, globalna wyjątkowość jest mniej ważna niż skuteczne mapowanie do reprezentacji specyficznych dla domeny. Deserializacja danych przez uruchamianie zapytań SPARQL nie jest optymalna obliczeniowo.

wreszcie, jako ostatni punkt w porównaniu semantyki RDF i CH, warto rozważyć rozróżnienie między „wiedzą deklaratywną” a „wiedzą proceduralną” (patrz np. ). Zgodnie z tym rozróżnieniem, kanoniczne dane RDF są przykładem wiedzy deklaratywnej, ponieważ twierdzą oczywiste fakty bez wyraźnej próby ich interpretacji lub przetwarzania. Wiedza deklaratywna krąży wśród oprogramowania w kanonicznych formatach danych wielokrotnego użytku, pozwalając poszczególnym komponentom na wykorzystanie lub wnioskowanie z danych według własnych celów.

w przeciwieństwie do tego paradygmatu, wróć do hipotetycznych przykładów Cyber-fizycznych, takich jak konwersja danych napięciowych na dane przyspieszenia, co jest warunkiem wstępnym, aby odczyty akcelerometrów były przydatne w większości kontekstów. Oprogramowanie posiadające możliwości przetwarzania akcelerometrów ujawnia więc to, co można nazwać wiedzą proceduralną, ponieważ tak scharakteryzowane oprogramowanie nie tylko odbiera dane, ale także przetwarza je w standaryzowany sposób.

rozróżnienie deklaratywno-proceduralne może nie uchwycić tego, jak transformacje proceduralne mogą być rozumiane jako nieodłączne dla niektórych domen semantycznych—tak, że nawet informacje, które postrzegamy jako „deklaratywne”, mają element proceduralny. Na przykład sam fakt, że” akcelerometry „nie są nazywane” Woltomierzami ” (które są czymś innym) sugeruje, w jaki sposób wszechobecna społeczność obliczeniowa postrzega obliczenia napięcia do przyspieszenia jako nieodłączne dla danych akcelerometrów. Ale ściśle mówiąc, komponenty, które uczestniczą w sieciach USH, nie są tylko zaangażowane w udostępnianie danych; są funkcjonującymi częściami sieci, ponieważ mogą wykonywać kilka powszechnie uznanych obliczeń, które są rozumiane jako centralne dla odpowiedniej dziedziny—innymi słowy, mają (i dzielą się z rówieśnikami) pewną „wiedzę proceduralną.”

RDF jest skonstruowany tak, jakby statyczne udostępnianie danych było jedynym arbitrem semantycznie poinformowanych interakcji między różnymi komponentami, które mogą mieć różne projekty i uzasadnienie—czyli sieć semantyczną. Ale dokładna analiza formalnej semantyki komunikacji musi się liczyć z tym, w jaki sposób modele semantyczne są informowane przez Ukryte, czasami nieświadome założenie, że producenci i / lub konsumenci danych będą mieli pewne zdolności operacyjne: dynamiczne procesy przewidywane jako część udostępniania danych są trudne do oddzielenia koncepcyjnie od danych statycznych, które są dosłownie przenoszone. Kontynuując przykład akcelerometru, projektanci mogą myśleć o takich instrumentach jako o” pomiarze przyspieszenia”, chociaż fizycznie nie jest to ściśle prawdą; ich wynik musi być matematycznie przekształcony, aby można go było interpretować w tych kategoriach. Niezależnie od tego, czy reprezentowane są za pomocą wykresów RDF, czy skierowanych Hipergrafów, semantyka udostępnionych danych jest niekompletna, chyba że operacje, które mogą towarzyszyć wysyłaniu i odbieraniu danych, zostaną uznane za warunki wstępne uzasadnionego wyrównania semantycznego.

podczas gdy ontologie są cenne dla koordynowania i integrowania różnych modeli semantycznych, sieć semantyczna prawdopodobnie wpłynęła na inżynierów do wyobrażenia sobie semantycznie świadomego udostępniania danych jako głównie kwestii prezentacji danych statycznych zgodnych z opublikowanymi Ontologiami (tj. wyrównania „wiedzy deklaratywnej”). W rzeczywistości solidne udostępnianie danych wymaga również „dostosowania wiedzy proceduralnej”: w idealnej sieci semantycznej możliwości proceduralne są zakreślane między komponentami, promując wschodzącą” zbiorową wiedzę proceduralną ” napędzaną przejrzystością kodu i bibliotek, a także danych i formatów. Model CH prawdopodobnie wspiera tę możliwość, ponieważ sprawia, że twierdzenia typu są fundamentalne dla semantyki. Rygorystyczne typowanie stanowi podstawę do dostosowania procedur i nakazuje uwzględnienie możliwości proceduralnych w ocenach komponentów sieci, ponieważ atrybucja typu nie ma znaczenia bez odpowiednich bibliotek i kodu do konstruowania i interpretowania wartości specyficznych dla typu.

pomimo różnic, sieć semantyczna, z jednej strony, i ramy oparte na Hipergrafie, z drugiej, należą do ogólnej przestrzeni modeli semantycznych zorientowanych na wykres. Hipergrafy mogą być emulowane w RDF, A wykresy RDF mogą być organicznie odwzorowane na reprezentację Hipergrafu (o ile skierowane Hipergrafy z adnotacjami są właściwą superspace skierowanych oznakowanych Wykresów). Semantic Web Ontologie dla kodu źródłowego komputera mogą być zatem modelowane przez odpowiednio wpisane DHs, nawet jeśli możemy również formułować Ontologie kodu źródłowego oparte na Hipergrafie. Jesteśmy więc uzasadnieni, zakładając, że istnieje wystarczająca ontologia dla większości lub wszystkich języków programowania. Oznacza to, że dla każdej procedury możemy założyć, że istnieje odpowiednia reprezentacja DH, która ucieleśnia implementację tej procedury.

procedury, oczywiĹ „cie, zaleĺźä … od wejĹ” ć, ktĂłre sÄ … ustawione dla kaĹźdego wywoĹ 'ania i wytwarzajÄ … „wyjĹ” cia „po ich zakoĹ” czeniu. W kontekście reprezentacji grafu oznacza to, że niektóre hipernody reprezentują i/lub wyrażają wartości, które są wejściami, podczas gdy inne reprezentują i/lub wyrażają jej wyniki. Hipernody te są abstrakcyjne w tym sensie (jak w rachunku Lambda), że nie mają określonej przypisanej wartości w ciele, qua formalnej strukturze. Zamiast tego, manifestacja Dh (lub równoważnie CH, po wprowadzeniu typów kanałowych) wypełnia abstrakcyjne hipernody konkretnymi wartościami, co z kolei pozwala na ocenę wyrażeń opisanych przez CH.

te punkty sugerują strategię łączenia kamieni Lambda z Ontologiami kodu źródłowego. Zasadniczą konstrukcją w λ-calculi jest to, że wzory matematyczne obejmują „wolne symbole”, które są abstrakcyjne: miejsca, w których formuła może dać początek konkretnej wartości, dostarczając wartości niewiadomym; lub dać początek nowym formułom, poprzez wyrażenia zagnieżdżone. Analogicznie, węzły w graficznej reprezentacji kodu źródłowego są efektywnie abstrahowane, jeśli modelują parametry wejściowe, które otrzymują konkretne wartości podczas działania procedury. Podłączenie wyjścia jednej procedury do wejścia drugiej-które może być modelowane jako operacja grafowa, łącząca dwa węzły-jest wtedy analogiem opartym na wykresie do osadzania złożonego wyrażenia w formule (poprzez wolny symbol w tym ostatnim).

kontynuując tę analogię, wcześniej wspomniałem o różnych rozszerzeniach λ-Calculus inspirowanych funkcjami języka programowania, takimi jak orientacja obiektowa, wyjątki i przechwytywanie przez odniesienie lub przez wartość. Te również mogą być włączone do ontologii kodu źródłowego: na przykład połączenie między węzłem posiadającym wartość przekazaną do węzła parametru wejściowego, w podpisie procedury, jest semantycznie różne od węzłów posiadających „obiekty”, które są nadawcami i odbiorcami” wiadomości”, w języku obiektowym. Variant input/output protocols, including objects, captures, and exceptions, are certainly semantic constructs (in the computer-code domain) which Source Code Ontologies should recognize. Widzimy więc zbieżność w modelowaniu różnorodnych protokołów wejścia / wyjścia za pomocą λ-rachunku różniczkowego i ontologii kodu źródłowego. Omówię teraz odpowiednie rozszerzenie w dziedzinie stosowanej teorii typów, w celu ostatecznego złożenia teorii typów w tę zbieżność, jak również.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany.