Deklarativ Kunskap - En översikt / ScienceDirect ämnen

3.3.3 kanaliserade hypergrafer och RDF

Resource Description Framework (RDF) modeller information via riktade grafer (Refs. är goda diskussioner om semantisk webbteknik ur ett grafteoretiskt perspektiv), vars kanter är märkta med begrepp som i välstrukturerade sammanhang dras från publicerade ontologier (dessa etiketter spelar en liknande roll som ”klassificerare” i CHs). I princip definieras Alla data som uttrycks via RDF-grafer av oordnade uppsättningar märkta kanter, även kallade ”tripplar” (”kubi-ämne, predikat, objekt bisexuell”, där ”predikatet” är etiketten). I praktiken handlar emellertid RDF-noteringar på högre nivå som TTL (Turtle eller ”Terse RDF Triple Language”) och Notation3 (N3) om aggregerade grupper av data, såsom RDF-behållare och samlingar.

föreställ dig till exempel en representation av faktumet ”(A/den person som heter) Nathaniel, 46, har bott i Brooklyn, Buffalo och Montreal” (visas i Fig. 3.2 som både en CH och i RDF). Om vi betraktar Turtle eller N3 som språk och inte bara noteringar, verkar det som om deras semantik är uppbyggd kring hyperedges snarare än tripplar. Det verkar som om dessa språk kodar många-till-många eller en-till-många påståenden, ritade som kanter som har mer än ett ämne och/eller predikat. Faktum är att Tim Berners-Lee själv föreslår att ”implementeringar kan behandla list som en datatyp snarare än bara en stege av RDF:first och rdf:rest properties” . Det vill säga specifikationen för RDF-listtypsdatastrukturer uppmanar oss att överväga att de kan betraktas som integrerade enheter snarare än bara aggregat som dras isär i semantisk Tolkning.

tekniskt är det kanske en illusion. Trots deras högre uttrycksförmåga, RDF-uttrycksspråk ska kanske anses vara ”syntaktiskt socker” för en mer primitiv lista över tripplar: semantiken för Turtle och N3 är tänkt att definieras genom att översätta uttryck ner till de tredubbla uppsättningarna som de logiskt antyder (se även ). Denna avsikt accepterar paradigmet att tillhandahålla semantik för ett formellt språk är nära relaterat till att definiera vilka propositioner som logiskt medförs av dess uttalanden.

det finns dock en avvikande tradition i formell semantik som är inriktad på typteori mer än logik. Det överensstämmer med detta alternativa tillvägagångssätt att se en annan semantik för ett språk som Turtle, där storskaliga aggregat blir ”förstklassiga” värden. Så, 〈⌈Nathaniel⌉, ⌈46⌉〉 kan ses som en (enda, integrerad) vars värde är av typen 〈namn, ålder〉 par. Ett sådant värde har en” intern struktur ” som omfattar flera datapunkter. RDF-versionen är istället organiserad runt en tom nod som knyter samman olika datapunkter, till exempel mitt namn och min ålder. Denna tomma nod är också ansluten till en annan tom nod som binder samman plats och fest. De tomma noderna spelar en organisatorisk roll, eftersom noder grupperas i den mån de ansluter till samma tomma nod. Men den underförstådda organisationen är mindre strikt inneburit; man kan anta att de exporterande tillverkarna i Brooklyn, kan lika gärna fästas individuellt till ”namn/ålder” tomt (dvs. jag bor i Brooklyn, och jag röstar demokratiskt).

varför, det vill säga, är Brooklyn och Demokratiska grupperade tillsammans? Vilket koncept gör denna fusionsmodell? Det finns en presumtiv motivering för namn / ålder tomt (dvs. i stället för att låta dem ta kanter självständigt): tänkbart finns det flera 46-åringar som heter Nathaniel, så att blank node spelar en viktig semantisk Roll (analog med kvantifieraren i ”det finns en Nathaniel, ålder 46…”); Det ger en entydig nexus så att ytterligare predikat kan fästas på en specifik 46-årig Nathaniel snarare än någon gammal bisexuell Nathaniel, 46-årig. Men det finns ingen liknande föreslagen semantisk roll för” plats/fest ” – grupperingen. Namnet kan inte logiskt retas bortsett från namnet/åldersämnet (eftersom det finns flera Nathaniels), men det verkar inte finnas någon logisk betydelse för plats/partigruppering. Ändå kan parning av dessa värden motiveras av en modelleringskonvention—vilket återspeglar att geografiska och partitillhörighetsdata grupperas i en dataset eller datamodell. RDF: s logiska semantik gör det svårare att uttrycka dessa typer av modelleringsantaganden som drivs av konvention mer än logik—en abstraktion från datas modelleringsmiljö som kan vara önskvärd i vissa sammanhang men inte i andra.

så varför insisterar den semantiska Webbgemenskapen effektivt på en semantisk tolkning av Turtle och N3 som bara en notational bekvämlighet för N-tripplar snarare än som språk på högre nivå med en annan semantik på högre nivå-och trots uttalanden som tidigare Tim Berners-Lee citat antyder att en alternativ tolkning har övervägts även av dem som ligger till grund för semantiska Webbspecifikationer? Dessutom har definierande hierarkier av materialkomposition eller strukturell organisation—och så i förlängningen potentiellt distinkta skalor för modelleringsupplösning—identifierats som en inneboende del av domänspecifik Ontologidesign (se Refs. eller Ref. ). Semantiska webbförespråkare har dock inte främjat multitier-struktur som ett inslag i semantiska modeller i grunden, i motsats till kriteriologi inom specifika ontologier. I den mån detta har en förklaring, Det har förmodligen något att göra med resonemangsmotorer: verktygen som utvärderar SPARQL-frågor fungerar på triplestore-basis. Så den” reduktiva ” semantiska tolkningen är utan tvekan motiverad via en garanti för att de definitiva kriterierna för semantiska webbrepresentationer inte är deras konceptuella elegans gentemot mänskliga bedömningar utan deras användbarhet i tvär ontologi och korskontext slutsatser.

som ett motargument noterar dock att många inferensmotorer i Begränsningslösning, datorsyn och så vidare är beroende av specialiserade algoritmer och kan inte reduceras till ett kanoniskt frågeformat. Bibliotek som GeCODE och ITK är viktiga eftersom problemlösning på många domäner kräver finjusterad applikationsnivå. Vi kan tänka på dessa bibliotek som att stödja speciella eller domänspecifika resonemangsmotorer, ofta byggda för specifika projekt, medan OWL-baserade skälare som Fact++ är allmänna motorer som arbetar med allmänna RDF-data utan ytterligare kvalifikationer. För att kunna tillämpa” special ” reasoners på RDF måste en kontingent av noder väljas som överensstämmer med reasoners runtime-krav.

naturligtvis kan speciella skäl inte förväntas köras på domänen för hela semantiska webben, eller till och med på ”mycket stora” dataset i allmänhet. En typisk analys kommer att dela upp sitt problem i mindre delar som var och en kan överföras till anpassade skälare—i radiologi, säg, en diagnos kan fortsätta genom att först välja en medicinsk bildserie och sedan utföra bild-för-bild-segmentering. Tillämpad på RDF kan denna tvåstegsprocess betraktas som en kombination av allmänna och speciella skäl: ett allmänt språk som SPARQL filtrerar många noder ner till en mindre delmängd, som sedan mappas/deserialiseras till domänspecifika representationer (inklusive runtime memory). Till exempel kan RDF länka en patient till ett diagnostiskt test, beställt på ett visst datum av en viss läkare, vars resultat kan erhållas som en serie bilder—därigenom välja den specifika serien som är relevant för en diagnostisk uppgift. Allmänna skäl kan hitta bilderna av intresse och sedan skicka dem till speciella skäl (som segmenteringsalgoritmer) för att analysera. I den mån denna arkitektur är i kraft, semantiska webbdata är en plats för många typer av resonemang motorer. Vissa av dessa motorer måste fungera genom att omvandla RDF-data och resurser till en optimerad, intern representation. Dessutom kommer semantiken för dessa representationer vanligtvis att vara närmare en N3-semantik på hög nivå som tas som sui generis, snarare än som tolkad reduktivt som en noterad bekvämlighet för format på lägre nivå som N-trippel. Detta verkar undergräva motiveringen för reduktiv semantik när det gäller Uggla.

det kanske mest exakta paradigmet är att semantiska webbdata har två olika tolkningar, som skiljer sig åt i överensstämmelse med speciell respektive allmän semantik. Det är vettigt att märka dessa ”speciell semantisk tolkning” eller ”semantisk tolkning för speciella ändamål” (SSI, kanske) respektive ”allmän semantisk Tolkning” (GSI). Båda dessa tolkningar bör anses ha en roll i den semantiska webbens” semantik”.

en annan ordning av överväganden involverar semantiken för RDF-noder och Ch-hypernoder, särskilt med avseende på unikhet. Noder i RDF faller i tre klasser: tomma noder; noder med värden från en liten uppsättning grundläggande typer som strängar och heltal; och noder med webbadresser som förstås vara unika över hela World Wide Web. Det finns inga tomma noder i CH, och i själva verket inga webbadresser heller, även om man säkert kan definiera en URL-typ. Det finns inget i semantiken för webbadresser som garanterar att varje webbadress anger en distinkt internetresurs; detta är bara en konvention som i huvudsak uppfyller sig de facto eftersom den strukturerar en webb av kommersiell och juridisk praxis, inte bara Digitala; till exempel är äganderätten unikt beviljad för varje internetdomännamn. I CH kan en datatyp struktureras för att återspegla institutionella metoder som garanterar unika värden i något sammanhang: böcker har unika ISBN-koder; platser har distinkta GIS-platser etc. Dessa unika krav, i alla fall, är inte i sig en del av CH, och måste uttryckas med ytterligare Axiom. I allmänhet är en ch-hypernode en tupel av relativt enkla värden och eventuella ytterligare semantik bestäms av typdefinitioner (det kan vara användbart att se Ch—hypernoder som ungefär analoga med C-strukturer-som inte har någon a priori unikhet mekanism).

RDF-typer är också mindre inneboende för RDF-semantik än i CH . De grundläggande elementen i CH är värde-tupler (via noder som uttrycker värden, vars tuplar i sin tur är hypernoder). Tuples indexeras efter position, inte av etiketter: tupel 〈⌈Nathaniel⌉, ⌈46⌉〉 i sig inte att dra i de etiketter som ”namn” eller ”age”, som i stället definieras vid typ-nivå (i den mån som typ-definitioner får föreskriva att etiketten ”ålder” är ett alias för den nod i sin andra position, etc.). Så det finns inget sätt att fastställa den semantiska/konceptuella avsikten med hypernoder utan att överväga både hyponod-och hypernodtyper. Omvänt har RDF inte faktiska tupler (även om dessa kan representeras som Samlingar, om så önskas); och noder är alltid förenade med andra noder via märkta kontakter—Det finns ingen direkt ekvivalent med CH-modelleringsenheten för en hyponod som ingår i en hypernode efter position.

i sin kärna bygger sedan RDF-semantik på förslaget att många noder kan förklaras globalt unika av fiat. Detta behöver inte vara sant för alla noder—RDF-typer som heltal och flottor är mer eteriska; siffran 46 i en graf är oskiljbar från 46 i en annan graf. Detta kan formaliseras genom att säga att vissa noder kan vara objekt men aldrig ämnen. Om sådana begränsningar inte verkställdes kan RDF-grafer på något sätt bli överbestämda, vilket innebär relationer på grund av kvantitativa storheter som saknar semantiskt innehåll. Detta skulle öppna dörren till bisarra domar som ”min ålder är icke-prime” eller ”Jag är äldre än Mohamed Salahs 2018 mål summor.”Ett sätt att blockera dessa slutsatser är att förhindra noder som ”numret 46” Från att vara såväl ämnen som objekt. Men noder som inte är primitiva värden—de säger att de betecknar Mohamed Salah själv snarare än hans målsummor—är med rätta globalt unika, eftersom vi har tvingande skäl att anta en modell där det finns exakt en sak som är att Mohamed Salah. Så RDF semantik gifter sig i princip med några primitiva typer som är objekt men aldrig ämnen med en webb av globalt unika men internt ostrukturerade värden som kan vara antingen subjekt eller objekt.

i CH är de ”primitiva” typerna effektivt hypotyper; hyponoder är (åtminstone indirekt) analoga med objekt-bara RDF-noder i den mån de bara kan representeras via inkludering i hypernoder. Men CH-hypernoder är varken (i sig) globalt unika eller saknar intern struktur. I huvudsak ersätts en RDF-semantik baserad på garanterad unikhet för atomliknande primitiver med en semantik baserad på strukturerade byggstenar utan garanterad unikhet. Detta alternativ kan övervägas i samband med allmänna kontra särskilda skäl: eftersom allmänna skäl potentiellt tar hela semantiska webben som sin domän är global unikhet en mer önskad egenskap än intern struktur. Eftersom särskilda skäl endast körs på speciellt utvalda data är global unikhet mindre viktig än effektiv mappning till domänspecifika representationer. Det är inte beräkningsmässigt optimalt att deserialisera data genom att köra SPARQL-frågor.

slutligen, som en sista punkt i jämförelsen mellan RDF och CH semantik, är det värt att överväga skillnaden mellan ”deklarativ kunskap” och ”procedurkunskap” (se t.ex.). Enligt denna distinktion exemplifierar kanoniska RDF-data deklarativ kunskap eftersom de hävdar uppenbara fakta utan att uttryckligen försöka tolka eller bearbeta dem. Deklarativ kunskap cirkulerar mellan programvara i kanoniska, återanvändbara dataformat, så att enskilda komponenter kan använda eller dra slutsatser från data enligt sina egna syften.

mot detta paradigm, återgå till hypotetiska Cyber-fysiska exempel, såsom omvandling av spänningsdata till accelerationsdata, vilket är en förutsättning för att accelerometers avläsningar är användbara i de flesta sammanhang. Programvara som har förmåga att bearbeta accelerometrar avslöjar därför vad som kan kallas procedurkunskap, eftersom programvara som kännetecknas inte bara tar emot data utan också bearbetar sådana data på standardiserade sätt.

den deklarativa / processuella skillnaden misslyckas kanske med att fånga hur processuella Omvandlingar kan förstås som inneboende för vissa semantiska domäner—så att även den information vi uppfattar som ”deklarativ” har ett procedurellt element. Till exempel antyder det faktum att ”accelerometrar” inte kallas ”voltmetrar” (vilket är något annat) hur det allestädes närvarande datorsamhället uppfattar spännings-till-accelerationsberäkningar som inneboende för accelerometrarna data. Men strängt taget är komponenterna som deltar i USH—nätverk inte bara engagerade i datadelning; de fungerar delar av nätverket eftersom de kan utföra flera allmänt erkända beräkningar som förstås vara centrala för den relevanta domänen-med andra ord har de (och delar med sina kamrater) en viss ”procedurkunskap.”

RDF är strukturerad som om statisk datadelning var den enda skiljedomaren för semantiskt informerade interaktioner mellan olika komponenter, som kan ha en mängd olika mönster och rationaler—det vill säga en semantisk webb. Men en grundlig redogörelse för formell kommunikationssemantik måste räkna med hur semantiska modeller informeras av det implicita, ibland omedvetna antagandet att producenter och/eller konsumenter av data kommer att ha viss operativ kapacitet: de dynamiska processer som förväntas som en del av att dela data är svåra att skilja konceptuellt från de statiska data som bokstavligen överförs. För att fortsätta accelerometerexemplet kan designers tänka på sådana instrument som ”mätacceleration” även om detta fysiskt inte är helt sant; deras produktion måste omvandlas matematiskt för att den ska tolkas i dessa termer. Oavsett om de representeras via RDF-grafer eller riktade Hypergrafer är semantiken för delade data ofullständig om inte de operationer som kan följa med att skicka och ta emot data erkänns som förutsättningar för legitim semantisk anpassning.

medan ontologier är värdefulla för att samordna och integrera olika semantiska modeller, har den semantiska webben kanske påverkat ingenjörer att tänka sig semantiskt informerad datadelning som mestadels en fråga om att presentera statiska data som överensstämmer med publicerade ontologier (dvs. anpassning av ”deklarativ kunskap”). I verkligheten behöver robust datadelning också en ”anpassning av procedurkunskap”: i ett idealiskt semantiskt nätverk cirklas procedurfunktioner mellan komponenter, vilket främjar en framväxande ”kollektiv procedurkunskap” som drivs av öppenhet om kod och bibliotek samt om data och format. CH-modellen stöder utan tvekan denna möjlighet eftersom den gör typkrav grundläggande för semantik. Rigorös typning lägger båda grunden för procedurjustering och mandat att procedurfunktioner tas med i bedömningar av nätverkskomponenter, eftersom en typtillskrivning inte har någon mening utan tillräckliga bibliotek och kod för att konstruera och tolka typspecifika värden.

trots deras skillnader hör den semantiska webben å ena sidan och Hypergrafbaserade ramar å andra sidan till det övergripande utrymmet för graforienterade semantiska modeller. Hypergrafer kan emuleras i RDF, och RDF-grafer kan organiskt mappas till en Hypergrafrepresentation (i den mån riktade Hypergrafer med anteckningar är en riktig superspace av riktade märkta grafer). Semantiska webb ontologier för datorkällkod kan således modelleras av lämpligt typade DHs också, även om vi också kan formulera Hypergrafbaserade källkods ontologier också. Så vi är motiverade att anta att en tillräcklig ontologi finns för de flesta eller alla programmeringsspråk. Detta innebär att vi för varje givet förfarande kan anta att det finns en motsvarande dh-representation som förkroppsligar procedurens genomförande.

procedurer beror naturligtvis på ingångar som är fasta för varje samtal och producerar ”utgångar” när de avslutas. I samband med en grafrepresentation innebär detta att vissa hypernoder representerar och/eller uttrycker värden som är ingångar, medan andra representerar och/eller uttrycker dess utgångar. Dessa hypernoder är abstrakta i den meningen (som i Lambda-Kalkyl) att de inte har ett specifikt tilldelat värde i kroppen, qua formell struktur. Istället fyller en runtime-manifestation av en DH (eller likvärdigt en CH, när kanaliserade typer introduceras) de abstrakta hypernoderna med konkreta värden, vilket i sin tur gör det möjligt att utvärdera uttryck som beskrivs av CH.

dessa punkter föreslår en strategi för att förena Lambda calculi med källkod ontologier. Den väsentliga konstruktionen i Macau-calculi är att matematiska formler inkluderar ”fria symboler” som är abstraherade: webbplatser där en formel kan ge upphov till ett konkret värde, genom att leverera värden till okända; eller ge upphov till nya formler, via kapslade uttryck. Analogt är noder i en grafbaserad källkodsrepresentation effektivt abstraherade om de modellerar ingångsparametrar, vilka ges konkreta värden när proceduren körs. Att ansluta utgången från ett förfarande till ingången till en annan—som kan modelleras som en grafoperation, länka två noder—är sedan en grafbaserad analog för att bädda in ett komplext uttryck i en formel (via en fri symbol i den senare).

bär denna analogi Vidare, nämnde jag tidigare olika tillägg för beräkning av Xiaomi-kalkyler inspirerade av programmeringsspråksfunktioner som objektorientering, undantag och by-reference eller by-value-fångster. Dessa, för, kan införlivas i en källkod ontologi: till exempel, sambandet mellan en nod som håller ett värde skickas till en input parameter nod, i en procedur signatur, är semantiskt skiljer sig från noderna håller ”objekt” som är avsändare och mottagare för ”meddelanden,” i objektorienterat språkbruk. Variantinmatnings – / utgångsprotokoll, inklusive objekt, fångar och undantag, är verkligen semantiska konstruktioner (i datorkoddomänen) som Källkodsontologier bör känna igen. Så vi kan se en konvergens i modelleringen av mångskiftande input/output protokoll via Macau-kalkyl och Via källkod ontologier. Jag kommer nu att diskutera en motsvarande expansion inom området tillämpad typteori, med målet att slutligen vika typteori i denna konvergens också.

3.3.3 kanaliserade hypergrafer och RDF

Lämna ett svar Avbryt svar