Wysłany: 2007-08-29, 19:04 Biblioteka 3.0 / Semantyczna biblioteka
Tak nazwałem technologię analogiczną do Web 3.0 tylko ograniczoną do zawartości bibliotek. Ideą Web 3.0 ma być umożliwienie dostępu do jego zawartości nie tylko jak do niezrozumiałego dla komputera tekstu ale także jak do bazy danych. W sumie nie wiem jak dokładnie ma to być osiągnięte (w głowie mam dwa sposoby), jednak prawdopodobnie nikt tego nie wie, gdyż sprawa nie jest prosta. Jeśli już powstałby Web 3.0 to prawdopodobnie można by automatycznie rozszerzyć jego funkcjonalność na zawartość bibliotek. Jednak chciałem zaproponować inne, mniej trywialne znaczenie pojęcia Biblioteki 3.0.
W rozwoju Web 3.0 (Semantycznego Internetu, ang. Semantic Web) zasadniczą role odegrają systemy organizacji wiedzy takie jak ontologie. To dzięki nim Web 3.0 będzie w stanie pełnić rolę bazy danych dostarczając internautom wiedzy której poszukują. Jednak zastosowanie ontologii do zrozumienia zawartości strony WWW jest trudne, z tego samego powodu z którego trudne jest zrozumienie przez komputer mowy naturalnej. Rozumienie strony WWW nie stanowiłoby problemu gdyby były one pisane słownictwem kontrolowanym. Może w przyszłości część Internetu będzie w ten sposób redagowana (nie koniecznie w postaci tekstowej), jednak aktualnie nie jest i dlatego zastosowanie analizy semantycznej jest trudne.
O ile dobrze wiem, jedynym miejscem w którym szeroko stosuje się słownictwo kontrolowane są biblioteki. Wprawdzie nie stosuje się go do pisania tekstu książek, ale do opisu ich treści. Szczęśliwie terminy tego słownictwa mają także dużo relacji hierarchicznych do innych terminów (sztuczna inteligencja: hiperonimii, bibliotekoznawstwo: tropów). Dzięki temu słownictwo kontrolowane prawdopodobnie można traktować jako tezaurus i zastosować go do analizy semantycznej opisu treści książek. Analiza ta, choć ograniczona do opisu tematu książek, jest technologią analogiczną do Semantycznego Internetu i dzięki temu biblioteki zdobyłyby semantyczną technologię projektowaną od jakiegoś czasu dla Internetu. Ograniczenie analizy semantycznej jedynie do opisu tematu książki i nie analizowanie jej treści powoduje wprawdzie, że nie otrzymamy dokładnej informacji w którym miejscu książki znajduje się poszukiwana przez nas informacja, ale otrzymamy informację o tym które książki są na poszukiwane przez nas tematy (o wiele efektywniej niż obecnie). Zastosowanie takiej technologii pozwoli na zwiększenie „odzewu” aktualnie wykorzystywanych wyszukiwarek bibliotecznych, a także bardzo przyspieszy proces wyboru odpowiedniego hasła przedmiotowego. Możliwe, że powinno się ją raczej nazywać "Semantycznym katalogiem przedmiotowym", chociaż że względu na wkład jaki mogłaby wnieść w rozwój "Web 3.0" (który zaraz opiszę), możliwe że byłoby uprawnionym używanie także terminu "Biblioteka 3.0 / Semantyczna Biblioteka".
Wzajemne wykorzystywanie doświadczeń sztucznej inteligencji (praca nad Semantycznym Internetem) oraz bibliotekarstwa mogłoby znacząco wpłynąć na szybszy rozwój obu dziedzin. Dzięki temu że bibliotekarze od lat rozwijali systemy organizacji wiedzy na potrzeby katalogów przedmiotowych, prawdopodobnie bez większych problemów można by było stworzyć biblioteczny semantyczny katalog przedmiotowy. Mogłoby to mieć bardzo duży wpływ na rozwój Semantycznego Webu - dzięki wykorzystaniu doświadczeń oraz dzięki temu, że powstałby system organizacji wiedzy zdolny do takich zastosowań. Z drugiej strony powstanie semantycznego katalogu bibliotecznego byłoby właśnie zastosowaniem idei Semantycznego Webu na gruncie bibliotek.
W osobnym artykule przedstawiam szerzej pomysł stworzenia bibliotecznego semantycznego katalogu przedmiotowego.
Chciałbym także zwrócić uwagę na kilka innych faktów:
1. Oczywiście jak każda technologia semantyczna, semantyczny katalog przedmiotowy byłby dużym ulepszeniem aktualnych bibliotecznych katalogów i wyszukiwarek przedmiotowych. Semantyczny katalog zachowywałby zalety uzyskane dzięki stosowaniu słownictwa kontrolowanego jednocześnie usuwając wady wynikające ze stosowania tego słownictwa. Słownictwo kontrolowane powoduje, że wyszukiwarka tematyczna książek ma większą precyzję ale mniejszy "odzew" (ang. "recall"). Natomiast semantyczna wyszukiwarka bazująca na słownictwie kontrolowanym miałaby zarówno wysoką precyzję jak i odzew czyli zwracałaby wyniki o jakości obecnie nieosiągalnej w dziedzinie Information Retrieval. Więcej informacji znajduje się w artykule.
2. Prostym sposobem na utworzenie Semantycznego Internetu w sensie "internetowego semantycznego katalogu przedmiotowego" byłoby wdrożenie w Internecie opisanego bibliotecznego katalogu i wyszukiwarki. Polegałoby to na tym, że zamiast opisywać książki wybranym językiem haseł przedmiotowych (na przykład KABA czy LCSH) opisywałoby się nim strony WWW lub ewentualnie akapity tekstu stron. Opisywanie treści całej strony WWW jest na pewno prostsze od tagowania każdego ze słów znajdującego się na stronie. Nie wiem jak miałoby wyglądać powstanie Semantycznego Internetu: czy poprzez ręczne tagowanie słów znajdujących się na stronie słowami z ontologii, czy poprzez stworzenie algorytmów do automatycznego rozpoznawania słów ze strony. Pierwsze rozwiązanie jest na pewno żmudniejsze dla twórcy strony od rozwiązania zaproponowanego przeze mnie, drugie rozwiązanie wydaje się że jest bardzo trudne do zrealizowania. Język HTML jest przygotowany do opisu strony słowami kluczowymi, gdyż posiada w nagłówku tag keywords. Zastosowanie w Internecie słownictwa kontrolowanego byłoby więc krokiem analogicznym do kroku podjętego wcześniej przez bibliotekarzy, a ze względu na możliwość powstania wyszukiwarek semantycznych nie wiązałoby się ze spadkiem "odzewu" wyszukiwarek.
3. Nie jestem pewien ale wydaje mi się że Polska nadaje się do realizacji takiego semantycznego katalogu przedmiotowego lepiej niż inne kraje. Słownik kontrolowany KABA pomimo tego, że nie jest tezaurusem to posiada bardzo dużo relacji hierarchicznych między pojęciami. Brakujące relacje hierarchiczne to przede wszystkim relacje, które można wywnioskować z języka haseł przedmiotowych (więcej informacji znajduje się w artykule). Resztę relacji hierarchicznych można byłoby uzupełnić ręcznie. Nie mam wykształcenia bibliotecznego więc mogę się mylić ale wydaje mi się, że inne biblioteczne słowniki kontrolowane na przykład LCSH posiadają mniej takich relacji niż KABA.
4. Zarówno w bibliotekach jak i w Internecie do ułatwienia wyszukiwania zasobów stosuje się klasyfikacje (takie jak UKD, KKD, LCC). Jednak cechą klasyfikacji o ile dobrze się orientuję jest to, że są mniej dokładne od haseł przedmiotowych. To znaczy ich zadaniem jest klasyfikacja książek i z tego powodu uogólniają one tematykę książek lub stron internetowych, co powoduje że oddają tą tematykę mało dokładnie. Natomiast słowniki haseł przedmiotowych zostały stworzone w celu dokładnego określania tematu książek i dzięki temu opisując nimi książki (czy tez strony WWW) nie traci się na dokładności opisu. Tak więc opis książek czy stron WWW hasłami przedmiotowymi w przeciwieństwie do ich klasyfikacji spowoduje to, że ich treść będzie oddana dokładniej. Tym samym wydaje mi się, że zwiększy się dokładność wyszukiwarki, co dla użytkownika jest najważniejsze.
Bibliotekarze często wzbraniają się przed wykorzystaniem słownika kontrolowanego w celach klasyfikacji - wydaje mi się, że dlatego bo może to czasem powodować błędną klasyfikację (choć pewnie dość rzadko). Jednak moim zdaniem mimo to poprawność klasyfikacji będzie i tak bardzo wysoka i na pewno o wiele wyższa niż w jakiejkolwiek metodzie zaproponowanej w ramach semantycznego Internetu. Dodatkowo wyszukiwarka stosująca hasła przedmiotowe ma wyższą precyzję niż klasyfikacja.
Aktualnie można powiedzieć, że jest wykonany tezaurus KABA w wersji "pre-alfa" tzn. zaprojektowałem, zaimplementowałem oraz przetestowałem prawie wszystkie algorytmy uzupełniające słownik kontrolowany KABA do postaci tezaurusa jakie uważałem za stosowne. Gotowe są także bardziej szczegółowo projekty semantycznych zastosowań. Wykonałem także "testy obciążeniowe", to znaczy konwersję całego słownika KABA do postaci tezaurusa. Jednym słowem wyniki nadają się do przedstawienia zainteresowanym osobom.
Nie mam wykształcenia bibliotecznego, choć zapoznałem się na ile to było możliwe z językiem KABA. Z tego powodu w artykule mogą znajdować się gdzieniegdzie drobne błędy. Dodatkowo ze względu na interdyscyplinarność czasem używam pojęć z dziedziny semantycznego Internetu, a nie bibliotecznych. W artykule używane jest także pojęcie ontologia - powinno się raczej używać pojęcia tezaurus, ale pisząc artykuł nie byłem świadomy do końca różnicy między nimi.
Przedstawiony pomysł jest jeszcze w fazie przed dokładniejszym osądem, więc w sumie nie należy go traktować jako źródło wiedzy, ale jako źródło pomysłów i materiał do przemyśleń.
Nie dostałem do tej pory dużego odzewu od innych osób więc proszę o opinie.
Słowniczek:
* istnieją między innymi następujące systemy organizacji wiedzy (SOW, ang. Knowledge Organization Systems, KOS - pojęcie bibliotekarskie):
- słownictwo kontrolowane - nie posiada relacji między hasłami,
- taksonomia - to słownictwo kontrolowane posiadające relacje hiperonimii,
- tezaurus - to taksonomia posiadająca także niektóre "inne" relacje, na przykład skojarzeniowe,
- ontologia - to tezaurus posiadający także wszystkie pozostałe relacje. Powinna ona reprezentować w miarę pełną wiedzę o obiektach, a więc także ich atrybuty, cechy, itd. Edit: Dodatkowo przyjmuje się, że ontologia musi dawać możliwość jej użycia do przeprowadzenia wnioskowania przez komputer.
Słownik KABA spełnia obecnie w pełnym stopniu jedynie wymogi słownictwa kontrolowanego. Mimo tego że posiada wiele relacji między hasłami, to nie są jawnie zapisane trywialne relacje hierarchiczne które wynikają z języka haseł przedmiotowych (JHP) (czasem także trzeba zastosować prostą komputerową analizę języka naturalnego).
* relacje hierarchiczne między hasłami tezaurusa nazywane są w informatyce hiperonimiami, natomiast w bibliotekoznawstwie tropami (pola 5XX rekordu MARC)
* jakość wyszukiwarki, czyli miarę na ile jest ona przydatna dla wyszukującego, można wyrazić dwoma innymi składowymi miarami: precyzją (ang. precision) oraz "odzewem" (ang. recall). Wysoka precyzja świadczy o tym, że w otrzymanych wynikach duży procent dokumentów będzie na rzeczywiście interesujący użytkownika temat. Natomiast wysoki odzew świadczy o tym, że prawie wszystkie dokumenty znajdujące się w Internecie albo bibliotece i które interesują użytkownika zostały zwrócone przez wyszukiwarkę. Idealna wyszukiwarka posiada zarówno wysoką precyzję i odzew i wydaje się, że może być utworzona tylko w wyniku zastosowania systemu organizacji wiedzy. Obecnie wyszukiwarki internetowe mają wysoki odzew jednak tylko z tego powodu, że mają niska precyzję. Przedmiotowe wyszukiwarki biblioteczne stosowane w katalogach OPAC mają wysoką precyzję dzięki zastosowaniu słownictwa kontrolowanego. Jednak tym samym mają niski "odzew", gdyż nie wykorzystują relacji hierarchicznych.
Darek
Ostatnio zmieniony przez tarest 2010-02-11, 12:21, w całości zmieniany 2 razy
Na stronie: www.consensualknowledge.net/semlib.html umieściłem tekst pracy magisterskiej, więc jakby ktoś był zainteresowany tematem to może przeczytać szczegóły.
Myślę, że warto odświeżyć temat biblioteki 3.0 w kontekście opublikowanej niedawno książki Sebastiana Kruka pt. Semantic Digital Libraries - Improving Usability of Information Discovery with Semantic and Social Services. Abstrakt, spis treści i linki występujące w książce do poczytania na współtworzonej przez autora stronie promującej zjawisko biblioteki webtrzyzerowej. Niestety wszystko po angielsku tak samo jak sama książka, bo autor na razie nie planuje polskiego wydania (chyba, że będzie duże zainteresowanie taką edycją), ale za to wybrane kwestie poruszane w Semantic Digital Libraries będą się pojawiać po polsku na bliźniaczym projekcie autora. Poniżej kopiuję całość pierwszego wpisu tego typu z wprowadzeniem do semantycznej biblioteki cyfrowej.
Semantyczne Biblioteki Cyfrowe – cz. 1: Wprowadzenie
W czasie swojej pracy naukowej często spotkałem się z raczej mało popularnymi w Polsce studiami poświęconymi informacji i bibliotekom (ang. Information Science and Library Studies). Po części pokrywają się one z tym co można się dowiedzieć na piewszych latach studiów informatycznych w Polsce, jednak są silnie ukierunkowane na zarządzanie informacją, szczególnie w kontekście bibliotek cyfrowych.
Pamiętacie zapewne lekką ontologię Dublin Core, którą omawiałem w październiku zeszłego roku. Jest ona jedną z najstarszych i prawdopodobnie najbardziej popularnych ontologii stosowanych nie tylko w Web 3.0, ale i w szeroko rozumianym Internecie. Być może część z Was już wie, że standard Dublin Core wywodzi się tak na prawdę ze środowiska bibliotekarskiego. Inną ontologią ściśle związaną ze środowiskiem bibliotek cyfrowych jest SKOS, o której też pisałem w zeszłym roku.
Te ontologie, jak i inne standardy powstały właśnie w wyniku badań naukowych prowadzonym w ramach projektów bibliotek cyfrowych. Wiele idei, które przyświecały budowaniu Sieci Semantycznej wywodzi się właśnie z tego środowiska; wielu ludzi ściśle związanych z rozwojem Web 3.0 posiadało doświadczenie w pracy nad bibliotekami cyfrowymi. Dziwić więc może, że jeszcze do niedawna oba środowiska nie potrafiły znaleźć wspólnego języka.
Kiedy myślimy o bibliotece na myśl przychodzą nam dwa obrazy: zbiór książek i budynek w którym przechowywany jest ten zbiór. Zdefiniowanie pojęcia biblioteki cyfrowej jest trudniejsze:
* Czy biblioteki cyfrowe to po prostu katalogi do przeszukiwania zasobów bibliotecznych dostępne przez Internet (ang. Online Public Access Catalog - OPAC) ?
* Czy może biblioteka cyfrowa to skanowane dzieła, np. starodruki, opublikowane w Internecie ?
* A może biblioteka cyfrowa to kolekcja zasobów i metadanych dostępna za pomocą przeglądarki Internetowej ?
* Wreszcie, może biblioteka cyfrowa to sam system informatyczny publikujący kolekcję zasobów w Internecie ?
Dodatkowo biblioteki cyfrowe mogą być rozpatrywane zarówno pod kątem historycznym jak i technologicznym. Możemy też brać pod uwagę różne aspekty ich funkcjonowania: katalogowanie, zarządzanie informacją, wyszukiwanie informacji lub interakcja z użytkownikiem. Jak widać odpowiedź na to pytanie nie jest trywialna. Jeden z Europejskich projektów poświęconych bibliotekom cyfrowym, DELOS (obecnie dl.org), opracował raport, który odpowiada na to i inne pytania. W jednym z następnych artykułów postaram się przybliżyć nieznacznie tę tematykę.
Jak wcześniej wspomniałem wyniki badań w nad bibliotekami cyfrowymi dostarczyły wiele standardów, które są obecnie dość powszechnie stosowane w Internecie. Same jednak biblioteki cyfrowe do niedawna nie były tak na prawdę częścią Internetu. Oferowane przez nie usługi były często niekompatybilne pomiędzy samymi nawet bibliotekami, nie mówiąc już o próbie ich wykorzystania w innych usługach internetowych. Z drugiej strony do nie tak dawna biblioteki cyfrowe całkowicie odrzucały nurt mediów społecznych czy jakiegokolwiek innego sposobu na (niekontrolowane) dostarczanie dodatkowych treści. Dodatkowo słowniki (tezaurusy i taksonomie) utrzymywane przez biblioteki cyfrowe często nie są dostatecznie szybko aktualizowane aby odzwierciedlać obecny stan wiedzy. Nie bez znaczenia pozostaje fakt, że interakcja dostarczana przez biblioteki cyfrowe znacząco odbiega od "standardów" spotykanych w popularnych serwisach, jak choćby Facebook czy Twitter; tym samym nie odpowiada potrzebom i oczekiwaniom użytkowników, szczególnie młodszym pokoleniom.
Celem prac nad Semantycznymi Bibliotekami Cyfrowymi jest doprowadzenie do lepszej integracji pomiędzy bibliotekami i innymi usługami w Internecie, oraz poprawienie satysfakcji użytkowników z korzystania z usług dostarczanych przez biblioteki cyfrowe.
Semantyczne biblioteki cyfrowe są wynikiem połączenia wyników prac badawczych z trzech dziedzin:
* bibliotek cyfrowych, z głównym wkładem w postaci systemów organizacji wiedzy, słowników, tezaurusów, klasyfikacji, itp.
* sieci semantycznej zapewniającej znane nam już mechanizmy rozszerzalności opisów i interoperacyjności pomiędzy usługami i opisami,
* technologii Web 2.0 wprowadzających do świata bibliotecznego społeczne opisywanie zasobów (tagowanie) i społeczności powiązanych użytkowników systemów bibliotecznych.
Część z Was słyszała zapewne o inicjatywie Biblioteki 2.0 (ang. Library 2.0). Chociaż część z założeń jest podobna to jednak pojęcie Biblioteki 2.0 opiera się na 5 elementach: open source, single sign-on (czyli współdzielenie uwierzytelniania), otwarte standardy, zintegrowany OPAC, i oczywiście mediach społecznych. Brakuje więc dwóch istotnych elementów: standardów semantycznych zapewniających rozszerzalność i interoperacyjność, oraz powiązania ze standardami i usługami Internetowymi. Nurt Biblioteki 2.0 jest obecnie bardzo popularny, jednak określanie niektórych systemów bibliotek cyfrowych mianem "semantycznymi" tylko dlatego, że pozwalają użytkownikom na tagowanie jest dużym nadużyciem.
Na zakończenie tej części serii artykułów o Semantycznych Bibliotekach Cyfrowych, chciałbym pokrótce wymienić kilka projektów z nimi związanymi. W najbliższych tygodniach postaram się przybliżyć je bardziej.
* DuraSpace jest inicjatywą powstałą w ubiegłym roku z połączenia dwóch grup: popularnej biblioteki cyfrowej DSpace oraz Fedora Commons dostarczającej infrastruktury do budowy wydajnych i bogatych w funkcjonalność semantycznych bibliotek cyfrowych.
* JeromeDL jest projektem prowadzonym przez DERI Galway i Politechnikę Gdańską, z komercyjnym wsparciem ze strony firmy Knowledge Hives; powstał na bazie prototypu semantycznej biblioteki cyfrowej Elvis-DL stworzonego na Politechnice Gdańskiej w 2003 roku. Wokół projektu JeromeDL powstało kilka innych projektów tworzących klaster Corrib.org; w tym m.in., inicjatywa MarcOnt, które dostarczają usługi, komponenty i ontologie dla semantycznych bibliotek cyfrowych.
* Greenstone jest kolejnym bardzo popularnym systemem biblioteki cyfrowej, umożliwiającym, m.in, efektywne wykorzystanie informacji o geolokalizacji za pomocą technologii semantycznych.
* SIMILE jest projektem prowadzonym przez MIT Libraries, który dostarcza szereg komponentów, które umożliwiają łatwe przekształcenie klasycznej biblioteki cyfrowej (lub innej witryny w Sieci) w interaktywny, bogaty w funkcje serwis oparty o technologie semantyczne.
* BRICKS był projektem prowadzonym w ramach Szóstego Programu Ramowego (FP6) - dostarczył kilka komponentów oraz infrastrukturę umożliwiającą efektywne społeczne i semantyczne opisywanie zasobów bibliotecznych, oraz wymianę pojęć pomiędzy różnymi systemami bibliotecznymi.
Więcej na temat Semantycznych Bibliotek Cyfrowych możecie dowiedzieć się na stronie inicjatywy, gdzie znajdziecie kilkanaście prezentacji (w tym kilkugodzinne tutoriale) oraz opis dwóch książek na ten temat.
Na wstepie chcialem podziekowac Krzyskowi za namiary na moja inicjatywe. Troche ja ostatnio zaniedbalem i dopiero z wraz z ostatnia ksiazka sprawa zaczela ozywac.
Przyczytalem w miare dokladnie post ktory napisal Dariusz.
Jest czesc rzeczy z ktorymi trudno sie niezgodzic - szczegolnie polaczenie Semantic Web i swiata bibliotecznego. Pisalem juz o tym w 2002/2003 kiedy skladalem swoj dyplom magisterski. Jezeli poczytacie troche na http://www.semanticschool.com/ o poczatkach Semantic Web to stanie sie oczywiste jak wiele te dwa swiaty maja ze soba wspolnego, i jak bardzo pozostawaly do niedawna rozlaczone. Warto wspomiec o projektach typu DublinCore (na samym poczatku drogi) czy SKOS http://www.semanticschool.com/2009/10/skos/ , DuraSpace, czy nawet nasz JeromeDL obecnie.
W tym co napisales jest jednak kilka niescislosci:
1) taksonomia != ontologia - i sam juz to zauwazyles; jednak nie ograniczalbym sie do tego ze ontologia = taksonomia + dodatkowe polaczenia - bo w ten sposob definiujesz slownik. Jednym z wyznacznikow ontologii jest umozliwianie wnioskowania na opisanej za jej pomoca wiedzy.
2) semantic web a semantyka - od kilku lat pojecia "semantyka" czy "ontologia" staly sie slowami wytrychami. Szczegolnie w Polsce, gdzie edukacja zwiazana z ta tematyka na studiach jest beznadziejna (poza kilkoma osrodkami). Stad tez wzial sie pomysl naszej Szkoly Web 3.0 - nie moglem juz dluzej patrzec na pojawiajace sie co jakis czas posty na blogach "expertow" rozmijajacych sie z prawda. Dlaczego o tym wspominam tutaj?
Bo caly czas piszesz o tym jak to standardy biblioteczne moga wspomoc budowe Web 3.0 - i jak powiedzialem - zgadzam sie z tym. Jednak ze stwierdzeniem ze jezeli wezmiemy kontrolowane slowniki (KOSy) i wrzucimy je do opisywania zasobow internetowych (nawet przy wykorzystaniu RDF/RDFa) to otrzymamy Web 3.0, juz nie moge sie zgodzic. To poprostu za malo ! Biblioteki wykorzystuja KOSy do opisu zasobow bibliotecznych i co dzieki temu zyskaly ? Bogatsze opisy - tak, lepsze mechanizmy wyszukiwania - czasami, interoperacyjnosc pomiedzy innymi systemami bibliotecznymi (a w przypadku bibliotek cyfrowych - innymi uslugami internetowymi) - raczej nie.
Dodatkowo zauwazylbym, ze biblioteka != biblioteka cyfrowa - to chyba oczywiste. Niestety jednak wiele osob probuje przeniesc biblioteki do internetu tak jak sa i nazywac je cyfrowymi. Internet to medium na tyle specyficzne i rozne od realnego swiata ze rzadzi sie swoimi prawami. Stad tez nie wszystkie rzeczy ktore dobrze funkcjonuja w bibliotekach (np MARC) beda przydatne w bibliotekach cyfrowych (o czym sam sie przekonalem kilka lat temu)
Zastanawiales sie czy powstanie Web 3.0, i jak bedzie wygladac. Teraz juz mozemy powiedziec ze Web 3.0 istnieje, moze nie obejmue jeszcze calej sieci - bo to proces ewolucyjny, ale maszyny juz teraz sa w stanie lepiej "rozumiec" tresc, m.in., dzieki temu ze wytwarza sie kolektywna wiedza w postaci polaczonych zasobow, opisow, ontologii, slownikow itp.
To czego brakuje w Twojej wizji Web 3.0 - to **polaczone**slowniki .
Zapewne zabrzmialem teraz troche jak moi koledzy z "semantycznej policji" - ale jezeli juz o czyms mowimy - to mowmy wspolnym jezykiem z reszta swiata :)
Osobnym tematem jest sprawa spolecznosci w bibliotekach cyfrowych. Roznie jest to widziane, i nadal sporo osob obawia sie "popsucia" opisow przez niekontrolowane tagi. Nie bede wchodzil w szczegoly, ale moze powiem tylko tyle ze nie wyobrazam sobie Semantic Digital Libraries bez czesci spolecznej. Co wiecej, dzieki odpowiedniemu zamodelowaniu nie tylko procesow opisu zasobow, ale rowniez dzielenia sie wiedza, mozna bardzo wiele zyskac. Zapraszam do lektury mojej ksiazki gdzie dokladnie omawiam przyklady dwoch komponentow do wyszukiwania i dzielenia sie informacja w oparciu o technologie spoleczne, oraz analizuje dokladnie wyniki przeprowadzonej ewaluacji m.in. tychze rozwiazan
Wysłany: 2010-02-11, 14:21 Re: Web 3.0 a "semantyka"
skruk napisał/a:
1) taksonomia != ontologia - i sam juz to zauwazyles; jednak nie ograniczalbym sie do tego ze ontologia = taksonomia + dodatkowe polaczenia - bo w ten sposob definiujesz slownik. Jednym z wyznacznikow ontologii jest umozliwianie wnioskowania na opisanej za jej pomoca wiedzy.
Definicje ontologii które znalazłem 3 lata temu nie mówiły jawnie o wymogu wnioskowania lub nie było to jasne dla mnie. Każda istniejąca ontologia daje taką możliwość i później zauważyłem ze posługiwanie się tym pojęciem w oderwaniu od wnioskowania napotyka na sprzeciw. Oczywiście przyznaję rację i zmieniam opis w pierwszym poście.
skruk napisał/a:
2) semantic web a semantyka - od kilku lat pojecia "semantyka" czy "ontologia" staly sie slowami wytrychami. Szczegolnie w Polsce, gdzie edukacja zwiazana z ta tematyka na studiach jest beznadziejna (poza kilkoma osrodkami). Stad tez wzial sie pomysl naszej Szkoly Web 3.0 - nie moglem juz dluzej patrzec na pojawiajace sie co jakis czas posty na blogach "expertow" rozmijajacych sie z prawda. Dlaczego o tym wspominam tutaj?
Bo caly czas piszesz o tym jak to standardy biblioteczne moga wspomoc budowe Web 3.0 - i jak powiedzialem - zgadzam sie z tym. Jednak ze stwierdzeniem ze jezeli wezmiemy kontrolowane slowniki (KOSy) i wrzucimy je do opisywania zasobow internetowych (nawet przy wykorzystaniu RDF/RDFa) to otrzymamy Web 3.0, juz nie moge sie zgodzic. To poprostu za malo ! Biblioteki wykorzystuja KOSy do opisu zasobow bibliotecznych i co dzieki temu zyskaly ? Bogatsze opisy - tak, lepsze mechanizmy wyszukiwania - czasami, interoperacyjnosc pomiedzy innymi systemami bibliotecznymi (a w przypadku bibliotek cyfrowych - innymi uslugami internetowymi) - raczej nie.
Napisałem coś takiego: "Mogłoby to mieć bardzo duży wpływ na rozwój Semantycznego Webu - dzięki wykorzystaniu doświadczeń oraz dzięki temu, że powstałby system organizacji wiedzy zdolny do takich zastosowań". Oczywiście nie pisałem, że otrzymamy Web 3.0. Miałem na myśli że poprawnie działająca wyszukiwarka semantyczna obejmująca wszystkie biblioteki tradycyjne byłaby prostą prezentacją pojęcia semantyki w bibliotekach. W prosty sposób technika semantyczna objęłaby wszystkie biblioteki naukowe i to byłoby coś: można by powiedzieć ze biblioteki są semantyczne. W przypadku www nie będzie już tak prosto: nawet jeśli technologia już istnieje to jeszcze upłynie trochę czasu zanim będzie można powiedzieć ze Internet jest semantyczny. Uczen korzystając z wyszukiwarki biblitecznej spotykalby się z semantyką, dzieki temu moze wiecej osob interesowaloby sie nia. Przychodzac do domu moglby sprobowac wykorzystac system organizacji wiedzy w www. W celach testowych mogloby to byc LCSH, oczywiscie zgadzam sie ze zaraz potem powinien poszukac czegos innego. Przypomniala mi sie moja historia ... W podstawówce jak po raz pierwszy zobaczyłem DOS-a to pomyslalem ze jego system katalogów mozna uzyc do reprezentacji drzewa systematyki organizmow zywych. Oczywiście bylo to dość naiwne, ale system plikow to pierwszy system komputerowy który dzieki swojemu rozpowszechnieniu wywolal we mnie taką myśl. Jeszcze raz zaznaczam, że oczywiście KABA/LCSH nie nadaje się do Webu, ale moze nadaje sie do Semantycznej Biblioteki tradycyjnej?
skruk napisał/a:
Dodatkowo zauwazylbym, ze biblioteka != biblioteka cyfrowa - to chyba oczywiste. Niestety jednak wiele osob probuje przeniesc biblioteki do internetu tak jak sa i nazywac je cyfrowymi. Internet to medium na tyle specyficzne i rozne od realnego swiata ze rzadzi sie swoimi prawami. Stad tez nie wszystkie rzeczy ktore dobrze funkcjonuja w bibliotekach (np MARC) beda przydatne w bibliotekach cyfrowych (o czym sam sie przekonalem kilka lat temu)
Zastanawiales sie czy powstanie Web 3.0, i jak bedzie wygladac. Teraz juz mozemy powiedziec ze Web 3.0 istnieje, moze nie obejmue jeszcze calej sieci - bo to proces ewolucyjny, ale maszyny juz teraz sa w stanie lepiej "rozumiec" tresc, m.in., dzieki temu ze wytwarza sie kolektywna wiedza w postaci polaczonych zasobow, opisow, ontologii, slownikow itp.
To czego brakuje w Twojej wizji Web 3.0 - to **polaczone**slowniki .
Oczywiście nie byla to wizja Web 3.0 ale przede wszystkim semantycznej biblioteki konwencjonalnej. A słowniki przedmiotowe uzywane w bibliotece konwencjonalnej są przeciez połaczone. W Polsce propozycje zmian w slowniku biblioteki naukowe zglaszaja do Centrum NUKAT które łączy je w całość. Następnie jeden scalony słownik wykorzystywany jest przez wszystkie biblioteki naukowe w Polsce. Przy czym NUKAT bierze pod uwagę kompatybilność ze słownikiem LCSH i RAMEAU. Dlatego nie rozumiem co miałeś na myśli mówiąc ze słowniki konwencjonalne nie są interoperacyjne między systemami bibliotecznymi.
Pozwole sobie skorzystać z okazji i zapytać się czy spotkales sie z semantyzacją katalogów przedmiotowych używanych w zwykłych bibliotekach (czyli nie cyfrowych) i co o tym sadzisz? I moze jeszcze daloby sie przy okazji dowiedziec gdzie mozna zapoznac sie z aktualnym stanem rozwoju Web 3.0 ? - chodzi o taka skonndensowana wiedze o obecnym stanie jak podaje sie na wykladach na uczelni.
Wysłany: 2010-02-15, 13:06 Re: Web 3.0 a "semantyka"
tarest napisał/a:
skruk napisał/a:
1) taksonomia != ontologia - i sam juz to zauwazyles; jednak nie ograniczalbym sie do tego ze ontologia = taksonomia + dodatkowe polaczenia - bo w ten sposob definiujesz slownik. Jednym z wyznacznikow ontologii jest umozliwianie wnioskowania na opisanej za jej pomoca wiedzy.
Definicje ontologii które znalazłem 3 lata temu nie mówiły jawnie o wymogu wnioskowania lub nie było to jasne dla mnie. Każda istniejąca ontologia daje taką możliwość i później zauważyłem ze posługiwanie się tym pojęciem w oderwaniu od wnioskowania napotyka na sprzeciw. Oczywiście przyznaję rację i zmieniam opis w pierwszym poście.
Moze nie do konca sie dobrze wyrazilem - nie chodzi tylko o wnioskowanie, czy tez fakt ze jest to jakis wymog. Ale sama funkcja ontologii i taksonomii sa zgola odmienne.
2) semantic web a semantyka - od kilku lat pojecia "semantyka" czy "ontologia" staly sie slowami wytrychami. Szczegolnie w Polsce, gdzie edukacja zwiazana z ta tematyka na studiach jest beznadziejna (poza kilkoma osrodkami). Stad tez wzial sie pomysl naszej Szkoly Web 3.0 - nie moglem juz dluzej patrzec na pojawiajace sie co jakis czas posty na blogach "expertow" rozmijajacych sie z prawda. Dlaczego o tym wspominam tutaj?
Bo caly czas piszesz o tym jak to standardy biblioteczne moga wspomoc budowe Web 3.0 - i jak powiedzialem - zgadzam sie z tym. Jednak ze stwierdzeniem ze jezeli wezmiemy kontrolowane slowniki (KOSy) i wrzucimy je do opisywania zasobow internetowych (nawet przy wykorzystaniu RDF/RDFa) to otrzymamy Web 3.0, juz nie moge sie zgodzic. To poprostu za malo ! Biblioteki wykorzystuja KOSy do opisu zasobow bibliotecznych i co dzieki temu zyskaly ? Bogatsze opisy - tak, lepsze mechanizmy wyszukiwania - czasami, interoperacyjnosc pomiedzy innymi systemami bibliotecznymi (a w przypadku bibliotek cyfrowych - innymi uslugami internetowymi) - raczej nie.
Napisałem coś takiego: "Mogłoby to mieć bardzo duży wpływ na rozwój Semantycznego Webu - dzięki wykorzystaniu doświadczeń oraz dzięki temu, że powstałby system organizacji wiedzy zdolny do takich zastosowań". Oczywiście nie pisałem, że otrzymamy Web 3.0. Miałem na myśli że poprawnie działająca wyszukiwarka semantyczna obejmująca wszystkie biblioteki tradycyjne byłaby prostą prezentacją pojęcia semantyki w bibliotekach. W prosty sposób technika semantyczna objęłaby wszystkie biblioteki naukowe i to byłoby coś: można by powiedzieć ze biblioteki są semantyczne. W przypadku www nie będzie już tak prosto: nawet jeśli technologia już istnieje to jeszcze upłynie trochę czasu zanim będzie można powiedzieć ze Internet jest semantyczny. Uczen korzystając z wyszukiwarki biblitecznej spotykalby się z semantyką, dzieki temu moze wiecej osob interesowaloby sie nia. Przychodzac do domu moglby sprobowac wykorzystac system organizacji wiedzy w www. W celach testowych mogloby to byc LCSH, oczywiscie zgadzam sie ze zaraz potem powinien poszukac czegos innego. Przypomniala mi sie moja historia ... W podstawówce jak po raz pierwszy zobaczyłem DOS-a to pomyslalem ze jego system katalogów mozna uzyc do reprezentacji drzewa systematyki organizmow zywych. Oczywiście bylo to dość naiwne, ale system plikow to pierwszy system komputerowy który dzieki swojemu rozpowszechnieniu wywolal we mnie taką myśl. Jeszcze raz zaznaczam, że oczywiście KABA/LCSH nie nadaje się do Webu, ale moze nadaje sie do Semantycznej Biblioteki tradycyjnej?
Przede wszystkim standardy biblioteczne sa jednym z waznych elementow rozwoju semantic web - ale podobnie jak NLP - nie sa jedynym. Potrzeba czegos wiecej zeby stworzyc semantic web niz tylko metadane. O ile oczywiscie rozumiem ze moze istniec pojecie semantycznej biblioteki w oderwaniu od "web" - to powstaje pytanie - po co ? Tzn co moze dac sama semantyka przedstawiona w postaci ontologii i RDF, a w oderwaniu od istoty polaczonych, otwartych i rozproszonych elementow informacji (linked open data) ? Mam wrazenie ze w takim wypadku semantyczna biblioteka = biblioteka - bo semantyka jako taka istnieje w bibliotekach od dawna, i sama zmiana formatu jej reprezentacji nie wiele wniesie.
tarest napisał/a:
skruk napisał/a:
Dodatkowo zauwazylbym, ze biblioteka != biblioteka cyfrowa - to chyba oczywiste. Niestety jednak wiele osob probuje przeniesc biblioteki do internetu tak jak sa i nazywac je cyfrowymi. Internet to medium na tyle specyficzne i rozne od realnego swiata ze rzadzi sie swoimi prawami. Stad tez nie wszystkie rzeczy ktore dobrze funkcjonuja w bibliotekach (np MARC) beda przydatne w bibliotekach cyfrowych (o czym sam sie przekonalem kilka lat temu)
Zastanawiales sie czy powstanie Web 3.0, i jak bedzie wygladac. Teraz juz mozemy powiedziec ze Web 3.0 istnieje, moze nie obejmue jeszcze calej sieci - bo to proces ewolucyjny, ale maszyny juz teraz sa w stanie lepiej "rozumiec" tresc, m.in., dzieki temu ze wytwarza sie kolektywna wiedza w postaci polaczonych zasobow, opisow, ontologii, slownikow itp.
To czego brakuje w Twojej wizji Web 3.0 - to **polaczone**slowniki .
Oczywiście nie byla to wizja Web 3.0 ale przede wszystkim semantycznej biblioteki konwencjonalnej. A słowniki przedmiotowe uzywane w bibliotece konwencjonalnej są przeciez połaczone. W Polsce propozycje zmian w slowniku biblioteki naukowe zglaszaja do Centrum NUKAT które łączy je w całość. Następnie jeden scalony słownik wykorzystywany jest przez wszystkie biblioteki naukowe w Polsce. Przy czym NUKAT bierze pod uwagę kompatybilność ze słownikiem LCSH i RAMEAU. Dlatego nie rozumiem co miałeś na myśli mówiąc ze słowniki konwencjonalne nie są interoperacyjne między systemami bibliotecznymi.
Pozwole sobie skorzystać z okazji i zapytać się czy spotkales sie z semantyzacją katalogów przedmiotowych używanych w zwykłych bibliotekach (czyli nie cyfrowych) i co o tym sadzisz? I moze jeszcze daloby sie przy okazji dowiedziec gdzie mozna zapoznac sie z aktualnym stanem rozwoju Web 3.0 ? - chodzi o taka skonndensowana wiedze o obecnym stanie jak podaje sie na wykladach na uczelni.
Osobiscie sie nie spotkalem, ale to nie znaczy ze takie projety nie istnieja. Moje zwiazki z bibliotekami byly zawezone do bibliotek cyfrowych a i tak wymagalo to przekopania kilkuset artykulow w state of the art :)
Wysłany: 2010-02-16, 00:00 Re: Web 3.0 a "semantyka"
skruk napisał/a:
O ile oczywiscie rozumiem ze moze istniec pojecie semantycznej biblioteki w oderwaniu od "web" - to powstaje pytanie - po co ? Tzn co moze dac sama semantyka przedstawiona w postaci ontologii i RDF, a w oderwaniu od istoty polaczonych, otwartych i rozproszonych elementow informacji (linked open data) ? Mam wrazenie ze w takim wypadku semantyczna biblioteka = biblioteka - bo semantyka jako taka istnieje w bibliotekach od dawna, i sama zmiana formatu jej reprezentacji nie wiele wniesie.
Przedmiotowe wyszukiwarki biblioteczne mają wysoką precyzję dzięki zastosowaniu słownictwa kontrolowanego (domyślam się że dlatego mówi się, że katalogi biblioteczne są semantyczne), jednak mają niski "odzew" gdyż nie korzystają z relacji hierachicznych. Slajd 28 z prezentacji http://semdl.info/tutorials/2/presentation pokazuje dodatkowy zysk dzięki użyciu hierarchii - biblioteki tradycyjne też mogłyby na tym zyskać.
Nie możesz pisać nowych tematów Nie możesz odpowiadać w tematach Nie możesz zmieniać swoich postów Nie możesz usuwać swoich postów Nie możesz głosować w ankietach Nie możesz załączać plików na tym forum Możesz ściągać załączniki na tym forum