Biblioteka 2.0 on Facebook
Biblioteka 2.0 Strona Główna

Biblioteka 2.0
Forum społeczności czytelników i bibliotekarzy cyfrowych

FAQFAQ  SzukajSzukaj  UżytkownicyUżytkownicy  GrupyGrupy  StatystykiStatystyki
RejestracjaRejestracja  ZalogujZaloguj  AlbumAlbum  DownloadDownload

Poprzedni temat «» Następny temat
Synonimy
Autor Wiadomość
Tomasz Kalota 
Tomasz Kalota


Wiek: 45
Dołączył: 13 Lut 2007
Posty: 322
Skąd: Wrocław
Poziom: 16
HP: 0/556
 0%
MP: 265/265
 100%
EXP: 30/39
 76%
Wysłany: 2009-09-09, 13:41   Synonimy

Na warsztatach w Gnieźnie powstało kilka grup roboczych, których zadaniem jest rozwiązanie rożnych problemów związanych z funkcjonowaniem bibliotek cyfrowych. Jedną z takich grup jest grupa ds. synonimów, która ma następujący plan działania:
    1. Zebranie podstawowych scenariuszy wykorzystania, w których w chwili obecnej wykorzystywane są synonimy.
    2. Na podstawie zebranych scenariuszy wykorzystania przygotować dokument, który będzie zawierał informacje dotyczące wykorzystania synonimów w BC (coś w rodzaju instrukcji).
    3. Stworzenie środowiska testowego które umożliwi weryfikacje działania synonimów.
    4. Rozważenie modelu w którym łączone są synonimy pochodzące z różnych bibliotek cyfrowych.
    5. Wyniki tych prac powinny zostać przedstawione na tegorocznej edycji warsztatów Biblioteki Cyfrowe na początku grudnia.

W związku z powyższym prosimy o zgłaszanie wszelkich uwag, wątpliwości, sugestii dotyczących wykorzystania synonimów w polskich bibliotekach cyfrowych.
_________________
Myśl więziona w księdze jest hańbą dla księgi.

Tomasz Kalota | Digitalizacja.pl | eBooki.com.pl
 
 
     
Tomasz Kalota 
Tomasz Kalota


Wiek: 45
Dołączył: 13 Lut 2007
Posty: 322
Skąd: Wrocław
Poziom: 16
HP: 0/556
 0%
MP: 265/265
 100%
EXP: 30/39
 76%
Wysłany: 2009-11-06, 12:25   Synonimy c. d.

Mam prośbę do wszystkich redaktorów wykorzystujących mechanizm synonimów przy tworzeniu opisów w BC o przekazanie sowich doświadczeń i spostrzeżeń związanych z funkcjonowaniem tego mechanizmu. Prośbę tę kieruje również do wszystkich czytelników bibliotek cyfrowych, którzy korzystają z synonimów podczas wyszukiwania publikacji. Na konferencji Polskie Biblioteki Cyfrowe 2009 będzie poruszony temat dotyczący wykorzystania synonimów w BC i wszelkie państwa uwagi będą przydatne podczas dyskusji nad usprawnieniem funkcjonowania słowników synonimów w dLibrze.

Poniżej kilka uwag i pomysłów do dyskusji:

1. Największą niedogodnością obecnego mechanizmu obsługującego synonimy jest brak możliwości tworzenia synonimów z wyrażeń składających się z kilku słów, synonimem może być tylko pojedynczy wyraz. Stąd biorą się problemy podczas wyszukiwania przy użyciu synonimów. Na obecną chwilę ważna dla redaktorów jest znajomość zasady tworzenia synonimów którą zilustruję przykładem:
Dla wartości Gebauer, Johann synonimem nie może być Gebawer, Johannes ponieważ synonim nie może składać się z dwóch słów. W takim przypadku należy stworzyć dwa synonimy, osobno Gebawer i osobno Johannes.

2. Pojawił się pomysł aby FBC pełniła rolę pośrednika w synchronizacji słowników synonimów pomiędzy BC i jednocześnie serwowałaby komplet synonimów. Wyznaczeni redaktorzy z rożnych BC (tych, które będą chciały się synchronizować) odpowiadaliby za poprawność synonimów. Wyobraźmy sobie usługę podobną do Googlowych dokumentów z wykorzystaniem opcji offline. Przy pomocy wtyczki Gears synchronizowane są dokumenty przechowywane na serwerach Googla z kopiami, które użytkownik przechowuje na rożnych kompach. Trzeba tylko się zastanowić jak to rozegrać logistycznie w przypadku BC i czy jest to do zrobienia w kolejnej wersji dLibry. Pojawia się też pytanie czy nadmiar synonimów, który może się pojawić z inicjatywy rożnych redaktorów będzie szkodliwy?

3. Instytut Historii Sztuki Uniwersytetu Wrocławskiego realizuje projekt, którego celem jest opracowanie i udostępnienie on-line słownika hierarchicznego pojęć, służącego opisowi dzieł sztuk plastycznych, oraz narzędzi umożliwiających jego dalszą rozbudowę w oparciu o współpracę instytucji związanych z dokumentacją dziedzictwa kulturowego. Może warto się przyjrzeć dokładniej temu projektowi - http://www.historiasztuki...l/tezaurus.html
Może ktoś zna inne podobne słowniki?
_________________
Myśl więziona w księdze jest hańbą dla księgi.

Tomasz Kalota | Digitalizacja.pl | eBooki.com.pl
 
 
     
Tomasz Kalota 
Tomasz Kalota


Wiek: 45
Dołączył: 13 Lut 2007
Posty: 322
Skąd: Wrocław
Poziom: 16
HP: 0/556
 0%
MP: 265/265
 100%
EXP: 30/39
 76%
Wysłany: 2010-05-18, 13:49   Mechanizm synonimów w dLibrze działa poprawnie

Przez ostatnich kilka tygodni, w miarę możliwości czasowych, testowałem mechanizm synonimów, który mamy dostępny w dLibrze i trochę eksperymentowałem w celu rozwiązania problemu, który został postawiony przed grupą ds. synonimów. W międzyczasie prowadziłem korespondencję w tej sprawie z prof. Mirosławem Górnym. Z tych eksperymentów i korespondencji wykluły się pewne spostrzeżenia i wnioski. Za zgodą Pana Profesora pozwoliłem sobie przygotować z fragmentów naszej korespondencji małe podsumowanie, które prezentuje poniżej.

Zacznę od stwierdzenia, że mechanizm synonimów w dLibrze działa poprawnie tylko musimy nauczyć się z niego korzystać.

Przyznam szczerze, że jadąc na konferencję i warsztaty PBC w ubiegłym roku z prezentacją podsumowującą prace zespołu ds. synonimów, jechałem z przekonaniem, że najpierw trzeba przekonać kolegów z PCSSu do zmiany mechanizmu przeszukującego synonimy na taki, który uwzględnia wartości wielowyrazowe, a dopiero potem można zastanawiać się nad właściwym wykorzystywaniem synonimów w BC. Ponieważ na konferencji nie padły żadne konkretne propozycje ani deklaracje co do zmiany mechanizmu wyszukiwawczego a Panowie z PCSSu nie okazywali wielkiego entuzjazmu w rozmowach na temat wywrócenia tego mechanizmu do góry nogami ;-) zacząłem się uważnie przyglądać temu co mamy do dyspozycji i doszedłem do następujących wniosków, które chciałbym poddać dyskusji i ewentualnej weryfikacji.
    1. Mechanizm synonimów działa poprawnie pod warunkiem, że używa się go zgodnie z intencjami twórców tego systemu. Jeśli dobrze udaje mi się odczytywać intencje twórców mechanizmu synonimów to jego zadaniem jest uodpornienie wyników wyszukiwania od zawężonej świadomości semantycznej użytkowników poprzez próbę przewidzenia możliwego zapytania i rozszerzenie zakresu trafień o ewentualne możliwe formy poprawne bądź nie. (mechanizm synonimów jest silnikiem, który nie został zaprojektowany tylko dla dLibry, jest to komponent wykorzystywany w rożnych systemach i PCSS zdecydował się go wykorzystać w dLibrze)
    2. Mechanizm synonimów w takiej postaci jaki mamy dostępny chyba nie powinien nazywać się mechanizmem synonimów a tworzone słowniki słownikami synonimów bo to nie do końca są synonimy. Tutaj zaczynam się zastanawiać czy sami nie wpadliśmy w "pułapkę semantyczną" kojarząc ten mechanizm z synonimami, bo jak widać nawet fachowcy od katalogowania korzystają z tego mechanizmu tak jak im intuicja (świadomość semantyczna) podpowiada a nie w sposób w jaki on działa.
    3. Cytat z publikacji "Wiązanie słów kluczowych ...":
    (...) Jaką cechę nosi ten tzw. specyficzny termin? Odznacza się on niską barierą świadomości semantycznej.
    Bariera ta jest jednym z kluczowych problemów w procesie wyszukiwania informacji. Polega ona na występowaniu różnic między świadomością semantyczną użytkownika informacji a świadomością semantyczną twórcy metadanych (cataloguer) wykorzystywanych przez system informacyjny. Inaczej mówiąc użytkownik systemu rozumie często pewne pojęcia inaczej niż cataloguer.
    Niepowodzenia w wyszukiwaniu są w przeważającej mierze efektem tej różnicy. Stąd nie ulega wątpliwości iż metody wyszukiwania informacji powinny problem ten uwzględniać i różnicę wspomnianą minimalizować. Nie zawsze tak się dzieje bo czasami twórcy metod wyszukiwania nie doceniają wagi tego problemu bądź w ogóle sobie go nie uświadamiają. Inna sprawa, że nie zawsze problem ten da się zadowalająco rozwiązać. (...)

    Mam wrażenie, że w przypadku mechanizmu wyszukiwawczego dostępnego obecnie w dLibrze, jego twórcy docenili wagę problemu i opracowali metodę, która pozwala problem w jakimś stopniu rozwiązać i jeśli stosuje się tę metodę właściwie to okazuje się w miarę skuteczna.
    4. Kolejny cytat z publikacji "Wiązanie słów kluczowych ...":
    (...) Wyszukiwanie we współczesnych systemach informacyjnych nie może opierać się na jednej metodzie. W zależności od potrzeb właściwe wydaje się być stosowanie metod kombinowanych. Problemem jest możliwość kompleksowej oceny efektywności wyszukiwania. Chodzi o taki sposób oceny który pozwala wybrać optymalny zespół metod organizacji zbioru – uwzględniający zarówno jakość wyniku wyszukiwania jak i wielkość kosztów poniesionych przez instytucję utrzymującą system informacyjny. A także czas poświęcony przez użytkownika na wyszukanie informacji. (...)
    Bardzo mocno identyfikuję się z tym poglądem i w tym kontekście warto wykonać eksperymenty i testy. Myślę, że warto to też przeanalizować w kontekście gotowych już tezaurusów np. podobnych do tego - http://historiasztuki.uni.wroc.pl/tezaurus.html ale to wymaga skonstruowania nowych modułów do dLibry i mam wrażenie, że nie da się tego wkomponować w obecny mechanizm synonimów, który wolałbym nazywać mechanizmem wspomagania wyszukiwania.

Poniżej podaje kilka przykładów z BCUWr, które ilustrują jak funkcjonuje mechanizm synonimów. Wytłuszczoną czcionka są oznaczone wartości główne, które mogą składać się z wielu wyrazów natomiast uzupełnienia wartości głównej czyli to co prawdopodobnie błędnie zaczęliśmy nazywać synonimami muszą być osobnymi wyrazami.


Przykład 1:

Anastasius Grün
Auersperg, Anton
Auersperg, Anton Aleksander
Auersperg, Anton Aleksander Graf von
Auersperg, Anton Aleksander Maria von
Auersperg, Anton Aleksander von
Auersperg, Anton Alexander
Auersperg, Anton Alexander Graf von
Auersperg, Anton Alexander Maria von
Auersperg, Anton Alexander von
Auersperg, Anton von

Taka kombinacja nie daje pozytywnych wyników bo nie może być wielu wyrazów w synonimie. Poprawnie natomiast działa taki zestaw:

Anastasius
Grün
Auersperg, Anton Aleksander
Graf
Maria
Alexander

Wyszukiwanie działa poprawnie przy dowolnej kombinacji synonimów (dodatkowo mamy lżejszą i bardziej higieniczną bazę).


Przykład 2:

Bailleu, Peter
Bailleu, Peter de
Bailleul, Peter
Bailleul, Peter de
Baillieu, Peter
Baillieu, Peter de
Bailliu, Peter
Bailliu, Peter de
Baillue, Peter
Baillue, Peter de
Balieu, Peter
Balieu, Peter de
Balleu, Peter
Balleu, Peter de
Balliu, Peter
Balliu, Peter de
Balliu, Pieter de

To nie działa. Redaktor nie przewidział jeszcze sytuacji, w której użytkownik mógłby skomponować zapytanie z dowolnej formy nazwiska i imienia Pieter. Wtedy konieczne byłoby przygotowanie takiego samego zestawu nazwisk zapisanych z imieniem Pieter, co oczywiście nie miałoby sensu bo jak wcześniej ustaliliśmy takie konstrukcje nie działają w wyszukiwarce stosowanej w dLibrze.

Bailleu
Bailleul
Baillieu
Bailliu
Baillue
Balieu
Balleu
Balliu, Peter
Pieter

Taki zapis działa i uwzględnia wszelkie możliwe kombinacje wymyślone przez czytelnika.


Przykład 3:

Bastion Sakwowy
Liebich, Adolf (1800-1870)
Liebich, Gustav (1798-1857)
Liebichhöhe
Liebichowie
Liebichshöhe
Promenada
Taschenbastion
Wzgórze Liebicha
Wzgórze Partyzantów
Wzgórze Sakwowe

ten zapis nie działa.

Bastion
Sakwowy
Liebich
Adolf
Gustav
Liebichhöhe
Liebichowie
Liebichshöhe
Promenada
Taschenbastion
Liebicha
Wzgórze Partyzantów
Sakwowe

to działa.

Przykład 3 pokazuje w jakiej formie powinny być wpisywane "synonimy". Jeśli określenie "Wzgórze Partyzantów" będzie wartością główną, tak jak w przykładzie 3, to może być zapisane w takiej formie jako wartość wielowyrazowa bo przeszukiwanie wartości głównych nie jest problemem dla wyszukiwarki. Jeśli określenie "Wzgórze Partyzantów" miałoby pełnić rolę synonimu to musi być zapisane osobno, ale w nie zmienionej formie czyli: jeden synonim "Wzgórze " drugi synonim "Partyzantów". Dodatkowo, jeśli miałoby to sens można dla lepszego pozycjonowania dodać wyraz "partyzant"


Ostatni wniosek podsumowujący:

Prawdopodobnie mamy do czynienia z dwoma problemami, dla których nie da się znaleźć wspólnego rozwiązania i które w pewnym zakresie warto odseparować od siebie.

Pierwszy problem to wiązanie słów kluczowych, synonimy i tezaurusy. Osobiście uważam, że tego typu inicjatywy powinno się ze sobą łączyć, ale musi powstać jakieś spoiwo, może w postaci jakiegoś modułu który umożliwi wykorzystanie zewnętrznych tezaurusów i mechanizmów do przeszukiwania zasobów w bibliotekach cyfrowych. Taki moduł musiałby uwzględniać istnienie słowników hierarchicznych.

Drugi problem to prawidłowe wykorzystanie narzędzia, które już w dLibrze istnieje i jak się okazuje jest całkiem sprawne, pod warunkiem, że właściwie się je stosuje. Myślę, że obecny mechanizm wspierający wyszukiwanie to mechanizm wspierający techniki, przy pomocy których można realizować pozycjonowanie, ale nie będę już raczej używał słowa "pozycjonowanie", bo ono też wprowadza pewne zamieszanie semantyczne. Chodzi o optymalizowanie wyszukiwania a nie marketingowe pozycjonowanie. W pewnym sensie możemy więc mówić tu o SEO, czyli zrozumieć maszynę i przygotować dane do optymalnego wykorzystania.

Muszę jednak na koniec trochę ponarzekać i wspomnieć o jednej, ale istotnej ułomności obecnego mechanizmu wspierającego wyszukiwanie. Nie potrafi on sobie poradzić z ignorowaniem wielkich liter i w związku z tym prawidłowy zestaw wartości wspierających wyszukiwanie z pierwszego przykładu powinien wyglądać tak:

Anastasius
Grün
Auersperg, Anton Aleksander
Graf
Maria
Alexander
anastasius
grün
graf
maria
alexander

Tyle na obecną chwilę. Zapraszam do dyskusji i zgłaszania uwag.

Od pewnego czasu rozpoczęliśmy w BCUWr poprawianie powiązań synonimicznych zgodnie z powyższymi uwagami. Nie wszystko jeszcze zostało poprawione, ale to co już poprawiono działa dobrze. Chciałbym zasugerować przemyślenie tego tematu i zastanowienie się nad poprawieniem powiązań synonimicznych w innych BC. Jeśli wyszukiwanie będzie działało poprawnie na poziomie lokalnym to może będzie szansa na wdrożenie tego mechanizmu na poziomie FBC, ale tu muszą się już wypowiedzieć twórcy dLibry.
_________________
Myśl więziona w księdze jest hańbą dla księgi.

Tomasz Kalota | Digitalizacja.pl | eBooki.com.pl
 
 
     
adudczak 


Dołączył: 20 Lut 2007
Posty: 30
Skąd: Poznań
Poziom: 4
HP: 0/61
 0%
MP: 29/29
 100%
EXP: 3/11
 27%
Wysłany: 2010-05-19, 12:55   

Cytat:
(mechanizm synonimów jest silnikiem, który nie został zaprojektowany tylko dla dLibry, jest to komponent wykorzystywany w rożnych systemach i PCSS zdecydował się go wykorzystać w dLibrze)


Mechanizm synonimów stosowany w dLibrze to dzieło autorskie, koncepcje tego typu są stosowane na całym świecie, ale nie używamy żadnego gotowego komponentu.

Cytat:
Mechanizm synonimów w takiej postaci jaki mamy dostępny chyba nie powinien nazywać się mechanizmem synonimów a tworzone słowniki słownikami synonimów bo to nie do końca są synonimy. Tutaj zaczynam się zastanawiać czy sami nie wpadliśmy w "pułapkę semantyczną" kojarząc ten mechanizm z synonimami, bo jak widać nawet fachowcy od katalogowania korzystają z tego mechanizmu tak jak im intuicja (świadomość semantyczna) podpowiada a nie w sposób w jaki on działa


Wydaje mi się, że nie jest to pułapka semantyczna (ani żadna inna ;-) ). Ten mechanizm został pomyślany jako proste obejście prostych problemów, a po jakimś czasie zaczął on być wykorzystywany do budowy trochę niepełnosprawnego wyszukiwania semantycznego. Ten słownik nie ma hierarchii, nie ma możliwości określania relacji między rekordami - pytanie czy przy tak ubogiej strukturze możemy się spodziewać, że sprosta on wszystkim problemom jakie przed nim stawiamy.

Cytat:

Przykład 1:
Auersperg, Anton Alexander von
Auersperg, Anton von

Taka kombinacja nie daje pozytywnych wyników bo nie może być wielu wyrazów w synonimie.


Synonim może mieć wiele wyrazów, nie ma tu żadnych ograniczeń. Problemem jest w takim przypadku dopasowywanie, użytkownik musi ująć wyszukiwaną frazę w cudzysłowie, czego nikt nie robi. Z tego względu synonimy wielowyrazowe są mało użyteczne, ale nic nie stoi na przeszkodzie aby je stosować.

Rozważmy taką sytuację dla grupy wartości z Przykład 1, jeżeli ktoś wpisze w formularz wyszukiwania : "Anastasius Grün" (w cudzysłowie) to dLibra doda do zapytania wszystkie wartości i wszystko zadziała tak jak chciał redaktor.

Zwróć jeszcze uwagę na imiona, weźmy Twój przykład :

Anastasius
Grün
Auersperg, Anton Aleksander
Graf
Maria
Alexander

wpiszę w wyszukiwanie : Maria Kowalska

a dLibra zapyta się czy chodziło o "Auersperg, Anton Aleksander"? W przypadku szerokiego użycia mogę mieć dziesiątki grup ze słowem Maria i żadna może nie być Marią Kowalską. "Co za głupia strona, przecież napisałem, że chodzi o Marie Kowalską" - pomyśli sobie czytelnik ;-)

Cytat:

Przykład 2:


Odnośnie przykładu numer 2, wydaje mi się, że jest to po prostu zaśmiecanie słownika. Rolę takiego korektora pisowni powinien pełnić inny mechanizm w założeniu taką rolę ma pełnić "did you mean".

Cytat:

Przykład 3:


Tutaj jest inny problem, masz słowa potoczne takie jak Bastion czy Promenada, będą one powodowały konflikt ilekroć użytkownik wpiszę je w formularz wyszukiwania. Jeżeli taka sytuacja bedzie występować dla wielu wyrazów, konflikty będą występowały często, co może się skończyć na dwa sposoby: użytkownik nie rozwinie zapytania (nie wybierze żadnej grupy) lub wybierze wszystkie, co doprowadzi go do wyników w których będzie wiele "hit'ów", które go nie zainteresują, a przez które będzie się musiał przebić. Tak czy siak, mechanizm synonimów oddala go od odnalezienia tego czego szukał.

Wykorzystanie tego mechanizmu w takiej formie jak proponujesz wymaga sporego wysiłku od redaktorów i ciężko sobie wyobrazić automatyczny import jakiejkolwiek istniejącego tezaurusa do tego formatu.

Jeszcze tytułem podsumowania, pod koniec zeszłego roku robilismy przecież z Rafałem analizy jak długie są zapytania wydawane przez użytkowników, wyszło z nich że znikoma cześć użytkowników wydaje zapytania dłuższe niż 3 słowa. Mamy też zarys algorytmu który pozwoliłby na automatyczne dopasowywanie 2 i 3 wyrazowych synonimów bez używania cudzysłowiów. ale, ale...

Sam mechanizm synonimów tak jak istnieje teraz, ale również po jego rozbudowie o powyższe elementy, budzi wiele wątpliwości. Prof. Gradman zwrócił uwagę, na to, że automatyczne dopasowywanie niesie ze sobą wiele pułapek
 
     
Tomasz Kalota 
Tomasz Kalota


Wiek: 45
Dołączył: 13 Lut 2007
Posty: 322
Skąd: Wrocław
Poziom: 16
HP: 0/556
 0%
MP: 265/265
 100%
EXP: 30/39
 76%
Wysłany: 2010-05-20, 12:03   

adudczak napisał/a:
Cytat:
(mechanizm synonimów jest silnikiem, który nie został zaprojektowany tylko dla dLibry, jest to komponent wykorzystywany w rożnych systemach i PCSS zdecydował się go wykorzystać w dLibrze)

Mechanizm synonimów stosowany w dLibrze to dzieło autorskie, koncepcje tego typu są stosowane na całym świecie, ale nie używamy żadnego gotowego komponentu.
Dzięki za doprecyzowanie.

adudczak napisał/a:
Ten mechanizm został pomyślany jako proste obejście prostych problemów, a po jakimś czasie zaczął on być wykorzystywany do budowy trochę niepełnosprawnego wyszukiwania semantycznego. Ten słownik nie ma hierarchii, nie ma możliwości określania relacji między rekordami - pytanie czy przy tak ubogiej strukturze możemy się spodziewać, że sprosta on wszystkim problemom jakie przed nim stawiamy.
Chyba nie sprosta i dlatego wydaje mi się, że może lepiej będzie zastanowić się nad wykorzystaniem jakiegoś dodatkowego mechanizmu, ale nie rezygnując z tego co jest, bo mimo pewnych niedogodności, o których wspomniałeś działa to dobrze.

adudczak napisał/a:
Synonim może mieć wiele wyrazów, nie ma tu żadnych ograniczeń. Problemem jest w takim przypadku dopasowywanie, użytkownik musi ująć wyszukiwaną frazę w cudzysłowie, czego nikt nie robi. Z tego względu synonimy wielowyrazowe są mało użyteczne, ale nic nie stoi na przeszkodzie aby je stosować.
Tak, sorki za skrót myślowy.

adudczak napisał/a:
Rozważmy taką sytuację dla grupy wartości z Przykład 1, jeżeli ktoś wpisze w formularz wyszukiwania : "Anastasius Grün" (w cudzysłowie) to dLibra doda do zapytania wszystkie wartości i wszystko zadziała tak jak chciał redaktor.
Zgadza się i ostatnio dyskutowaliśmy nawet z redaktorami czy nie warto zostawiać wartości wielowyrazowe jeśli przewidujemy, że jakiś zwrot jest na tyle popularny i czytelnik wykorzysta cudzysłów w zapytaniu. Na ten aspekt zwrócił też uwagę prof. Górny. Wydaje mi się, że warto to robić, ale tylko w niektórych przypadkach.

adudczak napisał/a:
Zwróć jeszcze uwagę na imiona, weźmy Twój przykład :

Anastasius
Grün
Auersperg, Anton Aleksander
Graf
Maria
Alexander

wpiszę w wyszukiwanie : Maria Kowalska

a dLibra zapyta się czy chodziło o "Auersperg, Anton Aleksander"? W przypadku szerokiego użycia mogę mieć dziesiątki grup ze słowem Maria i żadna może nie być Marią Kowalską. "Co za głupia strona, przecież napisałem, że chodzi o Marie Kowalską" - pomyśli sobie czytelnik ;-)
Tak może pomyśleć, ale to będzie chyba mniej uciążliwe niż sytuacje, w których konkretne zapytania nie skutkują znalezieniem publikacji.

adudczak napisał/a:
Odnośnie przykładu numer 2, wydaje mi się, że jest to po prostu zaśmiecanie słownika. Rolę takiego korektora pisowni powinien pełnić inny mechanizm w założeniu taką rolę ma pełnić "did you mean".
To zdecydowanie byłoby efektywniejsze. Trzeba sprawdzić czy zadziała tak jak chcemy. Czy ten mechanizm mógłby też rozwiązać problem dużych i małych liter?

adudczak napisał/a:
Wykorzystanie tego mechanizmu w takiej formie jak proponujesz wymaga sporego wysiłku od redaktorów i ciężko sobie wyobrazić automatyczny import jakiejkolwiek istniejącego tezaurusa do tego formatu.
Wysiłku z pewnością wymaga poprawianie tego co już zostało zrobione, ale jeśli tworzy się nowe wiązania synonimiczne to chyba lepiej robić je tak żeby działały. Importowanie faktycznie będzie mało realne, ale czy jest sens importować skoro i tak to nie będzie działać poprawnie?

adudczak napisał/a:
Jeszcze tytułem podsumowania, pod koniec zeszłego roku robilismy przecież z Rafałem analizy jak długie są zapytania wydawane przez użytkowników, wyszło z nich że znikoma cześć użytkowników wydaje zapytania dłuższe niż 3 słowa. Mamy też zarys algorytmu który pozwoliłby na automatyczne dopasowywanie 2 i 3 wyrazowych synonimów bez używania cudzysłowiów. ale, ale...
No własnie, dlatego propozycja aby tworzyć powiązania synonimiczne do pojedynczych wyrazów, uwzględniając najpopularniejsze formy jakie mogą wystąpić. Wtedy to zadziała dla pojedynczych zapytań jak i dla złożonych z kilku wyrazów.

adudczak napisał/a:
Sam mechanizm synonimów tak jak istnieje teraz, ale również po jego rozbudowie o powyższe elementy, budzi wiele wątpliwości. Prof. Gradman zwrócił uwagę, na to, że automatyczne dopasowywanie niesie ze sobą wiele pułapek
No i to jest powód dla którego warto się zastanowić, czy jest sens brnąć w rozwijanie tego narzędzia, czy korzystać z takiego jakie jest, a poszukać innych rozwiązań, które mogłyby wzbogacić metodologie wyszukiwania.

Tak na marginesie to myślę, że w przyszłości najważniejsze i najbardziej efektywne będzie przeszukiwanie treści, a metadane będą uzupełnieniem.
_________________
Myśl więziona w księdze jest hańbą dla księgi.

Tomasz Kalota | Digitalizacja.pl | eBooki.com.pl
 
 
     
sk 
sk

Dołączył: 19 Lut 2007
Posty: 292
Skąd: KPBC, Toruń
Poziom: 15
HP: 0/488
 0%
MP: 233/233
 100%
EXP: 35/35
 100%
Wysłany: 2010-05-24, 13:35   

adudczak napisał/a:
Jeszcze tytułem podsumowania, pod koniec zeszłego roku robilismy przecież z Rafałem analizy jak długie są zapytania wydawane przez użytkowników, wyszło z nich że znikoma cześć użytkowników wydaje zapytania dłuższe niż 3 słowa. Mamy też zarys algorytmu który pozwoliłby na automatyczne dopasowywanie 2 i 3 wyrazowych synonimów bez używania cudzysłowiów. ale, ale...

Sam mechanizm synonimów tak jak istnieje teraz, ale również po jego rozbudowie o powyższe elementy, budzi wiele wątpliwości. Prof. Gradman zwrócił uwagę, na to, że automatyczne dopasowywanie niesie ze sobą wiele pułapek

Mam dość podobne odczucia. Wyszukiwarka generująca w jednym kroku listę wyników jedynie na podstawie kształtu wyrażeń z natury rzeczy musi przypominać sprzedawcę-półgłówka w sklepie pełnym towarów: raz odpowiada z punktu "nie ma", choć klient zadowoliłby się leżącym na półce obok odpowiednikiem, kiedy indziej wykłada na ladę furę towarów, które tylko z grubsza zdają się pasować do ogólnikowego życzenia kupującego. Nie sądzę, żeby pracochłonne szatkowanie "synonimów" na pojedyncze wyrazy i wzbogacanie listy o wyniki nieraz trudne do przewidzenia w momencie tworzenia powiązania mogło poprawić tę sytuację - przeciwnie, można się spodziewać komplikacji rosnących wraz z liczbą obiektów cyfrowych i rozmiarami indeksów.

Skoro wykorzystanie "synonimów" do tworzenia listy wyników budzi wątpliwości, to może warto myśleć przede wszystkim o uzyciu ich do rozbudowania mechanizmu podpowiedzi, czyli do wskazywania innych możliwych dróg wyszukiwania? Niech użytkownik sam decyduje, czy chce iść w podpowiadanym kierunku.

Przydałoby się to tym bardziej, że podpowiedzi "czy chodziło ci o" w takiej postaci jak obecnie, czyli oparte wyłącznie na podobieństwie ciągów znaków, dość mocno kuleją - czasem podpowiedź jest ok (np. koryguje literówkę), ale często trafiają się też propozycje bezsensowne i prowadzące donikąd.

Nie wspominam nawet o możliwości wykorzystania historii zapytań, do automatycznego szacowania wartości wyszukań i/lub podpowiedzi, bo to zapewne jeszcze bardziej ambitne zadanie, ale z drugiej strony, nie powinno być przecież tak, że to bibliotekarze mają na piechotę przeglądać listę zapytań i dodawać odpowiednie powiązania.
 
     
Tomasz Kalota 
Tomasz Kalota


Wiek: 45
Dołączył: 13 Lut 2007
Posty: 322
Skąd: Wrocław
Poziom: 16
HP: 0/556
 0%
MP: 265/265
 100%
EXP: 30/39
 76%
Wysłany: 2010-06-25, 09:31   Taxonomy

A może w dLibrze dałoby się zastosować coś takiego - http://drupal.org/handbook/modules/taxonomy/
W Drupalu sprawdza się dosyć dobrze, a sam moduł jest ciągle rozwijany.
_________________
Myśl więziona w księdze jest hańbą dla księgi.

Tomasz Kalota | Digitalizacja.pl | eBooki.com.pl
 
 
     
Wyświetl posty z ostatnich:   
Ten temat jest zablokowany bez możliwości zmiany postów lub pisania odpowiedzi
Nie możesz pisać nowych tematów
Nie możesz odpowiadać w tematach
Nie możesz zmieniać swoich postów
Nie możesz usuwać swoich postów
Nie możesz głosować w ankietach
Nie możesz załączać plików na tym forum
Możesz ściągać załączniki na tym forum
Dodaj temat do Ulubionych
Wersja do druku

Skocz do:  

Powered by phpBB modified by Przemo © 2003 phpBB Group
Biblioteka 2.0 : Forum społeczności czytelników i bibliotekarzy cyfrowych [Dokument elektroniczny] - Tryb dostępu http://forum.biblioteka20.pl
Korzystanie z portalu oznacza akceptację naszej polityki prywatności.
Strona wygenerowana w 0.09 sekundy. Zapytań do SQL: 8