Biblioteka 2.0 on Facebook
Biblioteka 2.0 Strona Główna

Biblioteka 2.0
Forum społeczności czytelników i bibliotekarzy cyfrowych

FAQFAQ  SzukajSzukaj  UżytkownicyUżytkownicy  GrupyGrupy  StatystykiStatystyki
RejestracjaRejestracja  ZalogujZaloguj  AlbumAlbum  DownloadDownload

Poprzedni temat «» Następny temat
Raport duplikatów
Autor Wiadomość
Czytelnik 

Dołączył: 04 Gru 2007
Posty: 54
Poziom: 6
HP: 0/104
 0%
MP: 49/49
 100%
EXP: 3/14
 21%
Wysłany: 2007-12-04, 18:11   

mwerla napisał/a:
Dostępna jest nowa wersja raportu - już z zasobami e-BUW. Mechanizm generujący raport teraz bierze jeszcze pod uwagę datę publikacji. Liczba duplikatów spadła o kilka, ale te które pozostały to już raczej na 100% duplikaty.


Jako użytkownikowi bibliotek cyfrowych wydaje mi się, że nie można tak mechanicznie tworzyć raportu duplikatów, bo nawet przy obecnych kryteriach nie są one zwykłymi duplikatami.

Najważniejsze jest to, że bywa, iż różny jest dostęp do treści tych pozycji. W jednej bibliotece jest on pełnotekstowy, gdy w drugiej nie ma możliwości przeszukiwania - dostajmy (za co też dzięki) tylko goły obrazek książki. A tych różnic ten raport nie widzi.
Przy całym szacunku dla biblioteki Wielkopolskiej, co z tego że jest jakaś pozycja, skoro muszę ją mozolnie kartkować, a w Kujawsko-Pomorskiej pożądane informacje mogę w takiej samej pozycji łatwo wyszukać programemn?

Z jednej biblioteki interesującą mnie pozycję mogę ściągnąć w całości i spokojnie czytać po wyjściu z netu, w innej mogę tylko oglądać strony pojedyńcze, bez możliwości ściągnięcia (nawet potem) całej pozycji. itp.

Ponadto zdarza się, że ograniczony jest dostęp do zasobów. Zajrzałem do pierwszego z pokazanych przez raport duplikatów. "Wojsko Polskie Kościuszki w roku 1794" jest w dwu bibliotekach.
Mogę obejrzeć tę książkę w Wielkopolskiej BC (ale tu oczywiście muszę szukać na piechotę).
Zaglądam więc do Zielonogórskiej BC a tam chcą ode mnie bym się zalogował, co oznacza "że użytkownicy publiczni nie mają wystarczających uprawnień dostępu do tej publikacji."
Czy można więc mówić (w każym razie my szarzy użytkownicy) o jakimś dublecie?

Poza tym trafia się, że nie ma dostępu do jakiejś biblioteki (np. w miniony weekend nie chodziło przynajmniej jedna z bibliotek) i wtedy nie da się skorzystać z jej zasobów, więc istnienie duplikatu jest wówczas korzystne.
 
     
relis 


Wiek: 53
Dołączył: 13 Lut 2007
Posty: 790
Skąd: Biblioteka Śląska
Poziom: 25
HP: 14/1490
 1%
MP: 711/711
 100%
EXP: 24/73
 32%
Wysłany: 2007-12-15, 00:14   

Użyteczność tego raportu z pkt. widzenia osób tworzących BC jest umiarkowana, bo jest typową musztardą po obiedzie. Pewną zasadą związana z ekonomią tworzenia zasobów cyfrowych jest niepowielanie digitalizacji. Jeśli komuś pieniędzy zbywa i są przez niego samego zarobione, to może sobie robić z nimi co chce. Ale jeśli są z dotacji organizatora albo ministerstwa (czyli z pieniędzy podatników) - to szkoda te pieniądze wyrzucać na robienie czegoś co już zrobili inni.

Raport ten faktycznie ilustruje mechanizm, który zostanie wdrożony w kolejnej wersji oprogramowania redaktorskiego BC, dzięki czemu redaktorzy w momencie planowania publikacji otrzymają komunikat, że z dużym prawdopodobieństwem w systemie wszystkich BC już taka publikacja jest. Dzięki temu będą mogli do tej wskazanej publikacji przejść i sprawdzić czy faktycznie to co planują już ktoś opublikował. Po oględzinach będą mogli zadecydować czy to planują faktycznie powiela inna publikację, czy nie. A jeśli nawet publikacja (wydawniczo) jest taka sama, redaktor będzie mógł podjąć decyzje czy mimo to (ze względu na różnice egzemplarzowe, z jakichś względów istotne dla czytelnika) jej nie opublikować.

Argument większej dostępności publikacji w sytuacji ich powielenia (przy niedostępności jakiejś BC) nie jest moim zdaniem argumentem za planowym powielaniem publikacji, a jedynie wskazuje na potrzebę posadowienia BC na niezawodnych platformach sprzętowych, niwelujących ryzyko przestoju - a to już inna bajka. Bajka ta może polegać na swego rodzaju powieleniu zasobu BC (z wykorzystaniem technik typu mirror np.), lecz nie powielaniu czynności digitalizacji identycznych egzemplarzy lub takich, których "nieidentyczność" niczego nie wnosi.

Co do publikacji, które można ściągnąć w porównaniu do tych, których ściągnąć nie można oglądając jedynie na ekranie - ma Pan rację - te ściągalne są wygodniejsze w użyciu, zaś biblioteki na to pozwalające są dla użytkowników przyjaźniejsze i te będą z czasem częściej odwiedzane. ;-)

OCR - jest z pewnością kolejna taką wartością dodaną, jednakże i tu można mieć dylematy - ten OCR który znajduje się w plikach DJVU jest w znakomitej (jeśli nie zupełnej) większości "brudny", tj. nieskorygowany. Ma mnóstwo błędów i nie ma kto tego poprawiać. Uzyskuje sie go automatycznie, przy kompresji plików archiwalnych. Zatem wytwórczo nie kosztuje on nic (poza jednokrotnym kosztem oprogramowania mającego tę możliwość i trochę dłuższym czasem automatycznej obróbki). Lepiej by BC nie zajmowały sie digitalizowaniem powielającym zasób niezOCRowany, lecz by BC które nie rozpoznają tekstu - zaczęły to robić (droga WBC - popraw się). Porównując koszty obu operacji - łatwiej kupić kompresor z OCR (i nawet łatwiej post factum zOCRować publikacje nierozpoznane), niż ponownie skanować i obrabiać setki tysięcy stron.
Precyzyjne rozpoznanie tekstu jest możliwe lecz w większości czasochłonne i drogie, zależy także od wielu czynników (kroje czcionek, stan oryginału, jakość skanów).

Co do ograniczenia dostępu - zgadzam się i uważam, że jakiekolwiek ograniczanie dostępu do zasobu w danej BC zwalnia redaktora innej BC z zasady niepowielania. Z tym że publikacje, którą w powyższym poście ilustrowano ograniczenia - w obu BC są dostępne (ZBC również - przynajmniej potrafię je obejrzeć bez żadnego logowania) , lecz różnią sie (sprawdziłem pobieżnie) egzemplarzowo.
_________________
Given enough eyeballs, all bugs are shallow.
ESR
It is not necessary to change; survival is not mandatory. ;-)
Edward Deming

http://relis-blog.blogspot.com
 
 
     
Czytelnik 

Dołączył: 04 Gru 2007
Posty: 54
Poziom: 6
HP: 0/104
 0%
MP: 49/49
 100%
EXP: 3/14
 21%
Wysłany: 2007-12-16, 23:10   

relis napisał/a:

Co do ograniczenia dostępu - zgadzam się i uważam, że jakiekolwiek ograniczanie dostępu do zasobu w danej BC zwalnia redaktora innej BC z zasady niepowielania. Z tym że publikacje, którą w powyższym poście ilustrowano ograniczenia - w obu BC są dostępne (ZBC również - przynajmniej potrafię je obejrzeć bez żadnego logowania) , lecz różnią sie (sprawdziłem pobieżnie) egzemplarzowo.


To że publikacja w ZBC zmieniła status (z niedostępnej bez logowania) jest zapewne wynikiem mojej korespondencji z tą biblioteką, do której napisałem o tym problemie.

Zwrócę może jeszcze uwagę że raport o dubletach nie pełny. Przez jego "sito" przeciekła np. informacje o zdublowaniu książki Stęczyńskiego Tatry w dwudziestuczterech obrazach (przez ŚBS i BN) vide: Tatry w ŚBC oraz Tatry w Polonii


.
 
     
mwerla 
Marcin Werla


Wiek: 39
Dołączył: 13 Lut 2007
Posty: 251
Skąd: Poznań, PCSS
Poziom: 14
HP: 0/426
 0%
MP: 203/203
 100%
EXP: 27/33
 81%
Wysłany: 2007-12-17, 12:13   

O - dziękuję za informację. Wszelkie tego typu zgłoszenia są bardzo cenne.
_________________
Marcin Werla
Zespół Bibliotek Cyfrowych PCSS
 
 
     
mwerla 
Marcin Werla


Wiek: 39
Dołączył: 13 Lut 2007
Posty: 251
Skąd: Poznań, PCSS
Poziom: 14
HP: 0/426
 0%
MP: 203/203
 100%
EXP: 27/33
 81%
Wysłany: 2008-03-13, 11:23   

Czytelnik napisał/a:

Zwrócę może jeszcze uwagę że raport o dubletach nie pełny. Przez jego "sito" przeciekła np. informacje o zdublowaniu książki Stęczyńskiego Tatry w dwudziestuczterech obrazach (przez ŚBS i BN) vide: Tatry w ŚBC oraz Tatry w Polonii.


Ulepszyliśmy trochę algorytm i wykrywa obecnie o kilkanaście potencjalnych duplikatów więcej. Nowy raport (już ze zgłoszoną przez Pana publikacją) dostępny jest tutaj:
http://fbc.pionier.net.pl...tes-list-report

A tu można zgłaszać inne duplikaty nie wykryte automatycznie:
http://fbc.pionier.net.pl/owoc/add-duplicates

Jeszcze raz dziękuję za zgłoszenie.
_________________
Marcin Werla
Zespół Bibliotek Cyfrowych PCSS
 
 
     
Wyświetl posty z ostatnich:   
Ten temat jest zablokowany bez możliwości zmiany postów lub pisania odpowiedzi
Nie możesz pisać nowych tematów
Nie możesz odpowiadać w tematach
Nie możesz zmieniać swoich postów
Nie możesz usuwać swoich postów
Nie możesz głosować w ankietach
Nie możesz załączać plików na tym forum
Możesz ściągać załączniki na tym forum
Dodaj temat do Ulubionych
Wersja do druku

Skocz do:  

Powered by phpBB modified by Przemo © 2003 phpBB Group
Biblioteka 2.0 : Forum społeczności czytelników i bibliotekarzy cyfrowych [Dokument elektroniczny] - Tryb dostępu http://forum.biblioteka20.pl
Korzystanie z portalu oznacza akceptację naszej polityki prywatności.
Strona wygenerowana w 0.07 sekundy. Zapytań do SQL: 9