Biblioteka 2.0 on Facebook
Biblioteka 2.0 Strona Główna

Biblioteka 2.0
Forum społeczności czytelników i bibliotekarzy cyfrowych

FAQFAQ  SzukajSzukaj  UżytkownicyUżytkownicy  GrupyGrupy  StatystykiStatystyki
RejestracjaRejestracja  ZalogujZaloguj  AlbumAlbum  DownloadDownload

Poprzedni temat «» Następny temat
Raport duplikatów
Autor Wiadomość
mwerla 
Marcin Werla


Wiek: 39
Dołączył: 13 Lut 2007
Posty: 251
Skąd: Poznań, PCSS
Poziom: 14
HP: 0/426
 0%
MP: 203/203
 100%
EXP: 27/33
 81%
Wysłany: 2007-10-24, 16:15   Raport duplikatów

W ramach przygotowywania automatycznego wykrywacza duplikatów dla FBC powstał przykładowy raport dostępny pod adresem http://dlibra.psnc.pl/fbc/duplicate-list.html . Zwracam uwagę na zastrzeżenie wyróżnione na czerwono na początku raportu.

Mechanizm wykrywania duplikatów spróbujemy włączyć w Aplikację Redaktora dLibry, tak, żeby w momencie tworzenia publikacji (normalnej czy planowanej) móc szybko sprawdzić czy nie ma przypadkiem czegoś podobnego.

PS. Na dole raportu jest podsumowanie - ciekawe zwłaszcza jeżeli zestawi się je z liczbą publikacji w poszczególnych bibliotekach i okresem ich istnienia ;-)
_________________
Marcin Werla
Zespół Bibliotek Cyfrowych PCSS
 
 
     
anetadr 

Dołączyła: 13 Lut 2007
Posty: 161
Skąd: Biblioteka UŚ
Poziom: 11
HP: 0/272
 0%
MP: 130/130
 100%
EXP: 19/25
 76%
Wysłany: 2007-10-24, 19:51   

Bardzo ciekawe zestawienie. A pomysł ze sprawdzaniem naprawdę świetny.

Sprawdziłam wszystkie nasze (tzn. Śląskiej Biblioteki Cyfrowej) duble. Na 11 pozycji tylko 3 to nasze błędy, w przypadku jednego chodzi o zupełnie inną publikację, a "Bogurodzicy" w ogóle nie odnalazłam w 'Polonie' (czyżby już usunięta?). Natomiast pozostałe zostały umieszczone w "Polonie" po opublikowaniu ich w ŚBC. Szkoda, że koledzy i koleżanki z Biblioteki Narodowej nie mają nawyku sprawdzania w innych bibliotekach cyfrowych. Tyle mówimy tutaj o niemarnowaniu wysiłków na dublowanie, ale nie wszyscy biora sobie to do serca.

Aneta
 
     
mwerla 
Marcin Werla


Wiek: 39
Dołączył: 13 Lut 2007
Posty: 251
Skąd: Poznań, PCSS
Poziom: 14
HP: 0/426
 0%
MP: 203/203
 100%
EXP: 27/33
 81%
Wysłany: 2007-10-25, 07:43   

Bogurodzica w Polonie: http://www.polona.pl/dlib....pionier.net.pl

Widać musiała być jakiś czas temu, a teraz jest oznaczona jako nieopublikowana.
_________________
Marcin Werla
Zespół Bibliotek Cyfrowych PCSS
 
 
     
mwerla 
Marcin Werla


Wiek: 39
Dołączył: 13 Lut 2007
Posty: 251
Skąd: Poznań, PCSS
Poziom: 14
HP: 0/426
 0%
MP: 203/203
 100%
EXP: 27/33
 81%
Wysłany: 2007-10-25, 09:23   

Poprawiłem jeszcze metodę wyszukiwania. W efekcie wykrytych jest kilka duplikatów więcej. Wgrałem nową wersję listy - adres bez zmian.

Jeszcze co do samego pomysłu wykrywania duplikatów. Inspirację zaczerpnąłem z tego artykułu: http://dx.doi.org/10.1007/11551362_68 (mogę udostępnić zainteresowanym - proszę o indywidualny kontakt). Natomiast implementacja jest już własna. Obecnie przeszukanie całego FBC pod kątem duplikatów uruchomione na kopii FBC na moim laptopie trwa około 1m30s :-)
_________________
Marcin Werla
Zespół Bibliotek Cyfrowych PCSS
 
 
     
relis 


Wiek: 53
Dołączył: 13 Lut 2007
Posty: 790
Skąd: Biblioteka Śląska
Poziom: 25
HP: 14/1490
 1%
MP: 711/711
 100%
EXP: 24/73
 32%
Wysłany: 2007-10-25, 09:30   

anetadr napisał/a:
Bardzo ciekawe zestawienie. A pomysł ze sprawdzaniem naprawdę świetny.

Sprawdziłam wszystkie nasze (tzn. Śląskiej Biblioteki Cyfrowej) duble. Na 11 pozycji tylko 3 to nasze błędy, w przypadku jednego chodzi o zupełnie inną publikację, a "Bogurodzicy" w ogóle nie odnalazłam w 'Polonie' (czyżby już usunięta?).

Aneta


Jeśli była w Polonie to prawdopodobnie inna, bowiem ta z ŚBC jest opracowaniem krytycznym poprzedzonym wstępami i wydanie miało to miało charakter bibliofilski - bodajże 24 egz. nakładu.
_________________
Given enough eyeballs, all bugs are shallow.
ESR
It is not necessary to change; survival is not mandatory. ;-)
Edward Deming

http://relis-blog.blogspot.com
 
 
     
anetadr 

Dołączyła: 13 Lut 2007
Posty: 161
Skąd: Biblioteka UŚ
Poziom: 11
HP: 0/272
 0%
MP: 130/130
 100%
EXP: 19/25
 76%
Wysłany: 2007-10-25, 10:37   

relis napisał/a:
anetadr napisał/a:
Bardzo ciekawe zestawienie. A pomysł ze sprawdzaniem naprawdę świetny.

Sprawdziłam wszystkie nasze (tzn. Śląskiej Biblioteki Cyfrowej) duble. Na 11 pozycji tylko 3 to nasze błędy, w przypadku jednego chodzi o zupełnie inną publikację, a "Bogurodzicy" w ogóle nie odnalazłam w 'Polonie' (czyżby już usunięta?).

Aneta


Jeśli była w Polonie to prawdopodobnie inna, bowiem ta z ŚBC jest opracowaniem krytycznym poprzedzonym wstępami i wydanie miało to miało charakter bibliofilski - bodajże 24 egz. nakładu.


Na pewno masz rację. Ale nie miałam szans na dokładne sprawdzenie.

Aneta
 
     
sk 
sk

Dołączył: 19 Lut 2007
Posty: 292
Skąd: KPBC, Toruń
Poziom: 15
HP: 0/488
 0%
MP: 233/233
 100%
EXP: 35/35
 100%
Wysłany: 2007-10-25, 13:06   

U nas zestawienie duplikatów też zrobiło wrażenie!

Jeszcze tylko przydałoby się escape'owanie znaków specjalnych w linkach, bo np. link do Kursu mechaniki rozumowej trafia w próżnię.
 
     
mwerla 
Marcin Werla


Wiek: 39
Dołączył: 13 Lut 2007
Posty: 251
Skąd: Poznań, PCSS
Poziom: 14
HP: 0/426
 0%
MP: 203/203
 100%
EXP: 27/33
 81%
Wysłany: 2007-10-25, 14:38   

A - faktycznie. Już powinno być lepiej.

Na bazie danych z FBC sprawdziłem testowo duplikaty wewnątrz poszczególnych bibliotek cyfrowych. W raporcie http://dlibra.psnc.pl/fbc/duplicate-list.html są one w tabelce na dole "schowane" pod znaczkami X. Wygląda na to, że też ich trochę jest. Ale w tym zakresie nasz mechanizm wymaga jeszcze poprawek, więc na razie nie będę publikował wyników ;-)
_________________
Marcin Werla
Zespół Bibliotek Cyfrowych PCSS
 
 
     
mwerla 
Marcin Werla


Wiek: 39
Dołączył: 13 Lut 2007
Posty: 251
Skąd: Poznań, PCSS
Poziom: 14
HP: 0/426
 0%
MP: 203/203
 100%
EXP: 27/33
 81%
Wysłany: 2007-10-25, 14:40   

I jeszcze jedno - ciekawa różnorodność formatów:

http://fbc.pionier.net.pl...tedSearchAction

:-)
_________________
Marcin Werla
Zespół Bibliotek Cyfrowych PCSS
 
 
     
Tomasz Kalota 
Tomasz Kalota


Wiek: 47
Dołączył: 13 Lut 2007
Posty: 322
Skąd: Wrocław
Poziom: 16
HP: 0/556
 0%
MP: 265/265
 100%
EXP: 30/39
 76%
Wysłany: 2007-10-25, 22:49   Re: Raport duplikatów

mwerla napisał/a:
(...)Mechanizm wykrywania duplikatów spróbujemy włączyć w Aplikację Redaktora dLibry, tak, żeby w momencie tworzenia publikacji (normalnej czy planowanej) móc szybko sprawdzić czy nie ma przypadkiem czegoś podobnego.(...)

Może warto jeszcze pomyśleć nad wstawieniem tego mechanizmu do Konta użytkownika. Proces typowania publikacji do BC nie zawsze musi sie wiązać z uruchomieniem Aplikacji redaktora, czy nawet odbywać się przy komputerze, na którym został redaktor zainstalowany. Ponadto może użytkownicy polubiliby zabawę w tropicieli duplikatów ;-) . Czy możliwe jest uwzględnienie publikacji planowanych przy poszukiwaniu duplikatów? Taka opcja miałby chyba większe znaczenie przy zapobieganiu dublowania digitalizacji.

Sam pomysł generowania raportu jest prześwietny. Może warto rozważyć stworzenie mechanizmów umożliwiających drukowanie również innych raportów np. według typów publikacji itp. Prawdopodobnie coraz częściej będziemy musieli udzielać odpowiedzi na temat ilości oraz typów obiektów znajdujących się w BC oraz planów ich rozwoju. Takie raporty mogą oszczędzić bardzo dużo bezcennego czasu, który można poświecić na tworzenie zasobów cyfrowych a nie na tworzenie zestawień ;-) .
_________________
Myśl więziona w księdze jest hańbą dla księgi.

Tomasz Kalota | Digitalizacja.pl | eBooki.com.pl
 
 
     
mwerla 
Marcin Werla


Wiek: 39
Dołączył: 13 Lut 2007
Posty: 251
Skąd: Poznań, PCSS
Poziom: 14
HP: 0/426
 0%
MP: 203/203
 100%
EXP: 27/33
 81%
Wysłany: 2007-10-26, 08:42   

Nie wiem czy jest sens robić prosty interfejs WWW - nie będzie miał on szczególnie innej funkcjonalności niż wyszukiwanie w FBC. Siłą raportu jest to, że zawiera on przefiltrowane wyniki z kilkuset tysięcy wyszukiwań. Czytelnicy mogą pojedyncze publikacje sprawdzać po prostu przez wyszukiwanie w FBC. Zresztą z tego co wiem niektórzy bibliotekarze (cyfrowi) już od jakiegoś czasu sprawdzają w ten sposób swoje planowane publikacje.

Co do raportów w dLibrze, to na pewno będziemy działać w tym kierunku. Ale to w następnej wersji. Postaramy się, żeby był po prostu kreator dowolnych raportów (w miarę możliwości dowolnych ;-) ).
_________________
Marcin Werla
Zespół Bibliotek Cyfrowych PCSS
 
 
     
BarbaraM 


Dołączyła: 13 Lut 2007
Posty: 94
Skąd: Biblioteka Śląska
Poziom: 8
HP: 0/159
 0%
MP: 76/76
 100%
EXP: 13/19
 68%
Wysłany: 2007-10-27, 14:46   

Wschodni sąsiedzi też wykrywają nasze duplikaty, dają nawet daty wprowadzenia, np. wśród spisu publikacji cyfrowych dotyczących historii Białorusi są nasze cyfrówki.
I tam pozycja pt. Wilno w oprac. L. Rydla, wprowadzaona do ŚBC najpierw i oczywiście potem do Polony, która tradycyjnie nie sprawdza
http://starbel.narod.ru/el/uz.htm

Czyli wywiad białoruski lepszy niż warszawski :evil:
_________________
BM
 
 
     
Marian Pacholak 
Marian Pacholak


Wiek: 63
Dołączył: 26 Lut 2007
Posty: 12
Skąd: Wrocław
Poziom: 2
HP: 0/30
 0%
MP: 14/14
 100%
EXP: 2/8
 25%
Wysłany: 2007-10-30, 12:34   

Cytat:
Jeśli była w Polonie to prawdopodobnie inna, bowiem ta z ŚBC jest opracowaniem krytycznym poprzedzonym wstępami i wydanie miało to miało charakter bibliofilski - bodajże 24 egz. nakładu.


Pisałem o tym na forum Digitalizacja i biblioteki cyfrowe [EBIB], ale wrzucę i tu:

W okolicznościowej publikacji W kręgu historii i bibliologii [Bydgoszcz 2007] na s. 278 (rozdz. Biblioteki cyfrowe) można m. in. przeczytać:

"Już w 1971 roku amerykanin Michael S. Hart wprowadził do pamięci komutera tekst pierwszej publikacji, przepisując, niczym średniowieczny kopista, Deklarację Niepodległości Stanów Zjednoczonych. Stała się ona początkiem Projektu Gutenberg, pierwszej kolekcji cyfrowej, która dzisiaj udostępnia użytkownikom Internetu ponad 20000 tytułów".

Sprawdziłem w zasobach BC hasło : Ustawa rządowa czyli Konstytucya 3 maja 1791 ... i co ? ... i nic - brak tekstu !

Chciałbym bardzo się mylić;
pozdrawiam - M.P.
_________________
Marian Pacholak
 
     
anetadr 

Dołączyła: 13 Lut 2007
Posty: 161
Skąd: Biblioteka UŚ
Poziom: 11
HP: 0/272
 0%
MP: 130/130
 100%
EXP: 19/25
 76%
Wysłany: 2007-10-30, 12:56   

Tekst Konstytucji znalazłam w kilku miejscach przez Google. Może dlatego nie ma jej w żadnej BC, bo staramy się nie powielać.

Aneta
 
     
mwerla 
Marcin Werla


Wiek: 39
Dołączył: 13 Lut 2007
Posty: 251
Skąd: Poznań, PCSS
Poziom: 14
HP: 0/426
 0%
MP: 203/203
 100%
EXP: 27/33
 81%
Wysłany: 2007-11-07, 21:56   

Dostępna jest nowa wersja raportu - już z zasobami e-BUW. Mechanizm generujący raport teraz bierze jeszcze pod uwagę datę publikacji. Liczba duplikatów spadła o kilka, ale te które pozostały to już raczej na 100% duplikaty. Zmienił się też sposób prezentacji wyników.

Publikacje, których w nowej wersji raportu nie ma, a były w starej, to zazwyczaj różne wydania tych samych publikacji. Będę wdzięczny za zgłaszanie wszelkich duplikatów, które nie są uwzględnione w raporcie. Pozwoli to usprawnić mechanizm generowania raportu. Choć podejrzewam, że ręczne odkrywanie duplikatów może być dość trudne...
_________________
Marcin Werla
Zespół Bibliotek Cyfrowych PCSS
 
 
     
Wyświetl posty z ostatnich:   
Ten temat jest zablokowany bez możliwości zmiany postów lub pisania odpowiedzi
Nie możesz pisać nowych tematów
Nie możesz odpowiadać w tematach
Nie możesz zmieniać swoich postów
Nie możesz usuwać swoich postów
Nie możesz głosować w ankietach
Nie możesz załączać plików na tym forum
Możesz ściągać załączniki na tym forum
Dodaj temat do Ulubionych
Wersja do druku

Skocz do:  

Powered by phpBB modified by Przemo © 2003 phpBB Group
Biblioteka 2.0 : Forum społeczności czytelników i bibliotekarzy cyfrowych [Dokument elektroniczny] - Tryb dostępu http://forum.biblioteka20.pl
Korzystanie z portalu oznacza akceptację naszej polityki prywatności.
Strona wygenerowana w 0.11 sekundy. Zapytań do SQL: 8