Biblioteka 2.0 on Facebook
Biblioteka 2.0 Strona Główna

Biblioteka 2.0
Forum społeczności czytelników i bibliotekarzy cyfrowych

FAQFAQ  SzukajSzukaj  UżytkownicyUżytkownicy  GrupyGrupy  StatystykiStatystyki
RejestracjaRejestracja  ZalogujZaloguj  AlbumAlbum  DownloadDownload

Poprzedni temat «» Następny temat
Pliki współdzielone djbz/iff w dLibrze
Autor Wiadomość
sk 
sk

Dołączył: 19 Lut 2007
Posty: 292
Skąd: KPBC, Toruń
Poziom: 15
HP: 0/488
 0%
MP: 233/233
 100%
EXP: 35/35
 100%
Wysłany: 2012-03-16, 22:39   Pliki współdzielone djbz/iff w dLibrze

Sporo bibliotek cyfrowych korzysta z DjVu z optymalizacją w postaci plików współdzielonych djbz i/lub iff, chyba więc warto wyraźnie o tym wspomnieć: pliki współdzielone drastycznie wydłużają indeksowanie w dLibrze i przyczyniają się do spowolnienia aplikacji www. Prawidłowość tę obserwowaliśmy w KPBC już od dość dawna, ale dopiero dziś zdobyłem się na eksperyment, którego wyniki, jak mi się zdaje, są wystarczająco wymowne.

Okazją do testów było dodanie warstwy OCR w pospiesznie kiedyś zdigitalizowanej książce. Najpierw została wymieniona na wersję z plikami djbz (proszę zwrócić uwagę na czas w logach).

Kod:
18:33:19 | INFO: Start indexing 228 Version objects (VersionIndexer)...
18:55:21 | INFO: 50 of 228 (21%) objects indexed...
19:19:09 | INFO: 100 of 228 (43%) objects indexed...
19:42:00 | INFO: 150 of 228 (65%) objects indexed...
20:04:54 | INFO: 200 of 228 (87%) objects indexed...
20:17:08 | INFO: Indexing Version objects finished.

Następnie na wersję bez djbz.
Kod:
20:27:52 | INFO: Start indexing 207 Version objects (VersionIndexer)...
20:28:04 | INFO: 50 of 207 (24%) objects indexed...
20:28:16 | INFO: 100 of 207 (48%) objects indexed...
20:28:28 | INFO: 150 of 207 (72%) objects indexed...
20:28:40 | INFO: 200 of 207 (96%) objects indexed...
20:28:42 | INFO: Indexing Version objects finished.

Prawie dwie godziny vs. 2 minuty! Gdyby jednak chodziło tylko o czas indeksowania, nie byłoby może dramatu. Najbardziej dotkliwym skutkiem jest wyraźne spowolnienie aplikacji www aż do zakończenia indeksowania.



Jak widać na obrazku, dwie godziny indeksowania oznaczają dwie godziny utrudnień w dostępie dla czytelników (coś mi się obiło o uszy, że jeśli strona ładuje się dłużej niż 4 sek., użytkownicy zaczynają masowo rezygnować).


Jedno uściślenie. Określeniem "indeksowanie" posługuję się wyżej szerokim znaczeniu. Tak naprawdę, jeśli dobrze rozumiem, problemem jest nie tyle proces dołączania terminów do indeksu, ile poprzedzające go pobieranie warstwy tekstowej i związana z nim skomplikowana żonglerka plikami.
 
     
MHelinski

Dołączył: 08 Mar 2007
Posty: 7
Poziom: 1
HP: 0/18
 0%
MP: 8/8
 100%
EXP: 6/9
 66%
Wysłany: 2012-03-19, 08:12   

W najblizszym czasie postaramy sie sprawdzic ten problem i poinformujemy o wynikach.

pozdrawiam
_________________
Marcin Heliński
/--------------------------------------\
|Zespół Bibliotek Cyfrowych PCSS|
\--------------------------------------/
 
     
sk 
sk

Dołączył: 19 Lut 2007
Posty: 292
Skąd: KPBC, Toruń
Poziom: 15
HP: 0/488
 0%
MP: 233/233
 100%
EXP: 35/35
 100%
Wysłany: 2013-02-09, 14:25   

Odnotujmy, że wydana niedawno wersja 5.4.0 dLibry wprowadza poprawkę usuwającą ten problem. Za skromną etykietką Indeksowanie djvu - optymalizacja - sprawdzenie kryje się zmiana, która dla bibliotek cyfrowych używających formatu DjVu w wariancie wspomnianym wyżej oznacza koniec pewnej epoki :-)

Warto się zainteresować i przeprowadzić aktualizację.
 
     
Wyświetl posty z ostatnich:   
Ten temat jest zablokowany bez możliwości zmiany postów lub pisania odpowiedzi
Nie możesz pisać nowych tematów
Nie możesz odpowiadać w tematach
Nie możesz zmieniać swoich postów
Nie możesz usuwać swoich postów
Nie możesz głosować w ankietach
Nie możesz załączać plików na tym forum
Możesz ściągać załączniki na tym forum
Dodaj temat do Ulubionych
Wersja do druku

Skocz do:  

Powered by phpBB modified by Przemo © 2003 phpBB Group
Biblioteka 2.0 : Forum społeczności czytelników i bibliotekarzy cyfrowych [Dokument elektroniczny] - Tryb dostępu http://forum.biblioteka20.pl
Korzystanie z portalu oznacza akceptację naszej polityki prywatności.
Strona wygenerowana w 0.06 sekundy. Zapytań do SQL: 9