To jest tylko wersja do druku, aby zobaczyć pełną wersję tematu, kliknij TUTAJ
 
Biblioteka 2.0
Forum społeczności czytelników i bibliotekarzy cyfrowych

Zrób sobie bibliotekę cyfrową - Pliki współdzielone djbz/iff w dLibrze

sk - 2012-03-16, 22:39
Temat postu: Pliki współdzielone djbz/iff w dLibrze
Sporo bibliotek cyfrowych korzysta z DjVu z optymalizacją w postaci plików współdzielonych djbz i/lub iff, chyba więc warto wyraźnie o tym wspomnieć: pliki współdzielone drastycznie wydłużają indeksowanie w dLibrze i przyczyniają się do spowolnienia aplikacji www. Prawidłowość tę obserwowaliśmy w KPBC już od dość dawna, ale dopiero dziś zdobyłem się na eksperyment, którego wyniki, jak mi się zdaje, są wystarczająco wymowne.

Okazją do testów było dodanie warstwy OCR w pospiesznie kiedyś zdigitalizowanej książce. Najpierw została wymieniona na wersję z plikami djbz (proszę zwrócić uwagę na czas w logach).

Kod:
18:33:19 | INFO: Start indexing 228 Version objects (VersionIndexer)...
18:55:21 | INFO: 50 of 228 (21%) objects indexed...
19:19:09 | INFO: 100 of 228 (43%) objects indexed...
19:42:00 | INFO: 150 of 228 (65%) objects indexed...
20:04:54 | INFO: 200 of 228 (87%) objects indexed...
20:17:08 | INFO: Indexing Version objects finished.

Następnie na wersję bez djbz.
Kod:
20:27:52 | INFO: Start indexing 207 Version objects (VersionIndexer)...
20:28:04 | INFO: 50 of 207 (24%) objects indexed...
20:28:16 | INFO: 100 of 207 (48%) objects indexed...
20:28:28 | INFO: 150 of 207 (72%) objects indexed...
20:28:40 | INFO: 200 of 207 (96%) objects indexed...
20:28:42 | INFO: Indexing Version objects finished.

Prawie dwie godziny vs. 2 minuty! Gdyby jednak chodziło tylko o czas indeksowania, nie byłoby może dramatu. Najbardziej dotkliwym skutkiem jest wyraźne spowolnienie aplikacji www aż do zakończenia indeksowania.



Jak widać na obrazku, dwie godziny indeksowania oznaczają dwie godziny utrudnień w dostępie dla czytelników (coś mi się obiło o uszy, że jeśli strona ładuje się dłużej niż 4 sek., użytkownicy zaczynają masowo rezygnować).


Jedno uściślenie. Określeniem "indeksowanie" posługuję się wyżej szerokim znaczeniu. Tak naprawdę, jeśli dobrze rozumiem, problemem jest nie tyle proces dołączania terminów do indeksu, ile poprzedzające go pobieranie warstwy tekstowej i związana z nim skomplikowana żonglerka plikami.

MHelinski - 2012-03-19, 08:12

W najblizszym czasie postaramy sie sprawdzic ten problem i poinformujemy o wynikach.

pozdrawiam

sk - 2013-02-09, 14:25

Odnotujmy, że wydana niedawno wersja 5.4.0 dLibry wprowadza poprawkę usuwającą ten problem. Za skromną etykietką Indeksowanie djvu - optymalizacja - sprawdzenie kryje się zmiana, która dla bibliotek cyfrowych używających formatu DjVu w wariancie wspomnianym wyżej oznacza koniec pewnej epoki :-)

Warto się zainteresować i przeprowadzić aktualizację.



Powered by phpBB modified by Przemo © 2003 phpBB Group