Pliki współdzielone djbz/iff w dLibrze |
Autor |
Wiadomość |
sk
sk
Dołączył: 19 Lut 2007 Posty: 292 Skąd: KPBC, Toruń
Poziom: 15
|
Wysłany: 2012-03-16, 22:39 Pliki współdzielone djbz/iff w dLibrze
|
|
|
Sporo bibliotek cyfrowych korzysta z DjVu z optymalizacją w postaci plików współdzielonych djbz i/lub iff, chyba więc warto wyraźnie o tym wspomnieć: pliki współdzielone drastycznie wydłużają indeksowanie w dLibrze i przyczyniają się do spowolnienia aplikacji www. Prawidłowość tę obserwowaliśmy w KPBC już od dość dawna, ale dopiero dziś zdobyłem się na eksperyment, którego wyniki, jak mi się zdaje, są wystarczająco wymowne.
Okazją do testów było dodanie warstwy OCR w pospiesznie kiedyś zdigitalizowanej książce. Najpierw została wymieniona na wersję z plikami djbz (proszę zwrócić uwagę na czas w logach).
Kod: | 18:33:19 | INFO: Start indexing 228 Version objects (VersionIndexer)...
18:55:21 | INFO: 50 of 228 (21%) objects indexed...
19:19:09 | INFO: 100 of 228 (43%) objects indexed...
19:42:00 | INFO: 150 of 228 (65%) objects indexed...
20:04:54 | INFO: 200 of 228 (87%) objects indexed...
20:17:08 | INFO: Indexing Version objects finished. |
Następnie na wersję bez djbz.
Kod: | 20:27:52 | INFO: Start indexing 207 Version objects (VersionIndexer)...
20:28:04 | INFO: 50 of 207 (24%) objects indexed...
20:28:16 | INFO: 100 of 207 (48%) objects indexed...
20:28:28 | INFO: 150 of 207 (72%) objects indexed...
20:28:40 | INFO: 200 of 207 (96%) objects indexed...
20:28:42 | INFO: Indexing Version objects finished. |
Prawie dwie godziny vs. 2 minuty! Gdyby jednak chodziło tylko o czas indeksowania, nie byłoby może dramatu. Najbardziej dotkliwym skutkiem jest wyraźne spowolnienie aplikacji www aż do zakończenia indeksowania.
Jak widać na obrazku, dwie godziny indeksowania oznaczają dwie godziny utrudnień w dostępie dla czytelników (coś mi się obiło o uszy, że jeśli strona ładuje się dłużej niż 4 sek., użytkownicy zaczynają masowo rezygnować).
Jedno uściślenie. Określeniem "indeksowanie" posługuję się wyżej szerokim znaczeniu. Tak naprawdę, jeśli dobrze rozumiem, problemem jest nie tyle proces dołączania terminów do indeksu, ile poprzedzające go pobieranie warstwy tekstowej i związana z nim skomplikowana żonglerka plikami. |
|
|
|
 |
MHelinski
Dołączył: 08 Mar 2007 Posty: 7
Poziom: 1
|
Wysłany: 2012-03-19, 08:12
|
|
|
W najblizszym czasie postaramy sie sprawdzic ten problem i poinformujemy o wynikach.
pozdrawiam |
_________________ Marcin Heliński
/--------------------------------------\
|Zespół Bibliotek Cyfrowych PCSS|
\--------------------------------------/ |
|
|
|
 |
sk
sk
Dołączył: 19 Lut 2007 Posty: 292 Skąd: KPBC, Toruń
Poziom: 15
|
Wysłany: 2013-02-09, 14:25
|
|
|
Odnotujmy, że wydana niedawno wersja 5.4.0 dLibry wprowadza poprawkę usuwającą ten problem. Za skromną etykietką Indeksowanie djvu - optymalizacja - sprawdzenie kryje się zmiana, która dla bibliotek cyfrowych używających formatu DjVu w wariancie wspomnianym wyżej oznacza koniec pewnej epoki
Warto się zainteresować i przeprowadzić aktualizację. |
|
|
|
 |
|