Biblioteka 2.0 on Facebook
Biblioteka 2.0 Strona Główna

Biblioteka 2.0
Forum społeczności czytelników i bibliotekarzy cyfrowych

FAQFAQ  SzukajSzukaj  UżytkownicyUżytkownicy  GrupyGrupy  StatystykiStatystyki
RejestracjaRejestracja  ZalogujZaloguj  AlbumAlbum  DownloadDownload

Poprzedni temat «» Następny temat
Kilka spraw do rozważenia
Autor Wiadomość
A.Pulikowski

Dołączył: 30 Wrz 2009
Posty: 10
Poziom: 2
HP: 0/30
 0%
MP: 14/14
 100%
EXP: 0/8
 0%
Wysłany: 2013-02-14, 14:22   Kilka spraw do rozważenia

Witam po długiej przerwie.

Uzbierało się kilka spraw, którymi chciałbym się z Państwem podzielić.

Zacznę od prezentacji, którą przygotowałem na konferencję Zarządzanie informacją w nauce (28-29.11.2012). Dotyczy ona widoczności publikacji naukowych w Internecie. Dostępna jest tutaj: http://www.ptin.org.pl/ko.../Pulikowski.pdf
choć, jak można przeczytać, nie jest to najlepsze miejsce do składowania :) W zamieszczonych tabelach T oznacza wyszukiwanie po fragmencie tytułu, a F po fragmencie z pełnego tekstu. Widoczność publikacji w bibliotekach cyfrowych wykorzystujących dLibrę jest istotna, gdyż coraz więcej dokumentów naukowych trafia do ich zasobów.

Nie zajmuję się digitalizacją na co dzień, ale prowadząc zajęcia ze studentami przez kilka miesięcy w roku mam okazję zgłębiać i optymalizować niektóre aspekty, głównie praktyczne. Z tym wiążą się moje pozostałe przemyślenia.

Nurtuje mnie takie pytanie: czy nie przyszła już pora rozstać się z formatem djvu? Dlaczego rozstać? Dlatego, że w dLibrze nie ma wciąż możliwości korzystania z kilku równoległych formatów, a nie mając wyboru lepiej postawić na format powszechnie wykorzystywany i indeksowany. Przez wiele lat warto było użerać się z djvu i różnymi metodami obchodzić jego niedostatki - kiepski OCR, nieindeksowanie w Google, problemy użytkowników z otwieraniem plików i pewnie wiele innych. Obecnie przestają być zasadne argumenty sprzed około 10 lat, które wymuszały użycie djvu jako optymalnego formatu prezentacyjnego. Ten format zatrzymał się w rozwoju. Wystarczy spojrzeć na siermiężny interfejs przeglądarki. Wiele wątków podejmowanych na tym forum jest poświęconych tylko i wyłącznie naprawianiu niedostatków formatu djvu, które nie zostały przez lata poprawione przez właścicieli formatu. Zdaję sobie sprawę, że wiele instytucji zakupiło bardzo drogie oprogramowanie Enterprise do tworzenia dokumentów djvu, ale i ono się kiedyś zamortyzuje…

Nie bez powodu napisałem, że argumenty sprzed 10 lat dotyczące wyboru djvu na format prezentacyjny nie są już zasadne. Pliki pdf z warstwą grafiki i tekstu zajmują porównywalną przestrzeń dyskową co djvu. W ostatnich dniach generowałem z FineReadera 11 dla różnych dokumentów pdfy i djvu na bazie tych samych skanów. Rozmiary były porównywalne. Ważne by wybrać w opcjach pdfa Użyj mieszanej zawartości rastrowej. Podobnie jak w djvu, tekst graficzny będzie wówczas zapisany jako czarno-biały. Wybieramy oczywiście Tekst pod graficznym obrazem strony. Konieczne jest zezwolenie na dokonanie kompresji – Utrata jakości dozwolona, w ustawieniach obrazu (poniżej w tym samym oknie). Jakość (na suwaku) 70% jest wystarczająca. Najlepsze efekty można uzyskać korzystając ze skanów w 600dpi (z uwagi na dokładniejsze odwzorowanie kształtu czcionek), ale i przy 300dpi nie jest źle. Pozostaje często poruszana kwestia szybkości otwierania dokumentu. Użytkownicy dysponują obecnie nieporównywalnie szybszymi transferami niż jeszcze kilka lat temu. Ściągnięcie pliku 5MB trwa kilka sekund. Nawet gdyby trwało kilkanaście, to jestem pewien, że większość użytkowników wolałaby poczekać chwilę na pdfa, niż męczyć się z djvu. Pliki djvu można konwertować do pdf również w FR11 (te same ustawienia). Kilka dni temu wykorzystałem tę metodę dla książek udostępnionych w archiwum SBP. Pomijając niechęć do djvu, konwersja była też uzasadniona nieindeksowaniem przez Copernic Desktop Search plików w tym formacie. Z warstwowymi pdfami program ten radzi sobie za to bez problemu. Dodam jeszcze, że pliki konwertowane z djvu do pdf zajmują mniej miejsca niż plik wyjściowy. Można oczywiście uzyskać różne rozmiary zależnie od przyjętych ustawień. Warto przeprowadzić eksperymenty na książkach chociażby z archiwum cyfrowego SBP.
Dodatkowy argument potwierdzający moją tezę o porównywalności rozmiaru plików pdf i djvu można znaleźć w Internet Archive. Przeglądając dowolne publikacje tam umieszczone zauważymy, że dostępne dla nich formaty pdf i djvu mają zbliżony rozmiar. Jak sprawdziłem, IA korzysta z kompresora plików PDF – Lura Document PDF compressor.

Ostatnia sprawa, którą chciałem się podzielić, to program ScanTailor. Jest mało znany w Polsce, choć ma polskojęzyczny interfejs. To oprogramowanie otwarte, dostępne pod adresem: http://sourceforge.net/projects/scantailor Wiem, że korzysta z niego Jagiellońska BC. To genialny program automatyzujący wiele procesów obróbki dokumentów. ST warto dobrze poznać. Na początku nie jest łatwo zrozumieć niektóre jego zachowania. Problemem jest brak instrukcji. Są za to video poradniki, np. http://vimeo.com/12524529 ST działa doskonale w trybie B&W. Mając na wejściu pliki skanowane w 300dpi (kolor lub odcienie szarości), otrzymujemy na wyjściu 600dpi, z dokładnie odwzorowanym kształtem liter. Rozmiar nie będzie problemem gdyż wygenerowane pliki w trybie B&W zajmują niewiele. Można je jeszcze dodatkowo skompresować korzystając z CCITT G4 (dla tiffów) dostępne chociażby w XnView. Warto, gdyż będzie to oszczędność na poziomie 50%. FR11 ma wbudowaną obsługę CCITT, dlatego nie trzeba wcześniej nic więcej robić. Oczywiście ST radzi sobie również świetnie z plikami kolorowymi. Ma też bardzo przydatny tryb mieszany (B&W + zdjęcia w kolorze/odcieniach).

Pozdrawiam,
Arkadiusz Pulikowski
 
     
Grzegorz B. 
Grzesiek

Wiek: 54
Dołączył: 23 Lis 2007
Posty: 44
Skąd: Zabrze
Poziom: 5
HP: 0/81
 0%
MP: 38/38
 100%
EXP: 6/13
 46%
Wysłany: 2013-02-16, 22:31   

Witam,
Cytat:
Dlaczego rozstać? Dlatego, że w dLibrze nie ma wciąż możliwości korzystania z kilku równoległych formatów, a nie mając wyboru lepiej postawić na format powszechnie wykorzystywany i indeksowany

Jeżeli decyzję o tym, z jakiego formatu plików korzystać, a który zarzucić, uzależnić od opcji dostępnych w obecnej wersji (lub poprzednich) dLibry, to uważam, że może to nie być teza "trafiona", czy tez słuszna. Wypada dopytać PCSS o prowadzonych tam pracach rozwojowych i ... przynajmniej względem dLibry sprawa będzie o wiele bardziej jasna. Można też - jak rozumiem - w ślad za taką tezą postulować, by po dołączeniu do dLibry równoległych formatów znowu witać formaty plików, z którymi się rozstaliśmy i nowymi, które się pojawiły. Ale czy to nie będzie skutkować bałaganem?

Cytat:
Przez wiele lat warto było użerać się z djvu i różnymi metodami obchodzić jego niedostatki - kiepski OCR, nieindeksowanie w Google, problemy użytkowników z otwieraniem plików i pewnie wiele innych

Spróbuję coś tu dodać. "Przez wiele lat" - tak dodając - to był też i taki paroletni okres, kiedy publikacje w formacie pdf roznosiły konia trojańskiego, co było nie tylko dla światka komputerowego ciekawym tematem ale również i w np. Gazecie Wyborczej mogliśmy o owym dobrodziejstwie pdf'a artykuł przeczytać. I podany tu przykład jest cechą właściwą formatowi plików. Formatowi pdf, oczywiście. Zaś DjVu nie był, nie jest i nie będzie kiedykolwiek jakimkolwiek zagrożeniem dla czytelników BC.
Kwestia OCR nie ma nic wspólnego z formatem plików DjVu, czy też nie jest cechą mu znamienną. Owszem, popularne oprogramowanie oferuje opcję "automatycznego OCR", który pozostawia wiele do życzenia, ale coraz częściej w bibliotekach powstaje OCR dla publikacji w formacie djvu (a i pdf również) w oparciu o analizę graficzną lub analizę graficzno-logiczną digitalizowanych stron. W takim przypadku, dostępność opcji "automatycznego OCR" nie wpływa ani na plus, ani na minus, ponieważ opcja ta nie jest wykorzystywana w ogóle. Gdyby zaś pokłonić się nad wymogami - dla przykładu - programu "WPR Kultura+", to zauważymy, że jakość OCR, który być może na stałe zagości w polskich BC, zawsze oparty będzie w oparciu o wspomniane już analizy stron. Mógłbym zgodzić się z tym, że "OCR automatyczny" jest i owszem niezadowalającej jakości, gdy zastosujemy go np. do digitalizowanych stron czasopism sprzed 100 lub 150 lat, ale jest też całkiem przyzwoity dla wielu publikacji zwartych, w których szpalty, wstawki reklamowe, nekrologi i inne drobiazgi graficzno-tekstowe na ogół nie występują. Pracując zgodnie z porzekadłem "wedle stawu grobla", można używać stosownego do sytuacji sposobu rozpoznania tekstu i otrzymywać zadowalające efekty. Zawartość digitalizowanych stron różni się tak bardzo względem siebie (tekst, zdjęcia, drzeworyty, grafiki, tabele, szpalty, stopki, ozdobne okładziny, wykroje, ...), że można za dogmat przyjąć tezę, iż nigdy nie powstanie aplikacja, w której będzie przycisk dla każdego digitalizowanego obiektu : "Zrób automatem ładnie".
Kwestię określoną "nieindeksowanie w Google" byłoby dobrze doprecyzować. Inaczej może być postrzegana jako obowiązująca do wszystkich obiektów udostępnianych w BC.
W polskich BC nie trudno odnaleźć tysiące publikacji powstałych z rękopisów lub z dokumentów zapisanych czcionką gotycką. Stanowią one jedynie część zasobów polskich BC, w których OCR nie został wykonany w ogóle. Zatem, nie dyskutujemy o tym, czy są to publikacje w formacie pdf, DjVu a może i w ukochanym przez Polonę formacie jpg. Zatem, uważam, że nie należy zapominać o tym, że o wyszukaniu z tej właśnie grupy obiektów publikacji, która nas interesuje, decyduje jedynie jakość i kompletność opisujących je metadanych deskryptywnych. I nic ponadto, więc ani Yahoo, ani Google niczego tu nie polepszy, ani nie pogorszy, nawet gdybyśmy dla tej grupy obiektów zmienili format plików prezentacyjnych (np. z DjVu na pdf).
"... i pewnie wiele innych..." - hm, może i jest wiele innych, ale gdy brak choć kilku konkretnych przykładów spośród tych wielu, trudno jest choćby dla przykładu zgłosić to producentowi, by taki niedostatek został usunięty.

Cytat:
Wystarczy spojrzeć na siermiężny interfejs przeglądarki.

Każdej przeglądarce, dla każdego systemu operacyjnego łatkę przypiąć nie trudno. Ale znów, broniłbym formatów plików, dla których opisywaną przeglądarkę się ocenia. Jeżeli aplet Javy jest jaki jest, a - niestety - jest, to nie oznacza, że kilka kolejnych i to nieodpłatnych przeglądarek dla tego samego formatu, też prezentuje się podobnie. Mi bardo podobał się Adobe Reader 7. Katastrofą jest Adobe Reader 9 i 10. Przykładowo, myli metadaną Creator z CreatorTool. Już niejednokrotnie przeczytałem o dziwnych "aplikacjach", które tworzą pliki pdf. W polu "aplikacja" widnieje wpis "Juliusz Słowacki" lub "Bolesław Prus" (zamiast dla przykładu Acrobat Professional X). No ale cóż, skoro nowy Adobe Reader jest tak wesoły, to jest. W ślad za tym nie skasowałem z dysku wszystkich swoich pdf-ów, bo to nie format plików jest zły, tylko przeglądarka jest niedopracowana. I sądzę, że możemy takie "wesołki" wyszukać dla "DjVu Browser plug-in", dla "Adobe Reader" lub "Przeglądarki plików graficznych systemu Windows". Ale będą to jedynie opinie o przeglądarkach, a dokładniej, to jedynie o ich obecnych wersjach.
Cytat:
Nie bez powodu napisałem, że argumenty sprzed 10 lat dotyczące wyboru djvu na format prezentacyjny nie są już zasadne. Pliki pdf z warstwą grafiki i tekstu zajmują porównywalną przestrzeń dyskową co djvu. W ostatnich dniach generowałem z FineReadera 11 dla różnych dokumentów pdfy i djvu na bazie tych samych skanów. Rozmiary były porównywalne. Ważne by wybrać w opcjach pdfa Użyj mieszanej zawartości rastrowej.

Cytat:
Dodatkowy argument potwierdzający moją tezę o porównywalności rozmiaru plików pdf i djvu można znaleźć w Internet Archive. Przeglądając dowolne publikacje tam umieszczone zauważymy, że dostępne dla nich formaty pdf i djvu mają zbliżony rozmiar. Jak sprawdziłem, IA korzysta z kompresora plików PDF – Lura Document PDF compressor.

Też testowałem różnice pomiędzy wielkościami plików w formatach prezentacyjnych. Otrzymałem - dla różnych wielkością, zawartością, rozdzielczością skanowania - ponad 64000 plików TIFF takie wyniki: DjVu - 13.14 GB, pdf - 151.49 GB, jpg 154,10 GB. Założeniem było to, by wszystkie powstałe publikacje posiadały możliwie wysoką jakość (czyli, nie ściskałem "troszkę" formatu B, nie ściskałem "bardzo" formatu C, po czym porównywałem wyniki z "nie ściśniętym" formatem A). Pliki TIFF, które poddałem testowi zajmowały 2446,24 GB. Zatem, nie mogę potwierdzić tezy o porównywalności 13 ze 151. Porównywalnym okazał się pdf, ale względem jpg.
Co do kompresora LURA, to przede wszystkim dla tego zastosowania format pdf jest jedynie "opakowaniem" i nic więcej. Kilka lat temu odwiedziłem właściciela Lura, by omówić możliwość oferowania tego rozwiązania w Polsce. Poza warunkami jakie postawiono, a które to zaakceptować nie mogłem, trzeba dodać, że aplikacje dla tego rozwiązania też nie są za darmo, nie są tanie i wymagają dokupywania kluczy elektronicznych - cartridge, gdyż są ograniczone ze względu na ilość konwersji. Czy jest też opcja "unlimited encodings", którą to posiada oprogramowanie dla formatu DjVu, nie wiem, bo przestało mnie to interesować. Jedno można dodać. Rozpatrując rozwiązania zbliżone do właściwości formatów takich jak JPG2000 a opakowanych w format pdf, trudno mówić o formacie pdf jako takim. Jego "środek" jest zgoła odmienny i osoby, które to rozwiązanie zaakceptują muszą być tego świadome, co wcale nie oznacza, że jest to złe lub bardzo dobre. To jest po prostu inne. Pojawia się np. warstwa treści i warstwa tła w pliku pdf, pojawiają się też kłopoty z polskimi literkami, chyba, że je usunięto, to sorry, ostatnich uaktualnień nie śledziłem.

Cytat:
Pozostaje często poruszana kwestia szybkości otwierania dokumentu. Użytkownicy dysponują obecnie nieporównywalnie szybszymi transferami niż jeszcze kilka lat temu. Ściągnięcie pliku 5MB trwa kilka sekund. Nawet gdyby trwało kilkanaście, to jestem pewien, że większość użytkowników wolałaby poczekać chwilę na pdfa, niż męczyć się z djvu.

Nie jestem pewien, ale chyba Skarbimir interesował się "cierpliwością czytelnika BC" oczekującego na wyświetlenie publikacji. Mogę się zatem mylić, ale bodaj padło : 3 sek. jako czas, po przekroczeniu którego ilość oczekujących maleje.
Może inaczej. Polecam stanowisko Tomka Kaloty sprzed tygodnia:
Czy format djvu musi byc wykorzystywany w bibliotekach cyfrowych?, a właściwie podany przez niego przykład:

Cytat:
1. http://www.bibliotekacyfrowa.pl/publication/37046 - publikacja przygotowana w formacie PDF.

2. http://www.bibliotekacyfrowa.pl/publication/31994 - publikacja przygotowana w formacie DjVu

Wydaje mi się, że nigdy nie wolno zapominać o tym, że rozdzielony sposób zapisu dla publikacji w formacie pdf jest niedostępny. I szybkość łączy niczego tu nie zmieni. 10 latemu i owszem, łącza były wolniejsze, ale nie było też i tylu użytkowników internetu. Za 5 lat pewnie przepustowość sieci znowu wzrośnie, ale pewnie wzrośnie i ilość przesyłanych plików video i to nie o klatce odpowiadającej standardowi MPEG-I, ale min. 720*576, więc część tego "postępu" w przepustowości wchłoną nam amatorzy DiVxów i innych zawartości filmowych, a jak nie oni, to kolejne miliony nowych użytkowników sieci.
A może w próbie oceny przydatności dla polskich BC tego lub innego formatu plików podjąć dyskusję nie nad tym, czy przeglądarka jest śliczna, czy siermiężna, tylko jaką funkcjonalnością charakteryzuje się format plików, który zaakceptuje dana biblioteka? Mógłbym rozpocząć 3-ma przykładami, które są własnością ZBC Pomerania oraz e-bUW. I tak, czasami strona obiektu posiada plamkę. No, plamka, niby nic nietypowego. Troszkę utrudnia zapoznawanie się z treścią, ale wszystko da się przeboleć. Poniższy obiekt - posiadający plamkę, opublikowano w formacie DjVu, Czytelnikowi wyświetla się o tak:


Dzięki segmentacji dostępnej w formacie DjVu, czytelnik posiada możliwość zapoznania się z tym dokumentem w taki oto sposób:


Gdyby ten sam dokument zaprezentować w formatach pdf lub jpg, czytelnik zobaczyłby tylko i wyłącznie plamkę. Przynajmniej tak sądzę.
Czasem zdarzy się, że obiekt nieco wypłowiał i trzeba się skupić, by odczytać jego zawartość. Ale wypłowienia to pewnie też nic strasznego dla formatu pdf. Mam przykład, także w formacie DjVu, który czytelnikowi prezentuje się tak:


Zaś dzięki właściwościom formatu DjVu, można zapoznać się z nim tak:


Ostatni przykład był nieco trudny. Gdy powstał obiekt cyfrowy w formacie DjVu, jego czytelność, pomimo starań nie była wysoka. Jedna z jego stron i powiększenie jej fragmentu przedstawiały się następująco:
__


Ale dzięki odpowiednim zabiegom, udało się zaprezentować go czytelnikom tak (oczywiście, mówimy o dwóch różnych konwersjach tego samego pliku TIFF do formatu DjVu) :
__


Odpowiadając na pytanie "czy nie przyszła już pora rozstać się z formatem djvu?" mógłbym powiedzieć tak, każda biblioteka może podejmować autonomiczne decyzje. Jeżeli szata graficzna tej czy innej przeglądarki miałaby przesądzić o wyborze formatu, to byłoby to co najmniej dziwne. Wyszukiwanie pełnotekstowe jest czynnikiem ogromnie istotnym, ale istotnym tylko dla tych publikacji, których zawartość przeszukiwać w ogóle można. A to nie cały zasób polskich BC. Niektórych możliwości jakie oferuje format DjVu, próżno szukać w publikacjach wykonanych w formacie pdf. Może zatem decyzję o tym co stosować, a co nie, pozostawić bibliotekarzom. Są obiekty, dla których format DjVu jest najlepszy, są i obiekty, które trudno udostępnić inaczej niż w formacie pdf. I może niech tak pozostanie.

A Scan Tailor, potwierdzam, jest świetny.
pozdrawiam, Grzegorz
_________________
"Wszystko jest trudne do czasu, gdy stanie się proste"
 
     
A.Pulikowski

Dołączył: 30 Wrz 2009
Posty: 10
Poziom: 2
HP: 0/30
 0%
MP: 14/14
 100%
EXP: 0/8
 0%
Wysłany: 2013-02-16, 23:57   

Nawet gdyby w dLibrze była dostępna możliwość publikowania w kilku formatach, to i tak nie wszystkie biblioteki cyfrowe chciałyby generować dokumenty w kilku wariantach. Być może niektóre BC widząc, że większość użytkowników wybiera PDF (przypuszczenie), po pewnym czasie zrezygnowałaby i tak z djvu. Powody mogą być różne. Podałem akurat ten, gdyż w chwili obecnej trzeba wybierać, a skoro tak, to uważam, że można rozważać przejście na format PDF.

Pisząc o nieindeksowaniu dokumentów w formacie djvu w wyszukiwarkach miałem na myśli ich pełny tekst. dLibra stosuje obejście wyprowadzające tekst do osobnego pliku tekstowego, ale często nie następuje przekierowanie do oryginalnego dokumentu (może to zależy od wersji), tylko do tego właśnie dodanego pliku, z którego użytkownik nie wie jak przejść do pliku właściwego, a jeszcze częściej nie jest świadomy, że taki plik w ogóle istnieje.
Jest bardzo wiele dokumentów w bibliotekach cyfrowych w formacie djvu, których OCR pozostawia wiele do życzenia. Wystarczy porównać OCR Document Expressa i FineReadera. Słaby OCR oznacza, że nawet jak dLibra wyprowadzi tekst i „podłoży” go Google’owi, to zadziała zasada „Garbage in garbage out”. Nawet jednak w tych dobrze zrobionych plikach djvu (z OCR na bazie FR), tracimy wyrazy przenoszone do nowego wiersza, pozostają rozdzielone myślnikiem. W plikach PDF zapisanych z FR są traktowane jako całość.

Interfejs to sprawa subiektywna. Każdy to sam może ocenić. Dla mnie jest archaiczny, ale to kwestia gustu.

Co do objętości pdfów posłużę się przykładem:
http://bbc.uw.edu.pl/Content/588/PM_81.djvu
http://ibin.us.edu.pl/a/Folksonomie.pdf

Drugi plik wygenerowałem na podstawie pierwszego, dlatego jego jakość zależy bardzo od pliku źródłowego. Proszę sprawdzić podane przeze mnie ustawienia. Kluczowe jest włączenie opcji Użyj mieszanej zawartości rastrowej. Bez tego wychodzą tak duże pliki jak Panu. Linkowany PDF jest nieznacznie, ale mniejszy. Dokument ma niecałe 100 stron. PDF ładuje się u mnie ok. 2 sekund. Jednak się załaduje i użytkownik go zobaczy. Ciekaw jestem, ilu użytkowników nigdy nie zobaczyło publikacji w formacie djvu, tylko dlatego, że nie miało zainstalowanej javy, albo zobaczyli komunikaty, których nie rozumieli.

Odnośnie możliwości wyświetlania poszczególnych warstw dla formatu djvu, to interfejs dostępny w większości bibliotek cyfrowych nie daje takiej możliwości. Trzeba zapisać plik na dysku, otworzyć go zainstalowanym wcześniej czytnikiem, a na koniec trzeba jeszcze wiedzieć, że można wyświetlać dokument w osobnych warstwach (by z menu wybrać odpowiednią opcję). Dla PDFa można zrobić to samo generując dwa osobne pliki (gdyby dLibra tylko potrafiła…) Jeden pokazujący dokument w oryginalnej postaci, drugi przygotowany do czytania (białe tło, zamiast żółtego, czarne litery zamiast brązowych, pominięte puste strony itd.). Dwie wersje dokumentu – jena wierna, a druga maksymalnie czytelna, to najlepsze rozwiązanie. W Internet Archive jest coś podobnego - PDF i B/W PDF.

Nie ulega wątpliwości, że najlepiej by było, gdyby dało się w dLibrze korzystać równolegle z wielu formatów. Wówczas to moje nieco prowokacyjne pytanie o rezygnację z djvu by nie padło. Zamiast tego pisałbym tylko o tym, że można tworzyć PDFy o rozsądnych rozmiarach.
 
     
jsbien 
jsbien

Dołączył: 13 Sie 2008
Posty: 35
Poziom: 4
HP: 0/61
 0%
MP: 29/29
 100%
EXP: 8/11
 72%
Wysłany: 2013-02-17, 07:25   DjVu

Kompresja nie jest jedyną zaletą DjVu. My stosujemy DjVu i będziemy nadal stosować z powodów, które przedstawiłem m.in. tutaj: http://bc.klf.uw.edu.pl/298/.

Faktem jest, że dLibra skutecznie zniechęca czytelników do oglądania dokumentów DjVu zadając uciążliwe pytania (opcja zapamiętania odpowiedzi nigdy mi nie zadziałała) lub automatycznie próbując wyswietlać appletem Javy (na żadnym komputerze nigdy mi nie zadziałał).

My rozwiązaliśmy to w ten sposób, że jeśli użytkownik odwiedzi stronę główną http://poliqarp.wbl.klf.uw.edu.pl/ bez wtyczki DjVu, to od razu jest poinformowany, że powinien ją sobie zainstalować.

Ponieważ nasi użytkownicy mieli problemy z instalowaniem wtyczki pod Windows, a wtyczki Linuksowe okresowo nie działaja :-( , przygotowaliśmy własną wyspecjalizowaną przeglądarkę https://bitbucket.org/mrudolf/djview-poliqarp (jak wskazuje nazwa, fork djview).

Oczywiście nie ma potrzeby, aby DjVu było stosowane absolutnie do wszystkiego - w naszych biblioteczkach ( http://bc.klf.uw.edu.pl/ i http://eprints.wbl.klf.uw.edu.pl/) można też znaleźć pliki PDF.

Pozdrawiam

JSB
 
     
Grzegorz B. 
Grzesiek

Wiek: 54
Dołączył: 23 Lis 2007
Posty: 44
Skąd: Zabrze
Poziom: 5
HP: 0/81
 0%
MP: 38/38
 100%
EXP: 6/13
 46%
Wysłany: 2013-02-17, 11:43   

Przedstawił Pan stanowisko
Cytat:
w dLibrze nie ma wciąż możliwości korzystania z kilku równoległych formatów, a nie mając wyboru lepiej postawić na format powszechnie wykorzystywany i indeksowany.

z którego to wnioskowałem, że gdyby taka możliwość była, korzystałby Pan z niej i byłoby to dla Pana satysfakcjonujące. Ale teraz informuje Pan, że

Cytat:
Nawet gdyby w dLibrze była dostępna możliwość publikowania w kilku formatach, to i tak nie wszystkie biblioteki cyfrowe chciałyby generować dokumenty w kilku wariantach.

Jeżeli dyskusję tą śledzi Marcin, Tomek lub Adaś z PCSSu, to obawiam się, ze nie są w sposób jednoznaczny odczytać Pana oczekiwań względem dLibry, tak by można przyjąć akceptowalną przez Pana strategię digitalizacji: albo do jednego formatu prezentacyjnego, bo w kilku formatach nie da rady, albo - również - do jednego, bo na kolejne formaty z kolei brak sił.
Ale OK, zgodzę się, że indeksowanie tekstu publikacji to ogromna siła publikacji i że taką właściwością charakteryzują się publikacje w formacie pdf (głównie born digital). To jest proste i oczywiste. Pozostawmy też kwestię tego, czy wspierać prace rozwojowe nad wieloformatowością dLibry, czy proponować, by je zarzucić.
Kilka lat temu (2008) p. Bożena z UMK poinformowała mnie, że Google Scholar jednoznacznie zaprosił m.in. do zgłaszania formatów plików, które nie są indeksowane i deklarował, że takie indeksowanie wykona, dodając, że "każdy powinien mieć szansę na dostęp do informacji naukowej", czy coś w tym guście. I co? Zgłosiłem to natychmiast producentowi. Ponoć (bo mnie tam nie było) spotkanie pomiędzy wodzami (Google-DjVu) się odbyło, padła wstępna deklaracja "tak", po czym, po niedługim czasie jakaś "trzecia siła" sprawiła, że padła kolejna decyzja - "nie". Cóż, świat software'u należy do świata pieniądza i może tu należy upatrywać braku indeksowania wprost tekstu zawartego w plikach w formacie DjVu. Jeżeli było, jak napisałem, to skoro decyzję można było zmienić raz, to może i zmieni się ona po raz kolejny ku uciesze nie tylko Pana ale wszystkich czytelników przeszukujących zasoby sieci. Zaś to, że PCSS podjął wysiłek, by udostępnić autorskie rozwiązanie umożliwiające indeksowanie zasobów nieindeksowanych, jak dla mnie - chapeau bas (w stronę PCSSu, oczywiście). Nie załamali rąk, nie narzekali, tylko usiedli, pokombinowali i wyprodukowali. A że być może nie jest to - jak Pan zauważył - rozwiązanie idealne, cóż, nobody's perfect. Proszę zaczekać na dLibrę 6, może będzie Pan bardzo mile zaskoczony. Gdyby Windows2000 był idealny i bez błędów, nikt nie kupiłby WindowsaXP ani Windowsa7.

Pomimo chęci, z takim stanowiskiem trudno się zgodzić:
Cytat:
Jest bardzo wiele dokumentów w bibliotekach cyfrowych w formacie djvu, których OCR pozostawia wiele do życzenia. Wystarczy porównać OCR Document Expressa i FineReadera.

Wg mnie jest tak: Jest bardzo wiele dokumentów w bibliotekach cyfrowych w formacie djvu oraz w formacie pdf, których OCR pozostawia wiele do życzenia. I polecam dla przykładu rozważania pana Marka Kolasy nt. formatów hybrydowych w polskich BC. Tam m.in. można dowiedzieć się jakie cuda z kilku polskimi literami w warstwie tekstu potrafią wyczyniać niektóre narzędzia tworzące publikacje w formacie pdf.

Wg mnie jest tak: Nie wystarczy porównać OCR Document Expressa i FineReadera, ponieważ DocumentExpress oferuje wyłącznie "OCR automatyczny", FineReader tworzy z kolei "OCR podczas interakcji z użytkownikiem", a jeżeli cofnąć się kilka lat do tyłu, należy dodać, że wcale nie tani Acrobat Professional (np. ver. 7) w ogóle OCR polskich tekstów nie wykonywał. Zatem OCR w publikacjach DjVu i pdf to bardzo często OCR różnego pochodzenia, więc jego porównywanie wprost nie jest ścisłe. Proszę założyć, że posługuje się Pan Acrobatem 7 i DocumentExpressem, w którego menu nie odkrył Pan opcji OCR automatycznego. Będzie to skutkować tym, że żadne z tych narzędzi nie utworzy OCR dla plików powstałych ze skanów zbiorów bibliotecznych. Zmuszony zatem do korzystania z FR, wyprodukuje Pan i dla pdf, i dla DjVu, OCR o identycznej trafności, znamiennej oczywiście tylko i wyłącznie możliwościom FineReadera.

Cytat:
Nawet jednak w tych dobrze zrobionych plikach djvu (z OCR na bazie FR), tracimy wyrazy przenoszone do nowego wiersza, pozostają rozdzielone myślnikiem. W plikach PDF zapisanych z FR są traktowane jako całość.

Pomijając dyskusję czy OCR oznacza rozpoznawanie tekstu, czy też OCR powinien być dodatkowo quasi-edytorem i łączyć sylaby w słowa, nie jest tak, że "pozostają myślniki". Metod osadzenia OCR w plikach DjVu, a powstałych za pomocą FR jest kilka. Ta, którą Pan stosuje lub zna może tak działać. Ale to tylko jedna z nich. Gdyby rozpoznany tekst przez FR zapisał Pan do przejściowego pdf, a następnie przeniósł tekst automatem do DjVu, utwierdziłby się Pan, ze obie zawartości rozpoznanego tekstu są identyczne.

Cytat:
jak dLibra wyprowadzi tekst i „podłoży” go Google’owi, to zadziała zasada „Garbage in garbage out”.

To chyba zbieg okoliczności, że akurat przytoczył Pan zasadę, a może i cytat "Garbage In, Garbage Out". Pierwszy raz zetknąłem się z nią zapoznając się z relacją z konferencji nt. niesamowitych możliwości i malusiego rozmiaru plików w formacie pdf, którego zawartość może być skompresowana. To również i początek Pana wpisu (kwestia Internet Archives). Konferencja, o której mowa (odbyła się 12 lat temu w Phoenix) rozpoczęła się spokojnie od monologu Carla Younga :

Cytat:
One question invariably comes up during my Adobe Acrobat training classes:
"How do I create a PDF file that does everything?"

What the questioner wants is a file as skinny as Ally McBeal, for fast download times; as strong as Arnold Schwarzenegger, for reliable output by the third shift at a copy shop; and as dazzling on-screen as The Matrix.

ale gdy podjęto przy okazji kwestię tego jakiej jakości pliku pdf należy oczekiwać w sytuacji, gdy powstaje on ze "źródła" o niskiej jakości, jeden z głównych inżynierów korporacji Adobe - Dov Isaacs (Principal Scientist) odpowiedział krótko "Garbage In, Garbage Out". Ba, nawet umieścił to w swojej prezentacji nt. formatu pdf o zapewne zupełnie przypadkowo dobranej nazwie "superhero.pdf".



I pewnie dawno bym zapomniał, o czym tam sobie chłopcy 12 lat temu, kontynent obok, rozprawiali na temat formatów plików, gdyby nie to, że tezy, które postawił Pan Isaacs (rozmiar plików pdf), ktoś postanowił zweryfikować. Tą osobą był Léon Bottou (dla rozwiązań i algorytmów dotyczących formatu DjVu, wg mnie numero uno). Okazało się, że generalizowanie przez pana Isaacsa - na bazie kilku spostrzeżeń - wiele warte nie jest. I wcale ten pdf taki cudowny nie jest (co nie oznacza, ze jest zły lub przeciętny), więc należy być ostrożnym głosząc taki czy inny pogląd. Bottou zajął się utworzeniem pliku DjVu na bazie pliku pdf o jakości podobnej do przykładu, który przytoczył Pan z witryny uw.edu.pl (a la born digital). I tak wyszło, że DjVu okazał się 25% mniejszy od cudownie skompresowanego pliku pdf. Czy to czegoś dowodzi? Tylko jednego, że bazując na 5-10 konwersjach, nie można wnioskować, że kolejne 2 mln konwersji będą posiadać identyczny przebieg. A to, że DjVu znów okazał się lepszy, aż takie istotne dla mnie w tym wypadku nie było. Zresztą można przytoczyć opinię jednej ze stron opisującej potyczkę superhero.pdf contra superhero.djvu i wypowiedzi Bottou:

Cytat:
Here is what Leon had to say about this winning DjVu rendition of superhero.pdf:
...
Mr. Isaacs explains on page 14 that "A PDF file can never be better than the content from which it is created".
All his presentation explains is that one should avoid intermediate steps that could hide the structure of the original content.

DjVu was designed to remove this constraint. We could print the superhero file, scan the pages and still produce a DjVu file with a decent size (not as good as this one, but decent).

In other words, the DjVu compressors are designed to recover the structure of the document from whatever data is available (pixels for djvudocument, postscript for djvudigital). The format itself only implements a simple document structure (foreground/background) but gives many opportunities to conceal potential structure
discovery errors.

In short:

PDF : Gold-in --> Gold-out
PDF : Garbage-in --> Garbage-out

DJVU : Gold-in --> Gold-out
DJVU : Garbage-in --> Acceptable-out

Léon Bottou


Bardzo dobrze, ze przywołał Pan zasadę GIGO: Garbage-in - Garbage-out (choć w zupełnie innym kontekście).
Osobiście zgadzam się z czołową postacią pdf, Panem Isaacs'em: "plik pdf, który powstanie ze źródła o niskiej jakości, będzie posiadać jakość śmiecia". Krótko i na temat, popieram.
A może dla odmiany, Pan zgodzi się ze mną, że skoro mógł Pan obejrzeć 3 przykłady, które przytoczyłem poprzednio a nie wiedziałem, że ożywi Pan temat zasady GIGO, to prawdziwe jest wnioskowanie Pana Léon Bottou: "plik DjVu, który powstanie ze źródła o niskiej jakości, ma duże prawdopodobieństwo posiadania przyzwoitej jakości" ?
każdy z 3 przykładów pokazuje to "jak na dłoni". Ponadto, powołując się na wspomnianą przez Pana Jagiellonkę (przy okazji ST), a właściwie na pracującego tam Bartka, powtórzę za nim (dyskusja: Czy format djvu musi być wykorzystywany w bibliotekach cyfrowych?)

Cytat:
Ja zalecam jedno: nakłaniać do wsparcia i propagować, zamiast walczyć z formatami.


Zajął Pan stanowisko:
Cytat:
Odnośnie możliwości wyświetlania poszczególnych warstw dla formatu djvu, to interfejs dostępny w większości bibliotek cyfrowych nie daje takiej możliwości.

Ja tam osobiście nie znalazłem biblioteki cyfrowej, w której nie mógłbym dowolną ilość razy przełączać się pomiędzy "apletem Javy dla DjVu" i "DjVu Browserem". Ale skoro twierdzi Pan, że PCSS i takie wdrożenia ma na swoim koncie, to pewnie i tak jest. Ja, nie znalazłem.

Cytat:
Trzeba zapisać plik na dysku, otworzyć go zainstalowanym wcześniej czytnikiem, a na koniec trzeba jeszcze wiedzieć, że można wyświetlać dokument w osobnych warstwach (by z menu wybrać odpowiednią opcję).

Zgoda, że taki tok postępowania prowadzi do sukcesu, ale jest to najdłuższy i najbardziej pracochłonny sposób, z jakim dane było mi się zapoznać. Poza tym, proszę, by znów - był Pan sprawiedliwy. Wspominał Pan o encoderze Lura w pdf-ach. OK, a czemuż by nie. Ale w Lura też są warstwy i też trzeba o tym wiedzieć. Gdy 20-ty raz czytam, że DjVu jest zły, bo trzeba wiedzieć, że aby zapoznawać się plikami DjVu "konieczna jest aż" instalacja jego przeglądarki, to wiem, ze w kolejnym zdaniu dowiem się, ze pdf jest z kolei cudowny, bo ... trzeba wiedzieć, że aby zapoznawać się plikami pdf "konieczna jest zaledwie" instalacja jego przeglądarki. Jeżeli czyni Pan zarzut formatowi DjVu, iż potrzebna jest wiedza o tym, że posiada on warstwy i ich wyświetlenie nastąpi po naciśnięciu prawego guzika myszki, który wyświetli stosowne menu, to proszę ten zarzut powtórzyć dla posegmentowanego pdf, bo dla tego formatu "ilość roboty" w przeglądarce Adobe Reader jest identyczna - też trzeba wiedzieć, ze należy nacisnąć jeden guzik.

Cytat:
Dla PDFa można zrobić to samo generując dwa osobne pliki (gdyby dLibra tylko potrafiła…) Jeden pokazujący dokument w oryginalnej postaci, drugi przygotowany do czytania (białe tło, zamiast żółtego, czarne litery zamiast brązowych, pominięte puste strony itd.). Dwie wersje dokumentu – jena wierna, a druga maksymalnie czytelna, to najlepsze rozwiązanie. W Internet Archive jest coś podobnego - PDF i B/W PDF.

Gdy już będzie używać Pan Lura encodera lub tworów mu podobnych, podpowiem, że nie trzeba będzie się męczyć i generować osobnych plików. Wystarczy nacisnąć jeden guzik (ja już zadanie domowe odrobiłem i znalazłem chwilę by się dowiedzieć jak ta dobroć działa). Wszak wspomniał Pan, ze trzeba wiedzieć.
Pomimo iż stanowiska nasze chyba różnią się diametralnie, a może właśnie dlatego, pozdrawiam serdecznie i polecam przemyślenia Bartka Siedlarza, które przytoczyłem powyżej. Są po prostu doskonałe.
_________________
"Wszystko jest trudne do czasu, gdy stanie się proste"
 
     
A.Pulikowski

Dołączył: 30 Wrz 2009
Posty: 10
Poziom: 2
HP: 0/30
 0%
MP: 14/14
 100%
EXP: 0/8
 0%
Wysłany: 2013-02-17, 13:00   

Nazwałem wątek "Kilka spraw do rozważenia", a nie kilka spraw do rozpętania wojny djvu kontra pdf. Udowadnianie wyższości jednego formatu nad drugim do niczego nie prowadzi. Mógłbym dalej z Panem polemizować, przedstawiając kontrargumenty, ale już teraz widać, że to tylko bardziej rozgrzeje emocje. Pana atakujący ton wypowiedzi dodatkowo źle rokuje tej dyskusji. Dlatego nie będę jej kontynuować.
Najlepiej byłoby gdybyśmy mogli używać obu fomatów, a do tego jeszcze kilku innych, których oczekują użytkownicy.

Zapomniałem napisać, że maniera chwalenia się z kim jest się "na Ty" w rozmowie z nieznajomą osobą robi złe wrażenie. Podobnie jak serdeczne pozdrawianie zaraz po niemiłym docinaniu.
 
     
Grzegorz B. 
Grzesiek

Wiek: 54
Dołączył: 23 Lis 2007
Posty: 44
Skąd: Zabrze
Poziom: 5
HP: 0/81
 0%
MP: 38/38
 100%
EXP: 6/13
 46%
Wysłany: 2013-02-18, 16:19   

Nie dlatego parokrotnie przytoczyłem/powołałem się na cytat
Cytat:
Ja zalecam jedno: nakłaniać do wsparcia i propagować, zamiast walczyć z formatami.

czy też odpowiedziałem w pierwszym wpisie na Pana pytanie:
Cytat:
...Niektórych możliwości jakie oferuje format DjVu, próżno szukać w publikacjach wykonanych w formacie pdf. Może zatem decyzję o tym co stosować, a co nie, pozostawić bibliotekarzom. Są obiekty, dla których format DjVu jest najlepszy, są i obiekty, które trudno udostępnić inaczej niż w formacie pdf.

by prowadzić działania wojenne na polu formatów plików, czy też być złośliwym wobec Pana, lecz wręcz przeciwnie.
Natomiast, usilnie próbowałem zwrócić uwagę na - jak to ująłem -
Cytat:
należy być ostrożnym głosząc taki czy inny pogląd

Forum Biblioteka jak i inne odwiedzają nie tylko osoby, które digitalizacją zajmują się 5 lub 10 lat i w ślad za tym, posiadają określone doświadczenia oraz poglądy na taki lub inny jej aspekt.
Gdyby początkujący bibliotekarz zapoznał się z Pana stanowiskiem, które oparł Pan - zresztą o słuszne wnioski - na temat wydawnictw naukowych, ale postawił Pan tezę względem całego zasobu jaki w polskich BC jest (ma być) digitalizowany, to uważam, że Pana wpis byłby dla tego bibliotekarza niedźwiedzią przysługą. I dodam, że to nie złośliwość, bo w tym momencie piszę o "młodym" doświadczeniem pracowniku biblioteki.
Zgodziłem się z Panem, co oczywiste, jak wygodnym jest posiadać w pełni przeszukiwane obiekty cyfrowe i że w pdf-ie ową dobroć wspiera Google, ale dodałem też, że jest wiele, wiele innych zbiorów, które nie wymagają OCR (rękopisy, ...) i sądziłem, że skoryguje Pan swoje stanowisko względem przyszłych losów dla obiektów cyfrowych w BC. Pominął Pan wątek, który nie dotyczy w ogóle obiektów born digital lub publikacji zwartych wydanych "niedawno", czyli zniszczeń i ubytków, a które to dotyczą ogromnej części zasobów do zgiditalizowania. Dla tych zasobów - wydaje się - format DjVu jest po prostu wymarzony (przedstawiłem nawet 3 przykłady, które pokazują, że digitalizacja skanów o niskiej jakości nie prowadzi do śmieciowej jakości formatu prezentacyjnego, i że dzięki segmentacji można taki obiekt dziedzictwa uratować, a nie jedynie zdigitalizować). Tego, że dla wydawnictw naukowych wymarzonym może być format pdf, a gdy ktoś się uprze to i również xps, nie kwestionowałem ani raz, bo i niby z jakiego powodu?
Pospekulujmy, gdyby zdigitalizować "Codex Iustinianus" z roku 1370 (około 680 stron), a dostępny w BJ, w ślad za Pana sugestią - do formatu pdf (i również zgodnie z Pana przewidywaniami, że kilkanaście sekund to każdy czytelnik sobie chętnie poczeka), to otrzymamy publikację o rozmiarze 945.022,9 kB = 922,87 MB (w formacie pdf). Napisał Pan, że u Pana "Ściągnięcie pliku 5MB trwa kilka sekund". Założę, że kilka, to jest 3. Czy na pewno będzie Pana satysfakcjonować czas wyświetlenia się tej publikacji wynoszący 553.7 sekundy (9 min. 14 sek.)? Czy rzeczywiście - postulując pozostawienie jako jedynego formatu prezentacyjnego pdf - chciałby Pan takie propozycje za pośrednictwem tego forum zaoferować młodym bibliotekarzom? Wydaje mi się, że chciał się Pan skupić na obiektach wydawnictw naukowych, gdzie Pana spostrzeżenia są całkowicie słuszne i nawet dziwię się, że nie zostały wsparte kilku odpowiedziami osób digitalizujących podobne zasoby, ale postulat jaki Pan postawił, posiadał brzmienie takie, jak gdyby kierowany był do każdego digitalizowanego obiektu. Na koniec tej spekulacji podpowiem, że "Codex ..." zdigitalizowany do formatu DjVu zajmuje (profilem prowadzącym do "większych" rozmiarem plików) 200.781,2 kB = 196,08 MB, co po zapisaniu go sposobem rozdzielonym (o braku tego sposobu zapisu w formacie też Pana informowałem) powoduje, że aby strona tej publikacji DjVu wyświetliła się u czytelnika, trzeba przesłać 200.781,2/680 = 295,27 kB, a nie jak w formacie pdf - 200.781,2 kB. Innymi słowy - wg danych 5MB w 3 sek. - czytelnikowi, publikacja DjVu wyświetli się po czasie 0,18 sek. (zamiast 553.7 sekundy dla odpowiednika pdf). I na koniec podpowiem, że podtrzymuję własne stanowisko, by nie rezygnować z dostępnych obecnie w polskich BC formatów plików, czyli
Cytat:
Są obiekty, dla których format DjVu jest najlepszy, są i obiekty, które trudno udostępnić inaczej niż w formacie pdf.

Jeżeli chciałem przesłać Panu pozdrowienia, to je przesłałem, bo uważałem to za stosowne. I oznacza to tyle i tylko tyle. Ani mniej, ani więcej.
pozdrawiam raz jeszcze,
Grzegorz
_________________
"Wszystko jest trudne do czasu, gdy stanie się proste"
 
     
A.Pulikowski

Dołączył: 30 Wrz 2009
Posty: 10
Poziom: 2
HP: 0/30
 0%
MP: 14/14
 100%
EXP: 0/8
 0%
Wysłany: 2013-02-18, 17:42   

Przez wiele lat dużo zrobiono dla wykorzystania formatu DjVuw polskich bibliotekach cyfrowych. W tym samym czasie niewiele, jeśli cokolwiek, dla formatu PDF. Mamy 78% zasobów w formacie DjVu, a 11 w PDF. W moim odczuciu można zacząć zmieniać tę proporcję w stronę PDF. Bardzo wypaczył Pan to co napisałem. Sam Pan sobie wyjaśnił (i innym) co miałem na myśli. Robi Pan to zresztą cały czas. Czy napisałem, że wszystko ma być w PDFie, łącznie z przywołanym przez Pana kodeksem? Chciałem zwrócić uwagę na to, że do bardzo wielu dokumentów można obecnie wykorzystywać format PDF, może nawet do większości. Pisałem to daltego, że mam wrażenie, że PDF jako alternatywa jest nieobecny w dyskusji o BC. Wszyscy zastanawiają się jak łatać wady cudownego DjVu, zapominając, że do wielu zastosowań można sięgnąć po PDFa. PDF poza dokumentami "digital-born" jest nieobecny. W efekcie takiego zapatrzenia na jedyny słuszny format dochodzimy do sytuaji, w której współczesne dokumenty pojawiają się w archiwach cyfrowych takich jak to z SBP w formacie DjVu, choć mogłyby być dużo lepiej rozpowszechniane w PDF. Niech Pan zapyta czytelników, czy wolą pobrać książkę o Folksonomiach w formacie PDF czy DjVu.
Nie tylko młody bibliotekarz, ale i stary, czytając Pana wypowiedzi może dojść do takiego wniosku jak autorzy archiwum SBP - że jedynym dobrym formatem do udostępniania digitalizowanych dokumentów jest djvu. Nie jest to oczywiście ich wina. Po prostu alternatywa była im nieznana. Z tego względu poruszyłem ten temat.
Miałem nadzieję, że moje zwrócenie uwagi na możliwość stosowania formatu PDF skłoni praktyków do dalszych poszukiwań optymalnych procedur. Ja robię to, tak jak napisałem, z doskoku. Tak proszę traktować to co napisałem i nie dorabiać do tego swojej teorii. Pisałem też kilkukrotnie, że najlepszym rozwiązaniem byłoby pozostawienie wyboru użytkownikowi (pdf, djvu, ....)

Nie chciałem już nic pisać, ale nie mogłem nie zareagować, gdy widzę jak żongluje Pan moimi wypowiedziami. Tym razem definitywnie kończę swoją wypowiedź na ten temat. Niech czytelnicy sami wyrobią sobie zdanie.

Dodam jeszcze dla jasności (by przestał Pan drążyć ten temat), że zgadzam się z tym, że dla starodruków, rękopisów, map w dużych rozmiarach i innych tego typu dokumentów format DjVu jest optymalny. Jednak te dokumenty stanowią margines tego co się digitalizuje. O nich zupełnie nie myślałem, bo oczywiste jest dla mnie, że tego typu obiekty w formacie PDF są zazwyczaj całkiem niekpraktyczne.
 
     
Bartłomiej Siedlarz 


Wiek: 34
Dołączył: 25 Lut 2008
Posty: 13
Skąd: Kraków
Poziom: 2
HP: 0/30
 0%
MP: 14/14
 100%
EXP: 3/8
 37%
Wysłany: 2013-02-19, 14:41   

Miałem odpowiedzieć na ten temat już w piątek. Wstrzymałem się, wygląda na to, że słusznie. Widzę, iż wywiązała się obszerna dyskusja, a skoro nawet przytoczono moje uprzednie wypowiedzi, czuję się zobowiązany do skomentowania oraz wyjaśnienia pewnych spraw. Uprzedzam, iż moje komentarze mogą sprawiać wrażenie wypowiedzi niemiłych; zastrzegam jednak, iż nie jest mą intencją prowadzenie osobistej walki z kimkolwiek, jedynie zapewnienie merytorycznie poprawnej dyskusji na temat.

Arkadiusz Pulikowski napisał/a:
Nazwałem wątek "Kilka spraw do rozważenia", a nie kilka spraw do rozpętania wojny djvu kontra pdf.

Ponad połowa pierwotnego postu jest na temat wyższości PDF nad DjVu i rzekomych wad tego ostatniego.

Arkadiusz Pulikowski napisał/a:
Pomijając niechęć do djvu […]

Ten cytat już na wstępie podważa neutralność pańskiej wypowiedzi w tej sprawie. W związku z powyższym oraz z tym, że są w środowisku ludzie, którzy mają coś w tym zakresie do powiedzenia, można się było spodziewać właściwego odzewu.

Arkadiusz Pulikowski do Grzegorza Bednarka napisał/a:
Pana atakujący ton wypowiedzi dodatkowo źle rokuje tej dyskusji. Dlatego nie będę jej kontynuować.

Nie zauważyłem, aby Grzegorz Bednarek atakował pana w jakikolwiek sposób, jedynie uargumentował swoje zdanie w dyskusji. Zachęcem do kontynuowania tej dysputy, ponieważ jest istotna, a mnie szczególnie temat ten interesuje (a podejście ludzi niektórych mocno mnie intryguje). Podejrzewam zresztą, że dyskusja ta trwać będzie i tak, z panem, czy bez pana — jednakże zachęcam do pozostania i wyrażania zdań. Jeżeli ponownie porusza pan ten temat (Wyszukiwanie pełnotekstowe w bibliotekach cyfrowych), tamtym razem oznaczony poprawnym tytułem, aczkolwiek podobne tezy zawierający; to znaczy, że na uzyskaniu informacji panu w jakiś sposób zależy.

Głównym problemem, poruszanym nie tylko przez pana, są rzekome wady formatu DjVu:

Arkadiusz Pulikowski napisał/a:
kiepski OCR, nieindeksowanie w Google, problemy użytkowników z otwieraniem plików i pewnie wiele innych

Oprócz tego często podnoszona sprawa konieczności korzystania z wtyczki. Podsumowując krótko wypowiedzi przedmówców oraz inne wpisy na ten temat, stwierdzam w tym miejscu, iż tych rzeczy nie można nazwać wadami formatu. Są to wady oprogramowania wykonującego rozpoznanie tekstu, nieskuteczność działania lub zła polityka instytucji stojących za wyszukiwarkami oraz niekompetencja użytkowników. Nie ma to nic wspólnego z formatem jako takim. Jeżeli przytacza pan te argumenty jako wady formatu, popełnia pan błąd merytoryczny przez nieodpowiednie nazwanie problemu. Podejrzewam, że powyższe niedostatki sprawiają panu (tak jak i mnie oraz innym użytkownikom) trudności i chciałby pan doprowadzić do ich rozwiązania. Spróbujmy więc nazwać problemy właściwie i poszukać rozwiązań, zamiast podsycać walkę z formatami, która jest z zasady bezsensowna. Tym bardziej dziwi mnie ponowne podjęcie tego tematu przez pana w bardzo podobny sposób do tego, w który uczynił pan to poprzednim razem. W odpowiedzi na uprzedni temat Tomasz Kalota napisał:

Tomasz Kalota napisał/a:
Zgadzam się z alternatywą w postaci dwuwarstwowego PDFa, choć nie jest to kwestia formatu tylko metody produkcji dobrego OCRu.

Co już na początku tamtej dyskusji powinno spowodować pewne wyjaśnienie. Tak naprawdę niedostatki wynikają z tego, jak produkujemy publikowany materiał. Jeszcze bardziej dziwi późniejsze pana stwierdzenie, iż:

Arkadiusz Pulikowski napisał/a:
W DjVu na dobry OCR nie ma co liczyć.

Widać tutaj brak zrozumienia istoty problemu.

Grzegorz Bednarek także poruszył to w swej odpowiedzi:

Grzegorz Bednarek napisał/a:
Kwestia OCR nie ma nic wspólnego z formatem plików DjVu, czy też nie jest cechą mu znamienną.

To samo tyczy się przeglądarek: uważam, że problem nie jest błahy, wymaga natomiast przeformułowania.

Odnośnie wyższości jednego formatu nad drugim: w ciągu mojej praktyki w zawodzie (dość długo to nie jest, ale podejrzewam, że wystarczy) dostrzegłem brak zrozumienia istoty problemu u wielu ludzi na stanowiskach, którzy powinni takie rzeczy dostrzegać. Tak naprawdę nie można globalnie stawiać DjVu na równi z PDF, ponieważ są to formaty do różnych zastosowań. Wprawdzie część zastosowań się pokrywa, ale występują pewne istotne różnice, związane z przeznaczeniem obu formatów, które warto znać, ponieważ z ich nieznajomości wynika wiele błędnych koncepcji. PDF nie jest w stanie zastąpić DjVu we wszystkich zastosowaniach i odwrotnie. Dobrze jest więc używać DjVu do tego, do czego nadaje się najlepiej i PDF do tego, do czego nadaje się najlepiej. W bibliotekach cyfrowych głównie występują materiały zdigitalizowane, które są w stanie pośrednim bitmapami, a w stanie docelowym nadal pozostają bitmapami z opcjonalnie dołączonym wynikiem rozpoznania tekstu. Do tego celu mixed raster content (w tym przypadku DjVu, gdzie takie odzwierciedlenie jest podstawowe i zoptymalizowane) jest optymalną formą zapisu. Materiały pochodzące ze składu cyfrowego mogą zostać w PDF (który głównie powinien być wykorzystywany w celu wykonania wydruku, jako następca postscriptu) i o ile nie zajmują wiele miejsca oraz są porządnie wykonane (tak, zrobienie porzadnego PDF-a jest trudniejsze niż zrobienie porządnego DjVu) mogą tak iść do sieci. Sporządzanie dokumentów DjVu w celu wydrukowania materiału jest tak samo nietrafionym pomysłem jak wykorzystywanie PDF do prezentacji zdigitalizowanych dokumentów na ekranie. Obie te rzeczy da się zrobić, jednak sensowność takiego działania jest wątpliwa. Mówiąc metaforycznie w obu tych przypadkach dostajemy protezę organu zamiast organu: działa i zadowala, ale nie o taki efekt nam od strony poprawności działania idzie. Mixed raster content wystepuje także w PDF, jednakże kwestie skuteczności wykorzystanych kompresji, a także niedoskonałość narzędzi, znacznie tworzenie poprawnych dokumentów utrudnia.

Celowo nie przytaczam wielkości pliku wynikowego jako głównego argumentu w dyskusji, gdyż jest to mniej istotne. Wiadomo, że DjVu lepszymi kompresjami dysponuje, i nawet we współczesnych realiach sieciowych przewagę w dziedzinie jakości i kompresji mieć będzie, o ile się materiał ściskać będzie bardzo. Gdy się tego nie czyni, różnice te nie są aż tak widoczne. Jedno tylko dodam: ściskać trzeba umieć — zgadzam się z Grzegorzem, że to sztuka.

Remigiusz Lis napisał/a:
Stosowanie DjVu jest powszechne ze względu na jego małość, a także bardzo elastyczny (przy b. wyrafinowanym kompresorze) dobór parametrów kompresji.


Pomijając więc małość, jako dla niniejszej dyskusji sprawę drugorzędną, przytaczam tutaj tezę o elastyczności narzędzia do tworzenia DjVu przeznaczonego. Tak, w Document Express da się cokolwiek ustawiać. Nawet da się wiele ustawiać. Jeżeli przyjrzeć się narzędziom do tworzenia PDF lub nawet przytoczonej przez Arkadiusza Pulikowskiego jedenastej wersji FineReadera, która eksport DjVu ma: widzimy, że możliwości kontroli nad finalną formą dokumentu są znikome. Przykre jest to, że grono, które to widzi i uważa te sprawy za istotne, wciąż jest nieliczne.

Wracając do wieloformatowości. Ma to dobre strony i jak najbardziej funkcja taka jest warta zaimplementowania. Natomiast wziąwszy pod uwagę kwestie ekonomiczne można stwierdzić, iż taka nadmiarowość nie jest zawsze dobrym rozwiązaniem. Dlatego postuluję o zapewnienie wsparcia dla dokumentów niezależnie od formatu, niekoniecznie o nastawienie produkcji na zapewnienie dokumentów w formacie do wyboru (rozwijajmy się zamiast wciąż obchodzić sens i ogólną logikę, by łatać dziury). Jeżeli tak naprawdę myślimy o czytelnikach, to powinniśmy takie rzeczy zapewnić oraz uczyć ich samodzielności i podstawowych umiejętności, koniecznych do działania w cyfrowej rzeczywistości. Zamiast konwertować DjVu do PDF zapewnijmy takie wsparcie, aby format stał się mniej istotny (ponieważ jeżeli spojrzeć na to od strony teoretycznej — mniej istotny jest).

Myślę, że w powyższych zdaniach istotę sprawy przedstawiłem. A teraz pozostałe komentarze szczegółów postów (czyli to, co Tomek Kalota lubi najbardziej):


Arkadiusz Pulikowski napisał/a:
Obecnie przestają być zasadne argumenty sprzed około 10 lat, które wymuszały użycie djvu jako optymalnego formatu prezentacyjnego.

Argumenty te nie przestały być zasadne. Jedynie szczegóły oraz proporcje się zmieniły, zasada została ta sama. Użycie danego formatu (w tym przypadku DjVu) wynika ze specyfiki materiału, który jest konwertowany. To jest cecha nadrzędna. Przyzwyczajenia użytkowników nie mają tu nic do rzeczy.

Arkadiusz Pulikowski napisał/a:
Ten format zatrzymał się w rozwoju.

Nie zatrzymał się w rozwoju, lecz został dokończony i domknięty, ponieważ spełnia cele, dla których został stworzony. Nie jest jednak wykluczony dalszy rozwój w pewnych aspektach: raczej jedynie drobne korekty, rewolucji w tej dziedzinie nie będzie. Czym innym jest rozwój oprogramowania do przeglądania i konwersji. Tu na spory rozwój liczymy. Obecna kompletność formatu jest jego przewagą w stosunku do PDF, który obrasta w rzeczy całkowicie nieprzydatne w zakresie digitalizacji.

Arkadiusz Pulikowski napisał/a:
Pliki pdf z warstwą grafiki i tekstu zajmują porównywalną przestrzeń dyskową co djvu.

Często spotykam się z poruszaniem kwestii rozmiaru jako jedynego argumentu za DjVu. Przykre jest, że mało kto patrzy do środka i dostrzega, co tam faktycznie jest i jakiej to jest jakości.

Arkadiusz Pulikowski napisał/a:
jestem pewien, że większość użytkowników wolałaby poczekać chwilę na pdfa, niż męczyć się z djvu.

[lekko przekornie] jestem niemalże pewien, że jeżeli ma pan jakąkolwiek styczność z cyfrowymi materiałami wideo, to nie ma pan dziś najmniejszego problemu z plikami .mp4 oraz .mkv i nie twierdzi pan, że .avi to najlepszy i jedynie najłatwiejszy w obsłudze kontener. Świat w innych dziedzinach się rozwija: nie hamujmy naszej. A użytkowników edukujmy, nie zatrzymujmy w rozwoju.

Arkadiusz Pulikowski napisał/a:
Dodam jeszcze, że pliki konwertowane z djvu do pdf zajmują mniej miejsca niż plik wejściowy.

No jeśli się weźmie obraz uposzczony i go jeszcze raz uprości, to czego innego nie można się spodziewać.

Grzegorz Bednarek napisał/a:
Można też […] postulować, by po dołączeniu do dLibry równoległych formatów znowu witać formaty plików, z którymi się rozstaliśmy i nowymi, które się pojawiły

Wprowadzanie nowych formatów jest nieuniknione. Ze starymi jest to trochę mniej oczywista rzecz. Ja jestem generalnie za wsparciem dla wszystkiego, ale nie wszystko ma sens tworzyć. Nie wyobrażam sobie publikowania dokumentów jako obrazy PCX, ponieważ jest to niemal zupełnie bezsensowne (aczkolwiek możliwe). Jeżeli ktoś natomiast faktycznie chciałby to zrobić i miałby jakieś porządne uzasadnienie, to jak najbardziej mozna by było to wprowadzić i promować.

Grzegorz Bednarek napisał/a:
publikacje w formacie pdf roznosiły konia trojańskiego

Ten argument jest dobry do podniesienia kwestii tego, co właściwie pliki w tych formatach mają w środku i jak to jest poukładane. Jeśli się ktoś w to zagłębiał, to wie, że DjVu naprawdę proste jest i przejrzyste, co się wiąże z tym, że raczej nie ma, nie było i nie będzie w zakresie przez Grzegorza przytoczonym żadnych niemiłych niespodzianek. Zresztą wystarczy spojrzeć na typ MIME dla wspomnianych formatów, coś z tego wynika, czyż nie?

Grzegorz Bednarek napisał/a:
coraz częściej w bibliotekach powstaje OCR dla publikacji w formacie djvu (a i pdf również) w oparciu o analizę graficzną lub analizę graficzno-logiczną digitalizowanych stron

Obawiam się, że coraz częściej niestety nie oznacza często. Ale jak najbardziej tędy droga. Przyjdzie taki moment, kiedy ogół producentów bibliotek cyfrowych zrozumie, że wykonany przez nich do tej pory OCR powinien zostać poprawiony lub wykonany ponownie i poprawiony. Podejrzewam nawet, że niektórzy już o tym wiedzą, myślą jak to ugryźć i się przygotowują, a nawet już działają. To jest jedno z najważniejszych wyzwań najbliższej przyszłości i powinnismy, jako środowisko fachowe, się za to zabrać porządnie (co nie znaczy, że szybko i że już). Póki co, róbmy obrazki porządnie.

Grzegorz Bednarek napisał/a:
Zawartość digitalizowanych stron różni się tak bardzo względem siebie (tekst, zdjęcia, drzeworyty, grafiki, tabele, szpalty, stopki, ozdobne okładziny, wykroje, ...), że można za dogmat przyjąć tezę, iż nigdy nie powstanie aplikacja, w której będzie przycisk dla każdego digitalizowanego obiektu : "Zrób automatem ładnie".

Jest to bardzo piekne wyrażenie najbardziej oczywistego zagadnienia w naszym świecie fachowym. Ja tylko dodam, że tym się różni fachowiec od przeciętnego człowieka, że nie oczekuje nigdy funkcji "Zrób automatem ładnie", oczekuje natomiast możliwości zaawansowanej konfiguracji.

Grzegorz Bednarek napisał/a:
Mi bardo podobał się Adobe Reader 7. Katastrofą jest Adobe Reader 9 i 10.

Wsparcie dla PDF w zakresie wyświetlania dokumentów wcale nie jest dobre. Jeżeli ktoś jest w tym aspekcie całkowicie zadowolony, to naprawde mało potrzebuje.

Grzegorz Bednarek napisał/a:
Porównywalnym okazał się pdf, ale względem jpg.

No, a co to jest PDF w przypadku dokumentów zdigitalizowanych? Przecie JPEG w kontenerku.

Grzegorz Bednarek napisał/a:
Co do kompresora LURA, to przede wszystkim dla tego zastosowania format pdf jest jedynie "opakowaniem" i nic więcej.

Można do pedeefa warstwowany kontent pakować, ale na razie nie ma po co. Obecne przeglądarki zalet warstwowości nie wykorzystują, a segmenter (nawet ten od Lury) nie jest nawet zbliżony skutecznością do Document Express. Nie jest to kwestia formatu. Mam nadzieję, że kiedyś naprawde różnice pomiędzy MRC w DjVu a MRC w PDF się zniwelują i będzie można tych formatów używac wymiennie, na razie tak nie jest. Ciężko krew z kamienia toczyć, niemniej zachęcam do prób i rozwoju.

Grzegorz Bednarek napisał/a:
A może w próbie oceny przydatności dla polskich BC tego lub innego formatu plików podjąć dyskusję nie nad tym, czy przeglądarka jest śliczna, czy siermiężna, tylko jaką funkcjonalnością charakteryzuje się format plików, który zaakceptuje dana biblioteka?

Niestety zapewne oprócz nas dwóch oraz kilknastu może osób, które się tak naprawdę przejmuja, reszta towarzystwa inne priorytety ma i dalej pragną łyżką kopać doły, gwoździe wbijać czołgiem, napracować się co niemiara, wiele wydać kasy i żyć w błogiej świadomości, że zrobili dobrze.

Grzegorz Bednarek napisał/a:
czasami strona obiektu posiada plamkę

Grzegorzu, działalność propagandowo-informacyjna jak zwykle zacna. Być może niekoniecznie aż w takiej obszerności do tej dyskusji jest potrzebna, ale dobrze, że tłumaczysz o co idzie. Obserwuję podczas mojej działalności, że świadomość społeczna w tym zakresie jest znikoma, i że ludzie na przyzwyczajeniach w znacznej mierze bazują. Może teraz czas, aby pewne niedostatki informacyjno-edukacyjne uzupełnić i w efekcie coś pożytecznego zgromadzić oraz wytworzyć.

Arkadiusz Pulikowski napisał/a:
Nawet gdyby w dLibrze była dostępna możliwość publikowania w kilku formatach, to i tak nie wszystkie biblioteki cyfrowe chciałyby generować dokumenty w kilku wariantach

Oczywiście, że nie chciałyby — to dodatkowy koszt. Lepiej zróbmy jeden dokument, ale porządnie i się postarajmy, aby użytkownik go mógł otworzyć (ale mądrze, a nie przez robienie wszystkiego w PDF, bo to nie zawsze dobre rozwiązanie).

Arkadiusz Pulikowski napisał/a:
Być może niektóre BC widząc, że większość użytkowników wybiera PDF (przypuszczenie), po pewnym czasie zrezygnowałaby i tak z djvu.

Tu jest właśnie problem: to nie użytkownicy powinni wybierać jaki format jest w bibliotece cyfrowej stosowany. Dostrzegam, że większość ludzi tworzących biblioteki cyfrowe się po prostu boi powyżej wpisaną opinię wyrazić. Powiem w skrócie jeszcze raz: fachowcy powinni dokumenty tworzyć; fachowcy powinni zadbać o sposoby ich serwowania użytkownikom; użytkownicy powinni korzystać. Jeżeli będziemy wywracać zdrowy rozsądek oraz obalać porzadek rzeczywistości, to daleko nie zajedziemy.


Arkadiusz Pulikowski napisał/a:
Co do objętości pdfów posłużę się przykładem:
http://bbc.uw.edu.pl/Content/588/PM_81.djvu
http://ibin.us.edu.pl/a/Folksonomie.pdf

Podanie jako przykład PDF-a wykonanego z DjVu, który został wykonany z PDF-a jest argumentacyjnie wątpliwe. Udowodnienie pańskiej tezy na podstawie przykładów, dla których kwestia jakości i kompresji w przypadku PDF oraz DjVu jest porównywalna (obiekty born-digital), w sposób, w który pan to uczynił (czyli nie wykorzystując jedynej realnej przewagi PDF nad DjVu w tym zakresie) jest trudne. Sprawa superhero.pdf tę kwestię cześciowo objaśnia.


Arkadiusz Pulikowski napisał/a:
Ciekaw jestem, ilu użytkowników nigdy nie zobaczyło publikacji w formacie djvu, tylko dlatego, że nie miało zainstalowanej javy, albo zobaczyli komunikaty, których nie rozumieli.

Zapewne podobna ilość do gromady użytkowników, którzy ten sam kłopot mieli 10 lat temu z pedeefami.

Arkadiusz Pulikowski napisał/a:
Odnośnie możliwości wyświetlania poszczególnych warstw dla formatu djvu, to interfejs dostępny w większości bibliotek cyfrowych nie daje takiej możliwości. Trzeba zapisać plik na dysku, otworzyć go zainstalowanym wcześniej czytnikiem, a na koniec trzeba jeszcze wiedzieć, że można wyświetlać dokument w osobnych warstwach (by z menu wybrać odpowiednią opcję). Dla PDFa można zrobić to samo generując dwa osobne pliki (gdyby dLibra tylko potrafiła…) Jeden pokazujący dokument w oryginalnej postaci, drugi przygotowany do czytania (białe tło, zamiast żółtego, czarne litery zamiast brązowych, pominięte puste strony itd.). Dwie wersje dokumentu – jena wierna, a druga maksymalnie czytelna, to najlepsze rozwiązanie.

To zacytowałem w całości, ponieważ to jest dobry przykład nieświadomości możliwości wykorzystania serwowanych dokumentów oraz sugerowania rozwiązania o zbędnej redundancji jako najlepszego. Chęci może szczere, ale to po prostu do kogoś, kto te możliwości zna, nie przemawia. No i argument, który mnie bardzo do działalności apostolskiej prowokuje:

Arkadiusz Pulikowski napisał/a:
pominięte puste strony

Przepraszam bardzo za odniesienie pozamerytoryczne z mojej strony, ale kogoś, kto używa tego argumentu, nie mogę traktować jako osobę, która zajmuje się dokumentami poważnie.

Janusz S. Bień napisał/a:
Kompresja nie jest jedyną zaletą DjVu. My stosujemy DjVu i będziemy nadal stosować z powodów, które przedstawiłem m.in. tutaj: http://bc.klf.uw.edu.pl/298/.

Dlatego, że jesteście państwo świadomi do czego taki sposób zapisu i konkretny format jest dobry i korzystacie z tego w sposób odpowiedni. I takie podejście na wszelkie znane mi sposoby chwalę.

Janusz S. Bień napisał/a:
Oczywiście nie ma potrzeby, aby DjVu było stosowane absolutnie do wszystkiego

Dokładnie. Wystarczy, że będzie stosowane do tego, do czego najlepiej się nadaje. Zresztą nak naprawdę każdy przypadek jest indywidualny i od wielu czynników zależy. Mam nadzieję, że zdrowy rozsądek w działaniu wystąpi u każdego działającego.

Janusz S. Bień napisał/a:
Ponieważ nasi użytkownicy mieli problemy z instalowaniem wtyczki pod Windows, a wtyczki Linuksowe okresowo nie działaja , przygotowaliśmy własną wyspecjalizowaną przeglądarkę https://bitbucket.org/mrudolf/djview-poliqarp (jak wskazuje nazwa, fork djview).

A to mogę podać jako przykład właściwego wyjścia na przeciw potrzebom użytkowników. Tak trzeba działać: pomagać i tworzyć zamiast limitować.

Grzegorz Bednarek napisał/a:
Pozostawmy też kwestię tego, czy wspierać prace rozwojowe nad wieloformatowością dLibry, czy proponować, by je zarzucić.

Jak najbardziej trzeba wspierać. Możliwość taka jest potrzebna, natomiast czy będzie wykorzystywana i w jakim stopniu, zależy od indywidualnych instytucji. W każdym razie gdy zgłaszałem także ten problem do PCSS-u, szło mi o możliwość podpięcia dwóch wariantów dokumentu do jednego opisu: niekoniecznie w różnych formatach, po prostu generalnie. Wieloformatowość się w tym zawiera.

Grzegorz Bednarek napisał/a:
Cóż, świat software'u należy do świata pieniądza i może tu należy upatrywać braku indeksowania wprost tekstu zawartego w plikach w formacie DjVu.

Najprawdopodobniej tak jest. Dlatego w wielu wypadkach musimy działać sami. Uważam, że wiele zdziałać możemy.

Grzegorz Bednarek napisał/a:
OCR dla plików powstałych ze skanów zbiorów bibliotecznych

Właśnie to zagadnienie wymaga dalszych rozważań. Podkreślę, że wykonanie tego zadania jest znacznie bardziej skomplikowane niż dla innych rodzajów dokumentów. W tym momencie, przy obecnej organizacji procesów digitalizacyjnych w bibliotekach, nie jesteśmy w stanie zrobić tego dobrze. Powinniśmy się więc skupić na tym, co możemy dobrze wykonać, czyli na robieniu porzadnych obrazów. OCR zrobimy lepiej w późniejszym czasie.

Grzegorz Bednarek napisał/a:
Gdy 20-ty raz czytam, że DjVu jest zły, bo trzeba wiedzieć, że aby zapoznawać się plikami DjVu "konieczna jest aż" instalacja jego przeglądarki, to wiem, ze w kolejnym zdaniu dowiem się, ze pdf jest z kolei cudowny, bo ... trzeba wiedzieć, że aby zapoznawać się plikami pdf "konieczna jest zaledwie" instalacja jego przeglądarki.

Ten problem nie zniknie, dopóki nie doczekamy się natywnego wsparcia dla stronicowanych dokumentów w przeglądarkach internetowych. Natomiast Grzegorz ma rację. Dokładnie ten sam problem opisywałem w zacytowanym wyżej temacie na QA PCSS-u. Ignorancja użytkowników w tym zakresie jest dla nas frustrująca.


Arkadiusz Pulikowski napisał/a:
Chciałem zwrócić uwagę na to, że do bardzo wielu dokumentów można obecnie wykorzystywać format PDF, może nawet do większości. Pisałem to daltego, że mam wrażenie, że PDF jako alternatywa jest nieobecny w dyskusji o BC.

Można, lecz nie ma to sensu. O tym właściwie cała ta dyskusja jest. Ja się staram unaoczniać, że PDF w przypadku dokumentów zdigitalizowanych nie jest alternatywą, jest jedynie protezą. Wykorzystujmy PDF do tego, do czego dobrze się nadaje — dobrze to wyraża następne pańskie zdanie:

Arkadiusz Pulikowski napisał/a:
PDF poza dokumentami "digital-born" jest nieobecny.

I nie ma sensu, aby był obecny — mamy do tego celu lepsze rozwiązania.

Arkadiusz Pulikowski napisał/a:
Pisałem też kilkukrotnie, że najlepszym rozwiązaniem byłoby pozostawienie wyboru użytkownikowi

Ze strony poprawności politycznej zapewne tak, ale przypominam, iż to nie użytkownicy biblioteki cyfrowe tworzą i nie oni powinni mieć decydujące zdanie. Poza złudnym poczuciem komfortu użytkownika, wynikającym z kilku literek w nazwie pliku, istnieje wiele aspektów tworzenia publikacji cyfrowych, które są ważne dla ich producentów (w tym wypadku bibliotek): nie powinny one być ignorowane.

Arkadiusz Pulikowski napisał/a:
zgadzam się z tym, że dla starodruków, rękopisów, map w dużych rozmiarach i innych tego typu dokumentów format DjVu jest optymalny. Jednak te dokumenty stanowią margines tego co się digitalizuje. O nich zupełnie nie myślałem, bo oczywiste jest dla mnie, że tego typu obiekty w formacie PDF są zazwyczaj całkiem niekpraktyczne.

Do wymienionych przez pana typów dokumentów DjVu jest jedynie dobry; optymalny jest dla dokumentów zdigitalizowanych, zawierających tekst. Dobrze jednak, że zauważa pan wreszcie pewne zjawiska. Większość digitalizowanych obecnie zbiorów stanowią stare czasopisma, dla których użycie PDF jest zazwyczaj całkiem niepraktyczne.

Grzegorz Bednarek napisał/a:
polecam przemyślenia Bartka Siedlarza, które przytoczyłem powyżej. Są po prostu doskonałe

Dziękuję za opinię na temat mych przemyśleń, a także za cytaty. Ja w doskonałości nie wierzę, po prostu staram się tematy ujmować trafnie. Mam nadzieję, że me wywody na coś się komuś przydadzą, a szczególnie, że razem uda się nam zrobić coś dobrego.
 
     
A.Pulikowski

Dołączył: 30 Wrz 2009
Posty: 10
Poziom: 2
HP: 0/30
 0%
MP: 14/14
 100%
EXP: 0/8
 0%
Wysłany: 2013-02-19, 18:05   

Pana komentarze nie tylko sprawiają wrażenie, ale są niemiłe. Skoro zakłada Pan to na wstępie, to znaczy, że nie chce Pan dyskutować, tylko się przemądrzać. Robi Pan to doskonale czepiając się czego się tylko da, nawet moich wypowiedzi sprzed 3 lat (z nieco innej rzeczywistości). Nie dziwię się, że nie zauważył Pan atakującego tonu Grzegorza Bednarka. Po prostu obaj Panowie piszecie podobnie.

Biblioteki cyfrowe są dla użytkowników. To oni, a nie Pan powinni decydować, o tym czego im potrzeba. W Polsce użytkownik został zmuszony do korzystania z jedynego słusznego formatu i tak już pewnie zostanie. Smutne i gorzkie jest Pana stwierdzenie, że to nie użytkownicy powinni decydować o tym czy jest im potrzebny jeden, czy więcej formatów. Pan wie najlepiej. Proszę jednak pamiętać, że użytkownicy są z Wami bo muszą, nie mają innego wyjścia. Frustruje Pana ignorancja użytkowników, a użytkowników frustruje format djvu i brak jakiejkolwiek alternatywy. Jakoś wszyscy będą musieli dalej żyć z tymi frustracjami. Jedni znosząc dyktat, drudzy niekompetencje użytkowników. A świat w tym czasie pójdzie do przodu…

Może dla Pana pusta strona jest ważna, ale dla większości użytkowników nie. Dlatego postulowałem dwie postaci dokumentu – wierną (dla historyków) i maksymalnie czytelną dla pozostałych, dla których liczy się treść. Oczywiście wyrwał Pan to z kontekstu pokazując, jaki to jestem niepoważny. To Pan jest niepoważny manipulując w ten sposób moją wypowiedzią.

Napisałem swój post po ponad 3 latach i znów żałuję. Następnego razu nie będzie. Już wiem na pewno, że nie warto.
 
     
Grzegorz B. 
Grzesiek

Wiek: 54
Dołączył: 23 Lis 2007
Posty: 44
Skąd: Zabrze
Poziom: 5
HP: 0/81
 0%
MP: 38/38
 100%
EXP: 6/13
 46%
Wysłany: 2013-02-19, 22:23   

Dobrze, że dyskusja jest kontynuowana, dobrze, że pojawił się kolejny głos. To, czy w ślad za apelem Bartka (a właściwie poprawię się - p. Bartłomieja), by Pan pozostał pomimo wszystko, czy też z wewnętrznej Pana potrzeby, istotnym chyba nie jest. Dyskusja jest trudna. I dobrze. Te, w których wszyscy ze wszystkimi się zgadzają, powiedzmy to w uproszczeniu - są często nudne i niewiele nowatorskich myśli wnoszące. Widzę, że lubi Pan łatki przypinać nie tylko przeglądarkom ale i forumowiczom. Postuluję, by móc się "pięknie różnić", aby odpuścił Pan sobie argumenty ad personam i nie stosował dla przykładu czasowników typu "przemądrzać" oraz przymiotników "niepoważny", bo przynajmniej na tym forum - jak sądzę - nie jest to oczekiwane. I nie podzielam też Pana opinii, że p. Bartek założył we wstępie, że będzie nieuprzejmy lub niemiły. Ja, odebrałem to w taki sposób (może - jeżeli Pan pozwoli - na wesoło) : "oj, chłopcy, piszecie i piszecie, ale zbyt często nie zgadza się to z moimi doświadczeniami, moją wiedzą, wiedzą osób trzecich, ... więc zabiorę głos, który niejednokrotnie będzie głosem wyraźnego sprzeciwu. Zatem, to nie jest "założenie" a "zapowiedź" i to postawiona jasno i prosto. Zapowiedź opinii krytycznych, i tyle. Przecież erystyka jest sztuką, dlaczego więc odmawiać prawa p. Bartkowi do korzystania z niej? Mam nadzieję, ze podobnie jak ja, nie wnosi Pan już do takiej interpretacji sprzeciwu.
Informuje Pan forumowiczów, że "świat w tym czasie pójdzie do przodu". Zapewniam Pana, że jeżeli digitalizacja będzie zbaczać w takim kierunku w jakim zbaczają Pana opinie, to jednak nie pójdzie. Ten świat, oczywiście.
Digitalizacja jest zagadnieniem, w którym przeplatają się dwa światy. Świat "ludzi słów" (humaniści) i świat "ludzi liczb" (tacy wariaci, którzy ukochali sobie liczby i algorytmy). Brak jednego z tych światów skazuje digitalizację na porażkę. I to jest moja, a być może nie tylko moja opinia. Proszę zatem się nie dziwić, że osoba, która na swoim prywatnym "liczniku zdigitalizowanych stron" posiada wartość co najmniej 7 cyfrową wyraża się precyzyjnie, wskazuje pewne luki i - co bardzo miłe - często przypomina o wzajemnym wspieraniu się i pomaganiu, a nie o permanentnym dezawuowaniu. Gdyby nikomu już nie zależało na jakości ratowanego dziedzictwa kulturowego, Pana wątek nadal posiadałby zero odpowiedzi, no, może jedną, ponieważ w imieniu p. prof. Bienia wypowiadać się nie powinienem. Proszę chociaż sobie odpowiedzieć, w jaki sposób chciałby Pan odkrywać sposoby, których Pan poszukuje np. w kierunku otrzymywania ciekawych jakością plików pdf? Potrzebne są Panu narzędzia, optymalnie dobrane parametry (LICZBOWE), precyzynie wykonywane czynności elementarne, działające serwery, stacje robocze, odpowiednio określone uprawnienia i 1000 pomniejszych "duperelek pochodzenia cyfrowego". Efektywność w zaspokajaniu potrzeb określonych przez bibliotekarza, a dotyczących digitalizacji, należy powierzyć ludziom ze świata liczb. Zatem ich odpowiedzi (zbieżne czy też przeczące Pana obserwacjom, powinny Pana hm ... może cieszyć, ale na pewno nie oburzać).
Od wpisu, w którym - redukując ilość własnych i subiektywnych opinii - przytoczyłem wypowiedź Pana Isaacsa, głównego inżyniera z korporacji Adobe (o tym, że nigdy pdf nie będzie lepszy niż źródło, z którego on powstał) oraz wnioski Pana Bottou, ocenił Pan ton moich opinii jako atakujący. Pana osobę, albo format plików pdf, dokładnie nie wiem. OK, niech będzie, że "za złe nowiny - od dziś - należy winić posłańca" (czy też przytaczającego czyjeś wypowiedzi). Czemu nie. Porzekadła i aforyzmy też mogą się z czasem zmieniać. Ale teraz, może powróćmy już na tory normalności, cokolwiek by to nie oznaczało, by móc to i owo omawiać na jako takim, ale przyzwoitym poziomie.
Zanim zaczniemy - jeżeli oczywiście moja powyższa propozycja Panu odpowiada - chciałbym skorygować, czy też odnieść się do Pana takiej oto opinii:
Cytat:
Po prostu obaj Panowie piszecie podobnie.

Równoważnikiem takiej wypowiedzi jest stanowisko : "To Pan pisze odmiennie" Ot i wot, prosta zasada logiki zaprzeczenia zdania prostego. Proponuję może bardziej neutralne sformułowanie : "Każdy z uczestników dyskusji wyraża własne opinie". A to, że dużą zbieżnością charakteryzują się wypowiedzi p. Bartka i moje - zgadzam się, ponieważ z każdym wpisem zapoznałem się dokładnie, więc tak mógłbym to ocenić. OK, a teraz podsumowując powyższe chciałbym to ując trzema słowy "zróbmy sobie reset".

To jest za trudne. Powiem więcej, to może okazać się niemożliwe:
Cytat:
Biblioteki cyfrowe są dla użytkowników. To oni, a nie Pan powinni decydować, o tym czego im potrzeba. W Polsce użytkownik został zmuszony do korzystania z jedynego słusznego formatu i tak już pewnie zostanie.

Spróbuję delikatnie, przez porównanie. Pozwolę sobie bibliotekarza porównać do producenta obiektów cyfrowych, czytelnika zaś, do konsumenta takich obiektów. OK? Producent produkuje, konsument konsumuje.
I teraz, proszę założyć np. że nie podoba mi się etylina E95 oraz E98. Ja chciałbym kupować na stacjach PKN E94 i E107. Jestem konsumentem, więc ja uzurpuję sobie prawo do narzucenia producentowi sposobu w jaki on ma prowadzić proces produkcyjny. Mogę nawet to żądanie skierować do prezesa PKN Orlen. Jaki to da wynik? Złośliwy czytelnik napisałby mi "zafundują ci 2 miesiące w Tworkach celem odzyskania równowagi". Dlaczego ? Ano dlatego, że każdy proces technologiczny jest złożony, skomplikowany i nie może być tak, że to konsument określa jego kształt. Owszem, mogę mieć pewien wpływ pośredni na drobiazgi i mogę sobie np. zamówić samochód nie czerwony a fioletowy w złote gwiazdki, ale będzie to nadal pewien określony samochód a właściwie jakiś model spośród dostępnych w katalogu.
Jeżeli ładnie wykonany rękopis potrafi w formacie pdf zajmować 8 razy większą przestrzeń niż DjVu, to przygotowanie w polskich BC danej publikacji w formatach DjVu oraz pdf pochłonie - nie jeden dysk pełen plików DjVu - ale 9 dysków (1 dla DjVu oraz 8 dysków dla pdf). I tu postrzegam pierwszą trudność, od której zacząłem. Jeżeli archiwum plików prezentacyjnych w bibliotece złożone jest z n dysków pełnych plików DjVu to skąd biblioteki mogą pozyskać środki na dodatkowe 8*n dysków? Mogą, w ślad za Pana sugestią - załóżmy co nieco pościskać i zapisać z niższą jakością cały materiał nie na 8*n, ale może na 6*n dyskach. Pytanie powróci, skąd środki na 6*n dysków?
Nawet jeżeli takie środki się znajdą, to i tak nie wierzę, że nie ma w bibliotekach bardziej istotnych rzeczy do zakupienia. Proszę też zauważyć, że niektóre obiekty nie tylko należy zdigitalizować ale i podjąć działania, by przywrócić im możliwie wysoki lub jakikolwiek poziom czytelności (i w takim przypadku żadne sztuczki - lub wiedza - z kompresją nie będą pomocnymi lecz sabotującymi pracę). Czytelność obiektów nie przywraca się nadmierną kompresją, lecz przykładowo precyzyjną segmentacją (może to niegrzeczne, ale polecam moje - przytoczone wcześniej - 3 przykłady).

Zatem, poza czynnikiem ekonomicznym, poza czynnikiem koniecznego zachowania odpowiedniej jakości, należy zastanowić się co dalej musi być spełnione, by proces digitalizacji nie był "zamkiem na piasku" (choć odpowiadającym oczekiwaniom tylu a tylu czytelników), lecz procesem, który można kontrolować, optymalizować, czy wreszcie wykonać w ogóle. Może Pan jeszcze raz zerknąć na przytoczone linki Tomka Kaloty, moją poprzednią spekulację (Codex...), może Pan zerknąć we własną prezentację, może Pan zapytać Waszego administratora, czy Wasz serwer wytrzyma 800% większe obciążenie "bez bólu", czy tez inaczej i wtedy, zbierze Pan wnioski ... i powoli pojawią się warunki brzegowe, poza które wykroczyć NIE WOLNO. A czy będzie to zbieżne z marzeniami czytelników, istotnym już nie będzie, bo to między innymi Pana wkład w dyskusję określi to, "że są takie granice, których przekraczać nie wolno" (to o digitalizacji oczywiście).

Życzę miłego wieczoru,
Grzegorz
_________________
"Wszystko jest trudne do czasu, gdy stanie się proste"
 
     
Tomasz Kalota 
Tomasz Kalota


Wiek: 45
Dołączył: 13 Lut 2007
Posty: 322
Skąd: Wrocław
Poziom: 16
HP: 0/556
 0%
MP: 265/265
 100%
EXP: 30/39
 76%
Wysłany: 2013-02-20, 10:42   Re: Kilka spraw do rozważenia

A.Pulikowski napisał/a:
Witam po długiej przerwie.

Uzbierało się kilka spraw, którymi chciałbym się z Państwem podzielić. (...)

Witaj Arkadiusz :-)

Czytając tą dyskusję mam wrażenie, że przeprowadziłeś bardzo skuteczną operację zwiększająca widoczność zasobów cyfrowych. Wbijając kij w mrowisko sprowokowałeś do dyskusji jakiej od dawna już na tym forum nie było :-) . Dlatego zachęcam do zweryfikowania Twojego stanowiska w kwestii nie wypowiadania się tu więcej.

W kwestii formatów to wbiję jeszcze ze dwa kije które może sprowokują do dalszej wymiany poglądów, które uważam w znacznej większości za merytoryczne. Nawet te emocjonalne mają zabarwienie merytoryczne bo wyraźnie pokazują że problem istnieje.

Co do tych dwóch kijów formatowych to podam jeszcze dwa przykłady żeby uzupełnić ten który został już tutaj przytoczony.

1. Próbki pokazania dokładnie tej samej publikacji w dwóch formatach - http://www.bibliotekacyfr...?id=17560&tab=3

2. Przykład wspołczesnie wydanej publikacji elektronicznej - http://www.bibliotekacyfrowa.pl/publication/38617

W pierwszym chciałem zwrócić uwagę na szybkość i jakość publikacji (DjVu uważam za lepsze), ale też na to co Arkadiusz wspomniał w kwestii OCR (DjVu nie daje rady w porównaniu z PDF). W plikach DjVu nie ma wątków tylko pojedyncze wiersze co w przypadku oglądania publikacji hybrydowej jest mało istotne ale jakbyśmy chcieli to wyeksportować do ePUB czy zapuścić syntezator mowy to już nie jest zbyt wygodnie.

W drugim przypadku chciałem pokazać jak można wykorzystać zakładki do przygotowania systemu nawigacji po publikacji grupowej, co stwarza możliwość zachowania kontekstu całej publikacji w przypadku pojedynczych artykułów, które mimo scalenia mogą być osobnymi bytami. Ten zabieg ma na celu zwiększenie widoczności publikacji.

Na razie zostawiam to w postaci dwóch kijów w mrowisku bez szerszego komentarza ;-) .

Chciałbym natomiast sprowokować też do dalszej dyskusji na temat zasygnalizowany przez Arkadiusza bo myślę że jest bardzo ważny:

A.Pulikowski napisał/a:
(...)
Zacznę od prezentacji, którą przygotowałem na konferencję Zarządzanie informacją w nauce (28-29.11.2012). Dotyczy ona widoczności publikacji naukowych w Internecie. Dostępna jest tutaj: http://www.ptin.org.pl/ko.../Pulikowski.pdf
choć, jak można przeczytać, nie jest to najlepsze miejsce do składowania :) W zamieszczonych tabelach T oznacza wyszukiwanie po fragmencie tytułu, a F po fragmencie z pełnego tekstu. Widoczność publikacji w bibliotekach cyfrowych wykorzystujących dLibrę jest istotna, gdyż coraz więcej dokumentów naukowych trafia do ich zasobów.
(...)

Ten temat mnie mocno interesuje w związku z ta prezentacją - http://jbc.bj.uj.edu.pl/publication/229589 i uważam że jest to dzisiaj jedno z istotniejszych zagadnień. W miarę jak produkcja cyfrowa będzie się w internecie zwiększać coraz trudniej będzie pozyskać uwagę czytelników i w z związku z tym wypracowanie metod na zwiększanie widoczności (pozycjonowanie) publikacji jest wyzwaniem dla współczesnych bibliotekarzy.
_________________
Myśl więziona w księdze jest hańbą dla księgi.

Tomasz Kalota | Digitalizacja.pl | eBooki.com.pl
 
 
     
relis 


Wiek: 50
Dołączył: 13 Lut 2007
Posty: 790
Skąd: Biblioteka Śląska
Poziom: 25
HP: 29/1490
 2%
MP: 711/711
 100%
EXP: 24/73
 32%
Wysłany: 2013-02-20, 13:20   

Hmm, prawdę mówiąc nie wiem od czego zacząć. Przede wszystkim dziękuję A. Pulikowskiemu, że zrobił badania (to rzadkość). Potem wyciągnął wnioski (owszem, całkiem odważne) i coś zaproponował. W dodatku podzielił się.

Wyglądało na to, że dyskusja pójdzie np. w kierunku rozważania do jakich typów zbiorów warto zalecić adekwatne formaty, ewentualnie empirycznym kontrdowodem względem tezy, że PDF wielkościowo podobny do DjVu ... Po zapoznaniu (litości - nieraz skrótowym) z innymi wpisami (szczególnie z poetyką) gratuluję także odwagi badawczej. Przy okazji wydało się, że najwyraźniej powstał jakiś Kościół Najświętszego DjVu. Już ma swojego heretyka (który prowadzi młode bibliotekarskie owieczki na zatracenie). Nie jest jasne, kto jest papieżem, ale walka o prymat trwa. ;-)

Co do eksperymentów dalszych - chętnie udostępnimy zasoby skanów różnych zbiorów, by zobaczyć i poeksperymentować jak pracuje to w DjVu i PDF. Myślę, że tylko empiria tu ma sens i dalej jakieś wyważnie kiedy co stosować. DjVu to żaden dogmat, a jedynie narzędzie.

Natomiast jak w ogóle czytam artykuły, tudzież słucham wypowiedzi jak to zapewnić oglądalność publikacji, jak je pozycjonować, w jakich formatach etc. to wydaje mi się, że głównym ich źródłem jest wiedza wrodzona autorów. Nie jest tak? Z wyjątkiem jakichś nieśmiałych przyczynków, czy były jakieś użyteczne badania interefejsu i używalności publikacji? Podobno w świecie tak się robi, że sadza się laików (tak - "ignorantów") przed serwisem i poleca coś zrobić. Ich powodzenia i niepowodzenia są podstawowymi przesłankami zmiany i rozwoju przedsięwzięcia. Co gorsza - podobno często się od takich badań na prototypie zaczyna serwis tworzyć :shock: . Że to kosztuje? No pewnie, ale czy produkowanie, używanie dość specyficznego formatu i wspieranie użytkowników jest za darmo?

Dobrze, pamiętam jedne badania, prezentowane przez PCSS na konferencji Polskie BC chyba w 2009 roku. http://lib.psnc.pl/dlibra/docmetadata?id=223
Interpretacja była taka, że jedynie ok. 30 użytkowników na 100 próbujących otworzyć publikację w BC ostatecznie to czyni. Całe 70% "ignorantów" odpada. Ok, teraz dLibra nieco inaczej otwiera publikacje, ale wówczas i tak spłynęło to po zebranych jak po impregnowanych fokach. Ale okazuje się, że można pójść dalej, mianowicie w kierunku:

Bartłomiej Siedlarz napisał/a:

"Ignorancja użytkowników w tym zakresie jest dla nas frustrująca."

Super, to użytkownicy nie dorastają do naszych dzieł. I wiele kwestii zostało załatwionych. I jak tanio.

Arkadiusz Pulikowski napisał/a:

Biblioteki cyfrowe są dla użytkowników. To oni, a nie Pan powinni decydować, o tym czego im potrzeba.


To ostatnie zdanie uważam za kluczowe nie tylko dla tej dyskusji, dla tego forum i dla BC. Inną rzeczą jest brak możliwości (finansowe, kompetencyjne, etc.) zrobienia czegoś w kierunku usprawnienia dostępu, a inną intencja, która może się zrealizować, gdy środki dopiszą.

Nie chcę wchodzić w dyskusję o wyższości jednego formatu nad drugim. Uważam to za trzeciorzędne, o ile nie przeszkadza, nie ogranicza i nie zniechęca użytkowników do korzystania z treści serwisu. W świecie są chyba zasoby cyfrowe prezentujące np. gazety nie oparte na DjVu? I inne zbiory też? I mają dobry OCR i pokazują się sprawnie w sieci? Być może nie stać nas na takie i może DjVu jedynie dostępne, ale czemu się zamykać na próby i eksperymenty? Jest mnóstwo innych typów zbiorów.

Ta analogia do etyliny E94 i E107 jest ciekawa, ale ławo ją odwrócić. Czy to nie jest przypadkiem tak, że o ile cały świat produkuje i wlewa E95 i E98 do aut na E95 i E98, my łatwo wykazując wyższości składu chemicznego receptur E94 i E107 proponujemy te specyfiki użytkownikom popularniejszych rozwiązań? A jak kwestionują, narzekają i nieustannie proszą o pomoc - no to cóż ...

Jak się przyjrzeć zbiorom BC u nas, to można się zgodzić że format DjVu jest nadużywany, szczególnie gdy równolegle nie śledzi się losów PDF, czy innych formatów. Mniejsza o powody, jest ich parę. Podobnie argument dot. możliwości rekonstrukcyjnych względem obrazów - przypuszczam, że możliwości DjVu, przy możliwościach klasycznych programów graficznych, są umiarkowane.

Dlatego też uważam, że rozważania o wyższości jednego formatu nad innym są problemem wtornym, a tak naprawdę chodzi o usability zasobów BC oraz o ich komunikacyjność (w tym indeksowanie). A to prowadzi m.in. do kwestii funkcjonalności platformy i możliwości jej obsługi różnych formatów. I tego zasadniczo dotyczył wpis "badawczy" A. Pulikowskiego jak go szerzej rozumiem. Ale czemu to ma kłopotać użytkowników? Wzmiankowana już wielokrotnie (od 2006 roku) wieloformatowość byłaby tu sprawdzonym rozwiązaniem.
_________________
Given enough eyeballs, all bugs are shallow.
ESR
It is not necessary to change; survival is not mandatory. ;-)
Edward Deming

http://relis-blog.blogspot.com
 
 
     
Bartłomiej Siedlarz 


Wiek: 34
Dołączył: 25 Lut 2008
Posty: 13
Skąd: Kraków
Poziom: 2
HP: 0/30
 0%
MP: 14/14
 100%
EXP: 3/8
 37%
Wysłany: 2013-02-20, 17:10   

Arkadiusz Pulikowski napisał/a:
Pana komentarze nie tylko sprawiają wrażenie, ale są niemiłe. Skoro zakłada Pan to na wstępie, to znaczy, że nie chce Pan dyskutować, tylko się przemądrzać.

Napisałem taki wstęp własnie po to, by uprzedzić tego typu konkluzję. Gdybym nie zaznaczył na wstępie tego, iż potencjalny ton wypowiedzi nie ma większego związku z mym podejściem do tematu, a szczególnie do osób się tym zajmujących, pańskie stwierdzenie byłoby słuszne. Jak najbardziej zachęcam do dyskusji i wspólnego działania, co w wielu miejscach mojego wywodu podkreśliłem. Dziękuję Grzegorzowi za obronę, bardzo to doceniam. Widzę także, że ma on zdolność do metaforycznego ujmowania wyjaśnień spraw, której mi brakuje — i dobrze, być może taki sposób przedstawiania rzeczy znacznie w zrozumieniu problemu dyskutantom pomoże.

Arkadiusz Pulikowski napisał/a:
Biblioteki cyfrowe są dla użytkowników. To oni, a nie Pan powinni decydować, o tym czego im potrzeba.

Bardzo dobrze oddaje to metafora paliwowa, przytoczona przez Grzegorza. Twórcy bibliotek cyfrowych nie decydują o tym, czego użytkownikom potrzeba — oni decydują o tym co i w jakiej postaci użytkownikom dać, a także jak doprowadzić do tego, aby w ogóle to wykonać. Nie jest to zadanie łatwe, szczególnie znając możliwości finansowe i organizacyjne instytucji digitalizujących. Nie wyraziłem w moim stwierdzeniu, że zdanie i preferencje użytkowników nie są ważne i nie są brane pod uwagę. Napisałem jedynie, że nie oni decyzję podejmują. To właśnie dlatego, że czasami w dyskusjach na profesjonalnym poziomie z braku sensownej argumentacji przywoływane są rozwiązania typu: nie umiemy podjąć decyzji, to spytajmy użytkowników jak to zrobić mamy. Dostrzegam, iż opinia użytkowników podnoszona bywa do rangi świętości. Staram się to odmityzować. Przerzucanie na użytkowników naszej odpowiedzialności mi się osobiście nie podoba — doprowadza do tego, że sami sobie krzywdę czynimy, a i na użytkownikach się to negatywnie odbija. Jak najbardziej zachęcam użytkowników do wypowiedzi w temacie, szczególnie do wyrażania potrzeb. Podkreślam, że my także jesteśmy użytkownikami i także z tych zasobów korzystamy.

Arkadiusz Pulikowski napisał/a:
Może dla Pana pusta strona jest ważna, ale dla większości użytkowników nie.

My, jako organizatorzy instytucji zarządzających dokumentami, dołączamy do grona drukarzy, wydawców, redaktorów i innych osób za formalną stronę dokumentów odpowiedzialnych. Czy czytelnicy nakazują drukarzom jak książki składać i drukować mają? Czy wywierają wpływ na barwę farby drukarskiej i papieru? Analogii do świata rzeczywistego w przypadku księgoznawstwa cyfrowego jest więcej. Smutne jest, że mało kto to widzi. Powinnismy zapewniać integralność formy dokumentu w rozsądnej postaci, szczególnie teraz, gdy zagadnienia formy w związku z pojawieniem się globalnej sieci i możliwości wydawniczych dla użytkowników, są redefiniowane. Moje tezy dotyczą głównie dokumentów zdigitalizowanych, czyli takich, które posiadają oryginał drukowany, zgodnie z wymogami formy sporządzony. Zachowanie formy jest istotne i naszą rolą jest to zapewnić. To, że zagadnienia poprawnościowo-formalno-jakościowe nie są dla użytkownika ważne (bo przecież on chce dokument najczęściej tylko przeczytać) jest najlepszym dowodem na to, iż to nie użytkownik powinien odpowiadać za formę dzieł w bibliotekach cyfrowych.

Jeżeli rozpatrzyć na niskim poziomie to, czego użytkownik prymarnie potrzebuje w zakresie publikacji cyfrowej, to tak naprawdę sprawa formatu jest drugorzędna. Użytkownik otrzymuje tak naprawdę obszar różnobarwnych punktów, wyświetlonych na ekranie. Czy źródłem będzie PDF, czy DjVu, czy cokolwiek innego, nie ma to większego znaczenia. Moim zdaniem ważne jest żeby użytkownik mógł z danego dokumentu skorzystać w sposób wygodny. Żeby to, co się na jego ekranie wyświetla, było zdatne, a oprogramowanie dało się skonfigurować do indywidualnych potrzeb. W tym zakresie dostępne programy i rozwiązania wciąż nie są wygodne, i właśnie tu działać trzeba.

Odnośnie zarzutów, które padły z mojej, jak i z pańskiej strony: wszyscy zajmujący się profesjonalnie dokumentami nie mogą ich formalnej strony ignorować. Wydawcy i inni producenci dokumentów, pan, a także ja oraz inni cyfrowi i analogowi bibliotekarze oraz pracownicy informacji — wszyscy stoimy po tej samej stronie; ja to dostrzegam — chciałbym, by pan także to zauważył. Wystosowany przeze mnie przytyk nie jest osobisty, dotyczy właśnie aspektu działania wynikającego z naszych profesji.

Arkadiusz Pulikowski napisał/a:
Napisałem swój post po ponad 3 latach i znów żałuję. Następnego razu nie będzie. Już wiem na pewno, że nie warto.

Ja proszę, aby pan nie żałował i nie rezygnował, ponieważ ja problemy podnoszone przez pana rozumiem i uważam, że są istotne. Staram się nazwać je zgodnie z tym, jak to postrzegam i oczekuję także od pana komentarza do aspektów merytorycznych mojego wywodu (najlepiej ze szczegółami oraz z cytatami), w końcu nie robię tego po to, by ot tak, pisać sobie.

Grzegorz Bednarek do Arkadiusza Pulikowskiego napisał/a:
Informuje Pan forumowiczów, że "świat w tym czasie pójdzie do przodu". Zapewniam Pana, że jeżeli digitalizacja będzie zbaczać w takim kierunku w jakim zbaczają Pana opinie, to jednak nie pójdzie. Ten świat, oczywiście.

Dobrze sformułowane. Mamy wiele do zrobienia, szczególnie w aspektach teoretycznych, nad którymi prace wciąż trwają. I wcale nie jest tak, że decyzje, które podejmujemy, aby wykonać nasze zadania, mają spowodować w efekcie kłopoty użytkownikom. Użytkownicy są z nami, a my z użytkownikami; aczkolwiek ról tych lepiej nie wywracać i zdroworozsądkowe proporcje zachować.

Grzegorz Bednarek napisał/a:
"zróbmy sobie reset"

Jak najbardziej. Ja mam ochotę na ciekawą dyskusję. Podejrzewam, że nie tylko ja.

Grzegorz Bednarek napisał/a:
Proszę też zauważyć, że niektóre obiekty nie tylko należy zdigitalizować ale i podjąć działania, by przywrócić im możliwie wysoki lub jakikolwiek poziom czytelności

Tak, to jest jeden z ważniejszych aspektów. Wykonywany właśnie z powodu troski o to, aby użytkownik otrzymał coś, z czego skorzystać będzie mógł bez większego bólu. I to nie tylko użytkownik przeciętny, ale także ten bardziej wymagający.

Tomasz Kalota napisał/a:
Co do tych dwóch kijów formatowych to podam jeszcze dwa przykłady żeby uzupełnić ten który został już tutaj przytoczony.

Bardzo ładnie. Jak najbardziej popieram wieloformatowość i możliwość wyboru. Podejrzewam, że w miarę dostępności środków instytucje tak będą na razie robić. Ale teoretycznie nie jest to optymalne rozwiązanie. Ja proponuję, aby oprócz działań w zakresie wieloformatowości (które prowadzą do generowania nadmiarowych wersji dokumentów, zwiększają obciążenie i zajmują moce przerobowe) spróbować ułatwić dostęp i zwiększyć funkcjonalności w zakresie tego, co już jest i tego, co jedną jedynie wersję posiadać będzie.

Tomasz Kalota napisał/a:
jakbyśmy chcieli to wyeksportować do ePUB

O tym rozmawialiśmy ostatnio. EPUB jest czym innym niż zdigitalizowana wersja oryginału. Temat ten najprawdopodobniej poruszę w innym miejscu, ponieważ jest według mnie jednym z najważniejszych wyzwań teoretycznych najbliższej przyszłości w naszej dziedzinie.

W pierwszym poście nie został poruszony jedynie temat formatów. Do reszty także chcę się odnieść. Bardzo cieszy mnie to, iż zna pan Scan Tailora. Sam ten program w JBC zaimplementowałem i (nawet pomimo drobnych niedociągnięć) przyjął się bardzo skutecznie. Binarizer Scan Tailora jest niezły, my jednak nie wykorzystujemy tego zwykle, gdyż nie produkujemy raczej bitonali. Wynika to ze specyfiki materiału, który jest obrabiany. Do publikacji nowych, które są w dobrym stanie binaryzacja oraz tryb mieszany Scan Tailora są naprawdę pomocne i wygodne.

Jeżeli o widoczność publikacji idzie: jest to problem istotny. W tym zakresie także mój postulat o poszerzenie wsparcia podtrzymuję. Nie ma żadnych przeszkód technologicznych, aby wyszukiwarki indeksowały wszystko, co się zindeksować da (w tym DjVu) — to zależy tylko od tych, którzy wyszukiwarki tworzą.

Arkadiusz Pulikowski napisał/a:
po latach dominacji serwisów komercyjnych coraz większą
rolę w upowszechnianiu dorobku naukowego zaczynają odgrywać publikacje o dostępie otwartym

W tym wypadku biblioteki cyfrowe czasami stają się wydawcami dokumentów. Moim zdaniem dobrze, ponieważ wsparcie instytucjonalne zwykle zwiększa widoczność (co pan podkresla) oraz wiarygodność dokumentu (co podkreślam ja). W związku z tym, że biblioteki cyfrowe raczej blokować treści nie będą — zyskają użytkownicy.

Arkadiusz Pulikowski napisał/a:
• artykuły z czasopism
• rozdziały z prac zbiorowych
• preprinty w/w
• monografie
• prace dyplomowe
• rozprawy doktorskie
• podręczniki
• prezentacje z konferencji i z wykładów
• raporty / sprawozdania z badań

Znaczna większość tego rodzaju dokumentów nie była jedynie analogowa. W związku z czym dobrze, by została w PDF. Nawiązując do poprzedniej dyskusji podejrzewam, że pan Pulikowski próbuje przenieść to, co znane mu w środowisku takich dokumentów do świata dokumentów zdigitalizowanych. Pewien wspólny mianownik istnieje, aczkolwiek to nie to samo.

Arkadiusz Pulikowski napisał/a:
pliki w pomijanych formatach, np. djvu, zip

To stwierdzenie mi się podoba: pomijanych — a nie złych, ułomnych, takich, do których mamy niechęć. Problem z tymi dokumentami jest taki, że są pomijane — zadbajmy o to, by to zmienić, nie walczyć z formatami.

Arkadiusz Pulikowski napisał/a:
czy warto publikować w kilku miejscach?

Pod względem widoczności: jak najbardziej. Pod względem ekonomii zarządzania zasobami: nie. Podobnie jak nasz problem z wieloformatowością zależy to od balansu między tymi dwoma rzeczami oraz jeszcze innymi pobocznymi.

Widzę, że pojawił się kolejny post. Czekałem na komentarz Remigiusza Lisa i podejrzewałem już wcześniej czym mogłem go zszokować (dlatego, że teza dość kontrowersyjna i mało politycznie poprawna, niemniej warta omówienia). Rozważań poetycko-religijnych komentować w tym momencie nie chcę.

Przytoczę więc wątek wraz kontekstem:

Grzegorz Bednarek napisał/a:
Gdy 20-ty raz czytam, że DjVu jest zły, bo trzeba wiedzieć, że aby zapoznawać się plikami DjVu "konieczna jest aż" instalacja jego przeglądarki, to wiem, ze w kolejnym zdaniu dowiem się, ze pdf jest z kolei cudowny, bo ... trzeba wiedzieć, że aby zapoznawać się plikami pdf "konieczna jest zaledwie" instalacja jego przeglądarki.
Bartłomiej Siedlarz napisał/a:
Ten problem nie zniknie, dopóki nie doczekamy się natywnego wsparcia dla stronicowanych dokumentów w przeglądarkach internetowych. Natomiast Grzegorz ma rację. Dokładnie ten sam problem opisywałem w zacytowanym wyżej temacie na QA PCSS-u. Ignorancja użytkowników w tym zakresie jest dla nas frustrująca.
Remigiusz Lis napisał/a:
Super, to użytkownicy nie dorastają do naszych dzieł. I wiele kwestii zostało załatwionych. I jak tanio.

Jeżeli na takie zdania Remigiusz Lis wystosował taki komentarz, to ciekaw jestem dlaczego i proszę o rozwinięcie. Co zostało załatwione i o co chodzi w aspekcie taniości?

Remigiusz Lis napisał/a:
Inną rzeczą jest brak możliwości (finansowe, kompetencyjne, etc.) zrobienia czegoś w kierunku usprawnienia dostępu, a inną intencja, która może się zrealizować, gdy środki dopiszą. […] czemu się zamykać na próby i eksperymenty?

Wszystko to jednak sprowadza się do tego, że to my coś z tym musimy zrobić i robimy. I tak naprawdę intencje moje w mych wywodach wyraziłem. Ja do zamykania się na próby i eksperymenty nie zachęcam, a wręcz do nich nakłaniam. Dziwi mnie, że tych aspektów mej wypowiedzi raczej się nie komentuje.

Remigiusz Lis napisał/a:
o ile cały świat produkuje

Cały świat, czyli kto?

Remigiusz Lis napisał/a:
Nie chcę wchodzić w dyskusję o wyższości jednego formatu nad drugim. Uważam to za trzeciorzędne, o ile nie przeszkadza, nie ogranicza i nie zniechęca użytkowników do korzystania z treści serwisu.

Jak najbardziej podkreśliłem, iż kwestia formatu nie jest najważniejsza. Natomiast w kwestii podejścia do użytkowników spróbuję tym razem użyć metafory: jeżeli do biblioteki przyjdzie użytkownik, który czytać nie umie — bibliotekarz książek czytać mu nie będzie. Jedynie udostępni w takiej formie, w jakiej dokument jest — nie forma dzieła, lecz nieumiejętność czytania użytkownikowi przeszkadza, ogranicza, a nawet zniechęcić może.

Remigiusz Lis napisał/a:
tak naprawdę chodzi o usability zasobów BC oraz o ich komunikacyjność (w tym indeksowanie).

Dokładnie. Moją intencją było skierowanie tego rozważania właśnie na to.
 
     
anetadr 

Dołączyła: 13 Lut 2007
Posty: 161
Skąd: Biblioteka UŚ
Poziom: 11
HP: 0/272
 0%
MP: 130/130
 100%
EXP: 19/25
 76%
Wysłany: 2013-02-20, 20:29   

Nie jestem fachowcem od formatów, jak moi szanowni przedmówcy, ale wtrącę swoje trzy grosze jako bibliotekarz i użytkownik jednocześnie.
Mianowicie zgadzam się z tezą Arkadiusza, że biblioteka jest robiona dla użytkowników i powinna respektować ich oczekiwania. Owszem działalność edukacyjna jest bardzo ważna i jeśli użytkownik się do mnie zgłosi, to ja mu bardzo chętnie wytłumaczę co musi zainstalować, żeby plik się wyświetlał poprawnie i dlaczego do tej wersji użyliśmy djvu, a nie innego formatu. Zresztą na zajęciach ze studentami też ten problem dokładnie omawiam i tłumaczę co i jak. Sęk w tym, że większość użytkowników nie trafia ani do mnie, ani do innej biblioteki, ani nawet nie zadaje sobie trudu, żeby odpowiedzi na swoje pytanie szukać w sieci. I co wtedy? Ano różnie: albo próbują poradzić sobie sami, albo rezygnują. Obawiam się, że tych rezygnujących jest sporo. Dodam jeszcze takie kwiatki: jeden sprytniejszy czytelnik po otwarciu publikacji robi printscreeny, zapisuje je jako PDF i "puszcza" w sieć. Niektórzy przychodzą do biblioteki i skanują daną rzecz od nowa, a na zwróconą uwagę, że coś jest już w sieci, mówią, że wiedzą, ale się zniechęcili. Jeszcze inni przysyłają email do biblioteki z prośbą o przesłanie pliku w "dogodnym" formacie itd. Żebyśmy więc nie wylali dziecka z kąpielą.

Jest jeszcze inny aspekt bibliotek cyfrowych. Mam tu na myśli głównie publikacje naukowe. Problem ten dotyczy nie tylko djvu, ale także pdfów. Mianowicie publikacje z bibliotek cyfrowych są słabo widoczne (albo wcale) w Google Scholar. Mało tego, bibliografia załącznikowa z tych publikacji nie jest liczona w postaci cytowań przez Publish or Perish (sprawdziłam na kilkunastu naszych pracach naukowych). W ostatnim czasie problem ten stał się bardzo gorący, wręcz palący. Nasi naukowcy wciąż o to dopytują i zaczynają zastanawiać się nad stworzeniem instytucjonalnego repozytorium (takiego jak np. AMUR), które pod tym względem dobrze indeksuje publikacje.
To jest również ważny problem, o którym warto dyskutować.

Aneta
 
     
Wyświetl posty z ostatnich:   
Ten temat jest zablokowany bez możliwości zmiany postów lub pisania odpowiedzi
Nie możesz pisać nowych tematów
Nie możesz odpowiadać w tematach
Nie możesz zmieniać swoich postów
Nie możesz usuwać swoich postów
Nie możesz głosować w ankietach
Nie możesz załączać plików na tym forum
Możesz ściągać załączniki na tym forum
Dodaj temat do Ulubionych
Wersja do druku

Skocz do:  

Powered by phpBB modified by Przemo © 2003 phpBB Group
Biblioteka 2.0 : Forum społeczności czytelników i bibliotekarzy cyfrowych [Dokument elektroniczny] - Tryb dostępu http://forum.biblioteka20.pl
Korzystanie z portalu oznacza akceptację naszej polityki prywatności.
Strona wygenerowana w 0.32 sekundy. Zapytań do SQL: 8