To jest tylko wersja do druku, aby zobaczyć pełną wersję tematu, kliknij TUTAJ
 
Biblioteka 2.0
Forum społeczności czytelników i bibliotekarzy cyfrowych

Zrób sobie bibliotekę cyfrową - epub w BC

szabicki - 2011-10-06, 09:26
Temat postu: epub w BC
Czy ktoś już się do tego przymierzał? Chcielibyśmy wyselekcjonować część publikacji i przekonwertować do epub. Czy Waszym zdaniem sensowne jest udostępnianie publikacji w epub, które zawierają błędy w OCR? Czy można pokusić się o ustalenie progu dokładności OCR (9X%), który byłby akceptowalny dla użytkownika? Zdaję sobie sprawę, że w takim wypadku trudno generalizować, ale jako czytelnicy a nie bibliotekarze cyfrowi, czy bylibyście zainteresowani publikacją, która zawiera błędy - literówki, ale ... w ogóle jest?
adudczak - 2012-11-12, 13:12

A do tego Epuba chcecie wrzucać tylko ten brudny OCR czy też pliki graficzne?
szabicki - 2012-11-14, 21:02

Planujemy sam tekst, ale jesteśmy otwarci na wszelkie propozycje. :)
Bardzo by się przydała w dLibrze możliwość umieszczania tej samej publikacji w kilku formatach (podobnie, jak jest to w Wolnych Lekturach). Mamy coraz więcej sygnałów od czytelników, że chcieliby mieć wybór formatu publikacji.

relis - 2012-11-14, 22:17

szabicki napisał/a:
...
Bardzo by się przydała w dLibrze możliwość umieszczania tej samej publikacji w kilku formatach (podobnie, jak jest to w Wolnych Lekturach). Mamy coraz więcej sygnałów od czytelników, że chcieliby mieć wybór formatu publikacji.


Ech, jakaż to stara melodia ... ;-)

Tomasz Kalota - 2012-11-14, 22:51

szabicki napisał/a:
(...) Bardzo by się przydała w dLibrze możliwość umieszczania tej samej publikacji w kilku formatach (podobnie, jak jest to w Wolnych Lekturach). Mamy coraz więcej sygnałów od czytelników, że chcieliby mieć wybór formatu publikacji.


Lubię to! :-)

Tomasz Kalota - 2012-11-15, 09:58
Temat postu: Re: epub w BC
szabicki napisał/a:
Czy ktoś już się do tego przymierzał? Chcielibyśmy wyselekcjonować część publikacji i przekonwertować do epub. Czy Waszym zdaniem sensowne jest udostępnianie publikacji w epub, które zawierają błędy w OCR? Czy można pokusić się o ustalenie progu dokładności OCR (9X%), który byłby akceptowalny dla użytkownika? (...)


Pierwsze próby oficjalnej przymiarki można zobaczyć tutaj - http://www.ebooki.com.pl/...oraz-rodzinnych

Nie jest to ePUB zrobiony ze skanów tylko z born digital ale do pełnego zrealizowania koncepcji prezentacji takich publikacji w BC potrzebna jest opcja udostępniania w rożnych formatach. Na razie można to zrobić stosując jakieś pośrednie strony jak np. ta podana wyżej. Będę starał się ta koncepcję zaprezentować szerzej na tej konferencji - http://bibliotekarze.kbw....ferencjaInf.htm

Jeśli chodzi o ePUB czy MOBI z materiałów skanowanych to robiłem jakiś rok temu testy wspólnie z Justyną Zienkiewicz i wygląda to mniej więcej tak jak opisała to Justyna u siebie na blogu - http://e-book.info.pl/dla...otek-cyfrowych/

Osobiście uważam, że jest bardzo duży sens i duża potrzeba myślenia o eBUBach w bibliotekach cyfrowych. Mam na Kindlu przykłady plików MOBI zrobionych z czasopism drukowanych gotykiem i korzystanie z tego jest bardzo wygodne, ale jest bardzo duże ALE. Publikacje w BC nie mogą być OCRowane automatycznie z domyślnymi ustawieniami aplikacji. Żeby skanowane czasopisma mogły być prawidłowo pokazywane na czytnikach konieczne jest ręczne dopieszczenie OCRu. O tym pewnie trochę opowie Edyta Kotyńska na tej konferencji - http://www.historiasztuki...potkania_5.html

adudczak - 2012-11-15, 10:45
Temat postu: Re: epub w BC
Wydaje mi się, że brudny OCR dobrze sprawdza się jako pomoc wyszukiwawcza, ale użytkownika końcowego może odstraszyć. Być przy 9x% nie byłoby to jakoś strasznie odczuwalne, ale gdy użytkownik już znajdzie błąd to tak naprawde niewiadomo co zrobi.

Można by robić tak jak to ma miejsce np. w Distributed Proofreaders - który jest zapleczem dla Project Gutenberg. Różni ludzie, którzy skanują książki umieszczają w tym serwisie skany i tekst z OCRa, a ochotnicy pomagają przejrzeć tekst w poszukiwaniu błędów.

Pracujemy nad Wirtualnego Laboratorium Transkrypcji (http://wlt.synat.pcss.pl) narzędzie ma niestety jeszcze kilka ostrych krawędzi, ale już coś takiego możnaby przeprowadzić dla obiektów z PBC. Wkrótce wypuścimy funkcję, która pozwala na automatyczny import plików (i całych obiektów) z BC [1], można zapuścić na tych skanach OCR [2], albo zaimportować istniejącą transkrypcję i opublikować jako projekt do korekty. Wyniki do wyeksportowania w HTML (a dokładnie w hOCR).

Zrobiłem przykładowy projekt, który zawiera wybrane strony z Herbarz Nisieckiego: http://wlt.synat.pcss.pl/...?project=746225

W kontekście tej dyskusji trzeba by dodać automatyczny import warstwy tekstowej z dokumentów DjVu/PDF i eksport do EPUB/mobi.

Pytanie tylko czy znalazłyby się osoby, które taką korektę chciałyby przeprowadzać? Wydaje mi się, że tak, ale jestem ciekaw co wy o tym myślicie, może czeka mnie spotkanie z kubłem zimnej wody ;-)

Przypisy:
[1] jeszcze to testujemy z WBC i dokumentami DjVu
[2] jest wsparcie dla gotyku, języka polskiego, niemieckiego i rosyjskiego

szabicki - 2012-11-15, 13:51

W ramach Społecznej Pracowni Digitalizacji, którą podpatrzyliśmy w ŚBC i wdrożyliśmy u siebie przygotowujemy warsztaty dla seniorów. Być może, uda się zainteresować ich ideą czyszczenia OCR i przynajmniej wyselekcjonowany część zasobu "wymuskać" :) . Niezmiennie pozostaje potrzeba wprowadzenie do dLibry możliwości udostępniania publikacji w kilku formatach: "do wyboru, do koloru" przez użytkownika.
relis - 2012-11-15, 15:11

szabicki napisał/a:
W ramach Społecznej Pracowni Digitalizacji, którą podpatrzyliśmy w ŚBC i wdrożyliśmy u siebie przygotowujemy warsztaty dla seniorów. Być może, uda się zainteresować ich ideą czyszczenia OCR i przynajmniej wyselekcjonowany część zasobu "wymuskać" :)


Kwestia czyszczenia OCR przez wolontariat to już sprawdzona sprawa (m.in. projekt Gutenberg). To wyjdzie, jednakże pod warunkiem dostarczenia wolontariuszom prostego jak łopata narzędzia - edytora, w którym będzie można to robić. Podstawą zaangażowania jakiejkolwiek społeczności jest odpowiednia granulacja i prostota czynności w projekcie. Jeśli będzie prosty interfejs to zaangażowanie wolontariuszy nie będzie problemem. Jeśli ów mechanizm udostępnić via WWW - to niekoniecznie będą to tylko lokalni wolontariusze.

szabicki - 2012-11-15, 23:06

Będziemy zaczynali od najprostszych form działania, korzystając oczywiście z doświadczeń innych. Rozwiązane musi być dostosowane do możliwości naszego zespołu oraz wolontariuszy - seniorów. Chcemy zacząć od podstawowego szkolenia komputerowego seniorów. Później planujemy wyłonienie grupy zainteresowanych do "czyszczenia" OCR. Jeśli to się powiedzie, wspólnie przygotujemy dla tej grupy narzędzie do pracy. Będzie to o ułatwione, gdyż zajęcia będą się odbywały w bibliotece. Jeżeli to zaskoczy, będziemy rozwijali projekt dalej i dopiero wówczas będą potrzebne narzędzie do pracy w internecie.
adudczak - 2013-04-12, 22:05

Przyznam, że zapomniałem o tym wątku ;-)

Jakby ktoś był chętny, to w WLT od pewnego czasu jest możliwe wyeksportowanie wyników projektu w postaci pliku ePUB.



Powered by phpBB modified by Przemo © 2003 phpBB Group