epub w BC |
Autor |
Wiadomość |
szabicki

Wiek: 53 Dołączył: 30 Sie 2009 Posty: 25 Skąd: Słupsk
Poziom: 3
|
Wysłany: 2011-10-06, 09:26 epub w BC
|
|
|
Czy ktoś już się do tego przymierzał? Chcielibyśmy wyselekcjonować część publikacji i przekonwertować do epub. Czy Waszym zdaniem sensowne jest udostępnianie publikacji w epub, które zawierają błędy w OCR? Czy można pokusić się o ustalenie progu dokładności OCR (9X%), który byłby akceptowalny dla użytkownika? Zdaję sobie sprawę, że w takim wypadku trudno generalizować, ale jako czytelnicy a nie bibliotekarze cyfrowi, czy bylibyście zainteresowani publikacją, która zawiera błędy - literówki, ale ... w ogóle jest? |
_________________ Badania laboratoryjne na myszach udowodniły, że kontakt z czarnym kotem przynosi pecha. |
|
|
|
 |
adudczak

Dołączył: 20 Lut 2007 Posty: 30 Skąd: Poznań
Poziom: 4
|
Wysłany: 2012-11-12, 13:12
|
|
|
A do tego Epuba chcecie wrzucać tylko ten brudny OCR czy też pliki graficzne? |
_________________ Zespół Bibliotek Cyfrowych PCSS, http://dl.psnc.pl |
|
|
|
 |
szabicki

Wiek: 53 Dołączył: 30 Sie 2009 Posty: 25 Skąd: Słupsk
Poziom: 3
|
Wysłany: 2012-11-14, 21:02
|
|
|
Planujemy sam tekst, ale jesteśmy otwarci na wszelkie propozycje. :)
Bardzo by się przydała w dLibrze możliwość umieszczania tej samej publikacji w kilku formatach (podobnie, jak jest to w Wolnych Lekturach). Mamy coraz więcej sygnałów od czytelników, że chcieliby mieć wybór formatu publikacji. |
_________________ Badania laboratoryjne na myszach udowodniły, że kontakt z czarnym kotem przynosi pecha. |
|
|
|
 |
relis

Wiek: 54 Dołączył: 13 Lut 2007 Posty: 790 Skąd: Biblioteka Śląska
Poziom: 25
|
Wysłany: 2012-11-14, 22:17
|
|
|
szabicki napisał/a: | ...
Bardzo by się przydała w dLibrze możliwość umieszczania tej samej publikacji w kilku formatach (podobnie, jak jest to w Wolnych Lekturach). Mamy coraz więcej sygnałów od czytelników, że chcieliby mieć wybór formatu publikacji. |
Ech, jakaż to stara melodia ... |
_________________ Given enough eyeballs, all bugs are shallow.
ESR
It is not necessary to change; survival is not mandatory.
Edward Deming
http://relis-blog.blogspot.com |
|
|
|
 |
Tomasz Kalota
Tomasz Kalota

Wiek: 48 Dołączył: 13 Lut 2007 Posty: 322 Skąd: Wrocław
Poziom: 16
|
Wysłany: 2012-11-14, 22:51
|
|
|
szabicki napisał/a: | (...) Bardzo by się przydała w dLibrze możliwość umieszczania tej samej publikacji w kilku formatach (podobnie, jak jest to w Wolnych Lekturach). Mamy coraz więcej sygnałów od czytelników, że chcieliby mieć wybór formatu publikacji. |
Lubię to! |
_________________ Myśl więziona w księdze jest hańbą dla księgi.
Tomasz Kalota | Digitalizacja.pl | eBooki.com.pl |
|
|
|
 |
Tomasz Kalota
Tomasz Kalota

Wiek: 48 Dołączył: 13 Lut 2007 Posty: 322 Skąd: Wrocław
Poziom: 16
|
Wysłany: 2012-11-15, 09:58 Re: epub w BC
|
|
|
szabicki napisał/a: | Czy ktoś już się do tego przymierzał? Chcielibyśmy wyselekcjonować część publikacji i przekonwertować do epub. Czy Waszym zdaniem sensowne jest udostępnianie publikacji w epub, które zawierają błędy w OCR? Czy można pokusić się o ustalenie progu dokładności OCR (9X%), który byłby akceptowalny dla użytkownika? (...) |
Pierwsze próby oficjalnej przymiarki można zobaczyć tutaj - http://www.ebooki.com.pl/...oraz-rodzinnych
Nie jest to ePUB zrobiony ze skanów tylko z born digital ale do pełnego zrealizowania koncepcji prezentacji takich publikacji w BC potrzebna jest opcja udostępniania w rożnych formatach. Na razie można to zrobić stosując jakieś pośrednie strony jak np. ta podana wyżej. Będę starał się ta koncepcję zaprezentować szerzej na tej konferencji - http://bibliotekarze.kbw....ferencjaInf.htm
Jeśli chodzi o ePUB czy MOBI z materiałów skanowanych to robiłem jakiś rok temu testy wspólnie z Justyną Zienkiewicz i wygląda to mniej więcej tak jak opisała to Justyna u siebie na blogu - http://e-book.info.pl/dla...otek-cyfrowych/
Osobiście uważam, że jest bardzo duży sens i duża potrzeba myślenia o eBUBach w bibliotekach cyfrowych. Mam na Kindlu przykłady plików MOBI zrobionych z czasopism drukowanych gotykiem i korzystanie z tego jest bardzo wygodne, ale jest bardzo duże ALE. Publikacje w BC nie mogą być OCRowane automatycznie z domyślnymi ustawieniami aplikacji. Żeby skanowane czasopisma mogły być prawidłowo pokazywane na czytnikach konieczne jest ręczne dopieszczenie OCRu. O tym pewnie trochę opowie Edyta Kotyńska na tej konferencji - http://www.historiasztuki...potkania_5.html |
_________________ Myśl więziona w księdze jest hańbą dla księgi.
Tomasz Kalota | Digitalizacja.pl | eBooki.com.pl |
|
|
|
 |
adudczak

Dołączył: 20 Lut 2007 Posty: 30 Skąd: Poznań
Poziom: 4
|
Wysłany: 2012-11-15, 10:45 Re: epub w BC
|
|
|
Wydaje mi się, że brudny OCR dobrze sprawdza się jako pomoc wyszukiwawcza, ale użytkownika końcowego może odstraszyć. Być przy 9x% nie byłoby to jakoś strasznie odczuwalne, ale gdy użytkownik już znajdzie błąd to tak naprawde niewiadomo co zrobi.
Można by robić tak jak to ma miejsce np. w Distributed Proofreaders - który jest zapleczem dla Project Gutenberg. Różni ludzie, którzy skanują książki umieszczają w tym serwisie skany i tekst z OCRa, a ochotnicy pomagają przejrzeć tekst w poszukiwaniu błędów.
Pracujemy nad Wirtualnego Laboratorium Transkrypcji (http://wlt.synat.pcss.pl) narzędzie ma niestety jeszcze kilka ostrych krawędzi, ale już coś takiego możnaby przeprowadzić dla obiektów z PBC. Wkrótce wypuścimy funkcję, która pozwala na automatyczny import plików (i całych obiektów) z BC [1], można zapuścić na tych skanach OCR [2], albo zaimportować istniejącą transkrypcję i opublikować jako projekt do korekty. Wyniki do wyeksportowania w HTML (a dokładnie w hOCR).
Zrobiłem przykładowy projekt, który zawiera wybrane strony z Herbarz Nisieckiego: http://wlt.synat.pcss.pl/...?project=746225
W kontekście tej dyskusji trzeba by dodać automatyczny import warstwy tekstowej z dokumentów DjVu/PDF i eksport do EPUB/mobi.
Pytanie tylko czy znalazłyby się osoby, które taką korektę chciałyby przeprowadzać? Wydaje mi się, że tak, ale jestem ciekaw co wy o tym myślicie, może czeka mnie spotkanie z kubłem zimnej wody
Przypisy:
[1] jeszcze to testujemy z WBC i dokumentami DjVu
[2] jest wsparcie dla gotyku, języka polskiego, niemieckiego i rosyjskiego |
_________________ Zespół Bibliotek Cyfrowych PCSS, http://dl.psnc.pl |
|
|
|
 |
szabicki

Wiek: 53 Dołączył: 30 Sie 2009 Posty: 25 Skąd: Słupsk
Poziom: 3
|
Wysłany: 2012-11-15, 13:51
|
|
|
W ramach Społecznej Pracowni Digitalizacji, którą podpatrzyliśmy w ŚBC i wdrożyliśmy u siebie przygotowujemy warsztaty dla seniorów. Być może, uda się zainteresować ich ideą czyszczenia OCR i przynajmniej wyselekcjonowany część zasobu "wymuskać" :) . Niezmiennie pozostaje potrzeba wprowadzenie do dLibry możliwości udostępniania publikacji w kilku formatach: "do wyboru, do koloru" przez użytkownika. |
_________________ Badania laboratoryjne na myszach udowodniły, że kontakt z czarnym kotem przynosi pecha. |
|
|
|
 |
relis

Wiek: 54 Dołączył: 13 Lut 2007 Posty: 790 Skąd: Biblioteka Śląska
Poziom: 25
|
Wysłany: 2012-11-15, 15:11
|
|
|
szabicki napisał/a: | W ramach Społecznej Pracowni Digitalizacji, którą podpatrzyliśmy w ŚBC i wdrożyliśmy u siebie przygotowujemy warsztaty dla seniorów. Być może, uda się zainteresować ich ideą czyszczenia OCR i przynajmniej wyselekcjonowany część zasobu "wymuskać" :) |
Kwestia czyszczenia OCR przez wolontariat to już sprawdzona sprawa (m.in. projekt Gutenberg). To wyjdzie, jednakże pod warunkiem dostarczenia wolontariuszom prostego jak łopata narzędzia - edytora, w którym będzie można to robić. Podstawą zaangażowania jakiejkolwiek społeczności jest odpowiednia granulacja i prostota czynności w projekcie. Jeśli będzie prosty interfejs to zaangażowanie wolontariuszy nie będzie problemem. Jeśli ów mechanizm udostępnić via WWW - to niekoniecznie będą to tylko lokalni wolontariusze. |
_________________ Given enough eyeballs, all bugs are shallow.
ESR
It is not necessary to change; survival is not mandatory.
Edward Deming
http://relis-blog.blogspot.com |
|
|
|
 |
szabicki

Wiek: 53 Dołączył: 30 Sie 2009 Posty: 25 Skąd: Słupsk
Poziom: 3
|
Wysłany: 2012-11-15, 23:06
|
|
|
Będziemy zaczynali od najprostszych form działania, korzystając oczywiście z doświadczeń innych. Rozwiązane musi być dostosowane do możliwości naszego zespołu oraz wolontariuszy - seniorów. Chcemy zacząć od podstawowego szkolenia komputerowego seniorów. Później planujemy wyłonienie grupy zainteresowanych do "czyszczenia" OCR. Jeśli to się powiedzie, wspólnie przygotujemy dla tej grupy narzędzie do pracy. Będzie to o ułatwione, gdyż zajęcia będą się odbywały w bibliotece. Jeżeli to zaskoczy, będziemy rozwijali projekt dalej i dopiero wówczas będą potrzebne narzędzie do pracy w internecie. |
_________________ Badania laboratoryjne na myszach udowodniły, że kontakt z czarnym kotem przynosi pecha. |
|
|
|
 |
adudczak

Dołączył: 20 Lut 2007 Posty: 30 Skąd: Poznań
Poziom: 4
|
Wysłany: 2013-04-12, 22:05
|
|
|
Przyznam, że zapomniałem o tym wątku
Jakby ktoś był chętny, to w WLT od pewnego czasu jest możliwe wyeksportowanie wyników projektu w postaci pliku ePUB. |
_________________ Zespół Bibliotek Cyfrowych PCSS, http://dl.psnc.pl |
|
|
|
 |
|