Biblioteka 2.0 on Facebook
Biblioteka 2.0 Strona Główna

Biblioteka 2.0
Forum społeczności czytelników i bibliotekarzy cyfrowych

FAQFAQ  SzukajSzukaj  UżytkownicyUżytkownicy  GrupyGrupy  StatystykiStatystyki
RejestracjaRejestracja  ZalogujZaloguj  AlbumAlbum  DownloadDownload

Poprzedni temat «» Następny temat
epub w BC
Autor Wiadomość
szabicki 


Wiek: 50
Dołączył: 30 Sie 2009
Posty: 25
Skąd: Słupsk
Poziom: 3
HP: 0/44
 0%
MP: 21/21
 100%
EXP: 7/9
 77%
Wysłany: 2011-10-06, 10:26   epub w BC

Czy ktoś już się do tego przymierzał? Chcielibyśmy wyselekcjonować część publikacji i przekonwertować do epub. Czy Waszym zdaniem sensowne jest udostępnianie publikacji w epub, które zawierają błędy w OCR? Czy można pokusić się o ustalenie progu dokładności OCR (9X%), który byłby akceptowalny dla użytkownika? Zdaję sobie sprawę, że w takim wypadku trudno generalizować, ale jako czytelnicy a nie bibliotekarze cyfrowi, czy bylibyście zainteresowani publikacją, która zawiera błędy - literówki, ale ... w ogóle jest?
_________________
Badania laboratoryjne na myszach udowodniły, że kontakt z czarnym kotem przynosi pecha.
 
     
adudczak 


Dołączył: 20 Lut 2007
Posty: 30
Skąd: Poznań
Poziom: 4
HP: 0/61
 0%
MP: 29/29
 100%
EXP: 3/11
 27%
Wysłany: 2012-11-12, 13:12   

A do tego Epuba chcecie wrzucać tylko ten brudny OCR czy też pliki graficzne?
_________________
Zespół Bibliotek Cyfrowych PCSS, http://dl.psnc.pl
 
     
szabicki 


Wiek: 50
Dołączył: 30 Sie 2009
Posty: 25
Skąd: Słupsk
Poziom: 3
HP: 0/44
 0%
MP: 21/21
 100%
EXP: 7/9
 77%
Wysłany: 2012-11-14, 21:02   

Planujemy sam tekst, ale jesteśmy otwarci na wszelkie propozycje. :)
Bardzo by się przydała w dLibrze możliwość umieszczania tej samej publikacji w kilku formatach (podobnie, jak jest to w Wolnych Lekturach). Mamy coraz więcej sygnałów od czytelników, że chcieliby mieć wybór formatu publikacji.
_________________
Badania laboratoryjne na myszach udowodniły, że kontakt z czarnym kotem przynosi pecha.
 
     
relis 


Wiek: 50
Dołączył: 13 Lut 2007
Posty: 790
Skąd: Biblioteka Śląska
Poziom: 25
HP: 29/1490
 2%
MP: 711/711
 100%
EXP: 24/73
 32%
Wysłany: 2012-11-14, 22:17   

szabicki napisał/a:
...
Bardzo by się przydała w dLibrze możliwość umieszczania tej samej publikacji w kilku formatach (podobnie, jak jest to w Wolnych Lekturach). Mamy coraz więcej sygnałów od czytelników, że chcieliby mieć wybór formatu publikacji.


Ech, jakaż to stara melodia ... ;-)
_________________
Given enough eyeballs, all bugs are shallow.
ESR
It is not necessary to change; survival is not mandatory. ;-)
Edward Deming

http://relis-blog.blogspot.com
 
 
     
Tomasz Kalota 
Tomasz Kalota


Wiek: 45
Dołączył: 13 Lut 2007
Posty: 322
Skąd: Wrocław
Poziom: 16
HP: 0/556
 0%
MP: 265/265
 100%
EXP: 30/39
 76%
Wysłany: 2012-11-14, 22:51   

szabicki napisał/a:
(...) Bardzo by się przydała w dLibrze możliwość umieszczania tej samej publikacji w kilku formatach (podobnie, jak jest to w Wolnych Lekturach). Mamy coraz więcej sygnałów od czytelników, że chcieliby mieć wybór formatu publikacji.


Lubię to! :-)
_________________
Myśl więziona w księdze jest hańbą dla księgi.

Tomasz Kalota | Digitalizacja.pl | eBooki.com.pl
 
 
     
Tomasz Kalota 
Tomasz Kalota


Wiek: 45
Dołączył: 13 Lut 2007
Posty: 322
Skąd: Wrocław
Poziom: 16
HP: 0/556
 0%
MP: 265/265
 100%
EXP: 30/39
 76%
Wysłany: 2012-11-15, 09:58   Re: epub w BC

szabicki napisał/a:
Czy ktoś już się do tego przymierzał? Chcielibyśmy wyselekcjonować część publikacji i przekonwertować do epub. Czy Waszym zdaniem sensowne jest udostępnianie publikacji w epub, które zawierają błędy w OCR? Czy można pokusić się o ustalenie progu dokładności OCR (9X%), który byłby akceptowalny dla użytkownika? (...)


Pierwsze próby oficjalnej przymiarki można zobaczyć tutaj - http://www.ebooki.com.pl/...oraz-rodzinnych

Nie jest to ePUB zrobiony ze skanów tylko z born digital ale do pełnego zrealizowania koncepcji prezentacji takich publikacji w BC potrzebna jest opcja udostępniania w rożnych formatach. Na razie można to zrobić stosując jakieś pośrednie strony jak np. ta podana wyżej. Będę starał się ta koncepcję zaprezentować szerzej na tej konferencji - http://bibliotekarze.kbw....ferencjaInf.htm

Jeśli chodzi o ePUB czy MOBI z materiałów skanowanych to robiłem jakiś rok temu testy wspólnie z Justyną Zienkiewicz i wygląda to mniej więcej tak jak opisała to Justyna u siebie na blogu - http://e-book.info.pl/dla...otek-cyfrowych/

Osobiście uważam, że jest bardzo duży sens i duża potrzeba myślenia o eBUBach w bibliotekach cyfrowych. Mam na Kindlu przykłady plików MOBI zrobionych z czasopism drukowanych gotykiem i korzystanie z tego jest bardzo wygodne, ale jest bardzo duże ALE. Publikacje w BC nie mogą być OCRowane automatycznie z domyślnymi ustawieniami aplikacji. Żeby skanowane czasopisma mogły być prawidłowo pokazywane na czytnikach konieczne jest ręczne dopieszczenie OCRu. O tym pewnie trochę opowie Edyta Kotyńska na tej konferencji - http://www.historiasztuki...potkania_5.html
_________________
Myśl więziona w księdze jest hańbą dla księgi.

Tomasz Kalota | Digitalizacja.pl | eBooki.com.pl
 
 
     
adudczak 


Dołączył: 20 Lut 2007
Posty: 30
Skąd: Poznań
Poziom: 4
HP: 0/61
 0%
MP: 29/29
 100%
EXP: 3/11
 27%
Wysłany: 2012-11-15, 10:45   Re: epub w BC

Wydaje mi się, że brudny OCR dobrze sprawdza się jako pomoc wyszukiwawcza, ale użytkownika końcowego może odstraszyć. Być przy 9x% nie byłoby to jakoś strasznie odczuwalne, ale gdy użytkownik już znajdzie błąd to tak naprawde niewiadomo co zrobi.

Można by robić tak jak to ma miejsce np. w Distributed Proofreaders - który jest zapleczem dla Project Gutenberg. Różni ludzie, którzy skanują książki umieszczają w tym serwisie skany i tekst z OCRa, a ochotnicy pomagają przejrzeć tekst w poszukiwaniu błędów.

Pracujemy nad Wirtualnego Laboratorium Transkrypcji (http://wlt.synat.pcss.pl) narzędzie ma niestety jeszcze kilka ostrych krawędzi, ale już coś takiego możnaby przeprowadzić dla obiektów z PBC. Wkrótce wypuścimy funkcję, która pozwala na automatyczny import plików (i całych obiektów) z BC [1], można zapuścić na tych skanach OCR [2], albo zaimportować istniejącą transkrypcję i opublikować jako projekt do korekty. Wyniki do wyeksportowania w HTML (a dokładnie w hOCR).

Zrobiłem przykładowy projekt, który zawiera wybrane strony z Herbarz Nisieckiego: http://wlt.synat.pcss.pl/...?project=746225

W kontekście tej dyskusji trzeba by dodać automatyczny import warstwy tekstowej z dokumentów DjVu/PDF i eksport do EPUB/mobi.

Pytanie tylko czy znalazłyby się osoby, które taką korektę chciałyby przeprowadzać? Wydaje mi się, że tak, ale jestem ciekaw co wy o tym myślicie, może czeka mnie spotkanie z kubłem zimnej wody ;-)

Przypisy:
[1] jeszcze to testujemy z WBC i dokumentami DjVu
[2] jest wsparcie dla gotyku, języka polskiego, niemieckiego i rosyjskiego
_________________
Zespół Bibliotek Cyfrowych PCSS, http://dl.psnc.pl
 
     
szabicki 


Wiek: 50
Dołączył: 30 Sie 2009
Posty: 25
Skąd: Słupsk
Poziom: 3
HP: 0/44
 0%
MP: 21/21
 100%
EXP: 7/9
 77%
Wysłany: 2012-11-15, 13:51   

W ramach Społecznej Pracowni Digitalizacji, którą podpatrzyliśmy w ŚBC i wdrożyliśmy u siebie przygotowujemy warsztaty dla seniorów. Być może, uda się zainteresować ich ideą czyszczenia OCR i przynajmniej wyselekcjonowany część zasobu "wymuskać" :) . Niezmiennie pozostaje potrzeba wprowadzenie do dLibry możliwości udostępniania publikacji w kilku formatach: "do wyboru, do koloru" przez użytkownika.
_________________
Badania laboratoryjne na myszach udowodniły, że kontakt z czarnym kotem przynosi pecha.
 
     
relis 


Wiek: 50
Dołączył: 13 Lut 2007
Posty: 790
Skąd: Biblioteka Śląska
Poziom: 25
HP: 29/1490
 2%
MP: 711/711
 100%
EXP: 24/73
 32%
Wysłany: 2012-11-15, 15:11   

szabicki napisał/a:
W ramach Społecznej Pracowni Digitalizacji, którą podpatrzyliśmy w ŚBC i wdrożyliśmy u siebie przygotowujemy warsztaty dla seniorów. Być może, uda się zainteresować ich ideą czyszczenia OCR i przynajmniej wyselekcjonowany część zasobu "wymuskać" :)


Kwestia czyszczenia OCR przez wolontariat to już sprawdzona sprawa (m.in. projekt Gutenberg). To wyjdzie, jednakże pod warunkiem dostarczenia wolontariuszom prostego jak łopata narzędzia - edytora, w którym będzie można to robić. Podstawą zaangażowania jakiejkolwiek społeczności jest odpowiednia granulacja i prostota czynności w projekcie. Jeśli będzie prosty interfejs to zaangażowanie wolontariuszy nie będzie problemem. Jeśli ów mechanizm udostępnić via WWW - to niekoniecznie będą to tylko lokalni wolontariusze.
_________________
Given enough eyeballs, all bugs are shallow.
ESR
It is not necessary to change; survival is not mandatory. ;-)
Edward Deming

http://relis-blog.blogspot.com
 
 
     
szabicki 


Wiek: 50
Dołączył: 30 Sie 2009
Posty: 25
Skąd: Słupsk
Poziom: 3
HP: 0/44
 0%
MP: 21/21
 100%
EXP: 7/9
 77%
Wysłany: 2012-11-15, 23:06   

Będziemy zaczynali od najprostszych form działania, korzystając oczywiście z doświadczeń innych. Rozwiązane musi być dostosowane do możliwości naszego zespołu oraz wolontariuszy - seniorów. Chcemy zacząć od podstawowego szkolenia komputerowego seniorów. Później planujemy wyłonienie grupy zainteresowanych do "czyszczenia" OCR. Jeśli to się powiedzie, wspólnie przygotujemy dla tej grupy narzędzie do pracy. Będzie to o ułatwione, gdyż zajęcia będą się odbywały w bibliotece. Jeżeli to zaskoczy, będziemy rozwijali projekt dalej i dopiero wówczas będą potrzebne narzędzie do pracy w internecie.
_________________
Badania laboratoryjne na myszach udowodniły, że kontakt z czarnym kotem przynosi pecha.
 
     
adudczak 


Dołączył: 20 Lut 2007
Posty: 30
Skąd: Poznań
Poziom: 4
HP: 0/61
 0%
MP: 29/29
 100%
EXP: 3/11
 27%
Wysłany: 2013-04-12, 23:05   

Przyznam, że zapomniałem o tym wątku ;-)

Jakby ktoś był chętny, to w WLT od pewnego czasu jest możliwe wyeksportowanie wyników projektu w postaci pliku ePUB.
_________________
Zespół Bibliotek Cyfrowych PCSS, http://dl.psnc.pl
 
     
Wyświetl posty z ostatnich:   
Ten temat jest zablokowany bez możliwości zmiany postów lub pisania odpowiedzi
Nie możesz pisać nowych tematów
Nie możesz odpowiadać w tematach
Nie możesz zmieniać swoich postów
Nie możesz usuwać swoich postów
Nie możesz głosować w ankietach
Nie możesz załączać plików na tym forum
Możesz ściągać załączniki na tym forum
Dodaj temat do Ulubionych
Wersja do druku

Skocz do:  

Powered by phpBB modified by Przemo © 2003 phpBB Group
Biblioteka 2.0 : Forum społeczności czytelników i bibliotekarzy cyfrowych [Dokument elektroniczny] - Tryb dostępu http://forum.biblioteka20.pl
Korzystanie z portalu oznacza akceptację naszej polityki prywatności.
Strona wygenerowana w 0.07 sekundy. Zapytań do SQL: 8