Biblioteka 2.0 on Facebook
Biblioteka 2.0 Strona Główna

Biblioteka 2.0
Forum społeczności czytelników i bibliotekarzy cyfrowych

FAQFAQ  SzukajSzukaj  UżytkownicyUżytkownicy  GrupyGrupy  StatystykiStatystyki
RejestracjaRejestracja  ZalogujZaloguj  AlbumAlbum  DownloadDownload

Poprzedni temat «» Następny temat
Lepszy OCR w plikach DjVu
Autor Wiadomość
sk 
sk

Dołączył: 19 Lut 2007
Posty: 292
Skąd: KPBC, Toruń
Poziom: 15
HP: 0/488
 0%
MP: 233/233
 100%
EXP: 35/35
 100%
Wysłany: 2009-04-09, 08:43   

Spiechu napisał/a:
Trudno wyczuć dlaczego tak się dzieje. Enterprise wyraźnie ma problemy z publikacjami powyżej 1000 str. Podczas łączenia plików XML z djvu a następnie scalania w 1 djvu nie wyrzucało żadnych błędów.

Plugin używany przez większość bibliotekarzy i czytelników, tzn. wtyczka Lizardtech pod Windows, radzi sobie bez komunikatów o błędzie, więc mogło być gorzej. Sęk w tym, że tego rodzaju alerty pamiętam z moich prób ręcznej modyfikacji warstwy tekstowej: protesty ze strony wtyczki lub narzędzi djvulibre pojawiały się, kiedy rzeczywiście zdarzało mi się coś zepsuć w XML-u.

Tutaj trudno powiedzieć coś konkretnego, bo mi się djvutoxml wysypuje w połowie drogi.

http://www.sbc.org.pl/dlibra/docmetadata?id=9870 ma mniej niż 1000 stron, a też sprawia podobne kłopoty.
 
     
Spiechu 


Wiek: 39
Dołączył: 16 Sie 2007
Posty: 27
Skąd: Biblioteka Śląska
Poziom: 3
HP: 0/44
 0%
MP: 21/21
 100%
EXP: 9/9
 100%
Wysłany: 2009-04-09, 09:57   

Można próbować używać polecenia djvutxt, które wyrzuca całą zawartość OCR do pliku tekstowego z pominięciem wszelkich tagów XMLowych.
 
 
     
sk 
sk

Dołączył: 19 Lut 2007
Posty: 292
Skąd: KPBC, Toruń
Poziom: 15
HP: 0/488
 0%
MP: 233/233
 100%
EXP: 35/35
 100%
Wysłany: 2009-04-09, 10:03   

Spiechu napisał/a:
Można próbować używać polecenia djvutxt, które wyrzuca całą zawartość OCR do pliku tekstowego z pominięciem wszelkich tagów XMLowych.

Żeby otrzymać sam tekst, owszem. Ale w tym wypadku nie chodziło mi przecież o tekst, tylko o sprawdzenie, co się tam pozajączkowało.
 
     
relis 


Wiek: 54
Dołączył: 13 Lut 2007
Posty: 790
Skąd: Biblioteka Śląska
Poziom: 25
HP: 14/1490
 1%
MP: 711/711
 100%
EXP: 24/73
 32%
Wysłany: 2009-04-09, 10:19   

sk napisał/a:
Spiechu napisał/a:
Można próbować używać polecenia djvutxt, które wyrzuca całą zawartość OCR do pliku tekstowego z pominięciem wszelkich tagów XMLowych.

Żeby otrzymać sam tekst, owszem. Ale w tym wypadku nie chodziło mi przecież o tekst, tylko o sprawdzenie, co się tam pozajączkowało.


Mamy kilka publikacji mniejszych, które się niebawem pojawią, więc będzie materiał do dalszego debaggowania. Przypuszczam, że jeśli jest problem z XML, to jest to problem XML FineReaderowego. W trakcie opisywanej procedury nie wykonuje się ręcznych korekt warstwy tekstowej. A polecenia Enterprise (przynajmniej tak to widzę) przenoszą tekst między plikami. Ewentualnie krytyczny może być etap konwersji PDF z FR do przechodniego DjVU. Najlepiej by wypruć XML z tego PDF oraz z przechodniego DjVu i oba przelecieć jakimś parserem.

PS. A co tam jest napisane po naciśnięciu guziczka "Details" ze zrzutu ekranowego?
PS 2. Te mniejsze to:
http://www.sbc.org.pl/dlibra/docmetadata?id=11684
http://www.sbc.org.pl/dlibra/docmetadata?id=11683
http://www.sbc.org.pl/dlibra/docmetadata?id=11681
http://www.sbc.org.pl/dlibra/docmetadata?id=11680
_________________
Given enough eyeballs, all bugs are shallow.
ESR
It is not necessary to change; survival is not mandatory. ;-)
Edward Deming

http://relis-blog.blogspot.com
 
 
     
sk 
sk

Dołączył: 19 Lut 2007
Posty: 292
Skąd: KPBC, Toruń
Poziom: 15
HP: 0/488
 0%
MP: 233/233
 100%
EXP: 35/35
 100%
Wysłany: 2009-04-09, 12:17   

relis napisał/a:

PS. A co tam jest napisane po naciśnięciu guziczka "Details" ze zrzutu ekranowego?



relis napisał/a:

PS 2. Te mniejsze to:
http://www.sbc.org.pl/dlibra/docmetadata?id=11684
http://www.sbc.org.pl/dlibra/docmetadata?id=11683
http://www.sbc.org.pl/dlibra/docmetadata?id=11681
http://www.sbc.org.pl/dlibra/docmetadata?id=11680

Maluchy są OK. Żadnych wrzasków.
 
     
Spiechu 


Wiek: 39
Dołączył: 16 Sie 2007
Posty: 27
Skąd: Biblioteka Śląska
Poziom: 3
HP: 0/44
 0%
MP: 21/21
 100%
EXP: 9/9
 100%
Wysłany: 2009-04-24, 09:24   

Dorzucę garść statystyk dotyczących procesu OCRowania z użyciem Fine Reader Corporate.

Próba dla 2500 skanów (10 publikacji w bitonalu):

1 etap - OCR w Fine Reader - 270 min.
2 etap - kompresja PDF > DJVU w celu wyciągnięcia plików XML z PDF - 120 min.
3 etap - kompresja TIFF > DJVU - 80 min.
4 etap - sklejanie XML z DJVU - 30 min.
5 etap - rozbicie DJVU do formatu indirect - 5 min.

Podane czasy dotyczą konkretnych działań wykonywanych przez maszynę. Nie liczyłem ile zajmuje ustawianie przez człowieka (parę min. do każdego etapu).
Część etapów da się zrównoleglić (np. 1 i 3), przez co wyszłoby trochę szybciej.
Niestety wszystkie etapy wykonuje się ręcznie i stąd łatwo o pomyłkę :-)
 
 
     
sk 
sk

Dołączył: 19 Lut 2007
Posty: 292
Skąd: KPBC, Toruń
Poziom: 15
HP: 0/488
 0%
MP: 233/233
 100%
EXP: 35/35
 100%
Wysłany: 2009-04-24, 13:52   

Spiechu napisał/a:
Dorzucę garść statystyk dotyczących procesu OCRowania z użyciem Fine Reader Corporate.

Próba dla 2500 skanów (10 publikacji w bitonalu):

1 etap - OCR w Fine Reader - 270 min.
2 etap - kompresja PDF > DJVU w celu wyciągnięcia plików XML z PDF - 120 min.
3 etap - kompresja TIFF > DJVU - 80 min.
4 etap - sklejanie XML z DJVU - 30 min.
5 etap - rozbicie DJVU do formatu indirect - 5 min.

Podane czasy dotyczą konkretnych działań wykonywanych przez maszynę. Nie liczyłem ile zajmuje ustawianie przez człowieka (parę min. do każdego etapu).
Część etapów da się zrównoleglić (np. 1 i 3), przez co wyszłoby trochę szybciej.
Niestety wszystkie etapy wykonuje się ręcznie i stąd łatwo o pomyłkę :-)

Czyli ok. 1 dnia roboczego na 2500 skanów? Dla miliona skanów (mniej więcej tylu się dorobiliśmy od początku) mielibyśmy więc 400 dni roboczych, czyli ponad półtora roku wytężonej pracy na pełnym etacie. Sporo. Oczywiście ten milion to tylko taka orientacyjna miara, bo w praktyce pewnie nie wszystko by się nadawało do takiej dodatkowej obróbki.
 
     
relis 


Wiek: 54
Dołączył: 13 Lut 2007
Posty: 790
Skąd: Biblioteka Śląska
Poziom: 25
HP: 14/1490
 1%
MP: 711/711
 100%
EXP: 24/73
 32%
Wysłany: 2009-04-25, 20:01   

Śpiechu zrobił też test dla jednej publikacji: FineReader -> PDF -> pdf2djvu -> DjVu. O ile wiem w wersji dla Win. Obywa się bez Enterpise'a i XML, ale obraz tekstu jest z artefaktami, jak przy mocnej kompresji JPG.
_________________
Given enough eyeballs, all bugs are shallow.
ESR
It is not necessary to change; survival is not mandatory. ;-)
Edward Deming

http://relis-blog.blogspot.com
 
 
     
Tomasz Kalota 
Tomasz Kalota


Wiek: 49
Dołączył: 13 Lut 2007
Posty: 322
Skąd: Wrocław
Poziom: 16
HP: 0/556
 0%
MP: 265/265
 100%
EXP: 30/39
 76%
Wysłany: 2009-04-27, 12:18   

relis napisał/a:
Śpiechu zrobił też test dla jednej publikacji: FineReader -> PDF -> pdf2djvu -> DjVu. O ile wiem w wersji dla Win. Obywa się bez Enterpise'a i XML, ale obraz tekstu jest z artefaktami, jak przy mocnej kompresji JPG.

Tutaj - http://www.bibliotekacyfrowa.pl/publication/20665 jest przykład publikacji zrobionej tą metodą. Rafał zainstalował PDF2DjVu na serwerze i uruchomił "gorące katalogi". Do jednego wkładam PDFa a z drugiego wyciągam DjVu. Fakt, że kompresja obrazu jest mniejsza niż w DjVu, ale jakość OCRu i szybkość przygotowania publikacji (brak konieczności zabawy z XMLem) rekompensują tę niedogodność. Linię technologiczną uruchomiliśmy w ubiegłym tygodniu więc nie mam jeszcze dokładnych danych wydajnościowych, ale zapowiada się nieźle :-) . Schemat pracy jest następujący:

1 etap - OCR w Fine Reader + zapis do PDFa
2 etap - zamiana PDF na DjVu
3 etap - mała manipulacja na DjVu (dodanie nagłówka, stopki, tła, miniatur i rozbicie na pojedyncze strony)

Pobawię się teraz różnymi materiałami i jak będę miał jakieś dane na temat wydajności to napiszę. "Gorące katalogi" pozwalają na zamianę PDF do DjVu np. w nocy. W czasie godzin pracy przygotowuje się PDFy i kopiuje na serwer a na drugi dzień rano mamy gotowe DjVu do rozbicia i opublikowania.
_________________
Myśl więziona w księdze jest hańbą dla księgi.

Tomasz Kalota | Digitalizacja.pl | eBooki.com.pl
 
 
     
Tomasz Kalota 
Tomasz Kalota


Wiek: 49
Dołączył: 13 Lut 2007
Posty: 322
Skąd: Wrocław
Poziom: 16
HP: 0/556
 0%
MP: 265/265
 100%
EXP: 30/39
 76%
Wysłany: 2009-04-29, 13:31   OCR gotyk i obrazki

A tutaj - http://www.bibliotekacyfrowa.pl/publication/20123 jest przykład OCRu gotyku. Publikacja została zrobiona opisaną wyżej metodą. Dodatkowo można zobaczyć jak zachowują się zdjęcia w takiej publikacji. Jakość zdjęć w oryginale nie jest najlepsza, ale w DjVu w całości znajdują się w warstwę tła dzięki czemu nie ma efektu poszarpania jak to bywa gdy cześć zdjęcia znajduje się w warstwie tekstu. Na jakość zdjęć i warstwy tła można w pewnym stopniu wpływać podczas optymalizacji PDFa, z którego jest robiony DjVu.
_________________
Myśl więziona w księdze jest hańbą dla księgi.

Tomasz Kalota | Digitalizacja.pl | eBooki.com.pl
 
 
     
Spiechu 


Wiek: 39
Dołączył: 16 Sie 2007
Posty: 27
Skąd: Biblioteka Śląska
Poziom: 3
HP: 0/44
 0%
MP: 21/21
 100%
EXP: 9/9
 100%
Wysłany: 2009-04-30, 08:16   

Zawsze można grafiki kompresować w profilu photo, a tekst osobno (porządnie OCRując przy okazji). Wszystko to można złożyć w 1 publikację djvu.
Sporo przy tym niestety roboty.
 
 
     
Tomasz Kalota 
Tomasz Kalota


Wiek: 49
Dołączył: 13 Lut 2007
Posty: 322
Skąd: Wrocław
Poziom: 16
HP: 0/556
 0%
MP: 265/265
 100%
EXP: 30/39
 76%
Wysłany: 2009-05-12, 15:12   

Spiechu napisał/a:
Zawsze można grafiki kompresować w profilu photo, a tekst osobno (porządnie OCRując przy okazji). Wszystko to można złożyć w 1 publikację djvu.
Sporo przy tym niestety roboty.

Kolejny eksperyment z ładniejszymi zdjęciami - http://www.bibliotekacyfrowa.pl/publication/20968 . Okładki zrobione w trybie photo a cały środek (tekst + zdjęcia) jednobitowo przy pomocy PDF2DjVu. Przy powiększeniu 100% zdjęcia wyglądają tak jak w oryginale. Skanowanie ich w odcieniach szarości nie ma większego sensu ponieważ one w oryginale też są jednobitowe. Żeby nie popsuć rastra trzeba to skanować w rozdzielczości 600 dpi i wtedy efekt (złudzenie), który generuje raster w oryginale jest przeniesiony na postać cyfrową. O tym zjawisku opowiadał Marek Kolasa w ubiegłym roku w Krakowie http://mbc.malopolska.pl/...jvuopts&page=50
_________________
Myśl więziona w księdze jest hańbą dla księgi.

Tomasz Kalota | Digitalizacja.pl | eBooki.com.pl
 
 
     
turbos11

Dołączył: 19 Sie 2009
Posty: 16
Poziom: 2
HP: 0/30
 0%
MP: 14/14
 100%
EXP: 6/8
 75%
Wysłany: 2009-08-19, 04:55   

relis napisał/a:
Przy wyszukaniu fraz można zauważyć, że pozycja podklejonego tekstu nie zawsze odpowiada precyzyjnie pozycji obrazu słowa. Są drobne różnice. Związane to z lekkim przekrzywieniem obrazu mastera. Djvu kompresuje jak jest, natomiast FR przy rozpoznaniu prostuje obraz strony wg poziomej orientacji linii tekstu i tak zapisuje pozycje słów. Po sklejeniu więc widoczne są różnice.


Przed rozpoznaniem W FR należy wyłączyć przekrzywianie wtedy wszystko będzie pasować idealnie.
Menu->Tools->options...
Zakładka 1.Skan/Open
Correct image screw - wyłaczyć
_________________
djvu 2 reader - przenośna i wygodna w użyciu przeglądarka plików djvu
 
     
fair2003 

Dołączył: 22 Cze 2011
Posty: 5
Poziom: 1
HP: 0/18
 0%
MP: 8/8
 100%
EXP: 4/9
 44%
Wysłany: 2011-08-27, 09:51   Re: Lepszy OCR w plikach DjVu

relis napisał/a:
[...]
2. Za pomocą Ent. konwertujemy ten PDF do "pośredniego" obrazka DjVu z rozpoznaniem OCR (tryb Elektronic Enterpise'a) - i dostajemy "pośredni" DjVu z "czystą" czcionką jako wastwą OCR. (plik 2) [...]

Dlaczego w tym kroku gubi się polskie "ł". Czy to wina starej wersji Ghostscript 8.14, której LizardTech DEE używa ?
 
     
relis 


Wiek: 54
Dołączył: 13 Lut 2007
Posty: 790
Skąd: Biblioteka Śląska
Poziom: 25
HP: 14/1490
 1%
MP: 711/711
 100%
EXP: 24/73
 32%
Wysłany: 2011-10-04, 23:30   

Czyżby koniec kłopotów z OCR w plikach DjVu? Nowy FineReader, ver. 11
Cytat:
tworzenie e-booków w formacie EPUB lub FB2, eksport do różnych formatów, w tym: rtf, txt, doc, xls, csv, dbf, html, pdf, pdf/a, ppt, docx, xlsx, pptx, html, scv, Djvu


Czekamy na testy.
_________________
Given enough eyeballs, all bugs are shallow.
ESR
It is not necessary to change; survival is not mandatory. ;-)
Edward Deming

http://relis-blog.blogspot.com
 
 
     
Wyświetl posty z ostatnich:   
Ten temat jest zablokowany bez możliwości zmiany postów lub pisania odpowiedzi
Nie możesz pisać nowych tematów
Nie możesz odpowiadać w tematach
Nie możesz zmieniać swoich postów
Nie możesz usuwać swoich postów
Nie możesz głosować w ankietach
Nie możesz załączać plików na tym forum
Możesz ściągać załączniki na tym forum
Dodaj temat do Ulubionych
Wersja do druku

Skocz do:  

Powered by phpBB modified by Przemo © 2003 phpBB Group
Biblioteka 2.0 : Forum społeczności czytelników i bibliotekarzy cyfrowych [Dokument elektroniczny] - Tryb dostępu http://forum.biblioteka20.pl
Korzystanie z portalu oznacza akceptację naszej polityki prywatności.
Strona wygenerowana w 0.09 sekundy. Zapytań do SQL: 8