Biblioteka 2.0 on Facebook
Biblioteka 2.0 Strona Główna

Biblioteka 2.0
Forum społeczności czytelników i bibliotekarzy cyfrowych

FAQFAQ  SzukajSzukaj  UżytkownicyUżytkownicy  GrupyGrupy  StatystykiStatystyki
RejestracjaRejestracja  ZalogujZaloguj  AlbumAlbum  DownloadDownload

Poprzedni temat «» Następny temat
Lepszy OCR w plikach DjVu
Autor Wiadomość
janusz


Dołączył: 17 Paź 2011
Posty: 7
Skąd: Kraków
Poziom: 1
HP: 0/18
 0%
MP: 8/8
 100%
EXP: 6/9
 66%
Wysłany: 2011-10-18, 08:58   

Tomasz Kalota napisał/a:
A czy była robiona aktualizacja FR11? Pojawiły się już jakieś poprawki do pierwszych wersji pudełkowych.

Tak, mam świeży update z sieci...
 
     
janusz


Dołączył: 17 Paź 2011
Posty: 7
Skąd: Kraków
Poziom: 1
HP: 0/18
 0%
MP: 8/8
 100%
EXP: 6/9
 66%
Wysłany: 2011-10-18, 10:37   

Poprawka:
Cytat:
- podświetlenie w pliku z FR 11 jest dokładniejsze niż po przeróbkach PDFa;

Jeśli utworzyć plik PDF "Tekst pod graficznym obrazem strony" (a nie "Tylko tekst i grafika"), to również przy zastosowaniu "starego" schematu produkcji szukane słowo podświetla się bardzo precyzyjnie.
 
     
Jerzy Witczak

Dołączył: 22 Lis 2007
Posty: 47
Skąd: Wrocław
Poziom: 5
HP: 0/81
 0%
MP: 38/38
 100%
EXP: 9/13
 69%
Wysłany: 2011-10-18, 11:21   

Gratuluję postępów w pracy :-) widzę, że już niedługo będzie wszystko jasne i powstanie nowa recepta na OCR w DjVu. Czekam z nadzieją, dzięki :-)
_________________
ks. Jerzy Witczak
 
     
sk 
sk

Dołączył: 19 Lut 2007
Posty: 292
Skąd: KPBC, Toruń
Poziom: 15
HP: 0/488
 0%
MP: 233/233
 100%
EXP: 35/35
 100%
Wysłany: 2011-10-19, 21:56   Re: FineReader 11 vs. Document Express

Bartłomiej Siedlarz napisał/a:
Także potestowałem FR11 i jak się okazuje, DE nie stał się zbędny.

Tomasz Kalota napisał/a:
DE produkuje zdecydowanie lepsze pliki DjVu

Jeżeli pliki DjVu z FR11 nie są zadowalające (jakość, wielkość), to oczywiście da się rozwiązać problem przygotowując DjVu wysokiej jakości w DE oraz choćby nawet beznadziejne graficznie DjVu z solidnym OCR w FR11, a następnie zrzucając warstwę tekstową z dokumentu FR11 za pomocą djvutoxml i importując ją do dokumentu z DE (djvuxmlparser).

Po takiej operacji załączony wyżej przez Tomka plik z Armarium 0010_0001.djvu rośnie jedynie o ok. 2 kilobajty, czyli o warstwę tekstową, reszta zostaje jak w oryginale.

W zasadzie jest to ciągle ta sama idea, o której była mowa w postach rozpoczynających wątek. Trochę mnie więc martwi, że osiągnięcie optymalnego rezultatu nadal, po prawie trzech latach od rozpoczęcia dyskusji, wymaga stosowania więcej niż jednego narzędzia i podwójnej pracy, ale mimo wszystko cieszę się, że FR11 znacznie przybliża rozwiązanie problemu. ABBYY idzie we właściwym kierunku, konkurencja od lat stoi w miejscu.
 
     
janusz


Dołączył: 17 Paź 2011
Posty: 7
Skąd: Kraków
Poziom: 1
HP: 0/18
 0%
MP: 8/8
 100%
EXP: 6/9
 66%
Wysłany: 2011-10-19, 22:37   

sk napisał/a:
Jeżeli pliki DjVu z FR11 nie są zadowalające (jakość, wielkość), to oczywiście da się rozwiązać problem przygotowując DjVu wysokiej jakości w DE oraz choćby nawet beznadziejne graficznie DjVu z solidnym OCR w FR11, a następnie zrzucając warstwę tekstową z dokumentu FR11 za pomocą djvutoxml i importując ją do dokumentu z DE (djvuxmlparser).

Rzeczywiście lepszy i szybszy pomysł, niż robienie tego przez PDF i pdf2djvu wykonywane przed djvutoxml. Mam tylko jeden problem -- strony w DjVu z DE nazywają się wg schematu <nazwa pliku graficznego>_0001, zaś strony w DjVu z FR11 -- page<nnnn>, gdzie nnnn = 0001, 0002..., niezależnie od nazw plików graficznych, z których powstały. Nie da się więc, jeśli dobrze kombinuję, podać wyjścia z djvutoxml na wejście djvuxmlparsera...

Może ktoś podrzuci prosty pomysł na to, jak to obejść? Edytować tego wynikowego xml'a? Sed-em? Jakimś xslt?
 
     
sk 
sk

Dołączył: 19 Lut 2007
Posty: 292
Skąd: KPBC, Toruń
Poziom: 15
HP: 0/488
 0%
MP: 233/233
 100%
EXP: 35/35
 100%
Wysłany: 2011-10-20, 07:38   

janusz napisał/a:
Nie da się więc, jeśli dobrze kombinuję, podać wyjścia z djvutoxml na wejście djvuxmlparsera...

Może ktoś podrzuci prosty pomysł na to, jak to obejść? Edytować tego wynikowego xml'a? Sed-em? Jakimś xslt?

Bezpośrednio rzeczywiście się nie da, ale to nic nowego, ten sam problem trzeba rozwiązać, kiedy chce się załadować do "starego djvu" warstwę tesktową otrzymaną z wcześniejszej wersji FR w połaczeniu z pdf2djvu. Taką metodą poprawione zostało u nas np. Pożegnanie jesieni.

Ręczna edycja w przypadku dokumentów wielostronicowych byłaby drogą przez mękę, xslt natomiast jest w tym przypadku na wyrost, bo nie potrzebujemy zmiany struktury xml, a jedynie zastąpienia parami wystąpień nazw nowych plików na nazwy starych. Ja to robię banalnym skryptem, którego zasadnicze kroki wyglądają z grubsza tak.

Zapisujemy warstwę tekstową z dobrym OCR
Kod:

djvutoxml nowy_plik_glowny.djvu > output.xml


Tworzymy listę stron/plików dla starej i nowej wersji dokumentu
Kod:

djvm -l stary_plik_glowny.djvu | awk '/PAGE #/{print $3 "\t" $4}' > list.old
djvm -l nowy_plik_glowny.djvu | awk '/PAGE #/{print $3 "\t" $4}' > list.new


Łączymy obie listy wg kolejnych wierszy poleceniem paste, nadając wyjściu kształt zrozumiały dla seda
Kod:

paste list.new list.old | \
awk '{
    gsub(/\./,"\\.",$0)
    print "s/"$2 "/" $4 "/g"
}' > sedscr.sed


Doklejamy jeszcze do sedscr.sed wiersz dotyczący pliku głownego
Kod:

echo "s/nowy_plik_glowny\.djvu/stary_plik_glowny\.djvu/g" >> sedscr.sed


Przetwarzamy plik output.xml i ładujemy nowy do starego dokumentu
Kod:

sed -f sedscr.sed output.xml > new.xml
djvuxmlparser new.xml
 
     
janusz


Dołączył: 17 Paź 2011
Posty: 7
Skąd: Kraków
Poziom: 1
HP: 0/18
 0%
MP: 8/8
 100%
EXP: 6/9
 66%
Wysłany: 2011-10-20, 22:53   

sk napisał/a:
Ja to robię banalnym skryptem, którego zasadnicze kroki wyglądają z grubsza tak.
Pięknie dziękuję za podpowiedź -- rzeczywiście tak pójdzie elegancko!
 
     
Wyświetl posty z ostatnich:   
Ten temat jest zablokowany bez możliwości zmiany postów lub pisania odpowiedzi
Nie możesz pisać nowych tematów
Nie możesz odpowiadać w tematach
Nie możesz zmieniać swoich postów
Nie możesz usuwać swoich postów
Nie możesz głosować w ankietach
Nie możesz załączać plików na tym forum
Możesz ściągać załączniki na tym forum
Dodaj temat do Ulubionych
Wersja do druku

Skocz do:  

Powered by phpBB modified by Przemo © 2003 phpBB Group
Biblioteka 2.0 : Forum społeczności czytelników i bibliotekarzy cyfrowych [Dokument elektroniczny] - Tryb dostępu http://forum.biblioteka20.pl
Korzystanie z portalu oznacza akceptację naszej polityki prywatności.
Strona wygenerowana w 0.07 sekundy. Zapytań do SQL: 8