Biblioteka 2.0 on Facebook
Biblioteka 2.0 Strona Główna

Biblioteka 2.0
Forum społeczności czytelników i bibliotekarzy cyfrowych

FAQFAQ  SzukajSzukaj  UżytkownicyUżytkownicy  GrupyGrupy  StatystykiStatystyki
RejestracjaRejestracja  ZalogujZaloguj  AlbumAlbum  DownloadDownload

Poprzedni temat «» Następny temat
OCR z Finereader + djvu
Autor Wiadomość
cortez8591

Dołączył: 09 Lip 2009
Posty: 2
Poziom: 1
HP: 0/18
 0%
MP: 8/8
 100%
EXP: 1/9
 11%
Wysłany: 2009-07-09, 11:55   OCR z Finereader + djvu

Witam, jestem tu nowy i nie wiem czy w dobrym miejscu piszę no ale mimo wszystko spróbuję zadać tu swoje pytanie.

Mam za zadanie stworzyć małą cyfrową biblioteczkę, konkretnie archiwum pewnego tygodnika. Poskanowałem pierwszy numer do formatu TIFF 300dpi i przeleciałem całość używając LizardTech Document Express Enterprise 5.1. Otrzymałem wyjściowy plik djvu jednak gdy wyciągnąłem z niego samą warstwe OCR [enterprise zapisał mi do .txt] pokazało się wiele krzaków. Jednym z założeń ma być funkcjonująca obok wyszukiwarka treści działająca na zasadzie słowo kluczowe -> strona i nr wydania. Stąd dokładność OCR powinna być jak najwyższa. Mam również dostęp do ABBYY FineReader 9.0 Professional który dosyć dobrze radzi sobie z rozpoznawaniem tekstu. Teraz moje pytanie: jak mogę połączyć zalety FineReadera oraz formatu djvu ? Interesuje mnie jakakolwiek droga [najbardziej toporna i żmudna, nieautomatyczna] która zagwarantuje mi sukces.
Wierze że znajdą tu się osoby które robiły wcześniej takie rzeczy oraz podrzucą jakieś how-to, ew nakierują na artykuły dzięki którym poradzę sobie z wyżej przytoczonym zadaniem.

Z góry dzięki i pozdrawiam
 
     
relis 


Wiek: 54
Dołączył: 13 Lut 2007
Posty: 790
Skąd: Biblioteka Śląska
Poziom: 25
HP: 14/1490
 1%
MP: 711/711
 100%
EXP: 24/73
 32%
Wysłany: 2009-07-09, 16:31   

Takie próby polepszenia są opisane w tym wątku.
_________________
Given enough eyeballs, all bugs are shallow.
ESR
It is not necessary to change; survival is not mandatory. ;-)
Edward Deming

http://relis-blog.blogspot.com
 
 
     
cortez8591

Dołączył: 09 Lip 2009
Posty: 2
Poziom: 1
HP: 0/18
 0%
MP: 8/8
 100%
EXP: 1/9
 11%
Wysłany: 2009-07-12, 16:16   

Witam znowu, tym razem troche z innej beczki. Otóż przeglądarki Lizarda nie wiedzieć czemu [zarówno w wersji 5 jak i 6, plugin do przeglądarki lub nie] nie mogą odczytać dokumentu djvu, a konkretnie jednej strony. Wersja 6 powoduje wywalanie się całej przeglądarki a 5 wyświetla tylko komunikat błędu. Co ciekawe błąd dotyczy tylko tej jednej konkretnej kartki. Próbowałem na wiele sposobów przetworzyć ją enterprisem jednak zawsze kończyło się na błędzie (w przeglądarce). Co jeszcze ciekawsze przeglądarka z djvulibre radzi sobie dobrze z dokumentem. Jakieś pomysły czym to może być spowodowane? Pod tym adresem jest owa strona: http://0dayshare.com/ScanImage07.jpg (pozwoliłem sobie na format jpg gdyż on również po przetworzeniu powoduje błędy, a wrzucanie i ściąganie 8mb tiff wydaje się być stratą czasu).

Aha i żeby było śmieszniej DocumentExpress Professional Editor też nie ma problemów z otwarciem djvu powstałego z wyżej wymienionego .jpg.
 
     
Wyświetl posty z ostatnich:   
Ten temat jest zablokowany bez możliwości zmiany postów lub pisania odpowiedzi
Nie możesz pisać nowych tematów
Nie możesz odpowiadać w tematach
Nie możesz zmieniać swoich postów
Nie możesz usuwać swoich postów
Nie możesz głosować w ankietach
Nie możesz załączać plików na tym forum
Możesz ściągać załączniki na tym forum
Dodaj temat do Ulubionych
Wersja do druku

Skocz do:  

Powered by phpBB modified by Przemo © 2003 phpBB Group
Biblioteka 2.0 : Forum społeczności czytelników i bibliotekarzy cyfrowych [Dokument elektroniczny] - Tryb dostępu http://forum.biblioteka20.pl
Korzystanie z portalu oznacza akceptację naszej polityki prywatności.
Strona wygenerowana w 0.07 sekundy. Zapytań do SQL: 8