Biblioteka 2.0 on Facebook
Biblioteka 2.0 Strona Główna

Biblioteka 2.0
Forum społeczności czytelników i bibliotekarzy cyfrowych

FAQFAQ  SzukajSzukaj  UżytkownicyUżytkownicy  GrupyGrupy  StatystykiStatystyki
RejestracjaRejestracja  ZalogujZaloguj  AlbumAlbum  DownloadDownload

Poprzedni temat «» Następny temat
Pre/post-procesowanie skanów
Autor Wiadomość
tarkowski 
koordynator CC PL


Dołączył: 19 Mar 2007
Posty: 11
Skąd: Warszawa
Poziom: 2
HP: 0/30
 0%
MP: 14/14
 100%
EXP: 1/8
 12%
Wysłany: 2009-07-11, 10:10   Pre/post-procesowanie skanów

Witajcie,

Zwracam się z prośbą o radę dotyczącą obróbki skanów w celu osiągnięcia lepszej ich jakości (zarówno na potrzeby OCR jak i tworzonych PDFów). Jak zapewne dobrze wiecie z własnej praktyki, skany mają różne mankamenty: strony zeskanowane pod kątem ze względu na nierówne ich zszycie, "falujący" tekst, itd.

Na potrzeby projektu "Otwórz książkę" (w którym prezentujemy skany, wersje tekstowe, oraz PDFy w postaci skan+tekst) szukamy rozwiązań pozwalających ulepszyć jakość skanów.

Obecnie OCR, ze względu na charakter wyjściowych skanów jest b. żmudny, a powstające PDFy nienajlepsze (tu problemem są ograniczone opcje jakie oferuje FineReader, którego używamy - rozważam znalezienie innej opcji tworzenia PDFów ze skanów wyjściowych (lub przerobionych) oraz plików tekstowych stworzonych przez FineReadera).

Mam nadzieję, że ktoś z Was ma doświadczenia w tej kwestii - np. jakiego oprogramowania używać. Mi udało się dotrzeć do dwóch programów do procesingu skanów, pierwszy dość surowy, drugi mniej, obydwa open source:

unpaper
http://unpaper.berlios.de/
scantailor
http://scantailor.sourceforge.net/

pozdrawiam,

Alek Tarkowski
_________________
http://creativecommons.pl
http://dir.icm.edu.pl
 
     
Tomasz Kalota 
Tomasz Kalota


Wiek: 49
Dołączył: 13 Lut 2007
Posty: 322
Skąd: Wrocław
Poziom: 16
HP: 0/556
 0%
MP: 265/265
 100%
EXP: 30/39
 76%
Wysłany: 2009-07-14, 08:20   Re: Pre/post-procesowanie skanów

tarkowski napisał/a:
(...)
Obecnie OCR, ze względu na charakter wyjściowych skanów jest b. żmudny, a powstające PDFy nienajlepsze (tu problemem są ograniczone opcje jakie oferuje FineReader, którego używamy - rozważam znalezienie innej opcji tworzenia PDFów ze skanów wyjściowych (lub przerobionych) oraz plików tekstowych stworzonych przez FineReadera).
(...)


Najlepszą kontrolę nad generowanymi PDFami daje FR 9.0, ale 8.0 też może być. Wcześniejsze wersje mają ograniczoną ilość opcji do ustawienia przy produkowaniu PDFa. Ja obecnie korzystam z FR 8.0 i polecam przetestowanie takiego procesu:

1. Rozdzielenie skanów na pojedyncze strony i ewentualne kadrowanie w celu wycięcia śmieci (np. Photoshop, Gimp)
2. Wciągniecie plików do FR w celu wyprostowania tekstu i zapisanie ich jako osobne TIFy (na razie bez OCR)
3. Tutaj można też zrobić wsadowe kadrowanie i wyrównanie rozmiarów stron.
4. Kontrola kompletności i jakości zdigitalizowanego materiału (testujemy obecnie FastStone - http://www.faststone.org/ i zapowiada się bardzo ciekawie. Jest szybki i można bardzo sprawnie podczas kontroli robić szybką edycję jak trzeba coś poprawić).
5. Teraz wszystko jeszcze raz do FR i można włączyć OCR.
6. Zapisanie wyniku do PDF.
7. Jeśli potrzeba to konwersja PDFów do DjVu przy pomocy PDF2DjVu - http://code.google.com/p/pdf2djvu/

Poniżej dwa przykłady publikacji zrobionych tą metodą:
http://www.bibliotekacyfrowa.pl/publication/20968
http://www.bibliotekacyfrowa.pl/publication/20123
_________________
Myśl więziona w księdze jest hańbą dla księgi.

Tomasz Kalota | Digitalizacja.pl | eBooki.com.pl
 
 
     
Wyświetl posty z ostatnich:   
Ten temat jest zablokowany bez możliwości zmiany postów lub pisania odpowiedzi
Nie możesz pisać nowych tematów
Nie możesz odpowiadać w tematach
Nie możesz zmieniać swoich postów
Nie możesz usuwać swoich postów
Nie możesz głosować w ankietach
Nie możesz załączać plików na tym forum
Możesz ściągać załączniki na tym forum
Dodaj temat do Ulubionych
Wersja do druku

Skocz do:  

Powered by phpBB modified by Przemo © 2003 phpBB Group
Biblioteka 2.0 : Forum społeczności czytelników i bibliotekarzy cyfrowych [Dokument elektroniczny] - Tryb dostępu http://forum.biblioteka20.pl
Korzystanie z portalu oznacza akceptację naszej polityki prywatności.
Strona wygenerowana w 0.17 sekundy. Zapytań do SQL: 8