Biblioteka 2.0 on Facebook
Biblioteka 2.0 Strona Główna

Biblioteka 2.0
Forum społeczności czytelników i bibliotekarzy cyfrowych

FAQFAQ  SzukajSzukaj  UżytkownicyUżytkownicy  GrupyGrupy  StatystykiStatystyki
RejestracjaRejestracja  ZalogujZaloguj  AlbumAlbum  DownloadDownload

Poprzedni temat «» Następny temat
OCR w bibliotekach cyfrowych
Autor Wiadomość
relis 


Wiek: 54
Dołączył: 13 Lut 2007
Posty: 790
Skąd: Biblioteka Śląska
Poziom: 25
HP: 14/1490
 1%
MP: 711/711
 100%
EXP: 24/73
 32%
Wysłany: 2009-04-07, 12:41   OCR w bibliotekach cyfrowych

W WBC jest taka publikacja jak Codex Diplomaticus Silesiae. To dość cenne źródło historyczne nt. Śląska, lecz jego użyteczność jest ograniczona bo nie ma OCR i zapewne nieprędko przez WBC będzie zrobione. Posiadamy to dzieło u nas, lecz nie ma sensu go dublować w BC. Ponieważ możemy wykonać OCR, proponujemy, by WBC udostępniło nam pliki źródłowe (nie djvu), które rozpoznamy i skonwertujemy do DjVu, które prześlemy zwrotnie redaktorom WBC do podmienienia w tym serwisie. Nie będzie to może szybko, ale sukcesywnie.

Myślę że taka praktyka pozwoliłaby uniknąć technologicznego "mrożenia" publikacji ze względu na przyjętą zasadę koordynacji digitalizacji, przy jednoczesnym uniezależnieniu od możliwości konkretnych BC.
I pewnie mogłoby się to stać stałą praktyką, gdyby FBC indeksowało treści z BC. Wtedy wszystkim powinno być (prawie) wszystko jedno, w której BC co jest publikowane i gdzie ulepszane.
_________________
Given enough eyeballs, all bugs are shallow.
ESR
It is not necessary to change; survival is not mandatory. ;-)
Edward Deming

http://relis-blog.blogspot.com
 
 
     
relis 


Wiek: 54
Dołączył: 13 Lut 2007
Posty: 790
Skąd: Biblioteka Śląska
Poziom: 25
HP: 14/1490
 1%
MP: 711/711
 100%
EXP: 24/73
 32%
Wysłany: 2009-05-06, 16:47   

Żeby CDS było kompletne w jednej BC (mamy brakujące WBC 2 tomy)- podeślemy je niebawem do Kórnika, a swoje odpublikujemy.
_________________
Given enough eyeballs, all bugs are shallow.
ESR
It is not necessary to change; survival is not mandatory. ;-)
Edward Deming

http://relis-blog.blogspot.com
 
 
     
Rafał123

Dołączył: 10 Maj 2009
Posty: 2
Poziom: 1
HP: 0/18
 0%
MP: 8/8
 100%
EXP: 1/9
 11%
Wysłany: 2009-05-10, 16:47   

Czemu nie zrobić czegoś podonego do Projektu Gutenberga i ich Distributed Proofreaders? http://www.pgdp.net

Wtedy grupa ludzi mogłaby poprawiać błędy po OCRze.

Oprogramowanie, którego używają ba PGDP jest darmowe i open source.
 
     
relis 


Wiek: 54
Dołączył: 13 Lut 2007
Posty: 790
Skąd: Biblioteka Śląska
Poziom: 25
HP: 14/1490
 1%
MP: 711/711
 100%
EXP: 24/73
 32%
Wysłany: 2009-05-13, 20:15   

Rafał123 napisał/a:
Czemu nie zrobić czegoś podonego do Projektu Gutenberga i ich Distributed Proofreaders? http://www.pgdp.net

Wtedy grupa ludzi mogłaby poprawiać błędy po OCRze.

Oprogramowanie, którego używają ba PGDP jest darmowe i open source.


Zrobić można mnóstwo rzeczy, tylko żniwiarzy mało ;-) . No i możliwość zrobienia czegoś nie oznacza, że warto to robić. Przy zwykłych drukach prawdopodobnie taniej będzie złożyć dobry OCR z niedrogich klocków, a potem to udostępnić reszcie BC, niż inicjować serwis i koordynować pracę społeczności.
Ale już o gotyku można pomyśleć. Tylko, że trzeba by raczej liczyć na niemieckich internautów.

No i czemu nie skorzystać z zapału kolegi? ;-)
_________________
Given enough eyeballs, all bugs are shallow.
ESR
It is not necessary to change; survival is not mandatory. ;-)
Edward Deming

http://relis-blog.blogspot.com
 
 
     
turbos11

Dołączył: 19 Sie 2009
Posty: 16
Poziom: 2
HP: 0/30
 0%
MP: 14/14
 100%
EXP: 6/8
 75%
Wysłany: 2009-08-24, 03:25   Re: OCR w bibliotekach cyfrowych

relis napisał/a:
Ponieważ możemy wykonać OCR, proponujemy, by WBC udostępniło nam pliki źródłowe (nie djvu), które rozpoznamy i skonwertujemy do DjVu.

A nie lepiej zrobić OCR z DjVu, a później podmienić warstwę OCR.

Cytat:

Oprogramowanie, którego używają ba PGDP jest darmowe i open source.

Ale do warstwy OCR w DjVu jest potrzebna pozycja wyrazu. A oprogramowanie z PGDP chyba ją traci. I chyba nikomu się nie będzie chciało poprawiać OCR skoro ta warstwa będzie niewidoczna i nie będzie widać ile się zrobiło.
_________________
djvu 2 reader - przenośna i wygodna w użyciu przeglądarka plików djvu
 
     
Wyświetl posty z ostatnich:   
Ten temat jest zablokowany bez możliwości zmiany postów lub pisania odpowiedzi
Nie możesz pisać nowych tematów
Nie możesz odpowiadać w tematach
Nie możesz zmieniać swoich postów
Nie możesz usuwać swoich postów
Nie możesz głosować w ankietach
Nie możesz załączać plików na tym forum
Możesz ściągać załączniki na tym forum
Dodaj temat do Ulubionych
Wersja do druku

Skocz do:  

Powered by phpBB modified by Przemo © 2003 phpBB Group
Biblioteka 2.0 : Forum społeczności czytelników i bibliotekarzy cyfrowych [Dokument elektroniczny] - Tryb dostępu http://forum.biblioteka20.pl
Korzystanie z portalu oznacza akceptację naszej polityki prywatności.
Strona wygenerowana w 0.07 sekundy. Zapytań do SQL: 8