Biblioteka 2.0 on Facebook
Biblioteka 2.0 Strona Główna

Biblioteka 2.0
Forum społeczności czytelników i bibliotekarzy cyfrowych

FAQFAQ  SzukajSzukaj  UżytkownicyUżytkownicy  GrupyGrupy  StatystykiStatystyki
RejestracjaRejestracja  ZalogujZaloguj  AlbumAlbum  DownloadDownload

Poprzedni temat «» Następny temat
Rozproszona korekta OCR
Autor Wiadomość
mwerla 
Marcin Werla


Wiek: 36
Dołączył: 13 Lut 2007
Posty: 251
Skąd: Poznań, PCSS
Poziom: 14
HP: 0/426
 0%
MP: 203/203
 100%
EXP: 27/33
 81%
Wysłany: 2007-12-28, 10:21   Rozproszona korekta OCR

Dość ciekawy pomysł na korektę OCR (np. przy pomocy czytelników) został przedstawiony tutaj:
http://feeds.pbs.org/~r/p...svonahn_480.mp4

Wywiad jest po angielsku. Całość bazuje na pomyśle podobnym do tego, opisanego tutaj:
http://gospodarka.gazeta....70,4628285.html :-)
_________________
Marcin Werla
Zespół Bibliotek Cyfrowych PCSS
 
 
     
ws 
ws

Dołączył: 15 Lut 2007
Posty: 89
Skąd: KPBC, Toruń
Poziom: 8
HP: 0/159
 0%
MP: 76/76
 100%
EXP: 8/19
 42%
Wysłany: 2008-01-03, 22:40   

Tutaj jeszcze inny przykład OCR'owania (???) treści dostarczanych przez biblioteki cyfrowe.
_________________
--
WS
 
     
mwerla 
Marcin Werla


Wiek: 36
Dołączył: 13 Lut 2007
Posty: 251
Skąd: Poznań, PCSS
Poziom: 14
HP: 0/426
 0%
MP: 203/203
 100%
EXP: 27/33
 81%
Wysłany: 2008-06-19, 07:29   

To jeszcze jeden link w tym temacie: http://www.gwap.com/
_________________
Marcin Werla
Zespół Bibliotek Cyfrowych PCSS
 
 
     
relis 


Wiek: 50
Dołączył: 13 Lut 2007
Posty: 790
Skąd: Biblioteka Śląska
Poziom: 25
HP: 29/1490
 2%
MP: 711/711
 100%
EXP: 24/73
 32%
Wysłany: 2008-08-29, 19:52   

Otrzymaliśmy ciekawy mail z serwisu niemieckich genealogów, którzy korzystając z naszych zasobów, chcieliby zwrotnie świadczyć nam coś w rodzaju "wolontariackiego OCR" polegającego na rozpisywaniu spisów treści publikacji w BC.
Cytat:
"Your digital books are a great help for us to improve our content. To give something back we thought you could be interested in index of contents for the digital books. We have a lot of volunteers who transcribe the text of old (expired copyrights) book. Maybe this text could be added to the DjVu files to make them searchable."

Przy czym przez "searchable" rozumieją tu wykonanie zakładek do odpowiednich części (rozdziałów) opublikowanej treści za pomocą specjalnego pliku inkorporowanego do pliku publikacji odpowiednim poleceniem. Nawet podesłali nam ten plik do wypróbowania. Rzecz dotyczy publikacji Silesia Sacra. Z braku OCR zakładki znacznie poprawiłyby nawigowanie.

Co ciekawe w swoim serwisie wiki wykonali na nią wskazania w taki ciekawy sposób. Klikanie w linki spisu treści otwiera publikację na konkretnych stronach umieszczonej w ŚBC publikacji z pominięciem aparatury samej BC. Niemniej podali też na końcu link do do strony w BC z pełnym opisem.
_________________
Given enough eyeballs, all bugs are shallow.
ESR
It is not necessary to change; survival is not mandatory. ;-)
Edward Deming

http://relis-blog.blogspot.com
 
 
     
Tomasz Kalota 
Tomasz Kalota


Wiek: 45
Dołączył: 13 Lut 2007
Posty: 322
Skąd: Wrocław
Poziom: 16
HP: 0/556
 0%
MP: 265/265
 100%
EXP: 30/39
 76%
Wysłany: 2008-08-29, 22:30   

relis napisał/a:
(...)Co ciekawe w swoim serwisie wiki wykonali na nią wskazania w taki ciekawy sposób. Klikanie w linki spisu treści otwiera publikację na konkretnych stronach umieszczonej w ŚBC publikacji z pominięciem aparatury samej BC. Niemniej podali też na końcu link do do strony w BC z pełnym opisem.

To jest świetny pretekst do wprowadzenia nowych funkcjonalności w dLibrze:
1. Zapisz zakładkę
2. Wyślij zakładkę znajomemu

Przykład zastosowania:
Zobacz plan Wrocławia.

To brzmi zupełnie inaczej niż:
Zobacz plan Wrocławia. Aby go obejrzeć kliknij na ten link http://www.bibliotekacyfrowa.pl/publication/7114 następnie otwórz publikację i znajdź stronę 102.

Podejrzewam, że od takich zakładek mogłoby się roić na różnego rodzaju forach, w różnych serwisach społecznościowych czy w publikacjach naukowych. Nie muszę chyba wspominać jak Google zareaguje na miliony takich zakładek do naszych bibliotek cyfrowych ;-) .

Pytanie do drużyny z PCSS - czy da się uruchomić taki mechanizm, który jednym klikiem będzie generował zakładkę do konkretnej strony i dodatkowo będzie te stronę otwierał w bibliotece cyfrowej?

Kolejny krok to tagowanie zakładek. Wyobrażacie sobie np. tag "plan Wrocławia", który generuje listę zakładek do różnych publikacji zawierających różne plany Wrocławia. To dopiero byłoby wyzwanie dla czytelników 2.0. Zajęcie na lata, żeby pogrupować informacje z różnych dziedzin. Następnie "cyfrowi badacze" mogliby pochwalić się zestawem swoich zakładek na własnym blogu. A co na to PageRank ;-) ?
_________________
Myśl więziona w księdze jest hańbą dla księgi.

Tomasz Kalota | Digitalizacja.pl | eBooki.com.pl
 
 
     
ws 
ws

Dołączył: 15 Lut 2007
Posty: 89
Skąd: KPBC, Toruń
Poziom: 8
HP: 0/159
 0%
MP: 76/76
 100%
EXP: 8/19
 42%
Wysłany: 2008-08-31, 11:17   

relis napisał/a:

Co ciekawe w swoim serwisie wiki wykonali na nią wskazania w taki ciekawy sposób. Klikanie w linki spisu treści otwiera publikację na konkretnych stronach umieszczonej w ŚBC publikacji z pominięciem aparatury samej BC. Niemniej podali też na końcu link do do strony w BC z pełnym opisem.


To było wcześniej znane, ale może nie rozpropagowane. W ten sposób np. otwierana jest w Wikipedii strona rozpoczynająca Kronikę Kadłubka w Monumenta Poloniae Historica.
_________________
--
WS
 
     
moriakaice 

Dołączył: 20 Paź 2008
Posty: 2
Poziom: 1
HP: 0/18
 0%
MP: 8/8
 100%
EXP: 1/9
 11%
Wysłany: 2008-10-20, 07:26   

A może by tak wykorzystać Distributed Proofreaders Europe? Na nadmiar polskich skanów do OCRu nie narzekają, a dzięki temu mogłyby powstać całkiem niezłe OCRy, lepsze od tych, które są przy niektórych (wszystkich?) DjVu-kach :P

Może któraś z BC zdecydowałaby się "pożyczyć" skany jakiejś pozycji i przetestować taką możliwość?
_________________
---
 
     
Wyświetl posty z ostatnich:   
Odpowiedz do tematu
Nie możesz pisać nowych tematów
Nie możesz odpowiadać w tematach
Nie możesz zmieniać swoich postów
Nie możesz usuwać swoich postów
Nie możesz głosować w ankietach
Nie możesz załączać plików na tym forum
Możesz ściągać załączniki na tym forum
Dodaj temat do Ulubionych
Wersja do druku

Skocz do:  

Powered by phpBB modified by Przemo © 2003 phpBB Group
Biblioteka 2.0 : Forum społeczności czytelników i bibliotekarzy cyfrowych [Dokument elektroniczny] - Tryb dostępu http://forum.biblioteka20.pl
Korzystanie z portalu oznacza akceptację naszej polityki prywatności.
Strona wygenerowana w 0.07 sekundy. Zapytań do SQL: 8