Biblioteka 2.0 on Facebook
Biblioteka 2.0 Strona Główna

Biblioteka 2.0
Forum społeczności czytelników i bibliotekarzy cyfrowych

FAQFAQ  SzukajSzukaj  UżytkownicyUżytkownicy  GrupyGrupy  StatystykiStatystyki
RejestracjaRejestracja  ZalogujZaloguj  AlbumAlbum  DownloadDownload

Poprzedni temat «» Następny temat
Tekst dokumentów djvu widoczny w Google
Autor Wiadomość
adudczak 


Dołączył: 20 Lut 2007
Posty: 30
Skąd: Poznań
Poziom: 4
HP: 0/61
 0%
MP: 29/29
 100%
EXP: 3/11
 27%
Wysłany: 2009-07-13, 08:18   Tekst dokumentów djvu widoczny w Google

Cześć wszystkim,

Marcin z urlopu podesłał mi dzisiaj link do wyników wyszukiwania: http://www.google.pl/sear...eka+pozna%C5%84

Na piątym miejscu wynik z kpbc wskazujący na treść wydania 30103 (http://kpbc.ukw.edu.pl/dlibra/plain-content?id=30103). dLibra od wersji 4.0 pozwala eksponować treść tekstową zawartą w plikach djvu co jak widać pozwala Google na indeksowanie tekstu zawartego w djvu :).
 
     
relis 


Wiek: 54
Dołączył: 13 Lut 2007
Posty: 790
Skąd: Biblioteka Śląska
Poziom: 25
HP: 14/1490
 1%
MP: 711/711
 100%
EXP: 24/73
 32%
Wysłany: 2009-07-13, 09:19   

Czy to Wy sprawiliście, czy Google poszedł po rozum do głowy?
Cokolwiek się wydarzyło - trzeba będzie się wziąć na poważnie za dobry OCR w DjVu.
_________________
Given enough eyeballs, all bugs are shallow.
ESR
It is not necessary to change; survival is not mandatory. ;-)
Edward Deming

http://relis-blog.blogspot.com
 
 
     
mwerla 
Marcin Werla


Wiek: 41
Dołączył: 13 Lut 2007
Posty: 251
Skąd: Poznań, PCSS
Poziom: 14
HP: 0/426
 0%
MP: 203/203
 100%
EXP: 27/33
 81%
Wysłany: 2009-07-14, 06:25   

Tak jak Adam napisał - to nasza sprawka, od dLibry 4.0. Tylko wcześniej nie udało mi się tego zaobserwować działającego w praktyce. Tzn. mechanizm w dLibrze działa (zwracam uwagę na parametry konfiguracyjne etgo mechanizmu) ale wcześniej nie widziałem w praktyce żeby Google to łyknęło. A teraz już mamy dowód że pomysł był dobry :-)
_________________
Marcin Werla
Zespół Bibliotek Cyfrowych PCSS
 
 
     
Tomasz Kalota 
Tomasz Kalota


Wiek: 49
Dołączył: 13 Lut 2007
Posty: 322
Skąd: Wrocław
Poziom: 16
HP: 0/556
 0%
MP: 265/265
 100%
EXP: 30/39
 76%
Wysłany: 2009-07-14, 07:21   

mwerla napisał/a:
(...) Tzn. mechanizm w dLibrze działa (zwracam uwagę na parametry konfiguracyjne etgo mechanizmu) ale wcześniej nie widziałem w praktyce żeby Google to łyknęło.(...)

Czy to znaczy, że w domyślnej instalacji dLibry ten mechanizm nie jest włączany? Generalnie świetnie, że to już działa :-) , to jest bardzo znaczący krok w uwalnianiu myśli ;-) .
_________________
Myśl więziona w księdze jest hańbą dla księgi.

Tomasz Kalota | Digitalizacja.pl | eBooki.com.pl
 
 
     
sk 
sk

Dołączył: 19 Lut 2007
Posty: 292
Skąd: KPBC, Toruń
Poziom: 15
HP: 0/488
 0%
MP: 233/233
 100%
EXP: 35/35
 100%
Wysłany: 2009-07-14, 13:12   

Działa to już od dłuższego czasu. Wystarczy sprawdzać zapytanie o kształcie "site:adres.bc.pl/dlibra/plain-content". Np. site:sbc.org.pl/dlibra/plain-content zwraca w tej chwili ponad 800 linków, podobnie site:bibliotekacyfrowa.pl/dlibra/plain-content.

Linki do plain-content w zwykłym zapytaniu, jak w przypadku tej poznańskiej apteki, są i raczej pozostaną rzadkością. Chyba nikt nie linkuje do plain-content, a w Google miejsce w wynikach wyszukiwania zależy w sporym stopniu od linków z zewnątrz.

O ile wiem, domyślnie jest to włączone, ale z ograniczeniem dotyczącym wielkości udostępnianego w ten sposób dokumentu cyfrowego (można zwiększyć w konfiguracji).
 
     
AgaK 


Dołączyła: 13 Lut 2007
Posty: 150
Skąd: Warszawa
Poziom: 11
HP: 0/272
 0%
MP: 130/130
 100%
EXP: 8/25
 32%
Wysłany: 2009-07-14, 18:53   

Super! Zastanawiam się tylko, dlaczego Google nie znajduje wg rodzaju pliku, np. po wpisaniu "polski" lub "polska" i dodaniu filetype:djvu wychodzą różne rzeczy (chomikuj.pl, wikipedie różne),a zasobów BC nadal nie widać. Są ludzie, którzy tak szukają - czy jest szansa na to, że wspomniany mechanizm spowoduje takie uwidocznienie zasobów BC, żeby można było je znaleźć korzystając z operatorów Google?
_________________
Agnieszka
 
     
sk 
sk

Dołączył: 19 Lut 2007
Posty: 292
Skąd: KPBC, Toruń
Poziom: 15
HP: 0/488
 0%
MP: 233/233
 100%
EXP: 35/35
 100%
Wysłany: 2009-07-14, 20:18   

AgaK napisał/a:
Super! Zastanawiam się tylko, dlaczego Google nie znajduje wg rodzaju pliku, np. po wpisaniu "polski" lub "polska" i dodaniu filetype:djvu wychodzą różne rzeczy (chomikuj.pl, wikipedie różne),a zasobów BC nadal nie widać. Są ludzie, którzy tak szukają - czy jest szansa na to, że wspomniany mechanizm spowoduje takie uwidocznienie zasobów BC, żeby można było je znaleźć korzystając z operatorów Google?

DjVu nadal nie jest formatem odczytywanym i indeksowanym przez Google. Można wyszukiwać wg formatu pdf, ps, dwf, kml, kmz, xls, ppt, doc, rtf, swf i tylko w tych przypadkach wyniki są dość porządne.

Mechanizm zaimplementowany w dlibrze nie jest próbą przekonania Googlarki, żeby indeksowała także DjVu, lecz polega na obejściu wspomnianych ograniczeń. "Wyciąga" z dokumentów DjVu warstwę tekstową, zapisuje ją jako txt na dysku i po doklejeniu kilku tagów udostępnia w sieci jako html.

Dzięki temu internauta, który np. poszukuje informacji na temat roślin leczniczych i wpisze w Googlach: [URL=http://www.google.pl/search?hl=pl&safe=off&q=driakiew+czarcikęs+scabiosa+succisa&btnG=Szukaj&lr=&aq=f]driakiew czarcikęs scabiosa succisa[/URL], dostanie m.in. link do Atlasiku roślin leczniczych w KPBC.
 
     
Wyświetl posty z ostatnich:   
Ten temat jest zablokowany bez możliwości zmiany postów lub pisania odpowiedzi
Nie możesz pisać nowych tematów
Nie możesz odpowiadać w tematach
Nie możesz zmieniać swoich postów
Nie możesz usuwać swoich postów
Nie możesz głosować w ankietach
Nie możesz załączać plików na tym forum
Możesz ściągać załączniki na tym forum
Dodaj temat do Ulubionych
Wersja do druku

Skocz do:  

Powered by phpBB modified by Przemo © 2003 phpBB Group
Biblioteka 2.0 : Forum społeczności czytelników i bibliotekarzy cyfrowych [Dokument elektroniczny] - Tryb dostępu http://forum.biblioteka20.pl
Korzystanie z portalu oznacza akceptację naszej polityki prywatności.
Strona wygenerowana w 0.07 sekundy. Zapytań do SQL: 9