Taska mam od kolegi, posciagac mu do pracy doktorskiej rozne gazety zo dawnych lat, niby wszystkie biblioteki cyfrowe udalo sie rozwalic ale trafilem na http://polona.pl/ napisana cala w JS i tu juz nie mam pojecia jak to zmirrorowac. Potrzebuje stad wyciagnac wszystkie nry "gazety polskiej" z lat 1920-1939. Jakies sugestie co do narzedzia?
@occulkot: napisz na kontakt, żeby udostępnili Ci dane. Te dane powinny być już na licencji Public Domain.
@akerro: x_X akurat tak oczywista rzecz mi do glowy nie przyszla, mail poszedl, ale jakby ktos mial sugestie jak to zrobic nie czekajac na bieglego do spraw udostepniania danych to z checia przeczytam.
@akerro: To nie takie proste. Glupie skanowanie materialu z PB nadaje skanujacemu 20 lat praw autorskich typograficznych...
Polona to nowoczesny portal, który udostępnia w sieci zbiory Biblioteki Narodowej. Jest narzędziem pozwalającym na powszechne otwarcie dla czytelników skarbca i magazynów Biblioteki Narodowej. Pozwoli również prezentować zbiory innych instytucji kultury.
z opisu wynika, że chcą udostępniać te dane
@akerro: No to udostępniają na stronie ;) Ale juz takie wyslanie skanow, pdfów czy plain tekstu to inna para kaloszy.
@occulkot: najgorsze jest to, że albo plaintext albo skany po jednej stronie naraz można ściągnąć danej pozycji... Daj znać, co Ci odpowiedzą, bo też jestem zainteresowany częścią zbiorów. :)
@borysses: a to nie jest nakladka na wgeta ;)? ta strona to SPA, napisana w dodatku z jakims CSFRem. Zeby ja przegladac po ludzku trzeba przegladarke z JS, statycznie w htmlu dostaje sie template i kontroler w JS. Pozostale biblioteki prasowalem wlasnie w htmlu ale tutaj - wyzsza szkola jazdy ;)
@Jezor: jasne, czekam cierpiliwie - uzylem w mailu slow "API", "zapytanie", "element" wiec licze ze pani halinka sforwarduje to od razu do dzialu technicznego.
Polona udostępnia swoje zbiory do pobrania w oryginalnej rozdzielczości zarejestrowanym użytkownikom bezpośrednio z panelu danego obiektu. Nie ma możliwości zdalnego pobierania takiej liczby plików. Mówimy tu o ogromnej liczbie plików, których pobranie poza prozaicznym problemem wydajnościowym rodzi wątpliwości natury prawnej. Nie jest naszą intencją tworzenie kopii zbiorów Polony a raczaj korzystanie z nich w ramach naszego serwisu, do czego gorąco zachęcam zarówno Pana jak i kolegę.
Wiec pytanie pozostaje aktualne ;). Kolega zasugeroal phantomjs, od wtorku sprobuje sie moze przymiezyc.
@occulkot: Nic dziwnego. Też tak mamy ustawione w platformie której używamy, że nawet instytucja z pełnym dostępem (biblioteka) ma limit pobranych plików na godzinę, żeby nikt botów nie zapuszczał.