occulkot
g/webdev

Taska mam od kolegi, posciagac mu do pracy doktorskiej rozne gazety zo dawnych lat, niby wszystkie biblioteki cyfrowe udalo sie rozwalic ale trafilem na http://polona.pl/ napisana cala w JS i tu juz nie mam pojecia jak to zmirrorowac. Potrzebuje stad wyciagnac wszystkie nry "gazety polskiej" z lat 1920-1939. Jakies sugestie co do narzedzia?

#
akerro

@occulkot: napisz na kontakt, żeby udostępnili Ci dane. Te dane powinny być już na licencji Public Domain.

#
occulkot

@akerro: x_X akurat tak oczywista rzecz mi do glowy nie przyszla, mail poszedl, ale jakby ktos mial sugestie jak to zrobic nie czekajac na bieglego do spraw udostepniania danych to z checia przeczytam.

#
borysses

@akerro: To nie takie proste. Glupie skanowanie materialu z PB nadaje skanujacemu 20 lat praw autorskich typograficznych...

#
akerro

@borysses:

Polona to nowoczesny portal, który udostępnia w sieci zbiory Biblioteki Narodowej. Jest narzędziem pozwalającym na powszechne otwarcie dla czytelników skarbca i magazynów Biblioteki Narodowej. Pozwoli również prezentować zbiory innych instytucji kultury.

z opisu wynika, że chcą udostępniać te dane

#
borysses

@akerro: No to udostępniają na stronie ;) Ale juz takie wyslanie skanow, pdfów czy plain tekstu to inna para kaloszy.

#
borysses

@occulkot: Probowales httptrack?

#
Jezor

@occulkot: najgorsze jest to, że albo plaintext albo skany po jednej stronie naraz można ściągnąć danej pozycji... Daj znać, co Ci odpowiedzą, bo też jestem zainteresowany częścią zbiorów. :)

#
occulkot

@borysses: a to nie jest nakladka na wgeta ;)? ta strona to SPA, napisana w dodatku z jakims CSFRem. Zeby ja przegladac po ludzku trzeba przegladarke z JS, statycznie w htmlu dostaje sie template i kontroler w JS. Pozostale biblioteki prasowalem wlasnie w htmlu ale tutaj - wyzsza szkola jazdy ;)

@Jezor: jasne, czekam cierpiliwie - uzylem w mailu slow "API", "zapytanie", "element" wiec licze ze pani halinka sforwarduje to od razu do dzialu technicznego.

#
occulkot

@Jezor @borysses @akerro

Polona udostępnia swoje zbiory do pobrania w oryginalnej rozdzielczości zarejestrowanym użytkownikom bezpośrednio z panelu danego obiektu. Nie ma możliwości zdalnego pobierania takiej liczby plików. Mówimy tu o ogromnej liczbie plików, których pobranie poza prozaicznym problemem wydajnościowym rodzi wątpliwości natury prawnej. Nie jest naszą intencją tworzenie kopii zbiorów Polony a raczaj korzystanie z nich w ramach naszego serwisu, do czego gorąco zachęcam zarówno Pana jak i kolegę.

Wiec pytanie pozostaje aktualne ;). Kolega zasugeroal phantomjs, od wtorku sprobuje sie moze przymiezyc.

#
borysses

@occulkot: Nic dziwnego. Też tak mamy ustawione w platformie której używamy, że nawet instytucja z pełnym dostępem (biblioteka) ma limit pobranych plików na godzinę, żeby nikt botów nie zapuszczał.

#
occulkot

@borysses: E, wiekszosc bibliotek uniwerkow (jagielonki itd) nie ma na szczescie limitow, przynajmniej ja jeszcze nie trafilem a max sciagniete bylo 40GB jednej gazety, nie pomne ktorej i z ktorego serwera.

#