m__b
g/piractwo

Korzystając z tak piknej okazji, jaką jest założenie g/piractwo, zadam pytanie wyjątkowo na temat. Ebooki ostatnio modnie są zabezpieczane watermarkami. Powiedzmy, że jako zapalony pirat chciałbym kupić jakiegoś i wypuścić go w świat, ale po usunięciu watermarka. Wie ktoś, jak oni to robią? Gdzie chowają te watermarki?

#
akerro

@m__b: jeśli to plik PDF (pdf to nie ebook) to dość łatwo to usunąć bo plik PDF wyświetla grafikę (obrazki, tekst itp) w formie warstw. więc wystarczy namierzyć w której warstwie jest watermark i po prostu ją usunąć skryptem z każdej strony. jak to epub to jest to nieco bardziej skomplikowane bo nie ma warstw, epub i mobi nie mają też stron. ale z tego co pamiętam to calibre się tym potrafi zając.

#
m__b

@akerro: PDF to nie jest ebook. To jakiś nędzny erzac i pewnie dobrze o tym wiesz. Żebym na kundlu mógł poczytać, to epub/mobi potrzebuję. PDF umarł, żyje tylko ewentualnie, kiedy potrzebuję coś wydrukować/wyplotować, a i to czasami nie działa jak należy i potrafi fonty zjebać...

#
Writer

@akerro: ePub to właściwie zestaw plików HTML, czy tam XML. Pewnie nie tak ciężko, choć może mi się zdaje.

#
m__b

@akerro: Czyli generalnie nie wiesz nawet o czym piszesz. Bo watermark to niekoniecznie "obrazek" który się pokazuje, ale jest to specyficzna ingerencja w treść, która pozwala odkryć pochodzenie pliku. Są pomysły, że watermarkiem może być zmiana z łacińskiego a na cyrylicowe a, które się różni nie dla czytelnika, ale można odkryć oryginalne pochodzenie pliku dzięki pewnemu algorytmowi rozmieszczenia zmian.

Oczywiście to tylko przykład, bo różnie to z tym bywa.

#
Writer

@m__b: Tylko czy wywalenie takiego watermarka jest aż tak ważne? Dla ściągającego to raczej nie ma różnicy, a pirat mógł się postarać kupić eBooka z jakiegoś konta po którym go nie namierzą.

#
m__b

@Writer: A ja chcę to co kupię udostępniać, żeby robić na złość zdziercom, bo uważam, że wszystko powinno być za darmo. Jestę lewakię. I co mi zrobisz?

#
Writer

@m__b: aa, chodzi o taki punkt widzenia. To powycinaj wszystkie literki i potem sklej w losowej kolejności, watermark typu "drobne zmiany w tekście" masz z głowy. xd

#
m__b

@Writer: Nooooo właśnie, czyli kolejną osobą jesteś, która wypowiada się na temat, na który nie ma zielonego pojęcia. Bo nie wiesz jak te watermarki są zdziałane, ja podałem tylko zwykły losowy przykład służący do oszukiwania systemu "plagiat" na uczelniach. A jakie one są naprawdę, to nie wiem. I Ty nie wiesz. I akerro nie wie.

Ja jak głupi czekam na osobę, żeby się wypowiedziała, która jednak wie.

#
Writer

@m__b: Czekam na kogoś mądrego razem z Tobą, bo też mnie to ciekawi. ;)

//watermarkiem może być też jakaś drobna zmiana w kodzie, nie w widocznym fragmencie książki, ale w pliku ePub. Trudna sprawa. Według mnie prędzej starają się kupować eBooki anonimowo.

#
borysses

@m__b: Ja wiem, ale nie mogę powiedzieć ;_;

#
m__b

@borysses: Ehe, bo ci uwierzymy.

#
borysses

@m__b: Mogę tylko ogólnikami rzucić :) Pominę zwykle DRM (jak i wspomniane zabawy zliterkami) bo to jest chyba najłatwiejsze do obejścia zarówno w pdf czy w epubach. Epub jest oparty na xml więc min. wspiera metadane i w metadanych możesz mieć umieszczonego fingerprinta lub nawet kilka. Jeden to główny identyfikator wskazujący na wydawcę. Platformy sprzedażowe, mogą dodawać swoje metadane. No i może być dodane unikalne ID powiązane z sesją. Z tym, że metadane można wywalić :) Jak scythowi wysłałem arta z naszej strony, który był za paywallem to spędziłem pół godziny na czyszczeniu go z dodatków i metadane były najmniejszym problemem. ;)

Epub jako xml jest jezykiem znacznikowym i możesz mieć unikalne znaczniki generowane w locie. Np. pobierasz knigę a w niej masz <title08976345b>To jest nagłówek</title08976345b> i wszystko będzie ok, w sensie walidacja itd.

Mogą też być umieszczane glify wyglądające jak normalny znak (kropka, myślnik w sumie cokolwiek), ale znajdujące się na innym miejscu tablicy znaków.

#
borysses

@m__b: Ciąg dalszy >

U nas publikacja w skrócie wygląda tak: ktoś coś pisze > wrzuca do ManuscriptCentral (pierwsze znakowanie) > to idzie do CATS (to generuje xml, który ma DTD specyficzny dla naszej firmy i też dodaje swoje) > to idzie do typesettera, który ustawia te wszystkie typograficzne pierdoły i racze3j nic nie dodaje od siebie) > dalej jest DARTS (generacja wersji pdf + normalny html [chyba też coś dodaje, ale praktycznie nie używam i nie sprawdzałem w sumie]) > Literatum (połączone z SAP) tu jest sprzedaż i generowanie pdf ze znakiem wodnym opartym o IP usera, czas polaczenia itp, plus drm oraz epub (j/w)

To jest bardzo uproszczone, ale tak chyba najprościej tłumacząc wygląda to u nas.

#
m__b

@borysses: Ale jeśli chodzi o epub bez drm. Jako klient dostaję go "otwartego", czyli mam dostęp do flaków. Na upartego najprostszymi metodami, puszczam go w calibre i konwertuję z epuba do rtf a potem do mobi (przykładowo), to w sumie można się tego śmiecia pozbyć. Czy jednak coś zostaje, co muszę ręcznie wyszukać i wywalać?

#
borysses

@m__b: No właśnie może zostac bo mobi też jest oparte na xml (xhtml). Najlepiej z epuba wrzucic kod w edytor tekstu, zamienic znaczniki xml na html używajac find and replace a jesli sie nie da to reqex i jechane > zmienic kodowanie na ASCII > zapisac jako html i skonwertować z html > mobi.

#
akerro

@m__b: pdf jest plikiem kompilowanym i zależnie od edytora, np. okular na KDE nie jest w stanie wyświetlić ani wydrukować plików PDF z watermarkiem, który został wygenerowany w PHP. Inne edytory sobie z tym radzą, PHP obsługuje kompilacje i nie idzie tego odczytać. Sprawdź sobie to sam, takie zamiany znaków na cyrylicę są ryzykowne ja np. nie mam jej zainstalowanej i opieprzył bym firmę, która mi sprzedała takiego smiecia. Myslalem ze ten pomysl nie jest juz praktykowany od kilku ładnych lat przez wydawców.

#
m__b

@akerro: To był tylko przykład. Spójrz wyżej, co @borysses napisał o glifach:

Mogą też być umieszczane glify wyglądające jak normalny znak (kropka, myślnik w sumie cokolwiek), ale znajdujące się na innym miejscu tablicy znaków.

#
akerro

@m__b: ja też podałem przykłady...

#
borysses

@akerro: Adobe uzywa DRM, który oparty jest na szyfrowaniu treści i zabezpieczony pdf nie da sie wydrukowac, skopiowac czy zmienic. No chyba, ze zadowolisz sie wypluciem przez program zaszyfrowanego postscriptu :)

Na jakim systemie teraz siedzisz? Zobacz czy poprawnie otworzysz to (pdf a nie full text html): http://www.tandfonline.com/doi/full/10.1080/19393555.2011.560926 Zwróć uwage czy do adresu po jego otwarciu zostanie doczepiony jakis badziew po haszu.

#
akerro

@borysses: bez problemu otworzyłem w Firefoxie, nie ma żadnego hasha doczepionego

#
borysses

@akerro: Masz na marginesie wypisane: Downloaded by [xxx.xxx.xxx.xxx] at 03:59 24 December 2013 ?

#
akerro

@borysses: mam, ale robiąc ctrl+a nie zaznacza mi tego tekstu ;)

#
borysses

@akerro: Bo jest to wygenerowane jako osobna warstwa na clipping mask :) Problem z tym "zabezpieczeniem" jest taki, że pdf daje sie otwierac w ilustratorze i mozna to zwyczajnie wypierdolic i zapisac pdf juz bez tego :) Ale dodatkowo jest jeszcze enkrypcja 40-bit RC4 dzieki czemu juz InDesign moze sie wysypywać oraz ma zembedowane 3 dziwne fonty oraz 7 normalnych... No i ciekawe jest zuzycie zasobów:. Obrazki 10%, content 12%, fonty 11% i 63% overheadu :)

Oryginalny pdf 623 705 bytes a po oczyszczeniu 171 705 bytes :)

#