GeraltRedhammer
g/Internet

Kilka pytań od laika.

  1. W CMSie mogę ustawić priorytet dla każdej podstrony. Jaki parametr jest maksymalny a jaki minimalny i czy opłaca się przy tym grzebać?
  2. Jeżeli do zdjęć i artykułu dodaję meta-dane to w jakim sensie pomaga to w pozycjonowaniu? Jest do tego jakiś poradnik?
  3. Mam taką informację od Google "400 Liczba zgłoszonych adresów URL 196 zaindeksowane(ych) URL-e(i)", jak namówić Google aby zindeksowało wszystko?
#
szarak

@GeraltRedhammer: jakiego cms?

#
borysses

@GeraltRedhammer:

  1. Zwykle masz domyślnie parametr od 0 - 10 Używane do aranżacji itemów w menu, dzisiaj już prawie nie używane
  2. Pomaga w wyszukiwaniu na stronie, ale i tak czasem robot wyżej zindeksuje pdf z pochrzanionym tekstem, zamiast kontentu z ładnymi meta-danymi
  3. Zgłoś urla z site-map w xml z dużą ilością metadanych
#
_lechu_

@borysses: a propos tego indeksowania pdf. Podobno danie w robots.txt disallow do katalogu gdzie trzymane są pdf'y i rel="nofollow" do ich linków i tak nie zatrzyma robota przed indeksowaniem pdfa jeśli są do niego jakieś external linki - true ? Jak najskuteczniej wywalić te faken pdf'y co by nie robiły sieczki ze słów kluczowych ?

#
borysses

@_lechu_: Można to też wyciąć w htaccess, polecieć po całym typie mime.

#
GeraltRedhammer

@_lechu_:

a propos tego indeksowania pdf. Podobno danie w robots.txt disallow do katalogu gdzie trzymane są pdf'y i rel="nofollow" do ich linków i tak nie zatrzyma robota przed indeksowaniem pdfa

Zablokowałem w ten sposób pdf, za miesiąc napiszę czy Google przestało je indeksować.

@borysses: ad. 3 Site-map był robiony automatycznie. Czy ma znaczenie program? i czy powinno się go ręcznie modyfikować?

W sumie jeśli znasz jakiś poradnik/ebook/książkę dla osób zarządzających stroną internetową to będę bardzo wdzięczny za informacje. Jednak za dużo jest w tym niuansów, żeby próbować to robić bez przygotowania merytorycznego.

#
_lechu_

@GeraltRedhammer: wygeneruj sobie także mapę z rozszerzeniem html i daj do niej link w footerze, "mapa serwisu" or sth. Ręcznie modyfikować xml nie trzeba zazwyczaj.

#
GeraltRedhammer

@borysses: @_lechu_:

Czekam na tą aktualizację danych przez Google i nie mogę się doczekać. Klikam żeby sprawdzić skąd bierze kluczowe słowa i już nic nie rozumiem:

Wyszukiwarka Google znalazła słowo kluczowe xxxx i jego warianty na następujących najważniejszych stronach:

I same pdfy wymienione. WTF? Co jak co ale akurat one są najrzadziej przeglądane spośród materiałów zamieszczonych na stronie.

#
borysses

@GeraltRedhammer: Czy te pedeefy muszą tam być? Nie jest to jakoś mocno przyjazny webowi format. I w sumie jego popularność najbardziej wnika z DRM niż czegoś innego (w kontekscie sieci).

Zobaczę jak w robocie to jest rozwiązane, przecież mamy setki tysięcy pedeefów a jednak nie indeksuje ich niepoprawnie.

#
GeraltRedhammer

@borysses: Niestety muszą. Strona jest dla laików, a pdfy dla specjalistów i niestety w innej formie za bardzo nie można ich zamieścić właśnie ze względu na to, że są do nich prawa autorskie. Część z nich to publikacje wartościowe, ale nie wznawiane ze względu na to, że dotyczą niszowych tematów. Lepiej żeby były dostępne w internecie niż tylko w największych bibliotekach. Przy niektórych jet cena, jak ktoś uzna, że były tego warte to zapłaci, a jak nie też się nic nie stanie, bo i tak nie są wznawiane.

#
borysses

@GeraltRedhammer: Czyli jednak DRM... Podeślij mi linka do któregoś z nich, zerknę co w nich siedzi.

Zawsze pozostaje najbardziej chamska metoda, czyli zamienienie czcionek na krzywe ;) Wtedy googiel nie będzie miał co indeksować.

Inna opcja to konwersja do e-pub (który też wspiera DRM), gdzie zmniejszy się ich rozmiar, będą łatwiejsze do czytania no i googiel je będzie indeksować jak normalny html.

#
_lechu_

@GeraltRedhammer: mam pomysła. Zamień PDF z tekstem na pdf z obrazkami tekstu. Jakoś powinno dać radę zrobić to automatycznie I think. Wtedy google żadnego słowa stamtąd nie zassie.

#
GeraltRedhammer

@_lechu_: Tutaj chodzi o prawa autorskie i nie mogę w nich w ogóle grzebać, ale jak nie rozwiążę problemów to zapytam się o zgodę :-)

#
GeraltRedhammer

@_lechu_: A może taki wpis w robots pomoże? Disallow: /site/public/upload/

#
_lechu_

@GeraltRedhammer: nie jeśli na ten pdf będą zewnętrzne linki z innych źródeł, a przynajmniej tak gdzieś przeczytałem. Ale spróbować nie zaszkodzi na pewno.

#