Jump to content
xt:Commerce Community Forum

Google spidert Session trotz Sessionvermeidung


flollo

Recommended Posts

Hallo zusammen,

wie kann man Google davon abhalten, den Shop mit Session zu indexieren?

Ich habe die Einstellung "Spider Session vermeiden? - True", allerdings leider nicht von Anfang an - sondern seit ca. 3 Wochen. Jedoch indexiert Google auch _neue_ Shop-Artikel mit Session, wobei Google diese Seiten definitiv nur mit der Spider-Session-No-Einstellung kennengelernt hat.

Der Google-Bot ist Tag und Nacht Dauergast. Eigentlich ja ganz schön, aber er legt unendlich viele Kopien der gleichen Seiten an (immer mit anderer Session) und lässt dabei die eigentlich wichtigen Seiten leider unberücksichtigt - In-Links sind damit auch sinnlos.

Was tun?

Google-freundliche URLs (sollte ja aber eigentlich darauf keinen Einfluss haben, oder?) und ein allproducts-Listing (Link unter der Navi ganz unten). Wäre superklasse, wenn sich mal jemand, der sich mit Sessions auskennt, unseren Hunde-Shop ansieht und Tipps gibt:

www.dogs4friends.de

Bei Google sieht ein neuer (!) Index-Eintrag dann so aus:

www.dogs4friends.de/product/120/wund-ex-forte-spray---von-cdvet.html?XTCsid=1e62df421ce1f345a70ea181be06f051

Interessanterweise gibt es ein paar wenige Einträge, bei denen Google die Session nicht indexiert hat. Warum auch immer.

1.000 Danke, wer das Problem löst !!!

Weitere Einstellungen:

Suchmaschinenfreundliche URLs: false (wg. extra Tool)

Spider-Session vermeiden? true

Cookie bevorzugen: False

Checken SSL Session ID: False (ist kein SSL drauf)

Checken User Browser: False (nach all den Warnungen hier im Forum scheue ich mich, das umzustellen. Wir sind übrigens bei all-inkl.com als Provider, hat jemand Erfahrung diesbezüglich?)

Checken der IP Adresse: False

Session erneuern: False

Was kann ich tun??? Besten Dank!!!!!

Link to comment
Share on other sites

Hallo

ich würde zuerst mal in die robots.txt überprüfen ggf ergänzen

User-agent: *

Disallow: /address_book_process.php 

Disallow: /account.php 

Disallow: /account_edit.php 

Disallow: /account_edit_process.php 

Disallow: /account_history.php 

Disallow: /account_history_info.php 

Disallow: /address_book.php 

Disallow: /checkout_process.php 

Disallow: /advanced_search.php 

Disallow: /advanced_search_result.php 

Disallow: /checkout_address.php 

Disallow: /checkout_confirmation.php 

Disallow: /checkout_payment.php 

Disallow: /checkout_success.php 

Disallow: /contact_us.php 

Disallow: /create_account.php

Disallow: /create_account_guest.php  

Disallow: /create_account_process.php 

Disallow: /create_account_success.php 

Disallow: /info_shopping_cart.php 

Disallow: /login.php 

Disallow: /logoff.php

Disallow: /password_double_opt.php

Disallow: /popup_image.php 

Disallow: /popup_search_help.php 

Disallow: /privacy.php 

Disallow: /product_notifications.php 

Disallow: /product_reviews.php 

Disallow: /product_reviews_info.php 

Disallow: /reviews.php 

Disallow: /shipping.php 

Disallow: /admin/

Disallow: /export/

Disallow: /download/ 

Disallow: /includes/ 

Disallow: /pub/ 

Disallow: /media/

Disallow: /*?XTCsid
damit die Session ID aus Google verschwindet würde ich nachfolgendes durchführen Info: Zum Betrieb des XT C Shops sind Session ID’s erforderlich. Was aber tun wenn nach der Installation die Option unter Konfiguration/Meta.tags “Spider Session vermeiden” nicht aktiviert wurde? Grundsätzlich sollte für den Shop die Google Webmaster Tools genutzt werden. Für die Erstellung einer Sitemap gibt es viele Tools. Bei Google findet man eine große Übersicht mit Links. Das wär schon mal der erste Schritt um Google alle Urls ohne Session ID’s mitzuteilen. Aber wie bekommt man nun die Urls die bereits im Cache sind wieder raus? Anleitung: Dazu ist in der Datei includes/application_top.php nach:
 // include the language translations

 require(DIR_WS_LANGUAGES . $language . '.php');
folgender Code einzufügen
if ( $spider_flag == true ){

 if ( eregi(tep_session_name(), $_SERVER['REQUEST_URI']) ){

$location = tep_href_link(basename($_SERVER['SCRIPT_NAME']), tep_get_all_get_params(array(tep_session_name())), 'NONSSL', false);

 header("HTTP/1.0 301 Moved Permanently");

 header("Location: $location"); // redirect...bye bye

 }

 }

Damit wird eine 301 Weiterleitung auf die Url ohne Session ID erreicht. Nach und nach verschwinden dann aus dem Index die Urls mit den Session ID’s.

hier auch noch der ausführliche Link

Gruß

Norbert

Link to comment
Share on other sites

  • 3 weeks later...
  • 2 months later...

Hallo flollo,

scheinbar hast Du aber immer noch das Problem mit den Session Ids. Hast Du Direkt Url?

Wir haben auch das Problem. Und keine Lösung. Und leider hat das mit der application_top.php nicht bei uns funktioniert.

Kann es sein, weil in der robot.txt "Disallow: /includes/" steht?

Grüße

saphira:D

Link to comment
Share on other sites

  • 1 year later...

Hallo,

das gleiche Problem haben wir mit der 4.0.12 Version. Hier kann man aber nicht wie beschrieben vorgehen.

Hat jemand da eine Lösung gefunden?

Die SEO URL Funktion ist ja so nicht wirklich sinnvoll, da google den Shop so nicht mag und doppelten INhalt sieht.

Ich bekomme immer so was wie

http://www.meinedomain.de/meinartikel.html?xc822c=f5151b6798ee151bb35d96197d9ba94d

Auch wenn ich mich mit wget als google ausgebe.

Link to comment
Share on other sites

  • 3 weeks later...

Hallo ich habe nach dem update von 4.0.11 nach 4.0.12 auch gleiches Problem das die Session in URL angezeigt wird das war vorher nicht der Fall. Also auch sowas wie http://www.meinedomain.de/meinartike...5d96197d9ba94d

Wer hat bereits eine Lösung ???

Folgender Code-Patch hilft hier bei mir:

--- xtFramework/classes/class.agent_check.php.orig 2009-09-22 23:02:41.000000000 +0200

+++ xtFramework/classes/class.agent_check.php 2009-09-22 22:57:33.000000000 +0200

@@ -45,7 +45,7 @@

$bf = fopen( $bot_file, "r" ) ;

while (!feof($bf)) {

- $bots[] = fgets($bf, 4096);

+ $bots[] = trim(fgets($bf, 4096));

}

fclose($bf);

Problem ist das die Datei xtFramework/library/bots/bots.txt mit CRLF Zeilenenden gespeichert ist und diese bei fgets() unter Linux nicht komplett entfernt werden, wodurch die String-Vergleiche nicht mehr klappen. Mit explizitem entfernen aller Leerzeichen beim Einlesen geht es wieder.

Gruss

Sven-Haegar

Link to comment
Share on other sites

  • 1 month later...

Folgender Code-Patch hilft hier bei mir:

--- xtFramework/classes/class.agent_check.php.orig 2009-09-22 23:02:41.000000000 +0200

+++ xtFramework/classes/class.agent_check.php 2009-09-22 22:57:33.000000000 +0200

@@ -45,7 +45,7 @@

$bf = fopen( $bot_file, "r" ) ;

while (!feof($bf)) {

- $bots[] = fgets($bf, 4096);

+ $bots[] = trim(fgets($bf, 4096));

}

fclose($bf);

Problem ist das die Datei xtFramework/library/bots/bots.txt mit CRLF Zeilenenden gespeichert ist und diese bei fgets() unter Linux nicht komplett entfernt werden, wodurch die String-Vergleiche nicht mehr klappen. Mit explizitem entfernen aller Leerzeichen beim Einlesen geht es wieder.

Gruss

Sven-Haegar

Das hat leider nicht geholfen. Gibt es vielleicht eine neue Lösung?

Link to comment
Share on other sites

  • 5 months later...

Hallo,

ich habe mich auch gewundert, dass ich nun bei Google XTCsid-Links gefunden habe..

auch ich hatte bereits Spider sessions vermeide = true gesetzt. in der robots steht unter anderem Disallow: XTCsid. nun habe ich bei Google in meinem Account unter Website-Konfiguration/Einstellungen/Parametereinstellungen anpassen/ eine Möglichkeit gefunden, XTCsid-Parameter zu ignorieren.

Google versucht zwar, Vorschläge zu berücksichtigen, kann aber nicht garantieren, dass sie in jedem Fall befolgt werden.
(Google)

Wie seid Ihr das Problem angegangen? Warum eigentlich werden die IDs nun gespeichert? Ich dachte, ich hätte das Thema schon abgehakt..

Liebe Grüße

Natascha

Link to comment
Share on other sites

Archived

This topic is now archived and is closed to further replies.

×
  • Create New...