Jump to content
xt:Commerce Community Forum

google crawl admin/start.php?!


seeknbuy

Recommended Posts

wie kann das sein das Google die möglichkeit hat die start.php im admin zu crawlen ?!

Was linkt dort hin wenn nicht nur der Login ?!

00:01:13  	0  	Guest  	66.249.*.*  	18:25:58  	18:25:58  	/admin/start.php? [/CODE]

würde ich nicht zusätzlich einen htaccess laufen haben hätte/habe ich bedenken was es die Sicherheit angeht ?!

Link to comment
Share on other sites

was soll man da sagen... da gibt es eine datei robots.txt die eigentlich verhindern soll, das crawler/robots dateien anlaufen von denen man das nicht möchte. jetzt stehen da dateien drin, bei denen der robot/crawler explizit mit disallow daraufhin gewiesen wird, das er die in ruhe lassen soll... naja, welcher bot hält sich daran? wohl kaum einer. lösung: die dateien aus der robots.txt rausnehmen (robots.txt disallowed bei mir verzeichnisse, nicht dateien und ausserdem allowed sie explizit die dateien die angelaufen werden dürfen), eine vernünftige .htaccess aufsetzen (sowieso unbeding erforderlich!) und dann kann man nur hoffen das der bot irgendwann aufhört die datei anzulaufen. leider hat er die jetzt im chache und wirds darum wohl immer wieder tun.

Link to comment
Share on other sites

eine vernünftige .htaccess aufsetzen (sowieso unbeding erforderlich!)

Sehe ich das richtig, dass ich damit komme ich im Stammverzeichnis des Shops aber auch nicht weit komme? Google hat bei uns auch popup_image.php indiziert. Prinzipiell habe ich nicht sonderlich viel dagegen. Jedoch liefert der (korrekte) Link nur eine leere Seite zurück. Und dagegen habe ich schon etwas.

Hast Du einen Tipp parat, wie wir das ändern können?

Link to comment
Share on other sites

Sehe ich das richtig, dass ich damit komme ich im Stammverzeichnis des Shops aber auch nicht weit komme?

gerade im stammverzeichnis gehört die .htaccess hin. sie gewährt/verwehrt den zugriff zu alllen anderen dateien und unterverzeichnissen.

natürlich kann ein unterverzeichniss eine weitere .htaccess enthalten

google indiziert alles, wozu es einen link findet. die popup_image.php ist im shop verlink. eben auf die popups's daher indiziert google das auch.

Jedoch liefert der (korrekte) Link nur eine leere Seite zurück. Und dagegen habe ich schon etwas.
das kann nicht sein. ein korrekter link liefert eine html datei mit einem bild darin zurück und keine leere seite. google schneidet aber evtl die parameter ab. dann müsstest du eben die popup.php so abändern, dass, wenn keine parameter übergeben werden, sie einen standard text oder einen header('location: /index.php') oder etwas ähnliches zurück gibt.
Link to comment
Share on other sites

gerade im stammverzeichnis gehört die .htaccess hin. sie gewährt/verwehrt den zugriff zu alllen anderen dateien und unterverzeichnissen.

natürlich kann ein unterverzeichniss eine weitere .htaccess enthalten

Ja, sorry. Da hatte ich einen Denkfehler. Ich wollte ja das Verzeichnis nicht komplett gegen Zugriffe von Außen abschotten. In einer anderen Installation habe ich eine .htaccess gefunden, die Files mit bestimmten Endungen ausschließt.

<Files *.inc>

Deny From All

</Files>

<Files *.class>

Deny From All

</Files>

Das könnte ich ja ändern und alle Datein ausschließen, die jetzt auch in der robots.txt ausgeschlossen sind (z.B. login.php, popup_image.php). Wie schließe ich aber ganze Verzeichnisse aus? Geht das überhaupt über eine zentrale .htaccess, oder muss ich dafür im auszuschließenden Verzeichnis eine weitere .htaccess erstellen, die alle Files ausschließt?

das kann nicht sein. ein korrekter link liefert eine html datei mit einem bild darin zurück und keine leere seite. google schneidet aber evtl die parameter ab. dann müsstest du eben die popup.php so abändern, dass, wenn keine parameter übergeben werden, sie einen standard text oder einen header('location: /index.php') oder etwas ähnliches zurück gibt.

Beispiel: Google hat diese URL indiziert. Der Klick auf dieser URL liefert zunächst eine leere Seite (auch Quelltext ist leer). Mit einem reload wird die Seite aber korrekt angezeigt. Any ideas?

Link to comment
Share on other sites

also wenn du in der .htaccess den zugriff auf die popup_image.php verwehrst, dann geht sie natürlich auch nicht mehr... ich habe beispielsweisse in einem älteren projekt eine .htaccess

<FilesMatch "\.(link|template|bak|content|part|func)$">

	Order allow,deny

	deny from all

</FilesMatch>

dadurch wird der zugriff auf alle dateien verwehrt, die nur durch skripte angesprochen werden dürfen (in diesem fall alle dateien mit endungen wie .link, .template, .bak, .content, .part oder .func), jedoch nicht über http zu ereichen sein sollen. skripte die du über http erreichen musst, dürfen da nicht ausgeschlossen werden. in diesem fall siehst du ja, dass keine dateien mit php endung einbezogen wurden und eine php-datei daher per http abgerufen(die ausführung angestossen) werden kann.

Wie schließe ich aber ganze Verzeichnisse aus? Geht das überhaupt über eine zentrale .htaccess, oder muss ich dafür im auszuschließenden Verzeichnis eine weitere .htaccess erstellen, die alle Files ausschließt?
so weit ich weiss kannst du den <directory>-container nur in der zentralen konfig verwenden, den zugriff auf ganze verzeichnisse also nur dort ausschliessen. auf die zentrale konfig wirst du aber keinen zugriff haben. da müsstes du deinen provider anfragen, aber: du kannst eine .htaccess im root anlegen und dort den zugriff auf alle dateien verswehren, von denen du das möchtest.

schnell noch was zur definition des gültigkeitsbereiches von .htaccess:

.htaccess-Dateien gelten stets für das Verzeichnis, in dem sie abgespeichert werden, sowie für alle Unterverzeichnisse davon und für deren Unterverzeichnisse. Wenn Sie in einem der Unterverzeichnisse andere Regelungen wünschen, müssen Sie dort wiederum eine .htaccess-Datei ablegen. Die Angaben der jeweils aktuellen Datei überschreiben die Angaben von .htaccess-Dateien aus darüberliegenden Verzeichnissen.

Beispiel: Google hat diese URL indiziert. Der Klick auf dieser URL liefert zunächst eine leere Seite (auch Quelltext ist leer). Mit einem reload wird die Seite aber korrekt angezeigt. Any ideas?

Heute 13:00

bei mir führt es nicht zu einer leeren seite. evtl. ist das ein caching problem auf deinem rechner oder dem server.

ich hab da übrigens was interessantes gefunden, gerade zu google und robots.txt: Funktionsweise - Spider trap

Link to comment
Share on other sites

Jetzt ist meine Verwirrung beinahe perfekt. Du hast weiter oben geschrieben:

gerade im stammverzeichnis gehört die .htaccess hin.

Aber was sollte eine .htaccess im konkreten Fall sinnvoller Weise enthalten? Fast alle XT-dateien enden auf .php. Welche tatsächlich ausführbar sein müssen und welche z.B. nur inkludiert werden, erkenne ich ohne tief greifendes Studium nicht.

Link to comment
Share on other sites

include dateien die nicht direkt ausgeführt werden heissen in xt: dateiname.inc.php ausserdem könntest du im verzeichnis /includes/ eine .htaccess anlegen die nur

Order deny,allow

Deny from all
enthält und dadurch den zugrif auf alle dateien in diesem und den untergeordneten verzeichnissen per http unterbindet. die .htaccess wird hier verwendet um den zugriff auf dateien via http zu unterbinden! damit nur ein bestimmter client/browser oder eine suchmaschine ausgeschlossen wird, müssen tiefergehende änderungen vorgenommen werden. siehe dazu den vorher von mir geposteten link. die .htaccess im root beinhaltet also sinnigerweisse folgendes:
#  -----------------------------------------------------------------------------------------

#  $Id: .htaccess,v 1.2 2004/01/02 08:57:56 fanta2k Exp $

#

#  XT-Commerce - community made shopping

#  http://www.xt-commerce.com

#

#  Copyright (c) 2003 XT-Commerce

#  -----------------------------------------------------------------------------------------

#  based on: 

#  (c) 2000-2001 The Exchange Project 

#  (c) 2002-2003 osCommerce (.htaccess,v 1.1 2002/07/21); www.oscommerce.com

#  (c) 2003      nextcommerce (.htaccess,v 1.1 2003/09/06); www.nextcommerce.org

#

#  Released under the GNU General Public License 

#  -----------------------------------------------------------------------------------------

# This is used with Apache WebServers

#

# The following makes adjustments to the SSL protocol for Internet

# Explorer browsers

#

# For this to work, you must include the parameter 'Limit' to the

# AllowOverride configuration

#

# Example:

#

#<Directory "/usr/local/apache/htdocs">

#  AllowOverride Limit

#</Directory>

#

# 'All' with also work. (This configuration is in your

# apache/conf/httpd.conf file)www

#php_flag register_globals off

<IfModule mod_setenvif.c>

  <IfDefine SSL>

    SetEnvIf User-Agent ".*MSIE.*" \

             nokeepalive ssl-unclean-shutdown \

             downgrade-1.0 force-response-1.0

  </IfDefine>

</IfModule>

<FilesMatch "\.(inc.php|conf|DS_Store)$">

	Order allow,deny

	deny from all

</FilesMatch>

ich hoffe das stimmt so. wie gesagt um google explizit den zugriff zu verbieten musst du trickreicher vorgehen, das habe ich selbst bisher nicht gemacht. ich würde sagen das ist auch nicht nötig.

edit: da habe ich übrigens blödsinn geschrieben

(robots.txt disallowed bei mir verzeichnisse, nicht dateien und ausserdem allowed sie explizit die dateien die angelaufen werden dürfen),
das bezog sich auf meine .htaccess, nicht auf die robots.txt. disallowed hab ich mit einer .htaccess die zugriff auf alles unterbindet und dann in den unterverzeichnissen die jeweiligen dateien wieder allowed
Link to comment
Share on other sites

Archived

This topic is now archived and is closed to further replies.

×
  • Create New...