#1 17. April 2008 Linux Script zum Crawlen einer Website Hallo, ich bräuchte unter Linux folgende Skripte: Crawlen einer Webseite, erzeugen von zwei Ausgabe: Fehler bei internen Links, Fehler bei externen Links Automatisches Senden von Emails an def. Empfängerkreis Da ich aber ehrlich gesagt keine Ahnung von Bash oder ähnliches habe, wende ich mich verzweifelt an euch :-( Wäre super, wenn einer so ein Script hat, oder mir irgendwie Tipps geben könnte. So Long, Exce + Multi-Zitat Zitieren
#2 17. April 2008 AW: Linux Script zum Crawlen einer Website hey weiß nicht ganz was du meinst :/ du willst websiten "crawlen" dh du willst deren inhalt sortiert in ne db schieben? und von welchen fehlern redest du? und zu dem email-senden: http://www.tippscout.de/linux-mail-aus-der-kommandozeile-senden_tipp_1750.html kannste dann dierekt in ne bash einbauen. einen kleinen grundkurz dazu gibt es hier ---> http://www.tuxhausen.de/kurs_bash_prog.html greez myth + Multi-Zitat Zitieren
#3 17. April 2008 AW: Linux Script zum Crawlen einer Website wenn ich dich richtig verstanden habe, willst du eine seite indezieren und interne links (mit gleicher domain) testen, wenn online > fehler aber sonst nichts und wenn externe links (mit andere domain) offline dann mail schreiben? das nötige bash-script dafür wird dir hier wohl niemand schreiben, viel zu komplex. selbst mit php wäre es schon relativ viel arbeit und nur weil du zu faul bist ... vielleicht hilft dir wget (vorallem im recursive teil mit link-following) GNU Wget Manual - Recursive Retrieval weiter + Multi-Zitat Zitieren
#4 18. April 2008 AW: Linux Script zum Crawlen einer Website ziehst dir einfach mit lynx --dump die betreffende seite, in perl zerlegste die dann in reine links und dann lässte auf die rausgefilterten seiten wieder nen lynx laufen um nur die header zu sehen und schaust ob der status im 200 oder 300 bereich ist ( lynx --header müßte das sein) Das hat mir ein Freund vorgeschlagen, der Entwickler ist. ps: ich bin nicht Faul, nur ich kann es einfach nicht, es ist ja auch nicht für mich, sondern für meinen Chef, der möchte das script haben :-( + Multi-Zitat Zitieren