Citat:
Ursprungligen postat av Robert
Citat:
Originally posted by -kullervo@Sep 27 2004, 15:55
Citat:
Ursprungligen postat av Robert
Citat:
document.write("<a href=" + "mail" + "t" + "o:" + name + "@" + domain + ">" + name + "[img] + imgsrc + [/img]" + domain + "<"+"/"+"a>")
|
Man kan väl tycka att det borde vara lättare för en robot att köra OCR på en bild via något gratis objekt som florerar än att halvt om halvt kompilera javascript.
|
Kan man göra ett mer simpelt javascript? Det där måste ju vara en barnlek att avkoda.
Varför rendera sidan och sedan köra OCR? Enklare och snabbare att hoppa över det steget. Mozilla är ju open source. Tror t.om. att IE finns som komponenter (eller vad det heter) till VB/.NET som är perfekt att använda. Bara öppna rätt URL och leta efter mailadresser i såsen efter att den kört alla javascript.
|
Inte enkelt för en screenscraper.
Med OCR menar jag att tolka de bild-mailadresser som finns..
|
Aha. Tror inte det är värt mödan. Väldigt sällsynt med webbsidor som har e-postadresser i bilder.
Citat:
<style type="text/css">
.backwards {direction: rtl; }
</style>
Mail: <span class="backwards">moc.liame@nim</span>
|
Det spelar ingen roll hur avancerade CSS- och JS-lösningar man hittar på. Om webbläsaren klarar av att tolka koden så kan ju också spindeln tolka det då (eller om) dom använder sig av HTML- och JS-parsers som kör koden. Då blir det ju som om man surfar in på en webbsida, markerar och kopierar all text och matar in den i sökfunktionen. Jag säger inte att spindlarna använder sig av denna metod (för det har jag ingen aning om), men när dom väl börjar med det så är alla 1000-tals JS- och CSS-lösningar värdelösa.