FAQ |
Kalender |
2016-01-25, 13:00 | #1 | ||
|
|||
Medlem
|
Hej,
Jag undrar om någon här vet ifall det finns en webbtjänst där man kan ställa in parametrar och få ett resultat på träffar där villkoret finns? Exempel: Jag vill hitta alla svenska webbplatser som använder Wordpress som CMS. I källa kan man i merparten av sajterna hitta indikationer på att de använder wordpress, exempelvis genom att leta igenom källa efter texten "wp_head", "wp-content", etc. Vet någon om det finns en sån lösning där man exempelvis matar in alla webbplatser och sen får ut vilka som ger träff på specifika parametrar, eller vad tror ni om tidsuppskattning för att bygga en sån lösning? Tack på förhand! |
||
Svara med citat |
2016-01-25, 14:20 | #2 | ||
|
|||
Har WN som tidsfördriv
|
Något i stil med builtwith.com?
|
||
Svara med citat |
2016-01-25, 22:05 | #3 | ||
|
|||
Flitig postare
|
|||
Svara med citat |
2016-01-25, 22:13 | #4 | ||
|
|||
Flitig postare
|
ScrapeBox funkar nog finfint till detta, dock ingen webtjänst.
|
||
Svara med citat |
2016-01-26, 08:46 | #5 | ||
|
|||
Nykomling
|
SimilarTech har en sökmotor för just detta, men det kostar skjortan om du vill ha mer än 10 resultat:
https://www.similartech.com/websites-using/wordpress |
||
Svara med citat |
2016-01-27, 18:29 | #6 | |||
|
||||
Klarade millennium-buggen
|
Mot betalning så...
|
|||
Svara med citat |
2016-01-28, 00:04 | #7 | ||
|
|||
Medlem
|
Relativt enkelt om du har domänerna som ska kontrolleras. Saknar du .se domäner (om det gäller .se) så måste man få fram dem först, men även det är möjligt.
Om du har en bra idé, så kanske det är något vi kan samarbeta inom. |
||
Svara med citat |
2016-01-28, 21:53 | #8 | ||
|
|||
Medlem
|
Detta kanske ger lite inspiration, använder något liknande själv. Helt otestat. Lycka till!
Kod:
var request = require('request'); var url = require('url'); var iconv = require('iconv-lite'); var charset = require('charset'); var jschardet = require("jschardet") (function(){ var links = ['http://www.aftonbladet.se/', 'http://wn.se/', 'https://wordpress.org/news/', 'http://expressen.se/']; for(var i = 0; i < links.length - 1; i++){ var info = { url: links[i]; }; requestGET(info, function(html){ if(html.indexOf('/wp-content/') > -1) { console.log(links[i] + " innehåller /wp-content/"); } }); } })(); function requestHEAD(info, callback){ var options = { uri: info.url, method: 'HEAD', jar: info.cookieJar }; request(options, function (error, response) { if(error || response.statusCode != 200 || !response.headers['content-type'] || response.headers['content-type'].toLowerCase().indexOf('text/html') == -1) return; info.cookieJar = request.jar(); info.uri = response.request.uri; callback(info); }); } function requestGET(info, callback){ requestHEAD(info, function(info){ var options = { uri: info.url, method: 'GET', jar: info.cookieJar, encoding: null }; request(options, function (error, response, html) { if(error || !html || response.statusCode != 200 || !response.headers['content-type'] || response.headers['content-type'].toLowerCase().indexOf('text/html') == -1) return; // Fix encoding (to utf-8) enc = charset(response.headers, html) || jschardet.detect(html).encoding; if (enc && enc.toLowerCase() != 'utf-8'){ html = iconv.decode(html, enc.toLowerCase()); } callback(info, html); }); }); } |
||
Svara med citat |
Svara |
|
|