Webinhalt holen

scanix · 1. August 2016 um 21:05

Hallo zusammen,

ich benutze den WWW Reader um Seiten zu laden um Passagen herauszuschneiden.

Das Problem:

Gebe ich diese Seite im Firefox ein:
Google

Im Browser finde ich die Tags:

<div class="_XWk">Geschlossen</div>

IPS WWW Reader:

<!doctype html><html itemscope="" itemtype=„http://schema.org/WebPage“ lang=„de-CH“><head><meta content=„text/html; charset=UTF-8“ http-equiv=„Content-Type“><meta content="/logos/do…usw…

Suche ich die Stelle: Wird nicht gefunden. Da kommt nicht das gleiche heraus wie im Browser

—> kommt nicht vor: <div class="_XWk">Geschlossen</div>

Unbrauchbare wenn die Seite nicht richtig abgerufen wird.

Diesmal denke ich, dass ich alles richtig gemacht habe… Sogar das DB gelesen!

glg

Manuela

paresy · 2. August 2016 um 08:42

Ich vermute Google mag nicht, wenn du über „Software“ die Seite ausliest. Wenn die das merken schicken die dir anderen Inhalt. Oder wenn dein personalisierter Inhalt anders ist als der „öffentliche“ kann dies auch passieren. Ich würde eine andere Quelle suchen.

paresy

Axel37 · 2. August 2016 um 08:47

—> kommt nicht vor: <div class="_XWk">Geschlossen</div>

steht auch nicht im Quellcode (html)

scanix · 2. August 2016 um 09:29

Personalisiert ist die abfrage nicht. Das heisst der www reader müsste sich als firefox ausgeben…

Als was gibt er sich jetzt aus?

Andere Seiten nehmen es nicht so genau wie Google, darum setzte ich schon auf diese tags. Lässt sich hier was machen. Abfrage anders formulieren?