wiki.ziemers.de

ziemer's informatik Wiki

Benutzer-Werkzeuge

Webseiten-Werkzeuge


wiki:software:beuthbot:berichte:ws2020:zwischen:geplanter-stand-features:bot11

Dies ist eine alte Version des Dokuments!


BOT-11: Universeller Scraper & Download
Der Beuthbot soll einen „universellen“ Web-Scraper beinhalten, der als Grundlage für künftige Features dienen soll, die für konkrete Scraping-Funktionalitäten vorgesehen sind. Aufgrund der hohen Diversität an Datenstrukturen unterschiedlicher Webseiten, soll dieser möglichst abstrakte Funktionalitäten zur Extrahierung von Datensätzen bieten.
Initiale Schätzung 1
Technologien Javascript
Abhängigkeiten * BOT-43: Erstellung eines Common-Frameworks für (Content-)Services
Anforderungen *Import von HTML- und XML-Dateien
*Daten lassen sich im JSON-Format exportieren
*Datensätze sind per HTML-Tags und CSS-Selektoren extrahierbar
*Dateien einer Webseite lassen sich downloaden
Tasks * BOT-26 Recherche nach geeignetster Methode (HTML-JSON)
wiki/software/beuthbot/berichte/ws2020/zwischen/geplanter-stand-features/bot11.1606223693.txt.gz · Zuletzt geändert: 24.11.2020 14:14 von Robert Xaver Halwaß