Zahlenreihen aus Webseite auslesen und in Mengenschreibweise in TXT-Datei speichern?

bernd · 03.05.2021

Hallo, es geht bei meinem Problem ziemlich genau um diese Seite:

A 163-ticket wheel (guarantees a 3-match)

Wie man sieht steht dort in jeder Zeile ein "Ticket" gefolgt von einer unwichtigen Zahl, dann einem ":" und dann 6 Zahlen.
ich hätte gerne diese 6 zahlen in jeder zeile in einer passenden mengenschreibweise aus der webseite rausgezogen und in einem pdf gespeichert.
Sprich auf der webseite steht

Ticket 1 : 1 6 7 17 23 46
Ticket 2 : 1 6 9 25 32 45
...
was ich gerne später in einer txt datei stehen haben wollen würde in der form
{ {1,6,7,17,23,46} , {1,6,9,25,32,45} , ... }

hat den hintergrund dass ich dieses geschriebene später als ArrayList<ArrayList<Long>> zu interpretieren gedenke und damit dann weiter werkeln will.

Frage ist nur, wie oder womit bekomme ich diese Zahlenreihe von der Webseite am besten ausgelesen und in der erwähnten Form in einer txt auf meinem computer abgespeichert?

PosChris · 03.05.2021

das ist eigentlich relativ simpel mit php zu machen.
file_get_contents auf die domain um den code zu bekommen und dann per DomDocument im Php parsen lassen.

PHP/Tutorials/DOMDocument – SELFHTML-Wiki

wiki.selfhtml.org

per $dom->getElementsByTagName( 'pre' )[0]; kommste auf den pre - knoten, in dem die daten stehen. diese kannste parsen. erst per \n die einzelnen zeilen auslesen und dann per explode auf " " kommste direkt an alle werte. alternativ per regulärem ausdruck

Dompteur · 04.05.2021

Fast jede aktuelle General Purpose Language bietet die Möglichkeit über http/https den Inhalt einer Webseite abzufragen.
Entweder als Teil der Sprache oder über Libraries.
Hier hast du sogar das Glück, dass die Seite statisch ist (= es werden keine Teile der Seite nachgeladen).

Verwendest du üblicherweise Java ?
Dann schaue dir dieses Kapitel aus dem Oracle Java Tutorial an : https://docs.oracle.com/javase/tutorial/networking/urls/index.html
Da findest du auch ein einfaches Beispielsprogramm zum Lesen einer Seite.

Die Seite, die du da angegeben hast, ist sehr einfach strukturiert. Der Block, der dich interessiert befindet sich innerhalb des einzigen PRE Tags. Natürlich kannst du nun einen HTML Parser verwenden, um darauf zurückzugreifen.
In diesem einfachen Fall kannst du aber den relevanten Ausschnitt auch mit einfachen String Funktionen herauslösen.

bernd · 08.05.2021

jap, für so Programme programmieren spiele ich eigentlich immer mit Java rum.

Ansosnten kenne ich vom Ding her noch Javascript, allerdings nur insoweit wie ich damit DOM Sachen in Tampermonkey Skripten mache. Habe ansosnten von javascript keinen großen Plan

bernd · 08.05.2021

Dompteur schrieb:
Verwendest du üblicherweise Java ?
Dann schaue dir dieses Kapitel aus dem Oracle Java Tutorial an : https://docs.oracle.com/javase/tutorial/networking/urls/index.html
Da findest du auch ein einfaches Beispielsprogramm zum Lesen einer Seite.

Kann ich eigentlich wenn ich so

Connecting to a URL (The Java™ Tutorials > Custom Networking > Working with URLs)

ne "Verbindung" Zur Seite habe, da auch get/post requests und sowas schicken?

Wollten mich shcon öfter damit befassen aber dort dreht sich immer Alles um python. und ihc habe keine Plan wie man die Sahcen in java hinkriegt. :-(

aligator · 18.05.2021

Guck mal hier: https://www.baeldung.com/java-http-request
Natürlich ist das recht low-level aber zum rumprobieren mit Requests genau richtig. Solltest aber dann schon verstehen wie so ein Request aufgebaut ist. (evtl. mal Wikipedia befragen)

Wenn es dir darum geht, z.B. eine REST API zu machen dann guck dir z.B. Spring boot an, was sehr High-level ist (und dementsprechend hohen setup-aufwand hat sowie bei dem ein Grundverständnis von REST und ein gutes Java verständnis sehr hilfreich ist).

Dazwischen gibts bestimmt auch ein paar libs die weder so high noch so low level sind.

BTW: Wenn du nach etwas für Java suchst und nur Python findest, dann suchst du falsch. Googlen will gelernt sein

Grundregel 1: immer die Sprache für die du etwas suchst bei der Google Suche voranstellen. Bsp: "java http request" der erste Link ist der den ich dir oben gegeben habe.
Grundregel 2: immer auf englisch suchen. Im Bereich IT ist da die Erfolgsaussicht ungleich höher.

Des weiteren schadet es auch nicht sich mal mit anderen Sprachen zu beschäftigen. Zum Teil lernt man dadurch auch Aspekte von Java besser kennen, entweder weil man mal programmieren von einer anderen Sichtweise aus mitbekommt und dadurch "Betriebsblindheit" vermeidet, die entsteht, wenn man immer nur das selbe macht. Außerdem sind andere Sprachen für andere Problemstellungen eventuell besser geeignet. Da ist es gut wenn man sich eine Auswahl an sprachen aneignet um immer die beste für eine bestimmte Problemstellung zu benutzen.

Zahlenreihen aus Webseite auslesen und in Mengenschreibweise in TXT-Datei speichern?

bernd

Neues Mitglied

PosChris

Neues Mitglied

PHP/Tutorials/DOMDocument – SELFHTML-Wiki

Dompteur

Neues Mitglied

bernd

Neues Mitglied

bernd

Neues Mitglied

aligator

Mitglied