HTML: Table parsen?

lano · 22.11.2020

Moin.

Ich hab mir meine Google Daten runtergeladen und versuche die nun in ne Datenbank zu bekommen.
Jetzt steh ich vor der Frage wie ich denn am besten nen HTML Table parse.

Der HTML Kram sieht im Grunde so aus.

HTML:

<tr>
    <td>2020-11-18 17:23:30 UTC</td>
    <td>178.11.113.34</td>
    <td>Login</td>
    <td></td>
</tr>

<tr>
    <td>2020-11-18 16:42:25 UTC</td>
    <td>178.11.113.34</td>
    <td>Login</td>
    <td></td>
</tr>

<tr>
    <td>2020-11-18 16:22:59 UTC</td>

    <td>178.11.113.34</td>

    <td>Login</td>

    <td>Mozilla/5.0 (X11; Linux x86_64; rv:78.0) Gecko/20100101 Firefox/78.0,gzip(gfe)</td>
</tr>

<tr>
    <td>2020-11-18 16:07:12 UTC</td>
    <td>178.11.113.34</td>
    <td>Login</td>
    <td></td>
</tr>

<tr>
    <td>2020-11-18 15:06:54 UTC</td>
    <td>178.11.113.34</td>
    <td>Login</td>
    <td></td>
</tr>

Jemand ne idee? Ich hatte an Perl gedacht oder php. ka was sich besser eignet.

german · 22.11.2020

Das sollte ja noch in ein <table> Objekt eingeschlossen sein, somit ist das nix weiter als XML. Musst nur mal schauen welche Sprache das auf deiner Kiste am sinnvollsten verarbeiten kann. Libs sollte es für so ziemlich jede Sprache geben, aber vielleicht hast du sowieso schon was installiert.

Mat · 22.11.2020

Könntest auch DOMDocument aus PHP nehmen. Das dürfte dir vertraut vorkommen, weil du ja schon viel JavaScript gemacht hast.

Du lädtst das mit $dom = new DOMDocument(); $dom->loadHTML($tabelleVonOben); und dann kannst du da ein bisschen wie in JavaScript drüber iterieren ($dom->getElementsByTagName('td') usw).

Alternativ:
Was vielleicht ganz interessant wäre: Einfach in CSV konvertieren durch Suchen&Ersetzen.

</tr> ist Newline, </td> ist ein Komma, alles innerhalb <td></td> muss escaped / ein String sein

HTML: Table parsen?

lano

Aktives Mitglied

german

Aktives Mitglied

Mat

Aktives Mitglied