Hirdetés

Új hozzászólás Aktív témák

  • ngabor2

    nagyúr

    Szövegek átalakításához, részek egymáshoz rendeléséhez miben érdemes programot írni?

    Egy néhány weblapról vannak sorok, ezeknek a tartalmát kellene más, szintén kötött formátumba átrendezni. A helyzetet nehezíti, hogy 2 féle is van.

    Nem titok, az orchidspecies.com oldalról van szó. Itt fel vannak sorolva az orchidák nevei, egy-egy linkkel, viszont ezek csak az épp aktuális névnél vannak meg. Van ezen kívül jópár szinoníma is, aminél link nincs, csak az, hogy mi az aktuális neve (aminél már található link is).

    Kaptam egy, az oldalhoz írt keresőprogramot, amiben az akkor épp aktuális, érvényes neveket tartalmazó .json fájlban vannak felsorolva a nevek és a linkek a következő formában:

    {
    "href": "acanthjavanicum.htm",
    "text": "!Acanthophippium javanicum Blume 1825"
    }, {
    "href": "acanlilacinum.htm",
    "text": "Acanthophippium lilacinum J.J. Wood \u0026 C.L. Chan 1994"
    }, {
    "href": "acanthmanti.htm",
    "text": "Acanthophippium mantinianum Linden \u0026 Cogn. 1897"
    },

    Jelenleg kb. 22000 rekord szerepel az adatbázisban, nem kevés munkája van benne az alkotóknak.

    A html-ből ki tudom szedni a href és a text tartalmát, shell szkriptben a grep-cut-sed szentháromsággal az élő nevekből tán még ki is tudnám szenvedni az aktualizált listát.

    Viszont az alternatíváknál, amiből több van, nem boldogulok. A weboldalon a következő formátumban van:

    <P>~Acoridium whitfordii Rolfe 1905 - See Dendrochilum rhombophorum (Rchb.f.) Ames 1908

    Ehhez természetesen létezik egy élő sor:

    <P><LI><A href="dendrocrhombophorum.htm">Dendrochilum rhombophorum (Rchb.f.) Ames 1908</A><P>

    Ebből a kettőből kellene összehozni értelemszerűen:

    {
    "href": "dendrocrhombophorum.htm",
    "text": "~Acoridium whitfordii Rolfe 1905"
    },

    Hogy egyszerűbb legyen, 2 fájlba össze lehet szedni a párokat: az egyikbe az élő linkkel rendelkezőket, a másikba az alternatívákat, mind a 26, ezeket ábécé sorrendben tartalmazó fájlból. Viszont a lényeget inkább olyantól kérdezném, akinek van programozói tudása hasonló témában.

Új hozzászólás Aktív témák