- Kiszivárgott a Pixel 10a specifikációja
- Milyen okostelefont vegyek?
- Samsung Galaxy S23 Ultra - non plus ultra
- Google Pixel topik
- Sony WF-1000XM6 – ez évi etalon?
- Az Activision áprilisban lekapcsolja a Call of Duty: Warzone Mobile-t
- Yettel topik
- Apple iPhone Air - almacsutka
- Lelkiismeret-furdalás nélkül zabálhatod a süteményt a Galaxy S26-tal
- Más néven érkezik a Xiaomi kameratelefonja
-
Mobilarena

Új hozzászólás Aktív témák
-
dqdb
nagyúr
válasz
gordonfreemN
#17612
üzenetére
Rövid válasz: éppen az általad is bedobott a PDF to Excel szoftvereket akartam ajánlani, mint egyszerű megoldás, hátha akad belőlük olyan, ami tökéletesen kezeli ezek a táblázatokat.
Hosszú válasz: nem megoldhatatlan, de nem is egyszerű dolog, mert a PDF egy konzisztens megjelenítésre optimalizált formátum, és nem az adatok hordozására/módosítására.
Legextrémebb esetben a szövegek nem is szövegként vannak eltárolva, hanem maguk a betűk vektorosan görbékként kerülnek be a fájlba, és ilyenkor OCR kell a szöveg kinyeréséhez. Ez szerencsére ritka, általában szépen formázott kiadványok esetében fordul csak elő.
Leggyakrabban a szövegek szövegként kerülnek bele a dokumentumba (adatokból sablon segítségével generált dokumentumoknál más megoldást még nem láttam), de a helyzet ennél bonyolultabb, mert nem bekezdésenként vagy szavanként egyben, hanem betűnként külön-külön saját pozícióval. Azaz például az alma szó a, l, m és a betűként* szerepelnek, ahol mindegyik betűhöz tartozik egy koordináta. A PDF megjelenítők vagy az általad igényelt text extractor megoldások pedig valamilyen heurisztikát használva kitalálják, hogy ezek a betűk elég közel vannak egymáshoz a használt betűtípus metrikái alapján, függőlegesen sem nagyon lógnak ki, így valószínűleg egy szót alkotnak. Aztán a szavakat hasonló heurisztika mentén bekezdésekké lehet összefűzni,
A PDF libraryk közül szinte mindegyik kínál valamilyen fajta text extractor megoldást, jobban az iTextet ismerem, ott van egy általános implementáció, amelynek átadhatod paraméterként a helyzetnek megfelelő heurisztikát vagy használhatod a gyárilag beépítettek egyikét. A képen látható dokumentum formátuma eléggé szabályosnak tűnik ahhoz, hogy saját heurisztika nélkül, pusztán az alapértelmezett segítségével kinyert szöveget elég legyen feldolgozni, vagy ha ez mégsem jön össze, akkor ki tudod használni a táblázatjelleget, és pusztán a szövegek pozíciója alapján be tudod lőni, melyik cellában voltak.
* Láttam már olyan generált dokumentumot, ahol tényleges szavak voltak, de ez ritka és a szabvány oldaláról ellenjavallott.
Új hozzászólás Aktív témák
● olvasd el a téma összefoglalót!
- TCL LCD és LED TV-k
- Luck Dragon: Asszociációs játék. :)
- Pad X8b néven jön a Honor következő belépőszintű táblája
- Máris elfogytak az idei évre szánt HDD-k a Western Digitalnál
- Fejhallgató erősítő és DAC topik
- Proxmox VE
- Kormányok / autós szimulátorok topikja
- Milyen légkondit a lakásba?
- Diablo II: Classic és Resurrected
- GAI: A hűtőpaszta és thermal gap pad ellenes Vaterás
- További aktív témák...
- BOMBA ÁRrR! Lenovo ThinkPad T14s Gen 4 Ryzen 5 PRO 7540U 14" FHD+ 32GB 1TB Lenovo gar: 2028.01.07!
- ZBook Fury 17 G8 17.3" FHD IPS i7-11850H T1200 32GB 512GB NVMe ujjolv IR kam gar
- Félkonfig: i7-14700KF + Gigabyte Z790 Aorus Elite AX-W (2024-es szett, Garanciális!)
- ID-COOLING IS-50X V2 low profile hűtő, 50mm magas
- Apple iPhone 12 64GB, Kártyafüggetlen, 1 Év Garanciával
- 185 - Lenovo Legion Pro 7 (16IAX10H) - Intel Core U9 275HX, RTX 5080
- EREDETI NINTENDO Pokemon Go Plus autocatcher dobozban eladó
- Akció! ÚJ akku! Lenovo ThinkPad X1 Extreme Gen2 i7-9850H 32GB 1000GB GTX1650 500nit 4K UHD 1 év gar
- AKCIÓ! LENOVO ThinkPad P15 Gen2 munkaállomás - i7 11800H 32GB DDR4 1TB SSD RTX A2000 4GB W
- Jó áron eladó Lenovo ThinkPad T14s Gen 3/i5-1240P/16 GB/256 SSD/FHD+/IPS/Garancia/
Állásajánlatok
Cég: Laptopműhely Bt.
Város: Budapest
Cég: PCMENTOR SZERVIZ KFT.
Város: Budapest



