- MWC 2026: Bajnoki címre pályázik a Xiaomi Watch 5
- Samsung Galaxy S25 Ultra - titán keret, acélos teljesítmény
- iPhone topik
- Mobil flották
- Huawei Watch GT 6 és GT 6 Pro duplateszt
- Xiaomi 15T Pro - a téma nincs lezárva
- Apple iPhone 17 - alap
- Samsung Galaxy S26 Ultra - fontossági sorrend
- One mobilszolgáltatások
- Jolla és SailfishOS tapasztalatcsere
-
Mobilarena

Új hozzászólás Aktív témák
-
dqdb
nagyúr
válasz
gordonfreemN
#17612
üzenetére
Rövid válasz: éppen az általad is bedobott a PDF to Excel szoftvereket akartam ajánlani, mint egyszerű megoldás, hátha akad belőlük olyan, ami tökéletesen kezeli ezek a táblázatokat.
Hosszú válasz: nem megoldhatatlan, de nem is egyszerű dolog, mert a PDF egy konzisztens megjelenítésre optimalizált formátum, és nem az adatok hordozására/módosítására.
Legextrémebb esetben a szövegek nem is szövegként vannak eltárolva, hanem maguk a betűk vektorosan görbékként kerülnek be a fájlba, és ilyenkor OCR kell a szöveg kinyeréséhez. Ez szerencsére ritka, általában szépen formázott kiadványok esetében fordul csak elő.
Leggyakrabban a szövegek szövegként kerülnek bele a dokumentumba (adatokból sablon segítségével generált dokumentumoknál más megoldást még nem láttam), de a helyzet ennél bonyolultabb, mert nem bekezdésenként vagy szavanként egyben, hanem betűnként külön-külön saját pozícióval. Azaz például az alma szó a, l, m és a betűként* szerepelnek, ahol mindegyik betűhöz tartozik egy koordináta. A PDF megjelenítők vagy az általad igényelt text extractor megoldások pedig valamilyen heurisztikát használva kitalálják, hogy ezek a betűk elég közel vannak egymáshoz a használt betűtípus metrikái alapján, függőlegesen sem nagyon lógnak ki, így valószínűleg egy szót alkotnak. Aztán a szavakat hasonló heurisztika mentén bekezdésekké lehet összefűzni,
A PDF libraryk közül szinte mindegyik kínál valamilyen fajta text extractor megoldást, jobban az iTextet ismerem, ott van egy általános implementáció, amelynek átadhatod paraméterként a helyzetnek megfelelő heurisztikát vagy használhatod a gyárilag beépítettek egyikét. A képen látható dokumentum formátuma eléggé szabályosnak tűnik ahhoz, hogy saját heurisztika nélkül, pusztán az alapértelmezett segítségével kinyert szöveget elég legyen feldolgozni, vagy ha ez mégsem jön össze, akkor ki tudod használni a táblázatjelleget, és pusztán a szövegek pozíciója alapján be tudod lőni, melyik cellában voltak.
* Láttam már olyan generált dokumentumot, ahol tényleges szavak voltak, de ez ritka és a szabvány oldaláról ellenjavallott.
Új hozzászólás Aktív témák
● olvasd el a téma összefoglalót!
- Társasjáték topic
- Okos otthon - Home Assistant, openHAB és más nyílt rendszerek
- VR topik
- Formula-1
- Megvannak a Forza Horizon 6 gépigényei, a régebbi PC-k is fellélegezhetnek
- Lexus, Toyota topik
- E-book olvasók
- MWC 2026: Bajnoki címre pályázik a Xiaomi Watch 5
- Samsung Galaxy S25 Ultra - titán keret, acélos teljesítmény
- Counter-Strike: Global Offensive (CS:GO) / Counter-Strike 2 (CS2)
- További aktív témák...
- Intel Core Ultra 7 265KF RX9060XT minőségi PC teljes garancia
- Apple iPhone 16 Pro 128GB 94%-os akku
- Lenovo X1 Yoga gen. 6. // i7-1185g7 // 32GB // 512GB // ÚJSZERŰ!!! // ÚJ ÁRA 1.408.990.-Ft!!!!!!
- Lenovo ThinkPad W541,15.6,FHD,i7-4810MQ,32GB DDR3,256GB SSD,K1100 2GB VGA,WIN10
- Samsung Galaxy Tab S10 Ultra 5G 12/256 2028.09.03-ig garancia
- 27% - LG UltraGear 34GS95QE OLED Monitor! / 3440x1440 / 0.03ms / 240 Hz / FreeSync / G-Sync
- Bontatlan Oriflame Love Potion parfüm eladó
- 275 - Lenovo Legion Pro 7 (16IAX10H) - Intel Core U9 275HX, RTX 5080
- AKCIÓ! Asrock B450M R5 5500 8GB DDR4 256GB SSD GTX 1050 Ti 4GB Zalman T3 Plus DeepCool 400W
- HIBÁTLAN iPhone 17 Pro Max 256GB Deep Blue-1 ÉV GARANCIA - Kártyafüggetlen, 100% Akksi
Állásajánlatok
Cég: Laptopműhely Bt.
Város: Budapest



