- Red Magic 11 Air – vékony házból süvít a szél
- Csíptetős fülesek csatája – Sony LinkBuds Clip vs. Huawei FreeClip 2
- Mérföldkő a szilárdtest-akkuknál: fontos lépést tett a QuantumScape
- Újabb óriásakku a Honortól: az X80 lehet a következő 10 000 mAh-s modell
- iPhone 18 Pro Max: kis kapacitásbővítés hoz nagy előrelépést üzemidőben
- Android dual SIM okostelefonok
- Samsung Galaxy Watch8 - Classic - Ultra 2025
- Samsung Galaxy S23 és S23+ - ami belül van, az számít igazán
- Szívós, szép és kitartó az új OnePlus óra
- Samsung Galaxy A54 - türelemjáték
- OnePlus 15 - van plusz energia
- Poco X6 Pro - ötös alá
- Google Pixel topik
- Poco F5 - pokolian jó ajánlat
- Samsung Galaxy S25 - végre van kicsi!
-
Mobilarena

Új hozzászólás Aktív témák
-
dqdb
nagyúr
válasz
gordonfreemN
#17612
üzenetére
Rövid válasz: éppen az általad is bedobott a PDF to Excel szoftvereket akartam ajánlani, mint egyszerű megoldás, hátha akad belőlük olyan, ami tökéletesen kezeli ezek a táblázatokat.
Hosszú válasz: nem megoldhatatlan, de nem is egyszerű dolog, mert a PDF egy konzisztens megjelenítésre optimalizált formátum, és nem az adatok hordozására/módosítására.
Legextrémebb esetben a szövegek nem is szövegként vannak eltárolva, hanem maguk a betűk vektorosan görbékként kerülnek be a fájlba, és ilyenkor OCR kell a szöveg kinyeréséhez. Ez szerencsére ritka, általában szépen formázott kiadványok esetében fordul csak elő.
Leggyakrabban a szövegek szövegként kerülnek bele a dokumentumba (adatokból sablon segítségével generált dokumentumoknál más megoldást még nem láttam), de a helyzet ennél bonyolultabb, mert nem bekezdésenként vagy szavanként egyben, hanem betűnként külön-külön saját pozícióval. Azaz például az alma szó a, l, m és a betűként* szerepelnek, ahol mindegyik betűhöz tartozik egy koordináta. A PDF megjelenítők vagy az általad igényelt text extractor megoldások pedig valamilyen heurisztikát használva kitalálják, hogy ezek a betűk elég közel vannak egymáshoz a használt betűtípus metrikái alapján, függőlegesen sem nagyon lógnak ki, így valószínűleg egy szót alkotnak. Aztán a szavakat hasonló heurisztika mentén bekezdésekké lehet összefűzni,
A PDF libraryk közül szinte mindegyik kínál valamilyen fajta text extractor megoldást, jobban az iTextet ismerem, ott van egy általános implementáció, amelynek átadhatod paraméterként a helyzetnek megfelelő heurisztikát vagy használhatod a gyárilag beépítettek egyikét. A képen látható dokumentum formátuma eléggé szabályosnak tűnik ahhoz, hogy saját heurisztika nélkül, pusztán az alapértelmezett segítségével kinyert szöveget elég legyen feldolgozni, vagy ha ez mégsem jön össze, akkor ki tudod használni a táblázatjelleget, és pusztán a szövegek pozíciója alapján be tudod lőni, melyik cellában voltak.
* Láttam már olyan generált dokumentumot, ahol tényleges szavak voltak, de ez ritka és a szabvány oldaláról ellenjavallott.
Új hozzászólás Aktív témák
● olvasd el a téma összefoglalót!
- Diablo IV
- A fociról könnyedén, egy baráti társaságban
- Linux felhasználók OFF topikja
- Android dual SIM okostelefonok
- kenand: Hol volt, hol nem volt, Thunderbolt...
- XPEnology
- Bittorrent topik
- Samsung Galaxy Watch8 - Classic - Ultra 2025
- Intel Dual Core 2000 felhasználók barátságos offolós topikja
- Porszívók - akkus és klasszikus vezetékes
- További aktív témák...
- Honor Tab 8X (kijelző, hátlap karcos) / 4/64GB / Wi-fi / 12HÓ Garancia
- Keresünk Galaxy S22/S22+/S22 Ultra
- GYÖNYÖRŰ iPhone 12 128GB Blue -1 ÉV GARANCIA - Kártyafüggetlen, MS4540, 100% AKKSI
- BESZÁMÍTÁS! Gigabyte B760M i3 12100F 16GB DDR4 512GB SSD RX 7600 8GB Zalman T4Plus CoolerMaster 650W
- G.Skill Aegis 32GB (2 16GB) DDR4 3200MHz ÚJ, AZONNAL KÉSZLETRŐL
Állásajánlatok
Cég: Laptopműhely Bt.
Város: Budapest
Cég: Central PC számítógép és laptop szerviz - Pécs
Város: Pécs



