Keresés: - Programozás topic - Mobilarena Hozzászólások

Hirdetés

Legfrissebb anyagok

Mobilarena témák

PROHARDVER! témák

IT café témák

GAMEPOD témák

LOGOUT témák

Keresés

Téma összefoglaló

Utoljára frissítve: 2023-12-13 06:18

Mobilarena

Új hozzászólás Aktív témák

#17669 sztanozs veterán gordonfreemN #17668

Új Válasz 2022-08-29 16:55:22 #17669
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

sztanozs

veterán

válasz gordonfreemN #17668 üzenetére

Próbálj meg ráereszteni egy OCR-t, hátha...
Vagy esetleg ilyesmi: [link]
#17667 dqdb nagyúr gordonfreemN #17665

Új Válasz 2022-08-29 16:08:06 #17667
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

dqdb

nagyúr

válasz gordonfreemN #17665 üzenetére

Ahogyan a múltkor is írtam, ehhez logika kell, ami a puszta szöveg mellett a koordinátákból is dolgozik, mert egy PDF-ben tipikusan csak összevissza helyeken szereplő betűk vannak, amit heurisztika képes szavakká összefűzni, de ahhoz még több heurisztika kell, hogy ebből táblázatos adat legyen, amivel dolgozni tudsz.
A PDF-ek adattartalma nincsen véletlenül csatolmányként bedobva valami könnyen feldolgozható formátumban a dokumentumba? Vagy ha nincsen, akkor a PDF-et gyártó oldal nem tudja nektek más formátumban is átadni az adatokat?
#17666 sztanozs veterán gordonfreemN #17665

Új Válasz 2022-08-29 15:26:19 #17666
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

sztanozs

veterán

válasz gordonfreemN #17665 üzenetére

Egy szkenner/képfelismerő vsz többet tudna ebből kihozni, mint egy PDF parser - persze ez a konkrét PDF struktúrától is függ...
#17664 sztanozs veterán gordonfreemN #17661

Új Válasz 2022-08-29 14:34:07 #17664
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

sztanozs

veterán

válasz gordonfreemN #17661 üzenetére

Az a gond, hogy ami pdf-ben táblázatnak látszik, az legtöbbször valójában csak formázás, azaz csak pozicionált szöveg (vagy szövegdoboz).
#17663 martonx veterán gordonfreemN #17661

Új Válasz 2022-08-29 11:06:38 #17663
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

martonx

veterán

válasz gordonfreemN #17661 üzenetére

Én valami ilyet próbálnék meg használni: GitHub - UglyToad/PdfPig: Read and extract text and other content from PDFs in C# (port of PDFBox)
Nyelvet nem írtál, de gondolom kiindulásnak egy ilyen PDF feldolgozó is jó ötlet lehet, biztos, hogy bármilyen nyelvhez találsz hasonlót. Más kérdés, hogy szvsz még ezzel is elég izgi lehet egy pdf-ben lévő táblázatból kimazsolázni az adatot.
#17662 JoinR őstag gordonfreemN #17661

Új Válasz 2022-08-29 10:11:18 #17662
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

JoinR

őstag

válasz gordonfreemN #17661 üzenetére

Ami "könnyen" megoldható, az még mindig az Exceles konvertálás szerintem.
Vagy machine learning, nem véletlenül van egy pár pdf-értelmező adaptáció, nem egyszerű feladat automatizálni.
#17661 gordonfreemN addikt gordonfreemN #17660

Új Válasz 2022-08-29 08:52:18 #17661
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

gordonfreemN

addikt

válasz gordonfreemN #17660 üzenetére

Bocsi, az lemaradt,, hogy a "Material Order Identification" oszlopra lenne szükségem (még reggel van).
PDF-eket kell összehasonlítani, és ilyen formátumból ez nem egyszerű (beyond compare se jó, mert tudnom kellene, melyik cikkszám van meg másik fájlban is, és ami nincs azokat ki kellene gyűjtenem
#17629 sztanozs veterán gordonfreemN #17627

Új Válasz 2022-08-03 14:03:12 #17629
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

sztanozs

veterán

válasz gordonfreemN #17627 üzenetére

használj if+countif et:
=IF(COUNTIF(C:C,A2),B2,"-")
#17623 axioma veterán gordonfreemN #17621

Új Válasz 2022-08-03 11:52:01 #17623
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

axioma

veterán

válasz gordonfreemN #17621 üzenetére

fkeres fuggvenyt keresed ha magyar az excel ( beirod =fkeres( es fel tudod hozni a help ablakot, segit az eligazodasban)
Ha A-ban es B-ben benne van az azonosito es ar osszerendeles, akkor egy barhol levo azonosito melle ki tudod irni az fkeres-sel az a'rat
Ha az A-ban vagy van a'r vagy nincs, es nem szamit a sorrend, akkor elobb rendezd ugy sorba hogy a B-ben az uresek alul legyenek, akkor sajat maga felett mindig megtalalja (es a C-be irdd be akar ki volt toltve a B akar nem, a B-t meg egyszeruen elrejted), vagy ugyanez pepitaban, A lemasol C-be (ertek szerint), A+B rendez ugy hogy az uresek alul, A es B elrejt, D-be fkeres az AB-n.
#17622 sztanozs veterán gordonfreemN #17621

Új Válasz 2022-08-03 11:35:43 #17622
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

sztanozs

veterán

válasz gordonfreemN #17621 üzenetére

Mármint mit szeretnél? h a pont mellette levő cellát nézné meg?
=HA(B8=E8;C8;"-")
#17615 dqdb nagyúr gordonfreemN #17612

Új Válasz 2022-08-02 08:45:18 #17615
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

dqdb

nagyúr

válasz gordonfreemN #17612 üzenetére

Rövid válasz: éppen az általad is bedobott a PDF to Excel szoftvereket akartam ajánlani, mint egyszerű megoldás, hátha akad belőlük olyan, ami tökéletesen kezeli ezek a táblázatokat.
Hosszú válasz: nem megoldhatatlan, de nem is egyszerű dolog, mert a PDF egy konzisztens megjelenítésre optimalizált formátum, és nem az adatok hordozására/módosítására.
Legextrémebb esetben a szövegek nem is szövegként vannak eltárolva, hanem maguk a betűk vektorosan görbékként kerülnek be a fájlba, és ilyenkor OCR kell a szöveg kinyeréséhez. Ez szerencsére ritka, általában szépen formázott kiadványok esetében fordul csak elő.
Leggyakrabban a szövegek szövegként kerülnek bele a dokumentumba (adatokból sablon segítségével generált dokumentumoknál más megoldást még nem láttam), de a helyzet ennél bonyolultabb, mert nem bekezdésenként vagy szavanként egyben, hanem betűnként külön-külön saját pozícióval. Azaz például az alma szó a, l, m és a betűként* szerepelnek, ahol mindegyik betűhöz tartozik egy koordináta. A PDF megjelenítők vagy az általad igényelt text extractor megoldások pedig valamilyen heurisztikát használva kitalálják, hogy ezek a betűk elég közel vannak egymáshoz a használt betűtípus metrikái alapján, függőlegesen sem nagyon lógnak ki, így valószínűleg egy szót alkotnak. Aztán a szavakat hasonló heurisztika mentén bekezdésekké lehet összefűzni,
A PDF libraryk közül szinte mindegyik kínál valamilyen fajta text extractor megoldást, jobban az iTextet ismerem, ott van egy általános implementáció, amelynek átadhatod paraméterként a helyzetnek megfelelő heurisztikát vagy használhatod a gyárilag beépítettek egyikét. A képen látható dokumentum formátuma eléggé szabályosnak tűnik ahhoz, hogy saját heurisztika nélkül, pusztán az alapértelmezett segítségével kinyert szöveget elég legyen feldolgozni, vagy ha ez mégsem jön össze, akkor ki tudod használni a táblázatjelleget, és pusztán a szövegek pozíciója alapján be tudod lőni, melyik cellában voltak.
* Láttam már olyan generált dokumentumot, ahol tényleges szavak voltak, de ez ritka és a szabvány oldaláról ellenjavallott.
#17035 sztanozs veterán gordonfreemN #17034

Új Válasz 2022-02-01 20:34:42 #17035
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

sztanozs

veterán

válasz gordonfreemN #17034 üzenetére

Igen, azt akartam írni hogy gyökér könyvtárból nem szeret semmi indulni.
#17034 gordonfreemN addikt gordonfreemN #17032

Új Válasz 2022-02-01 17:07:48 #17034
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

gordonfreemN

addikt

válasz gordonfreemN #17032 üzenetére

ezekkel a beállításokkal elindult (ha másnak is kellene):
[kép]
[kép]
[kép]
[kép]
[kép]
[kép]
#17028 gordonfreemN addikt gordonfreemN #17024

Új Válasz 2022-02-01 11:41:02 #17028
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

gordonfreemN

addikt

válasz gordonfreemN #17024 üzenetére

Jó, közben csak én bénáskodtam a regeditben nagyon figyelni, melyik mappáb an hozod létre az uj key-t
#17024 gordonfreemN addikt gordonfreemN #17023

Új Válasz 2022-02-01 10:57:19 #17024
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

gordonfreemN

addikt

válasz gordonfreemN #17023 üzenetére

így sikerült: [link]
Vagyis még mindig nem megy, de már a regeditben benne van
#17023 gordonfreemN addikt gordonfreemN #17022

Új Válasz 2022-02-01 10:27:26 #17023
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

gordonfreemN

addikt

válasz gordonfreemN #17022 üzenetére

mindre ugyanazt a hibát hozza, amit lent mutzattam.
#17021 sztanozs veterán gordonfreemN #17019

Új Válasz 2022-02-01 09:27:13 #17021
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

sztanozs

veterán

válasz gordonfreemN #17019 üzenetére

Ellenőrizd le az Execution Policy-t:
Get-ExecutionPolicy -List
és vagy állítsd át (ha tudod):
Set-ExecutionPolicy -ExecutionPolicy Undefined -Scope CurrentUser
vagy írd alá a szkriptet (ha nem tudod átállítani, de az aláírt szkriptek engedélyezettek):
Set-AuthenticodeSignature -FilePath C:\CSVcopyBOND1.ps1 -Certificate $cert -IncludeChain All
#17020 sztanozs veterán gordonfreemN #17019

Új Válasz 2022-02-01 09:13:48 #17020
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

sztanozs

veterán

válasz gordonfreemN #17019 üzenetére

Írd alá a szkriptet és akkor talán futtatható lesz. Nálunk is kb ez van...
#17019 gordonfreemN addikt gordonfreemN #17018

Új Válasz 2022-01-31 17:13:32 #17019
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

gordonfreemN

addikt

válasz gordonfreemN #17018 üzenetére

hát most meg arcon köpött egy ilyen hibaüzenettel :
Na mára pihentetem
#17018 gordonfreemN addikt gordonfreemN #17017

Új Válasz 2022-01-31 15:48:34 #17018
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

gordonfreemN

addikt

válasz gordonfreemN #17017 üzenetére

Kozben meg is lett, nem creationtime kellett mert mivel másoltam az módosult. Helyette a LastWriteTime parancs kellett