Kezdőlap › Fórumok › Programozás › Filterek
- This topic has 6 hozzászólás, 4 résztvevő, and was last updated 19 years, 10 months telt el by
SzepZoli.
-
SzerzőBejegyzés
-
2005-09-16-14:12 #2031134
A ms formátumai zártak ezért kevés program van – fõként ami szerkesztené. (Mindegyik verzióhoz tuti nincs megoldás.)
* Van – ha jól emlékszem python modul -, mellyel msdokokat létre tudsz hozni.
A pdf eredetileg „nem szerkeszthetõ”, hanem nyomtatásra tervezett formátum.
* a pdf-et általában ps-en keresztül (ide/oda: ps2pdf/pdf2ps) szokták kezelni. A ps-hez pedig sok program létezik – igaz nagyobb (mert szöveges – ezért jóval könnyebben kezelhetõ), de ugyanúgy nyomtatható. (ha megnézel egy ps file-t, az olyasmi, mint a tex dokumentum)
Ha pedig ezeket html-be konvertálod…(min a gugli) – ehhez is megvannak a programok -, akkor a indexeléshez/kereséshez már nagyon jó platform független js-es programok vannak. A hátránya a dolognak, hogy egyszer el kell végezni az átalakításokat – ami aztán mehet a késõbbiek automatizálva -, no meg persze helyet kell biztosítani ezeknek. (Ez tûnik legcélravezetõbbnek, egyébként százszor ennyi munka, és/vagy ezerszer ennyi pénz kell hozzá – szerintem.)2005-09-16-14:30 #2031135Elsõként köszönöm a segítséged. ^_^
A lényeg, hogy kinyerjük a szöveget, valamint a metaadatokat az állományokból. Visszafelé nem érdekes a dolog. Csak indexelni szeretnénk a dokumentumokat. Amit a google segítségével találtam az bíztató: wvWare, wvSummary segítségével ki tudom nyerni a szöveget és a metaadatokat. A szövegre ugyan jobbnak bizonyultak a catDoc, valamint az antiword programok. Ppt-re pedig ott a catPpt.
Nem tudom ezeken kívül fellelhetõk-e msá megoldások. De biztosan.
2005-09-19-13:21 #2031136Utána olvasva láttam, hogy az OpenOffice API-kon keresztül megoldható ez a konverzió. Nem tud valaki errõl picit többet?
VB kódokat találtam ugyan, de nem minden világos egyelõre.2005-09-19-14:02 #2031137SzepZoli wrote:Egy keresõt szertnék írni Mono-ban.http://beaglewiki.org/Supported_Filetypes
Kiindulásnak ez elég jó, ha nem akarod újra feltalálni a meleg vizet 🙂2005-09-19-14:20 #2031138Köszönöm a tippet!
2005-09-20-14:17 #20311392009-12-04-19:57 #1880736Kedves Mindenki,
a következõ problémával állok szemben: MS dokumentumokat, PDF-et és mindenféle más formátumot szeretnék feldolgozni. Ehhez lenne szükségem filterekre. (Ja, totál kezdõ vagyok a Linux világában, ezért elnézést, ha valami nagy butaságot írnék.) Eddig találtam catdoc, catppt, wvWare nevû dolgokat. Nekem olyasmi kéne, amivel nem csak a szöveget kapom meg, hanem a metaadatokat is. Egy keresõt szertnék írni Mono-ban.plz help!
Köszönöm
-
SzerzőBejegyzés
- Be kell jelentkezni a hozzászóláshoz.
legutóbbi hsz