Elsõként köszönöm a segítséged. ^_^
A lényeg, hogy kinyerjük a szöveget, valamint a metaadatokat az állományokból. Visszafelé nem érdekes a dolog. Csak indexelni szeretnénk a dokumentumokat. Amit a google segítségével találtam az bíztató: wvWare, wvSummary segítségével ki tudom nyerni a szöveget és a metaadatokat. A szövegre ugyan jobbnak bizonyultak a catDoc, valamint az antiword programok. Ppt-re pedig ott a catPpt.
Nem tudom ezeken kívül fellelhetõk-e msá megoldások. De biztosan.
legutóbbi hsz