Änderungen

Zur Navigation springen Zur Suche springen
120 Bytes hinzugefügt ,  16:10, 5. Aug. 2013
Zeile 344: Zeile 344:  
** Mit einer Kette aus ImageMagick und Tesseract lässt sich [http://kaffeeringe.de/2942/ocr-mit-tesseract-und-imagemagick/ das papierlose Büro angeblich] beginnen.
 
** Mit einer Kette aus ImageMagick und Tesseract lässt sich [http://kaffeeringe.de/2942/ocr-mit-tesseract-und-imagemagick/ das papierlose Büro angeblich] beginnen.
 
** Mit [http://wiki.ubuntuusers.de/ExactImage#hocr2pdf hocr2pdf] können Sandwich-PDFs erstellt werden: markierbarer/durchsuchbarer Text auf Bild. Der Text muss dazu im hOCR-Format vorliegen, was u.a. [[Tesseract]] beherrscht.
 
** Mit [http://wiki.ubuntuusers.de/ExactImage#hocr2pdf hocr2pdf] können Sandwich-PDFs erstellt werden: markierbarer/durchsuchbarer Text auf Bild. Der Text muss dazu im hOCR-Format vorliegen, was u.a. [[Tesseract]] beherrscht.
 
+
** Mit [http://tika.apache.org/ Apache Tika] lassen sich die Metadaten und der Inhalt eines Dokuments getrennt erfassen.
    
===== Einzelne DMS =====
 
===== Einzelne DMS =====

Navigationsmenü