ubuntuusers.de

Hinweis: Dies ist ein statischer Snapshot unseres Wikis vom 25. März 2013 und kann daher nicht bearbeitet werden. Der aktuelle Artikel ist unter wiki.ubuntuusers.de zu finden.

Recoll

Dieser Artikel wurde für die folgenden Ubuntu-Versionen getestet:

Zum Verständnis dieses Artikels sind folgende Seiten hilfreich:

./recoll_logo.png ./recoll-ergebnis.png Recoll {en} ist eine schlanke und schnelle Dokumentensuchmaschine, die eine Vielzahl an Formaten unterstützt. Neben der Qt-Oberfläche gibt es auch eine Lens für Unity, KRunner-Integration sowie KIO- und Kommandozeilenunterstützung. Neben komplexen Abfragen und transparenter Dekompression werden auch verschiedene Sprachen unterstützt.

Unterstützte Formate

Nativ unterstützte Dateitypen:

Die folgenden XML-Dateitypen brauchen zusätzlich noch die Programme xsltproc und unzip für komprimierte Dateien.

Für die Unterstützung der folgenden Dateitypen ist jeweils ein bestimmtes Programm von Nöten, damit Recoll diese verwenden kann. Manche Dateien können mit Hilfe von Python-Modulen gelesen werden. Da Ubuntu standardmäßig mit Python ausgeliefert wird, können diese Dateien indexiert werden, ohne das etwas nachinstalliert werden muss.

Titel
Dateien Dateiendung Benötigtes Programm
Portable Document Format .pdf pdftotext aus poppler-utils
Microsoft Word-Dateien .doc antiword & wvWare
Wordperfect-Dateien .wdp wpd2html
Lyx-Datein .lyx Lyx
Powerpoint & Excel .ppt & .xls catdoc
Microsoft HTML-Hilfe-Dateien .chm pychm & chmlib
GNU Info-Dateien - info Befehl
TAR-Archive .tar tar
ZIP-Archive .zip Python
RAR-Archive .rar Python-Modul „rarfile“ & unrar
iCalendar-Dateien .ics Python & icalendar
Mozilla-Kalenderdaten .ics / .sqlite siehe Wiki {en}
postscript-Dateien .ps ghostscript & pstotext
Rich Text File .rtf unrtf
TeX-Dateien .tex untex
DVI-Dateien .dvi dvips
DjVu-Dateien .djvu DjVuLibre
Audio-Metadaten - Python-Modul „mutagen
Metadaten von Bildern - exiftool
Midi Karaoke-Dateien .kar Python-Midi-Module & chardet
Webarchiv-Format .war Python-Modul „tarfile
MHTML Archiv-Dateien .mht -

Installation

Um Recoll zu verwenden, muss man die folgenden Pakete installieren. Danach kann Recoll die nativ unterstützten Formate sowie XML-Dateien indexieren (wahrscheinlich auch weitere Formate). Wenn man LibreOffice installiert hat, kann Recoll auch die open Document-Formate indexieren.

  • recoll (universe)

  • python (main)

  • xsltproc (main, XML)

  • unzip (main, für komprimierte Dateien und Archive)

Wiki/Vorlagen/Installbutton/button.png mit apturl

Paketliste zum Kopieren:

sudo apt-get install recoll python xsltproc unzip 

sudo aptitude install recoll python xsltproc unzip 

Unterstützung für weitere Datenformate nachinstallieren

Die folgende Auflistung listet die Programme, die zum Indexieren von häufig verwendeten Dateiformaten benötigt werden.

  • poppler-utils (main, Portable Document File)

  • antiword (universe, MS Word)

  • wv (universe, für besonders hartnäckige MS Word-Dokumente)

  • libwpd-tools (universe, Wordperfect)

  • catdoc (universe, Excel- und Powerpoint)

  • chmlib (?, CHM)

  • info (main, GNU Info)

  • tar (main, Tape Archiver-Archive)

  • librdf-icalendar-perl (universe, iCal)

  • unrtf (universe, Rich Text File)

  • untex (univerte, TeX)

  • dvips (?, DVI)

  • libimage-exiftool-perl (universe, Metadaten von Bildern)

  • python-chardet (main, MIDI)

  • python-midiutil (universe, MIDI)

Wiki/Vorlagen/Installbutton/button.png mit apturl

Paketliste zum Kopieren:

sudo apt-get install poppler-utils antiword wv libwpd-tools catdoc chmlib info tar librdf-icalendar-perl unrtf untex dvips libimage-exiftool-perl python-chardet python-midiutil 

sudo aptitude install poppler-utils antiword wv libwpd-tools catdoc chmlib info tar librdf-icalendar-perl unrtf untex dvips libimage-exiftool-perl python-chardet python-midiutil 

Startverzeichnis für die Indizierung ändern

Das Programm kann als recoll gestartet werden [2]. Wer nicht möchte, dass Recoll sämtliche Dateien im Homeverzeichnis, einschließlich Konfigurationsdateien und versteckten Dateien, indiziert und auswertet, sollte die Indizierung auf die benötigten Verzeichnisse einschränken. Wer also lediglich seine Dokumente (z.B. unter ~/Dokumente) indizieren lassen möchte, sollte in Recoll unter dem Menüpunkt "Voreinstellungen → Indizierungskonfiguration → Globalen Paramatern" als Startverzeichnis nur den entsprechenden Pfad eintragen. Nach einem Aktualisieren des Indexes über "Datei → Update Index" durchsucht Recoll nur noch dieses Verzeichnis (und seine Unterverzeichnisse).

Darstellung des Suchergebnisses anpassen

Recoll bietet eine Funktion, mit der man über HTML die Darstellung der Ausgabe ändern kann. Ein Beispiel {en} ist dazu auf der Projektseite zu finden.

Möchte man die Darstellung anpassen muss man den Formatstring für Ergebnisse ändern. Dazu öffnet man den Einstellungsdialog über "Voreinstellungen → Benutzeroberfläche → Formatstring für Ergebnisse".

Problembehebungen

Tar-Archive werden nicht indexiert

Da man selten nach Daten sucht, die in einem Tar-Archiv liegen, ist die Indexierung dieser standardmäßig deaktiviert. Möchte man, dass Tar-Archive indexiert werden, dann muss man dies explizit über die Datei ~/.recoll/mimeconf erledigen. Dort fügt man das folgende ein.

    [index]
    application/x-tar = execm rcltar

Nicht westeuropäische Zeichen in rtf-Dateien

Das Programm unrtf kann bis zur Version 0.21 nicht mit Zeichensätzen umgehen, die nicht westeuropäisch sind.

Benötigt man jedoch RTF-Dateien, die etwa in russisch oder chinesisch verfasst sind, dann kann man auf der Projektwebseite von Recoll eine modifizierte Version als unrtf-0.22.2beta.tar.gz {dl} herunterladen.

Die weitere Entwicklung dieser unrtf-Version findet auf Bitbucket {en} statt.

ubuntuusers.local › WikiRecoll