Ubuntu 12.04 „Precise Pangolin“
Ubuntu 11.10 „Oneiric Ocelot“
Ubuntu 10.04 „Lucid Lynx“
Recoll
ist eine schlanke und schnelle Dokumentensuchmaschine, die eine Vielzahl an Formaten unterstützt. Neben der Qt-Oberfläche gibt es auch eine Lens für Unity, KRunner-Integration sowie KIO- und Kommandozeilenunterstützung. Neben komplexen Abfragen und transparenter Dekompression werden auch verschiedene Sprachen unterstützt.
Nativ unterstützte Dateitypen:
Text-Dateien (.txt)
Html-Dateien (.html/.htm)
maildir und mailbox (.mbox) - (z.B. Thunderbird oder Evolution)
gaim und Purple-Logs (z.B. Empathy oder KDE-Telepathy)
Scribus-Dateien (.sla)
Dia-Diagramme (.dia)
Die folgenden XML-Dateitypen brauchen zusätzlich noch die Programme xsltproc und unzip für komprimierte Dateien.
Abiword-Dateien (.abw)
Fictionbook-Dateien (.fb2)
kWord-Dateien, Calligra/KOffice (.kwd)
Microsoft Office Open XML (.docx) ?
OpenOffice (.odt/.ods/.odc/.odp)
Scalable Vector Graphics (.svg/.svgz)
Gnumeric-Dateien (.gnumeric)
Okular-Kommentar-Dateien
Für die Unterstützung der folgenden Dateitypen ist jeweils ein bestimmtes Programm von Nöten, damit Recoll diese verwenden kann. Manche Dateien können mit Hilfe von Python-Modulen gelesen werden. Da Ubuntu standardmäßig mit Python ausgeliefert wird, können diese Dateien indexiert werden, ohne das etwas nachinstalliert werden muss.
Titel | ||
Dateien | Dateiendung | Benötigtes Programm |
Portable Document Format | pdftotext aus poppler-utils | |
Microsoft Word-Dateien | .doc | antiword & wvWare |
Wordperfect-Dateien | .wdp | wpd2html |
Lyx-Datein | .lyx | Lyx |
Powerpoint & Excel | .ppt & .xls | catdoc |
Microsoft HTML-Hilfe-Dateien | .chm | pychm & chmlib |
GNU Info-Dateien | - | info Befehl |
TAR-Archive | .tar | tar |
ZIP-Archive | .zip | Python |
RAR-Archive | .rar | Python-Modul „rarfile“ & unrar |
iCalendar-Dateien | .ics | Python & icalendar |
Mozilla-Kalenderdaten | .ics / .sqlite | siehe Wiki ![]() |
postscript-Dateien | .ps | ghostscript & pstotext |
Rich Text File | .rtf | unrtf |
TeX-Dateien | .tex | untex |
DVI-Dateien | .dvi | dvips |
DjVu-Dateien | .djvu | DjVuLibre |
Audio-Metadaten | - | Python-Modul „mutagen“ |
Metadaten von Bildern | - | exiftool |
Midi Karaoke-Dateien | .kar | Python-Midi-Module & chardet |
Webarchiv-Format | .war | Python-Modul „tarfile“ |
MHTML Archiv-Dateien | .mht | - |
Um Recoll zu verwenden, muss man die folgenden Pakete installieren. Danach kann Recoll die nativ unterstützten Formate sowie XML-Dateien indexieren (wahrscheinlich auch weitere Formate). Wenn man LibreOffice installiert hat, kann Recoll auch die open Document-Formate indexieren.
recoll (universe)
python (main)
xsltproc (main, XML)
unzip (main, für komprimierte Dateien und Archive)
mit apturl
Paketliste zum Kopieren:
sudo apt-get install recoll python xsltproc unzip
sudo aptitude install recoll python xsltproc unzip
Die folgende Auflistung listet die Programme, die zum Indexieren von häufig verwendeten Dateiformaten benötigt werden.
poppler-utils (main, Portable Document File)
antiword (universe, MS Word)
wv (universe, für besonders hartnäckige MS Word-Dokumente)
libwpd-tools (universe, Wordperfect)
catdoc (universe, Excel- und Powerpoint)
chmlib (?, CHM)
info (main, GNU Info)
tar (main, Tape Archiver-Archive)
librdf-icalendar-perl (universe, iCal)
unrtf (universe, Rich Text File)
untex (univerte, TeX)
dvips (?, DVI)
libimage-exiftool-perl (universe, Metadaten von Bildern)
python-chardet (main, MIDI)
python-midiutil (universe, MIDI)
mit apturl
Paketliste zum Kopieren:
sudo apt-get install poppler-utils antiword wv libwpd-tools catdoc chmlib info tar librdf-icalendar-perl unrtf untex dvips libimage-exiftool-perl python-chardet python-midiutil
sudo aptitude install poppler-utils antiword wv libwpd-tools catdoc chmlib info tar librdf-icalendar-perl unrtf untex dvips libimage-exiftool-perl python-chardet python-midiutil
Das Programm kann als recoll
gestartet werden [2].
Wer nicht möchte, dass Recoll sämtliche Dateien im Homeverzeichnis, einschließlich Konfigurationsdateien und versteckten Dateien, indiziert und auswertet, sollte die Indizierung auf die benötigten Verzeichnisse einschränken. Wer also lediglich seine Dokumente (z.B. unter ~/Dokumente) indizieren lassen möchte, sollte in Recoll unter dem Menüpunkt "Voreinstellungen → Indizierungskonfiguration → Globalen Paramatern" als Startverzeichnis nur den entsprechenden Pfad eintragen. Nach einem Aktualisieren des Indexes über "Datei → Update Index" durchsucht Recoll nur noch dieses Verzeichnis (und seine Unterverzeichnisse).
Recoll bietet eine Funktion, mit der man über HTML die Darstellung der Ausgabe ändern kann. Ein Beispiel ist dazu auf der Projektseite zu finden.
Möchte man die Darstellung anpassen muss man den Formatstring für Ergebnisse ändern. Dazu öffnet man den Einstellungsdialog über "Voreinstellungen → Benutzeroberfläche → Formatstring für Ergebnisse".
Da man selten nach Daten sucht, die in einem Tar-Archiv liegen, ist die Indexierung dieser standardmäßig deaktiviert. Möchte man, dass Tar-Archive indexiert werden, dann muss man dies explizit über die Datei ~/.recoll/mimeconf erledigen. Dort fügt man das folgende ein.
[index] application/x-tar = execm rcltar
Das Programm unrtf kann bis zur Version 0.21 nicht mit Zeichensätzen umgehen, die nicht westeuropäisch sind.
Benötigt man jedoch RTF-Dateien, die etwa in russisch oder chinesisch verfasst sind, dann kann man auf der Projektwebseite von Recoll eine modifizierte Version als unrtf-0.22.2beta.tar.gz herunterladen.
Die weitere Entwicklung dieser unrtf-Version findet auf Bitbucket statt.
Desktop-Suche mit Recoll - heise Open Source, 09/2012
Total Recoll - Desktopsuche der feinen Art - Artikel LinuxUser, 12/2011
Wanted: Desktopsuchmaschine für Linux Ubuntu - Blogbeitrag, 07/2011
Recoll Unity Lens Blogbeitrag, webupd8.org
Desktopsuchmaschinen Übersichtsartikel