Rorschachs Tagebuch

Scannen und OCR unter Linux März 4, 2011

Filed under: Uncategorized — Rorschach @ 10:20

Als ich dies das letzte mal vor ein paar Jahren ausprobiert hatte bin ich kläglich gescheitert. gorc war einfach mies und Abby musste her.

Nun die Tage musste ich mal wieder einen etwas längeren Text (ca. 50 Seiten) einscannen und in ein LaTeX-Dokument hieven und habe es mal wieder mit Linux probiert und siehe da, es gibt neue Tools und mit denen funktioniert es wunderbar!

Scannen
Zuerst musste das ganze mal eingescanned werden, was ich mit scanimage gemacht habe. Auflösung von 300dpi sollte ausreichen und Graustufen-Modus:

$ scanimage -d epson2:libusb:001:004 --mode Gray --resolution 300dpi -x 186 -y 250 > 33.pnm

OCR Vorbereitung
Zur Vorbereitung der OCR habe ich Tools von ImageMagick und Scan Tailor benutzt.

Zuerst einmal waren die Seiten verdreht was mit dem Befehl:

$ mogrify -rotate 90 *.pnm

schnell behoben war (Scan Tailor kann das auch aber das hab ich erst danach gemerkt..). Damit ich die Seiten mit Scan Tailor bearbeiten konnte mussten sie ins tif-Format, was dieser Oneliner erledigt (ZSH!!):

$ for i in *.pnm; do convert $i ${i:r}.tif;done

Nun kam Scan Tailor dran. Damit konnte ich problemlos die Seiten richtig ausrichten, unnötiges an den Rändern wegschneiden, Kontrast verbessern, usw.. Wirklich ein Hammertool um Bilder auf OCR vorzubereiten!

OCR
So und hier kam das Tool tesseract zum Einsatz, welches mich gnadenlos überzeugt hat! Die Texterkennung war fantastisch, bei über 99%. Probleme gab es nur an Stellen wo der Text Unterstreichungen hatte, was zum Glück nur sehr selten war ansonsten wäre das Ergebnis sicher schlechter gewesen, denn an diesen Stellen hat sich tesseract die Zähne ausgebissen.

Das Konvertieren hat auch hier wieder ein ZSH-Oneliner erledigt:

$ for i in *.tif;do tesseract $i ${i:r} -l deu;done

Hier sollte man aufpassen, dass man als Input die von Scan Tailor verbesserten *.tif Dateien nimmt und nicht die anfänglich erzeugten ;)

So der Durchlauf von tesseract dauert ein bischen und wenn er fertig ist, dann kann man das alles in ein Dokument zusammenbasteln:

$ cat *.txt > dokument.txt

und ist fast fertig!

LaTeX

Man hat jetzt nämlich immernoch das Seitenlayout des gescannten Dokumentes, also die Zeilen sind so lange wie in dem ursprünglichen Dokument und natürlich sind die Wörter auch so getrennt.. Das ist natürlich uncool wenn man das ganze in ein LaTeX-Dokument verwandeln will. Um das zu beheben habe ich ein kleines Skript geschrieben. Das setzt Absätze im LaTeX-Dokument, wo im Originaldokument welche sind und löst das Problem mit den Zeilenenden.

Danach einbischen Nachbearbeitung mit TeXMaker und das wars.

 

myspace Lieder mit Bash-Skript herunterladen

Filed under: Linux,OpenSource,Softwarevorstellung — Rorschach @ 09:17

Hey,
ich wollte euch auf dieses coole Skipt vom 360 percents Blog aufmerksam machen mit dem man myspace Lieder runterladen und nach mp3 konvertieren kann.

Als Abhängigkeiten benötigt es rtmpdump zum Herunterladen und ffmpeg zum Konvertieren.

 

Von Bazaar zu Git migrieren März 31, 2010

Filed under: Linux,OpenSource — Rorschach @ 17:48
Tags: , , ,

Ich habe gerade ein Projekt von mir von Bazaar zu Git konvertiert. Das funktioniert super einfach und schnell, wenn man das BzrFastImport-Plugin installiert, denn dies besitzt auch eine fastexport Option.

Um das Plugin zu installieren geht man so vor:



$ mkdir -p $HOME/.bazaar/plugins
$ cd $HOME/.bazaar/plugins
$ bzr branch lp:bzr-fastimport fastimport



und das war es auch schon. Jetzt erstellt man irgendwo einen neuen Ordner für Git und erstellt dort ein neues Git-Repository:



$ mkdir $HOME/meinprojekt_git
$ cd $HOME/meinprojekt_git
$ git init



Jetzt kann man mit folgendem Befehl sein Bazaar-Repository nach Git migrieren:



$ bzr fast-export –plain ~/Pfad/zum/Bazaar/Branch | git fast-import



Zu guter letzt checked man das Git-Projekt noch einmal aus:



$ git checkout



und ist fertig.

Und eines muss ich gleich sagen, ich bin froh wieder mit Git zu arbeiten. Die Geschwindigkeit von Git (1.7.0.3) im Vergleich zu Bazaar (2.1.0) ist einfach ein Traum. Es macht einfach mehr Spass mit Git als mit dem trägen Bazaar.

 

Multiboot-CDs mit multicd.sh erstellen März 12, 2010

Filed under: Linux,OpenSource,Softwarevorstellung — Rorschach @ 15:57
Tags: , , ,

Ich will euch hier mal kurz multicd.sh vorstellen. Dies ist ein Bash-Skript, welches unterschiedliche Live-CDs mit Hilfe von Plugins und isolinux zu einer CD zusammen baut. Es erstellt also eine Multiboot-CD .

Rescue-CD Screenshot
Welche Distributionen im Moment von multicd.sh unterstützt werden kann man auf der Webseite nachlesen.

Installation

Die Installation ist ziemlich einfach. Man lädt sich einfach das Skript herunter und legt es an einen Ort seiner Wahl, zum Beispiel /opt/multicd, wo man es dann entpackt:

$ tar zxvf multicd-5.2-nosyslinuxincluded.tar.gz

Zusätzlich muss man entweder genisoimage oder mkisofs installiert haben. isolinux (und Memtest86+) lädt das Skript automatisch aus dem Internet herunter bzw. kann man auf der Webseite auch direkt eine Version mit isolinux zusammen herunterladen.

Archlinux Nutzer können alternativ auch das Paket aus dem AUR installieren: klick .

Benutzung

Man lädt sich jetzt einfach die Isos der Distributionen, die man zusammenbacken möchte, in den Ordner in dem auch das Skript liegt herunter und benennt die Isos so um, wie auf der Webseite genannt. Hat man dies getan muss man einfach nur das Skript mit Root-Rechten ausführen:

$ sudo ./multicd.sh

und der Rest funktioniert von alleine.

Kommandozeilen-Optionen

Auch wenn nicht dokumentiert, besitzt multicd.sh ein paar Kommandozeilen-Optionen die man anhängen kann:

--m Memtest86+ wird nicht automatisch hinzugefügt.
--v Aktiviert den Verbose-Modus.
--modules Startet einen Dialog in der Konsole mit einer Auswahl für einzelne Slax-Module (Macht natürlich nur Sinn, wenn man Slax mit einbindet). Die Anwendung dialog muss dazu installiert sein.
--md5 multicd erstellt eine Liste mit Checksummen der einzelnen Dateien, der Iso die es erstellt.


Reihenfolge der Einträge im Bootmenü ändern

Um die Reihenfolge der Einträge der einzelnen Distributionen im Boot-Menü zu ändern muss man die Plugins im plugins Ordner nennen. In der Reihenfolge, in welcher die Skripte gefunden werden, werden auch die Einträge gemacht. Will man also eine CD mit DSL und Archlinux erstellen und haben, dass die DSL Einträge vor den Archlinux einträgen erscheinen, nennt man die Plugins zum Beispiel so um:

$ cd /opt/multicd/plugins
$ mv dsl.sh 01-dsl.sh
$ mv arch.sh 02-arch.sh


Bootmenü Überschrift ändern

Das Bootmenü der erstellten CD hat automatisch die Überschrift “Welcome to GNU/Linux!“. Will man dies ändern, muss man einfach nur das Skript mit einem Texteditor seiner Wahl öffnen und die Zeile:

menu title Welcome to GNU/Linux!

nach seinem gefallen ändern, zum Beispiel:

menu title Rescue-CD


eigene Plugins entwickeln

Ein eigenes Plugin zu entwickeln ist ziemlich einfach, da sie ebenfalls nur Shell-Skripte sind. Ich hab mir auch direkt eines für Finnix gemacht gehabt, welches wunderbar funktioniert (Download: finnix.sh). Am besten schaut man sich dazu einfach die vorhandenen Plugins an und liest sich den How it works Artikel auf der Webseite von multicd.sh durch.

Achja auf meiner Rescue-CD die ich mit multicd.sh erstellt habe und die man auf dem Screenshot oben sieht befinden sich übrigens: Finnix, Damn Small Linux, Ultimate Boot CD, GParted Live, Parted Magic, Balder(FreeDos) und Memtest86+.

 

Syntax-Highlighting für less… März 10, 2010

Filed under: Linux,OpenSource — Rorschach @ 13:57
Tags: , ,

…wäre ein sehr nützliches Feature doch leider kann less dies nicht, genausowenig wir irgendein anderer mir bekannter Pager (more, most,…).

Aber es gibt ein cooles Makro für vim welches less mit Syntax-Highlighting nachbaut. Mit diesem Makro verhält sich vim zu 99% genauso wie less, nur dass man noch Syntax-Highlighting dazu hat. Bei mir liegt das Makro-Skript in /usr/share/vim/vim72/macros/less.sh, ansonsten könnt ihr es mit:

$ locate "macros/less.sh"

bei euch sicherlich finden, wenn ihr vim installiert habt.

Das Skript ruft ihr genauso auf wie less, also

/usr/share/vim/vim72/macros/less.sh DATEINAME

Durch drücken von h, könnt ihr euch dann wie in less gewohnt eine kleine Hilfe anzeigen lassen, doch die Tastenbelegung ist eigentlich genau die gleiche wie in less. Zu dem Makro an sich gibt es in vim mit

:help less

eine Erklärung. Wenn ihr dieses Makro dann anstelle von less nutzen wollt solltet ihr euch einfach ein alias in eurer .bashrc (oder .zshrc oder …) anlegen:

alias less ="/usr/share/vim/vim72/macros/less.sh"

Und schon habt ihr Syntax-Highlighting für less :)

 

Die besten Gnome-Themes März 7, 2010

Filed under: Archlinux,Gnome,Linux,OpenSource,Ubuntu — Rorschach @ 14:31
Tags: , , , , ,

In den letzten Tagen gab es, für mich unverständlicher Weise, einiges an Aufregung um die neuen Ubuntu-Themes. Ich werde das ganze hier garnicht erst kommentieren sondern möchte die ganzen Kritiker (aber natürlich auch die, die die neuen Themes gut finden) dazu anregen, dass wir mal eine Liste der besten Gnome-Themes erstellen.

Natürlich ist das Aussehen und dessen Gefallen rein subjektives Empfinden und doch finde ich, kann man ein gutes Gnome-Theme an zwei Punkten erkennen:

    1. Es ist in sich stimmig
    2. Es ist einfach für den User zu installieren, also ein all-in-one-Paket und nicht: “nimm dieses Icon-Theme da und jene Fensterdeko, und dieses GTK-Theme…”

Wer sich beteiligen will kann dies entweder in seinem eigenen Blog tun (bitte einen Trackback an mich schicken) oder über die Kommentarfunktion in diesem Artikel.

Ich mache mal den Anfang und will euch hier auf das Bisigi Project hinweisen. Das Projekt gibt es schon etwas länger und hat sich auf die Fahnen geschrieben attraktive Gnome-Themes herzustellen. Dabei bietet das Projekt eine Fremdquelle an, aus welcher die Themes einzeln bequem installiert werden können. Ausserdem stehen die Themes auch für Archlinux (im AUR) und für Frugalware bereit. Aber natürlich können sie auch als normale Gnome-Theme-Dateien im tar.gz Format heruntergeladen werden und mit anderen Distributionen genutzt werden.

So und jetzt kommen die momentan 13 Themes die das Projekt bisher erstellt hat:

Ich verwende seit einiger Zeit drei dieser Themes: an meinem Laptop zuhause Exotic, an meinem eeepc Bamboo Zen und auf der Arbeit aquadreams und bin mehr als zufrieden mit dem Aussehen.

 

Linux ist Punk! März 5, 2010

Filed under: Linux,OpenSource — Rorschach @ 21:42
Tags: ,

Naja zumindest sehr nahe an DIY ;)

Ich war letzte Woche auf einem Oi Polloi Konzert gewesen und nach einer halben Stunde kam vom Sänger plötzlich: “Wer nutzt hier freie Software?” Und zag gingen die Fäuste von 99% des Publikums in die Luft. Dann: “Wer nutzt hier Linux?” und immernoch sind zahlreiche Fäuste oben.

Und dann kam es: Oi Polloi haben einen Song mit dem Namen L I N U X gespielt (natürlich nicht ohne vorher noch über M$ her zu ziehen). Wer Oi Polloi nicht kennt, es handelt sich dabei um DIE Anarcho-Punkband schlechthin! Das Lied war der Hammer und das Publikum ging ab.

Leider ist das Lied nicht auf ihrer neuen Platte SS Politician und auch sonst konnte ich es nirgendwo finden, sonst hätte ich euch ne Hörprobe gegeben.

Aber auf jeden Fall, ein Grund mehr Oi Polloi cool zu finden!

 

 
Folgen

Erhalte jeden neuen Beitrag in deinen Posteingang.