djvuocr.py - nytt verktyg för OCR av Djvu-filer, integration av Tesseract 3.0 i Pywikipedia

Hoppa till: navigering, sök

dcjuocr.py är ett script (eller program) skrivet i python som laddar ner en djvu-fil från commons med pywikipedia. OCRar den med tesseract och lägger till OCRen direkt i djvu:n med hjälp av djvulibre. Sedan laddas djvun upp igen till commons med pywikipedia. Samtliga dessa program är fri mjukvara. Det ser ut att kunna fungera rakt av om man kör Linux. Sist jag tittade på tesseract fanns inte stöd för svenska, men det verkar som om google har skapat sådant stöd. Jag kan dock inte hitta den svenska versionen i mina ubuntu repositories. Om någon känner sig manad vore det intressant att se om tesseract kan användas här.

Wellparp3 september 2011 kl. 21.44

Jag ser nu att debian bara har paketerat tesseract 2.0 Tydligen har 3.0 funnits ganska länge. Vet inte varför den inte ramlat in i debian. Finns dock att ladda ner och själv kompilera på tesseracts hemsida.

Wellparp3 september 2011 kl. 21.51