djvuocr.py - nytt verktyg för OCR av Djvu-filer, integration av Tesseract 3.0 i Pywikipedia
Utseende
Fragment av en diskussion från Wikisource:Mötesplatsen/Arkiv 2011
dcjuocr.py är ett script (eller program) skrivet i python som laddar ner en djvu-fil från commons med pywikipedia. OCRar den med tesseract och lägger till OCRen direkt i djvu:n med hjälp av djvulibre. Sedan laddas djvun upp igen till commons med pywikipedia. Samtliga dessa program är fri mjukvara. Det ser ut att kunna fungera rakt av om man kör Linux. Sist jag tittade på tesseract fanns inte stöd för svenska, men det verkar som om google har skapat sådant stöd. Jag kan dock inte hitta den svenska versionen i mina ubuntu repositories. Om någon känner sig manad vore det intressant att se om tesseract kan användas här.