Hoppa till innehållet

Ämne på Wikisource:Mötesplatsen/Arkiv 2011

Lavallen (diskussionbidrag)

Jag har kört Finereader lite hemma på två varianter av en och samma sida:

En där jag skannat med färg och en utan.

Observerat att jag här inte har tränat programmet på exakt den typ av fraktur som finns i just denna bok, utan den bygger på vad den lärt in i Fjellstedt. Det finns därför stort utrymme för förbättringar.

Men så här långt, vilket ser ut att ge bäst resultat? (Detta är Lisco's bibelkommentar från 1841 av Mattei första rader.)

LA2 (diskussionbidrag)

Jag har svårt att se någon skillnad i kvalitet. Båda körningarna är mycket dåliga, men på lite olika ställen. Jag skulle vänta med att välja färg/svartvitt tills tolkningen har nått högre nivåer.

Jag har själv inte OCR-tolkat i färg, eftersom jag använt äldre versioner av Finereader. Svartvitt är det äldsta mest beprövade. Traditionellt har man scannat i svartvitt i tillräckligt hög upplösning för att få bra resultat. Färgtolkning har tillkommit på senare år, för att dra nytta av färgbilder tagna med kamera, där upplösningen (dots per inch) kanske inte är den bästa. Men du scannar väl själv, så att du kan välja en tillräckligt bra upplösning?

Lavallen (diskussionbidrag)

Ingen jätteskillnad är väl min bedömning också... - Det blir säkert bättre med upplärning. (Men det får vänta till Fjellstedt är klar.)

Min erfarenhet av hög dpi är inte odelat positiv. Programmet har tenderat att vilja OCR-tolka pappersstruktur och damm när jag kommer till högre upplösning.

LA2 (diskussionbidrag)

Vid rent svartvit scanning utan gråskalor (tröskling), får du inga pappersstrukturer, eftersom allt papper ska bli vitt och all trycksvärta svart. Även vid färgscanning, kan du höja kontrasten så att papperet blir nästan helt vitt och bara rundningarna av bokstäverna blir grå.

Lavallen (diskussionbidrag)

Testade svartvit utan gråskala på den aktuella sidan, det funkade inte alls.

Peter Alberti (diskussionbidrag)

Har du lagt billederne op et eller andet sted? Jeg har trænet tesseract til tekst i fraktur og plejer at få bedre resultater, så det kunne måske være interessant at sammenligne. Angående det med papirstrukturen, så har jeg gode erfaringer med at bruge programmet scantailor til at lave farvefotos om til sorthvidbilleder. Den nyeste betaudgave kan endda rette de sider ud der krummer pga. bogryggen, som f.eks. den her, stort set automatisk.

Lavallen (diskussionbidrag)

Nej, jag har inte laddat upp några skanningar för just denna bok (än). I just denna bok är pappret väldigt tunt, och det blir väldigt lätt 'bubblor' (luft mellan pappret och glaset på ytan), vilket gjorde att 'utan gråskala' blev stora svarta fläckar vid vissa av dessa 'bubblor'. Med bättre skanner kanske det blir bättre. Jag siktar på en investering i lite utrustning längre fram...