Indexdiskussion:Amtmannens döttrer.djvu

Sidans innehåll stöds inte på andra språk.
Från Wikisource, det fria biblioteket.
Då författaren avled 1895 och verket publicerades första gången före 1 januari 1929 är verket fritt enligt svensk och amerikansk upphovsrätt.



Bortkastad möda[redigera]

Den här texten, som på grund av sin titel kommer först i listan över ännu ej korrekturlästa sidor, är av rätt dålig OCR-kvalitet. Det verkar som om Nasjonalbiblioteket har kört OCR med norska inställningar på den svenska texten, för nästan varje ä och ö är felaktigt. Det är jobbigt att korrekturläsa. Varför gör vi det här egentligen? Är det någon som vill ha den här romanen? Till vadå? Behövs den som källa i Wikipedia? Är den intressant? Ett litterärt mästerverk? Kan vi nästa gång få meningsfulla texter inlagda, tack, och inte sådant här skräp. --LA2 12 april 2010 kl. 16.35 (CEST)[svara]

Samtliga texter från Nasjonalbiblioteket har det här problemet, ingen ordning på ÅÄÖ någonstans, men ändock bättre än de med frakturstil. Och man lär sig snart ett mönster...
Det är valfritt att korrekturläsa för den som vill. Romaner platsar också på Wikisource, det är inte bara referenslitteratur för Wikipedia. Personligen tar jag den som avkoppling från andra verk. Ännu dock inte sett något stort underhållningssvärde, men det kanske kommer (eller inte). - Lavallen 12 april 2010 kl. 17.51 (CEST)[svara]
Livet är för kort för att acceptera dålig ocr i onödan! Vad sägs om att skapa en ny kategori, typ "index som behöver bättre OCR", och slänga in de norskskannade verken där? Då kan jag titta till den kategorin och, när jag har tid, göra nya ocr-körningar och ladda upp ocr:en med min bot (som jag gör med En naturforskares resa omkring jorden.) -- Simsalabim 12 april 2010 kl. 18.42 (CEST)[svara]
Fast jag undrar om det går att OCR:a dessa blurriga djvu-sidorna. Jag testade en sida (TopOCR), men resultatet blev uselt - klart sämmre än det befintliga. Kanske går det att få lite bättre om man bearbetar bilden i gimp e.d, men då är det antagligen minst lika snargjort att korrläsa befintlig ocr... Ska man scanna om, kanske man hellre borde välja något verk som verkligen intresserar, och inte bara för att det råkade finnas på norska nationalbibliotekets scanningslista. Taxelson 12 april 2010 kl. 19.04 (CEST)[svara]
Hehe, jag märker att ni inte satt er med Fjellstedt. Som jag skrev till Dcastor så har jag nu där valt att strunta i de maskinella OCR'en och kopierar för hand innan jag lägger ut numera. - Ett gott delmål har jag ändå nått... -- Lavallen 12 april 2010 kl. 19.19 (CEST)[svara]
Jo, jag ryggar inför dessa frakturtexter :-) Det lär finnas ett ocr-program ABBYY FineReader XIX som klarar fraktur, men det kostar över fyratusen. -- Simsalabim 12 april 2010 kl. 19.29 (CEST)[svara]
He, he, den budgeten har redan den trasiga diskmaskinen ätit upp! ;) -- Lavallen 12 april 2010 kl. 19.36 (CEST)[svara]
Fast du ska nog använda pdf:erna från nb som källa. Som ett experiment har jag lagt upp 109 med den ocr som jag får. Gå in på historiken och jämför versionerna. -- Simsalabim 12 april 2010 kl. 19.23 (CEST)[svara]
Den blev utan tvekan snygg! -- Lavallen 12 april 2010 kl. 19.24 (CEST)[svara]
Ja, med TopOCR (freeware tror jag) blev det också hyfsat med de bilderna, om än inte lika bra som simsalabims program. Taxelson 12 april 2010 kl. 20.43 (CEST)[svara]

Att anmäla Amtmannen till OCR-kön vore en god idé. Samarbetsprojekt som Wikisource (eller Projekt Runeberg) har den fördelen att någon kan scanna och någon annan kan köra OCR. Om någon vill bli OCR-körare och köpa ett bra program, så kan vi hitta pengar endera hos föreningen Wikimedia Sverige eller hos Projekt Runeberg. Jag har goda erfarenheter av FineReader (Professional Edition) som kostar 139 euro. Vanliga FineReader går att träna upp till att läsa fraktur med rätt gott resultat, så man behöver nog inte den där extradyra specialversionen. --LA2 12 april 2010 kl. 20.21 (CEST)[svara]

Det låter som ett flott erbjudande. Imorgon kväll kan jag testa att ocr:a detta verk (med min finereader, som dock inte klarar att läsa djvu-filer som version 10 kan) och se hur det går. Tyvärr har jag snålt med tid under veckodagarna så jag lär inte kunna beta av kön av verk som behöver ocr i någon rask task. Andra får hemskt gärna rycka in om de känner sig hugade (och kanske anta LA2:s erbjudande). -- Simsalabim 12 april 2010 kl. 22.44 (CEST)[svara]
Puh! Nu har jag laddat upp ny ocr på alla sidor som inte tidigare var korrlästa eller validerade (eller tomma). -- Simsalabim-bot 13 april 2010 kl. 23.01 (CEST)[svara]
Underbart! Nu blev det roligt att korrekturläsa. --LA2 17 april 2010 kl. 07.35 (CEST)[svara]