Hoppa till innehållet

Ämne på Användardiskussion:Innocent bystander/LT

Anna Bauer (diskussionbidrag)

Tjena Lavallen! Vet du vilka OCR-format (output) som är att föredra vid leverans av en inskannad bok? --Anna Bauer 20 oktober 2010 kl. 18.46 (CEST)

Lavallen (diskussionbidrag)

Mitt svar försvann i en redigeringskonlikt på din disk, men ska försöka återge det.

Jag är inte helt med på vad du frågar efter.

.djvu och .pdf kan innehålla den råtext som vi sedan jobbar med här. Båda duger bra på det viset. .djvu ger kompaktare filer, nackdelen är att jag inte har hittat ngn bra programvara. Jag har programvara för pdf-er, men ingen bra sådan, därför använder jag personligen oftast jpg eller numer också png-filer. De rymmer inget text-lager, men de är enkela för mig som data-amatör att jobba med.

Om du menar att jobba med OCR-programvaran, så får jag hemma ut resultatet i txt-filer, det vi tidigare skulle ha kallat ASCII, även om det numer inkluderar även andra typer.

Anna Bauer (diskussionbidrag)

Jag omformulerar frågan:

Om man har ett större antal böcker som redan på ett professionellt sätt har skannats in och OCR:ats (med ett par procents felaktigheter) hur levereras dessa lämpligen till wikisource? Då tänker jag på vilka format som Wikisource helst arbetar med och vilka eventuella verktyg som idag existerar för uppladdning av en stor volym material till Wikisource.

Av vad jag har förstått av tidigare diskussion på Wikisource:Mötesplatsen/Arkiv_2010#FAQ så är det kanske att föredra att ladda upp både det inskannade materialet och det OCR-tolkade materialet så att man kan spåra ursprunget (då materialet annars inte är lättillgängligt) och korrigera de små felaktigheter som ändå finns i det OCR-tolkade materialet (genom att jämföra det inskannade materialet med det OCR-tolkade).

Jag gissar (som nybörjare på detta och med ledning av ditt tidigare svar) att:

  • inskannade sidor lämpligen levereras som DjVu eller PDF?
  • de OCR-ade sidorna lämpligen levereras som .odt eller .rtf (två format för text)?
Lavallen (diskussionbidrag)

Det är hos Commons: man normalt laddar upp de filer som vi använder. Det finns en kategori särskilt för sådana filer.

Både .pdf och .djvu innehåller ofta ett textlager, texten finns då ofta inne i filen. Det poppar upp automatiskt när man skapar sidan. Se här tex.

Om din text inte finns inne i pdf/djvu-filen och du inte kan stoppa in den där själv, så kan du antingen skicka textfilen till någon kunnig (tex User:Simsalabim) som kan stoppa in texten i djvu/pdf-filen åt dig. Eller så kan du skicka den till mig, (säg till så skickar jag dig min epostadress) så tar jag innehållet i filen och lägger den direkt i Sida:-namnrymden. Jag har ett botkonto för det (så även Simsalabim), så slipper man översvämma Special:Senaste ändringar.

Texter som vi använder här har ofta förlorat sin upphovsrätt, och ingen korrläsning ger ny upphovsrätt, så det är inte supernoga (som jag ser det) med att hålla reda på vem som gjort exakt vad. (Till skillnad från Wikipedia.)

Anna Bauer (diskussionbidrag)

Ifall det gäller inskannade texter på flera olika språk så hittar jag då antagligen alla lämpliga kategorier under http://commons.wikimedia.org/wiki/Category:Scanned_texts. Jag antar att då alla inskannade texter är uppladdade och jag har annonserat om detta på lämpligt ställe (http://wikisource.org/wiki/Wikisource:News) så kan man räkna med att alla Wikisource-projekten är tillräckligt informerade för att (om man väljer så) kunna börja jobba med filerna och lyfta in dem till respektive Wikisource-projekt.

Apropå din kommentar: "Texter som vi använder här har ofta förlorat sin upphovsrätt, och ingen korrläsning ger ny upphovsrätt, så det är inte supernoga (som jag ser det) med att hålla reda på vem som gjort exakt vad. (Till skillnad från Wikipedia.)" Nej, det håller jag med om. Hur så? Tänkte du på min kommentar om att kunna "spåra ursprunget" så menar jag att det är viktigt att kunna avgöra om texten som levereras är autentisk och inte påhittad. Det verkar mindre sannolikt att texten är påhittad om det existerar inskannade bilder av sidorna och inte bara den OCR-tolkade texten. Äldre texter från rara böcker är sällan lätta att källkontrollera av nätgemenskapen eftersom man då måste ta sig till ett visst bibliotek och begära ut den bok man vill kolla från bibliotekets förråd. Dessutom behövs inskannade bilder av texten för att korrigera de misstag som kommer att finnas efter OCR-tolkningen.

Tack för att du tar dig tid och svara på mina frågor!

Lavallen (diskussionbidrag)

Ok, då är vi med varandra!

"Rara böcker" skriver du. - Är det texterna från Umeå universitetsbibliotek du syftar på? Har de nu släppt dessa scanningar under helt fri licens?

Senast jag kollade så var policyn "icke-komersiellt bruk".

Appropå att annonsera så fler projekt ser, så finns det någon mejlinglista. Hör med LA2 om den. Jag är medlem, men tappade kontakten efter att jag nu bytt mejladress efter ett ISP-byte.

Anna Bauer (diskussionbidrag)

Inte under fri licens än, men det kanske är på gång ...