Wikisource:Skanna in texter

Logga för Wikisource.

Denna sida beskriver hur du går tillväga för att skanna in eller lägga upp egna, nya texter. För mer information om hur du korrekturläser texter, läs här.

Den här sidan är en guide till hur du kan komma igång med att skanna in böcker för Wikisource, och därefter skapa och korrekturläsa boksidorna. Om du vill komma igång och skanna men saknar utrustning, kan du låna skanner och programvara från Wikimedia Sverige. Mer om hur de skannrar du kan låna från Wikimedia Sverige fungerar kan du läsa här!

För dig som vill komma igång och skanna in och bidra med nya texter på Wikisource försöker vi beskriva så grundligt som möjligt hur du gör här. Den här guiden utgår från två skannrar som du kan låna från Wikimedia Sverige, CZUR Ultra Shine och Fujitsu Scan Snap. Stora delar av processen kan såklart dock också appliceras på en egen skanner du har hemma, i synnerhet om den har inbyggd programvara för att OCR-läsa dina inskannade filer. Mer om det nedan!

Förberedelser

För att komma igång behöver du en bok som du vill skanna och en skanner. Du kan kontakta Wikimedia Sverige för att låna en bokskanner.

Kontrollera att boken är fri

I Sverige gäller upphovsrätten vanligen i 70 år efter upphovspersonens död. Om det finns flera upphovspersoner till ett verk, till exempel flera författare eller en författare och en illustratör, så gäller upphovsrätten i 70 år efter att samtliga upphovspersoner har avlidit. Det är också viktigt att komma ihåg att boken också måste vara upphovsrättsligt fri enligt amerikansk lagstiftning. Det innebär i de flesta fall att boken första gången måste ha varit publicerad innan 1925, om den inte av annat skäl är upphovsrättligt fri (såsom fritt licensierad av författaren).

Kontrollera att boken inte redan är digitaliserad

Det finns ett flertal plattformar som samlar digitaliserade versioner av fria böcker. Undvik dubbelarbete och kontrollera att den bok du hittat inte redan finns uppladdad i en användbar version till!

Om den redan finns uppladdad, och är upphovsrättsligt fri, kan du använda dig av den boken istället. OCR-läsaren i skannern CZUR Ultra Shine, som du kan låna från Wikimedia Sverige, kan du använda på böcker du inte själv har skannat in, och det gäller ju såklart också för OCR-läsaren i Wikisource.

Platser där verk kan finnas digitaliserade och upphovsrättsligt fria:

Wikimedia Commons
Göteborgs Universitetsbibliotek har skannat in ett stort antal upphovsrättsligt fria verk, bland annat många monografier i GUPEA
Projekt Runeberg
Projekt Gutenberg
Google Books

Skanna in boken

Beroende på vilken skanner du använder är processen för att skanna in boken lite olika. I guiden till Wikimedia Sveriges olika skannrar beskrivs respektive process. Se till att de inskannade boksidorna är läsbara redan när du har skannat. Då slipper du merarbete i efterhand.

Vad gäller Wikimedia Sveriges två skannrar:

I CZUR Ultra Shine ingår en programvara för OCR-läsning. Det gör att du kan få OCR-lästa sidor med en gång. I Fujitsu ScanSnap behöver du använda Wikisources inbygda OCR-läsningsverktyg, vilket kan ta extra tid.
Fujitsu ScanSnap skapar automatiskt PDF-filer. Med CZUR Ultra Shine kan du få ut filerna i ett antal olika format, bland annat även JPEG och TIFF. Du kan välja att få en sökbar PDF, som innehåller den OCR-lästa texten, och även att få den separata OCR-lästa texten i ett word-dokument eller i en excelfil. Det finns helt enkelt större möjligheter med CZUR Ultra Shine. Vi rekommenderar dock i CZUR Ultra Shine att du konverterar alla dina inskannade sidor till en sökbar PDF ('searchable PDF').

Hur får man de inskannade sidorna till Wikisource?

DjVu

Wikisourcegemenskapen arbetar ofta med ett filformat som heter DjVu (uttalas “dejavu”). Det är ett filformat som är konstruerat specifikt för att fungera bra med inskannade textfiler. DjVu är också fritt licensierat, vilket såklart stämmer väl överens med Wikimediarörelsens vision. När man väl har kommit igång med DjVu går själva korrekturläsningen på Wikisource snabbt. Det beror på att MediaWiki känner och läser av den sökbara texten i DjVu-filen, och automatiskt lägger in den i ditt redigeringsfönster. Har du en bra OCR-läsare, vilket exempelvis CZUR Ultra Shine har, kommer du alltså få upp en text direkt i redigeringsfönstret som motsvarar det som syns på bilden. Eftersom de andra aktiva på Wikisource ofta arbetar i DjVu kan det också vara lättare att kopiera och ta efter hur andra har gjort.

CZUR Ultra Shine eller Fujitsu ScanSnap kan dock inte själva skapa DJVU-filer, utan vad gäller ScanSnap enbart PDF, och CZUR Ultra Shine PDF, JPEG eller TIFF. Det fungerar också att ladda upp PDF-filer på Wikimedia Commons, och då väljer man den i CZUR den sökbara PDF-filen. PDF-filerna är dock mycket större i filstorlek än DjVu, och av historiska skäl brukar Wikisourcegemenskapen föredra DjVu, inte minst eftersom DjVu också är utvecklat som ett fritt licensierat format. Därför kan det finnas skäl att själv arbeta i DjVu, även om PDF som sagt fungerar lika bra. Du kan läsa mer om för och nackdelar med PDF kontra DjVu här.

Allt i ekvationen med DjVu är smidigt – utom just själva konverteringen från PDF till DjVu. Det finns några program som konverterar PDF till DjVu. Till Ubuntu finns det flera gratisprogram, men eftersom inte CZUR är kompatibelt med Ubuntu tjänar det inte till så mycket att konvertera via Ubuntu. Till MacOS finns programmet PDF to DjVu, som är lättanvänt. Det kostar dock cirka 35 kronor. Om du behöver använda dig av den appen också men inte vill betala själv när du har lånat skannern av oss kan du söka bidrag för att täcka den kostnaden. Det finns också ett antal program som fungerar till Windows, bland annat PDF 2 DJVU. Det är dock lite knöligare att installera, eftersom det kräver en del kodkunskap. Ett tredje alternativ är att använda sig av Internet Archive, som kan skapa DjVu åt dig om du laddar upp din PDF i arkivet. Det finns en bra hjälpsida på engelskspråkiga Wikisource hur det fungerar. Här sammanfattar vi processen hur du går från sökbar PDF till en DjVu-fil via Internet Archive, med stöd i den hjälpsidan:

Gör så här

Skapa en sökbar PDF-fil via CZUR Ultra Shines OCR-programvara.
Skapa ett konto på Internet Archive och logga in.
Tryck på "Upload" högst upp i det högra hörnet.
Se till att sätta rätt språk i metadatan redan nu: annars kommer den OCR-lästa texten att bli av låg kvalitet.
Därefter kommer Internet Archive att börja bearbeta filen. Det kan ta upp till och med några dagar. Fördelen med de andra programmen som nämns ovan är att det ofta går snabbare.
När du har din DjVu-fil, ladda ned den på din dator och överför till Wikimedia Commons.

PDF

Scanna in boksidorna. Spara boksidorna som en PDF (i CZUR Ultra Shines fall en "searchable PDF").
Döp filen till samma som boktiteln, eventuellt med tillägg av t.ex. utgivningsår, till exempel: Anne på Grönkulla 1909.
Ladda upp pdf:en till Wikimedia Commons.

Skapa en Index-sida på Wikisource

Gör så här:

Kopiera den del av url:en som står efter File: på Wikimedia Commons, till exempel: Anne_på_Grönkulla_1909.djvu.
Skapa en Index-sida på Wikisource genom att klistra in det kopierade filnamnet efter https://sv.wikisource.org/wiki/Index:
Du kommer nu till en sida som säger att det inte finns någon text med den titeln på Wikisource. I alternativen som listas, välj att lägga till texten genom att redigera sidan.
Du kommer nu till en sida där du kan lägga till information om boken. Fyll i den information du har och tryck på Publicera sida. Du kan använda Index:Den_namnlösa.djvu exempelvis som mall.

Redigera och korrekturläs texten

CZUR Ultra Shine

Med din PDF eller DjVu från CZUR Ultra Shine kommer du redan att ha en OCR-läst text. Det innebär att du, om du har följt instruktionerna ovan, så fort du publicerar indexsidan, och trycker på de första röda länkarna i sidnumreringen, borde få upp en text att korrekturläsa i redigeringsfönstret, parallellt med den inskannade boksidan. Se till att sidan i redigeringsfönstret motsvarar hur den inskannade boksidan ser ut parallellt, och tryck på spara. Repetera detta för bokens alla sidor!

Fujitsu ScanSnap

Aktivera finessen OCR-tolkning

Det finns finesser som gör det lättare att digitalisera boken om du inte har en OCR-läst text. Den i Wikisource inbyggda OCR-tolkningen kan tolka många tecken fel, särskilt i äldre källor med svårlästa tecken, men det går ofta snabbare att rätta den ocr-tolkade texten än att skriva av hela texten själv.

Gör så här:

Överst på sidan ser du Inställningar i menyn, klicka på den.
Under rubriken Inställningar, i menyn ser du Finesser, klicka på den.
Under rubriken Korrekturläsning finns en rad checkboxar.
När du väljer Finess som i sidnamnrymden ger en extra knapp i verktygsraden som ocr-tolkar sidan i djvu- och pdf-filer får du en OCR-funktion i redigeringsläget.
Det är viktigt att klicka på Spara innan du lämnar sidan.
För att hitta tillbaka till din källa skriver du in titeln i sökrutan.

Lägg in text och korrekturläs alla sidor

Nu återstår att digitalisera texten och korrekturläsa den digitala källan innan den är färdig. Alla sidor ska korrekturläsas av minst två personer. Du kan därför inte på egen hand färdigställa den bok som du har laddat upp. Det krävs att ytterligare användare korrekturläser eller validerar samtliga sidor i den digitala boken. Gul färgmarkering betyder att sidan har korrekturlästs av en användare. Grön färgmarkering betyder att sidan har korrekturlästs av minst två användare och därför är validerad.

Gör så här:

Gå in på en sida.
Rätta korrekturfel.

Sidans status markeras med hjälp av färgkodning.

Du sätter sidans status manuellt innan du sparar sidan:

(Grått) Utan text – sidan saknar text och behöver inte korrekturläsas.
(Rött) Ej korrekturläst – texten består av den råa OCR-texten. Den har har inte korrekturlästs alls.
(Lila) Ofullständigt – sidan är inte helt korrekturläst och/eller att det är något problem som måste diskuteras.
(Gult) Korrekturläst – sidan har korrekturlästs av en användare.
(Grönt) Validerad – sidan har korrekturlästs av flera personer.

Riktlinjer för redigering och korrekturläsning

På sidan Wikisource:Redigering hittar du riktlinjer för hur texten ska digitaliseras, t.ex. hur stavfel, radbrytning och rubriker ska hanteras.
På sidan Wikisource:Korrekturläsning hittar du formateringskoder för att typografera texten – centrering, specialtecken med mera.