Användare:LA2

Från Wikisource, det fria biblioteket.

LA2 är användarnamnet för Lars Aronsson, Sverige. Se w:Användare:LA2.

Dagbok[redigera]

21 maj 2023: Jag lägger in Om statistik av Hans Järta.

24 oktober 2020: Jag lägger in Om ett vidsträcktare användande av telegrafer av Georg Scheutz.

11 juni 2020: Jag lägger in Sverige: Historia (Nordisk familjebok) som är en 30 spalter lång (100 kilobyte) artikel ur Nordisk familjebok.

16 september 2019: Jag återfaller i korrekturläsning av officiella tidningar, den här gången Index:Finlands Allmänna Tidning 1878-03-08.pdf, som berör Rysk-turkiska kriget. Men min lust falnar efter en vecka, när det visar sig att PDF-filerna nog aldrig kommer att kunna visa bilderna. Se felrapporterna T25326 och T151202 i Phabricator. Problemet blir dock löst i maj 2020.

18 augusti 2019: På Wikimania i Stockholm talades om erfarenheter från Wikisource, se anteckningar på Etherpad.

  • Bengali (bn.wikisource) startade 2015 när man fick fungerade OCR, bland annat via Google och Tesseract (men inte Finereader), finns numera med i ProofreadPage-statistiken (har 700.000 importerade sidor, varav lite är korrat). Tillämpar /wscontest/ som är en tävling i Wikisource.
  • Polska Wikisource har korrekturläsning i 3 (inte 2) steg. Sidan blir röd (som hos oss betyder rå OCR) först när den är genomläst och formatterad av en person (dessförinnan är sidan blå: problematisk). Men ProofreadPage extension upptäcker inte om samma användare ändrar från röd till gul, så för att förhindra detta används Javascript och mekanismer för abusefilter. Man kräver inte att sidhuvud och sidfot ska tas med. En mall:tns (enbart på sidan) används för material som enbart syns i sidvisningsläge, inte i den färdiga e-texten. För att förenkla skapandet av index-sidan (om man har lagt in "index-duplicator" i sin personliga CSS-sida), kan man kopiera fältens initiala värden från en befintlig index-sida. Efter 100 redigeringar får man automatiskt rättigheter som "editor". Det finns en fullständig lista över ännu inte färdigkorrigerade böcker (med korrstaplar), så att nybörjare hittar något att börja jobba med. Det finns en gräns i Mediawiki för 2 MB i transclusion (hantering av mallar i Mediawiki), vilket man försöker gå runt genom substitutioner och kan då nå upp till 3,5 MB, men även detta är för lågt för några verk, eller mall:iwtrans som gör jobbet på browser-sidan och då kan man komma upp till 17 MB. Kanske kan "collection extension" kan lösa detta? En separat namnrymd "Kolekcja" (samling) används, t.ex. för en samling av engelsk litteratur (i polsk översättning). Uppmärkning av sektioner används inte för lexikon, eftersom det blir för mycket uppmärkning i förhållande till mängden text. Men ändå (?) kan man automatiskt skapa undersidor för varje uppslagsord (?). En gadget (installerad i pl.wikisource och multilingual wikisource) laddar automatiskt ner nästa sida (next page) i förväg.
  • Ingen på mötet känner något bokscannande projekt som är intresserad av feedback på OCR. Alla verkar köra OCR-tolkning en gång och sedan glömma bort den som något avslutat och färdigt (OCR and forget).

27 november 2017: Jag funderar på nytt på dagstidningar. Det har gått mer än 7 år sedan jag satte upp sidan Post- och Inrikes Tidningar med länkar till dagsnumren i form av en månadskalender. Idag finns många fler dagstidningar digitaliserade på sajten http://tidningar.kb.se/ De första numren av Dagens Nyheter finns på:

  • 1. Månd. 2 jan. 1865 Anmälan, Minneslista, Det gamla och det nya året, Nyheter från Stockholm, Jean Vaubaron - roman af Xavier de Montépin, Nyårsbalen, Kongl. Maj:ts nådiga Instruktion för Polis-intendenten i Stockholm, Jernvägsolyckan vid Sandsjö, Nyheter från Stockholms län - Gott Nytt År! (dikt), Nyheter från landsorten, Ditt och datt, Hvarjehanda nyheter, Annonser
    "Året 1864 har befästat det ryska väldet över öfver Polen" ... "Ryssland har sett allt fler menskliga rättigheter lemnas åt dess frigjorda trälar"
  • 2. Tisd. 3 jan. 1865 Anmälan, Minneslista, Nyheter från Stockholm, Jean Vaubaron (följetong), Jernvägsolyckan vid Sandsjö, Till året 1865, Rättegångs- och Polisnyheter, Nyheter från landsorten, Utrikes Nyheter, Telegrafnyheter, Foglarne på Island, , Hvarjehanda nyheter, Annonser
    "Qvinliga telegrafister skola på försök antagas för tre år i Finland. De skola vid inträdet aflägga vanlig tjensteed, men deras aflöning får ej öfverstiga 300 rubel årligen."
  • 3. Onsd. 4 jan. 1865 ...

22 februari 2012: LA2-bot (pywikipedia djvutext.py) skapar 5000 röda sidor för verk som jag tidigare påbörjat, och där all OCR-text inte hade blivit inlagd.

20 maj 2011: Jag försöker samla erfarenheter av vad som fungerar och inte fungerar i Wikisource.

  • Det är ett stort och klumpigt steg att hoppa från en sida till nästa. Man borde kunna skrolla mjukt som i Google Books (eller Google Maps).
  • Att skilja transkluderad text (kapitel) från korrekturlästa sidor (Sida-namnrymden) är ett misstag.
    • Det måste gå att entydigt länka till ett ställe i texten, oavsett om detta är början av ett kapitel, en underrubrik inom ett kapitel eller en fysisk sida.
    • Det måste vara lätt att exportera text, ett helt kapitel i taget, men i Wikisource kan man bara redigera texten i Sida-namnrymden.
  • Slutsatsen av ovanstående är att varje bokvolym bör ha en sida, varunder kapitel och boksidor bara är positioner i en ström. Om användaren ser de scannade boksidorna eller den korrekturlästa texten (eller den råa OCR-texten) är olika aspekter (show/hide/view source), men inte olika sidor eller namnrymder med olika URL.
  • Den korrekturlästa texten bör stoppas tillbaka in i Djvu-filen.

9 maj 2011: Lite layout-lek med utseende av almanack.

januari 1836
Mån 2 hej
hoj
Tis 3
Sön 14

April-maj 2011: Jag arbetar med Carl Gustaf af Leopolds samlade skrifter (6 band, början av 1800-talet) och Svenska Akademiens handlingar (scannade av Google), Fryxells Berättelser ur svenska historien (mest en kartläggning av vad som har scannats) och några mindre verk om järn, ångmaskiner och kanaler. Fortsätter arbetet med den tidigare påbörjade Svenska teatern.

Maj-augusti 2010: Jag är rätt aktiv i Wikisource, bland annat med Nansens Eskimålif, Berzelius brev, Svenska industriens män, Östgötars minne och Nils Personnes Svenska teatern.

7 maj 2010: Har korrekturläst Post- och Inrikes Tidningar från slutet av 1835 (då frakturstilen övergavs) till den 9 januari 1836. Eftersläpning: 174 år, 3 månader och 29 dagar.

April 2010: Jag väcker en diskussion på Mötesplatsen om stöd för moderinsering av gammalstafning, med hänvisning till franska Wikisource. Intresset är ljumt och inget blir implementerat. Senare (2011-2013) utvecklar ryska Wikisource en gadget för modernisering av rysk gammalstafning (före 1917).

Korrekturläsningsstatistik

April 2010: Jag börjar lägga in Post- och Inrikes Tidningar och svenska patent. Summering på engelska. De signalfärger som används i korrekturläsningen är följande. Vi tjänar på att använda samma färger i diagram.

class=quality0 dddddd Grå för sidor som saknar text
class=quality1 ffa0a0 Röd för sidor med rå OCR-text
class=quality2 b0b0ff Blå för sidor som är ofullständigt korrekturlästa
class=quality3 ffe867 Gul för sidor som är korrekturlästa av en person
class=quality4 90ff90 Grön för sidor som har validerats av ytterligare en person

24 mars 2009: När jag för hand skrev in texten till Sida:Maskinernas sociala betydelse 5.jpg, så verkar jag ha gjort de 7394 nedslagen på 27 minuter. Det är i genomsnitt 4,5 nedslag i sekunden eller 273 nedslag per minut. Jag räknar till 1087 ord (förkortningarna t. ex. och d. v. s. räknas som 2 respektive 3 ord) och då blir det 40 ord per minut.

20 mars 2009: Jag digitaliserar två urklippta artiklar ur Teknisk Tidskrift, Maskinernas sociala betydelse (1878) och Kultur och teknik (1885), båda av tyske professorn Franz Reuleaux.