Gepikte woorden en statistiek

Uit Leapedia
Versie door Koksroommandarijn (Overleg | bijdragen) op 6 jul 2015 om 12:08

(wijz) ← Oudere versie | Huidige versie (wijz) | Nieuwere versie → (wijz)
Ga naar: navigatie, zoeken

Zonder toestemming heb ik alle inzendingen van de A.L. Snijders Zeer Korte Verhalen wedstrijd overgenomen. De totale tekst bestond uit 210.430 woorden, verdeeld over 10059 verhalen. Twee verhalen waren van mij, een paar minuten voor de sluitingstijd stuurde ik ze in, mijn vader belde me namelijk om te zeggen dat ik toch echt moest meedoen. Ik heb er naar geluisterd, maar dat ik er toen naar luisterde betekent verder niet dat ik geen vrije wil heb of zelf beslissingsbevoegdheid over mijn teksten en verdere doen en laten bezit. In hoeverre ik dit als een publicatie kan zien weet ik niet. De teksten zijn gepubliceerd op internet, dat geeft mogelijk een heel groot publiek (maar wie gaat nu echt al die teksten lezen? Liefhebbers misschien). Groter dan de 20 mensen die er gemiddeld naar een performance van mij komen (dat is niet waar). In deze internetpublicatie ben ik een nummer geworden, dat amuseert me. Alhoewel, ik zocht net in de door mij opgeslagen teksten mijn eigen teksten maar ik vond ze niet. Ik heb dat na het inzenden nooit meer bekeken. Misschien is er toch iets verkeerd gegaan met inzenden en was ik toch al te laat.

Basale analyse 210.430 woorden verdeeld over 1059 verhalen, gemiddeld 198,6 woorden per verhaal. Mijn verhalen hadden gemiddeld 167 woorden, dat is een afwijking van zo’n 16% met de rest van de inzendingen. Voor deze versie kan ik niet meer precies vinden wat het maximale aantal woorden is. Op een pagina met een tekst uit 2011 zag ik 300 woorden staan, dat zou kunnen. Met het gemiddelde aantal woorden van 198,6 zou het maximale aantal woorden in ieder geval geen 200 woorden zijn, daarvoor zullen de verschillen tussen de teksten te groot zijn.

De woorden zijn geteld met een Wordfrequentie-counter, de resultaten heb ik gebundeld in een document. Word telt in mijn document 46712 woorden, ik zou kunnen concluderen dat het 46712 verschillende woorden zijn, maar dit klopt niet. Een slordige berekening van aantal kolommen x aantal regels x aantal pagina’s levert 20 x 65 x19= 24700 op. Ik denk dat Word de getallen als woord heeft geteld, het is daarom waarschijnlijker dat er 46712/2 = 23356 verschillende woorden gebruikt zijn. Het aantal unieke (dus slechts eenmaal voorkomende woorden) is 13322. Word gaf hier weer het dubbele aantal aan, alle woorden werden voorafgegaan door een 1. Door de opdracht ‘zoeken en vervangen’ heb ik dit getal verwijderd en kwam ik op 13322 uit. Wat ik hierboven dacht (dat de getallen als woord waren geteld) lijkt dus te kloppen. Op het totaal van de 210.430 komt 15,8% van de woorden maar één keer voor, dat is inclusief de spelfouten, maar daar hoef ik me niets van aan te trekken. Het aantal unieke woorden in mijn verhalen tellen en dat vergelijken met het hier bovenstaande zou appels met peren vergelijken zijn. Het aantal unieke woorden is namelijk bijna 50%, maar dat hoeft niets te betekenen.

Eigennamen zijn ook als woord opgenomen. Het toeval wil dat zowel Karel als Kees 17 keer voorkomen. Peter 12 keer en Henry maar liefst 20 keer. Verder heb ik dit niet onderzocht, ik zag het tijdens het bladeren. Lea kwam niet voor, Magdalena en Theunissen evenmin. Zo belangrijk is mijn naam dus niet.

Bovenstaande berekeningen kloppen, dus ze zijn waar, wat hun waarheid of hun waar-zijn inhoudt, geen idee. Het levert wel een hoop data op. Zelf zinnen maken hoeft niet eens, we hoeven ons niet langer druk te maken om de inhoud. Stel wat voorwaarden aan de verzameling woorden en je hebt een tekst. Veel plezier alvast (alvast gedraagt zich qua klank als knalgaslamp, maar de losse delen zijn geen zelfstandig naamwoord, terwijl dat wel een voorwaarde is, hoewel ik daar soms ook fouten mee maak).