- Hydepark: Średnia długość słowa

Hydepark:

inne

Średnia długość słowa

Ostatnio zwrócił moją uwagę pewien, myślę, dość ciekawy temat. Może jestem dziwny i mam schizofrenię, ale zacząłem sprawdzać w czytanych tekstach średnią długość słowa. Mam na myśli tylko beletrystykę w języku polskim. Pozwoliłem sobie wyciągnąć kilka ogólnych wniosków:

 

– Średnia długość słowa waha się zwykle od 5,4 do 6,1 liter

 

– Im wyższa ta wartość, tym bogatszy jest styl i leksyka tekstu

 

– Wraz ze zwiększaniem udziału dialogów w tekście, średnia długość słowa maleje

 

Nie prowadziłem jakichś szczegółowych analiz na korpusach języka polskiego, itp. bo się na tym zwyczajnie nie znam. Są to tylko luźne dywagacje, pewnie dla niektórych oczywiste, albo absurdalne, ale chciałem się nimi podzielić i, być może, dać początek jakiejś dyskusji. Czy są na sali lingwiści?

 

Komentarze

obserwuj

Hmm. A jak to policzyć? :-)

Prosiaczku, w wordzie klikasz na dole, masz tam znaki bez spacji i wyrazy. Dzielisz liczbę znaków przez liczbę wyrazów i gotowe.

Jak patrzyłem na moje teksty, to wychodziło 5,6-5,7. Ale nie do końca temu ufam. Jest na przykład kwestia imion bohaterów, nazw wymyślonych przez autora itp. Jeśli będą krótkie, to wpłynie na współczynnik, a nijak to się ma do warsztatu autora.

Dokładnie. Co prawda przez znaki inne niż litery wynik jest trochę zakłamany, ale niewiele. A jeśli tylko porównujemy jeden tekst do drugiego, to można w ogóle pominąć.

Założyłem, że takie rzeczy jak nazwy własne mają mały udział, aby znacząco wpłynąć na wynik (szczególnie przy dłuższych tekstach), ale może zbyt pochopnie.

Nie wydaje mi się, by w beletrystyce długość słowa znaczyła o bogatszej zawartości tekstu. Z pewnością wpływa na jego stopień trudności, na bogactwo też, ale zależy jaki mamy target, raczej nie są to naukowcy, a przeważnie słowa mające więcej niż cztery sylaby uważane są za trudne, więc mogą okazać się dla niektórych niezrozumiałe (Nie wchodźmy już w wyjątki oraz stopień inteligencji ;))

 

Stopień trudności tekstu można łatwo sprawdzić. Wystarczy zastosować Readability Formula. O ile dobrze pamiętam, pomijając wszelkie szczegóły, chodzi o to, by wziąć ze środka wycinek tekstu o długości 100 wyrazów, ustalić liczbę zdań w tym odcinku. Potem liczbę wyrazów w odcinku (100) dzielimy przez liczbę zdań i wychodzi nam przeciętna długość zdania. Następnie  zliczamy w tym stu słownym odcinku wyrazy trudne, o których wspomniałam wyżej. Powtarzamy cała procedurę trzy razy z każdego tekstu i wyliczamy sobie średnią, którą przyrównujemy do specjalnej podziałki, ale już nie pamiętam jej wartości ;) 

W każdym razie jest to analiza zawartości tekstu i określenia stopnia trudności danego fragmentu. Nie wiem, jak się to robi na całości tekstu.

Nie ma ich tutaj, albo boją się ujawnić, bo to wstyd dla tak mądrych fachowców zdradzać się ze zainteresowaniem bzdurami zwanymi fantastyką.  :-)

Korelacja między stylem i leksyką a średnią długością słowa jest oczywista. Jakim podstawowym zasobem słów i jakich słów dysponuje się na początku? Ograniczonym do prostych, a proste najczęściej są krótkie. Komu to “zostaje” na dłużej i na później, kto kieruje się swoiście rozumiana ekonomią tekstu, ten nie napisze, że sad pogrążył się w nieprzeniknionych ciemnościach, bo to takie długie i patetyczne, i rozpoetyzowane (i przy okazji takie trudne do zrozumienia – moja prywatna złośliwość musi znaleźć ujście... – bo aż sześć słów), tylko stwierdzi, bez polotu, że zrobiło się ciemno. Pięćdziesiąt procent oszczędności  :-) .

Co do dialogów – ale już bez przytyków – to sprawa równie prosta. Zależy, kto z kim i na jaki temat rozmawia. Odpowiedź na pytanie, dlaczego stało się coś nieprzewidzianego, może brzmieć: cóż, kolego magistrze, zawsze musimy liczyć się z możliwością zaistnienia zaskakujących nas nieprzewidywalnością wystąpienia koincydencji, w tym przypadku negatywnie wpływających na realizacje naszego planu – ale bądźmy poważni, nie róbmy z ludzi nadętych bubków i pozwólmy im rozmawiać “normalnie”. Przypadek, kolego, niestety... – do tego bezradne rozłożenie rąk i załatwione. Wyjątek: temat albo charakter postaci / samego tekstu wymaga skomplikowanych wypowiedzi.

6,98

Gdybym miała wąsy, to bym była dziadkiem, a tak jestem sygnaturką!

o.O Bez spacji? To pewnie SF?

Owszem.

Gdybym miała wąsy, to bym była dziadkiem, a tak jestem sygnaturką!

Sprawdziłem średnią długość słowa w swoim jedynym na tyle długim (60k znaków) tekście, w którym będzie to reprezentatywne. Wyszło 6,71. Nie wydaje mi się, żeby długość słów świadczyła o bogactwie słownictwa, wręcz bardzo bym się tej tezie sprzeciwiał. Prawdę mówiąc uznaję tak wysoki współczynnik za swoją porażkę.

Administrator portalu Nowej Fantastyki. Masz jakieś pytania, uwagi, a może coś nie działa tak, jak powinno? Napisz do mnie! :)

:-)  Stargate prowadzi. Kto następny pochwali się wpływem konstantynopolitańczykowianeczek na współczynnik jakości tekstu?   :-)

Nie wydaje mi się, żeby długość słów świadczyła o bogactwie słownictwa, wręcz bardzo bym się tej tezie sprzeciwiał.

O tym właśnie mówiłam powyżej, beryl. Mi się wydaje, że świadczy bardziej o tym, iż tekst jest trudny w odbiorze, bo niestety wielu ludzi ma ubogi zasób słów, więc dla nich długie, skomplikowane wyrazy będą barierą nie do przejścia. Automatycznie mamy wtedy selekcję czytelników. 

 

Ja osobiście nie przykładam do tego aż tak wielkiej wagi. Wiem do kogo chce trafić, jaki mam target i pisze tak, jak sobie założyłam. Jeden zrozumie, inny nie, trudno, ale moim skromnym zdaniem o bogactwie tekstu nie świadczą długie słowa, lecz ich sensowne użycie oraz semantyka. 

Proponowałbym zdefiniować jakość tekstu inaczej.

W odmiennej branży istnieje coś takiego jak, hmmm, przegląd.

Przegląd Tematu o Złej Jakości: WTF!? WTF!!! WTF!? “Człowieku, WTF!?” “WTF, niemożliwe...“, “Jezu, WTF!?“

Przegląd Tematu o Dobrej Jakości: WTF? WTF!?

I zamiast liczyć średnią długość słowa może byśmy tak policzyli średnią ilośc łotdefaków po publikacji, hmmm...? ;-)

"Świryb" (Bailout) | "Fisholof." (Cień Burzy) | "Wiesz, jesteś jak brud i zarazki dla malucha... niby syf, ale jak dzieciaka uodparnia... :D" (Emelkali)

Jeden zrozumie, inny nie, trudno, ale moim skromnym zdaniem o bogactwie tekstu nie świadczą długie słowa, lecz ich sensowne użycie oraz semantyka. 

Właśnie :) Szukanie powiązań długie słowo = mądre słowo jest... hmm... głupie :)

Administrator portalu Nowej Fantastyki. Masz jakieś pytania, uwagi, a może coś nie działa tak, jak powinno? Napisz do mnie! :)

Na którejś z zagranicznych uczelni robili dawno temu eksperyment, licząc słowa u klasyków literatury w różnych językach. Zainspirowani tym krakowscy studenci policzyli u naszych, ale jedyne co pamiętam, to że w wybranych dziełach Lema naliczyli średnio nawet po 9 znaków z przecinkiem. Rzecz opowiadała nam na lekcji polskiego nauczycielka i zakładam, że nie zmyślała.

Lecą smoki pod obłoki, wiatr im kręci smocze loki

Ogólnie rzecz biorąc się zgadzam.

 

Mi się wydaje, że świadczy bardziej o tym, iż tekst jest trudny w odbiorze, bo niestety wielu ludzi ma ubogi zasób słów, więc dla nich długie, skomplikowane wyrazy będą barierą nie do przejścia.

 

Jak to w wywiadzie powiedział pewien profesor, którego nazwiska niestety nie pomnę, a wypowiadał się na temat twórczości Lema: “Owszem, pisał trudno, ale tak to już było i jest, że albo dajesz radę, albo wysiadasz”. Przyznam mu rację.

 

Automatycznie mamy wtedy selekcję czytelników.

 

Osobiście wolę jakość niż ilość czytelników. No, ale może to tylko ja.

 

Czekam teraz na falę żarliwej krytyki i twierdzenia, że mam się za aryjczyka intelektualnego.

Gdybym miała wąsy, to bym była dziadkiem, a tak jestem sygnaturką!

Po co wy to w ogóle porównujecie, jak jednemu program liczy średnią razem z myślnikami, a drugiemu bez? Jak jeden ozdabia tekst trzygwiazdkami, a drugi nie? Jeden dzieli na ponumerowane części, a drugi nie? Jeden tekst bazuje na dialogach, gdzie przez myślniki średnia znaków spada, a drugi nie ma dialogów wcale?

Lecą smoki pod obłoki, wiatr im kręci smocze loki

Wiesz, Stargate, mieć to się i możesz za nadczłowieka, nas to niekoniecznie obchodzi :)

Administrator portalu Nowej Fantastyki. Masz jakieś pytania, uwagi, a może coś nie działa tak, jak powinno? Napisz do mnie! :)

StargateFan takie dwa przykłady:

 

Ogólnie rzecz ujmując popieram przedstawione przez ciebie stanowisko – średnio 7.6

 

W sumie to myślę, że masz rację – średnio 3.6

 

Czy czytelników, którzy wolą pierwszą wersję, uznasz za bardziej wyrobionych, prezentujących wyższą jakość czytelniczą, bo w zdaniu jest wyższa średnia znaków na wyraz?

Lecą smoki pod obłoki, wiatr im kręci smocze loki

StargateFan – Ja mówiłam ogólnie raczej :)  To już indywidualna kwestia, co jest dla kogo ważne. Wszystkich nie zadowolisz, jak wiadomo, dlatego trzeba pisać jak się czuje i tyle. Brzmi patetycznie i górnolotnie, ale tak jest. Co wrażliwsi czytelnicy z pewnością wyczują fałsz, więc nie ma co na siłę zmieniać stylu. Jak ktoś stosuje bardziej wyszukane słowa, to niech sobie je stosuje, jak ktoś lubi pisać prosto(co nie znaczy, że jest skończonym idiotą) to niech pisze prosto. Widocznie w tym się czuje najlepiej.

Jedni czytając Flauberta stwierdzą, że jest nudny jak flaki z olejem, same opisy, fuj, nuda, nuda, nic się nie dzieje, jeszcze opisy psychiki takiej Pani Bovary, a gdzie akcja, gdzie dynamizm?!  Mozolne to i przekombinowane; a drudzy będą zachwyceni metaforami, doskonałym wyczuciem słowa i plastycznymi opisami.  Proza Flauberta do łatwych raczej nie należy, ale nawet przy banalnie prostej będą zawsze dwie opinie – albo się podoba albo nie. 

Wydaje mi się, że jest korelacja między przeciętną długością słowa a leksykonem.

Bynajmniej, jeśli wyrazy zostały użyte we właściwym znaczeniu, kontekście itd. ;-)

Czyli – związek między długością a jakością byłby słabszy.

Babska logika rządzi!

Wniosek z tego płynie następujący: im więcej zaimków oraz spójników w opowiadaniu, tym bardziej ograniczony jesteś!

Administrator portalu Nowej Fantastyki. Masz jakieś pytania, uwagi, a może coś nie działa tak, jak powinno? Napisz do mnie! :)

Może ograniczmy się do polskich pisarzy, bo w przypadku Flauberta w grę wchodzi jeszcze jakość tłumaczenia.

Lecą smoki pod obłoki, wiatr im kręci smocze loki

Wniosek z tego płynie następujący: im więcej zaimków oraz spójników w opowiadaniu, tym bardziej ograniczony jesteś!

:((((

 

Może ograniczmy się do polskich pisarzy, bo w przypadku Flauberta w grę wchodzi jeszcze jakość tłumaczenia.

Dobrze, ograniczmy się więc do wyżej wspomnianego Lema. Flaubert był tylko poparciem słów profesora, które przytoczył StargateFan.

Ogólnie to chyba łatwo w tej dyskusji pomylić kilka rzeczy. Na moim przykładzie mogę powiedzieć, że proza Lema jest dla mnie trudna, lecz nie jest to spowodowane przez miejscami długaśne, wyszukane słownictwo a przez nazewnictwo typowe dla Sci-fi, które jest dla mnie ciężej przyswajalne, z racji tego, że wolę fantasy. W tym przypadku, choć czytałam jego prozę, zaliczam się raczej do kategorii czytelnik nie rozumiejący wszystkiego, ale doceniający kunszt. Tak więc stopień trudności tekstu polegał w tym przypadku na problematyce nazewnictwa, a nie od średniej długości wyrazów. W innym przypadku może być inaczej itd. także co dla nas może być łatwe, dla kogoś innego może być trudne. 

Napisałem, klikam dodaj, fresh – pusto... Okej.

 

Nie, brajcie, nie chodzi o to, po prostu dyskusja nabrała kierunku, atmosfery, że albo się pisze prosto i ma czytelników, albo się pisze trudno i się wegetuje we własnym eremie. Tak wyczułem, toteż się odniosłem.

 

Ja akurat nie zwracam uwagi na zaimki i spójniki, bo zdanie jest jak melodia, nurt, mówiąc patetycznie, i ma się odpowiednio wygrywać, przelewać z lewa na prawą. O nic więcej nie chodzi. Reszta to – w uproszczeniu – detale.

 

Flauberta akurat lubię. Moc jest w nim silna. Właściwie to była.

Gdybym miała wąsy, to bym była dziadkiem, a tak jestem sygnaturką!

Nie klikaj fresh, tylko wstecz.

Lecą smoki pod obłoki, wiatr im kręci smocze loki

Zygfryd89, dzięki. Z lenistwa próbowałem sobie zwizualizować, gdzie w Wordzie jest gotowa opcja  ;-)

Tak jak napisał Adam, to jest korelacja. Nie wynikanie. Można z niej wyciągać pewne wnioski. Można. I tyle.

5,98. O Conradzie, jestem prostakiem.

"Najpewniejszą oznaką pogodnej duszy jest zdolność śmiania się z samego siebie."

Elanarze, jestem zawiedziony Twoim ubogim słownictwem.

Administrator portalu Nowej Fantastyki. Masz jakieś pytania, uwagi, a może coś nie działa tak, jak powinno? Napisz do mnie! :)

Hm. Mam wrażenie, że taki współczynnik będzie wyraźniejszy w angielskim – tam jest więcej miejsca na zastępowanie krótkich, mówionych wyrażeń, często pełnych phrasali z dwuliterowymi członami, bardziej wyszukanymi odpowiednikami złożonymi z mniejszej liczby dłuższych słów. Zresztą rzeczywiście gdzieś już słyszałem o porównywaniu długości słów różnych pisarzy.

Ale wydaje mi się, że w polskim to też widać, choć delikatniej. Zrobiłem małe porównanie dla swoich tekstów, od pierwszych prób z czasów gimnazjum do teraz, i wyszło mi, że faktycznie to idzie do przodu. Większość tekstów jest krótka, wiec próbka to marna, ale jednak widać ogólną tendencję wzrostową od ok. 5,3 na samym początku do 6,18 w tekście, nad którym aktualnie pracuję. Ostatnie teksty różnią się od poprzednich jeszcze tym, że są w klimatach SF, więc to też może mieć pewien wpływ.

I jeszcze jedno – najkrótsze słowa ma mój tekst z Fantastycznego Kiczu (który potraktowałem analogicznie do Grafomanii), całe 5,01. Czyli chyba rzeczywiście coś w tym jest ;)

„Widzę, że popełnił pan trzy błędy ortograficzne” – markiz Favras po otrzymaniu wyroku skazującego go na śmierć, 1790

A mnie tą dyskusją podsunęliście pomysł na drabble:

Temat – dowolny

Gatunek – fantastyka

Ocena: od 1 do 1000 punktów + ilość liter w drabble (czyli im dłuższe słowa tym większa punktacja...)

Dzięki :)

"Przychodzę tu od lat, obserwować cud gwiazdki nad kolejnym opowiadaniem. W tym roku przyprowadziłam dzieci.” – Gość Poniedziałków, 07.10.2066

Tylko że starczy napisać odpowiednio dużo nazw elfickich zamków, np. Jiquisithinelliminutiuselaneeisalan, i nadrobi się nawet zero za treść ;)

„Widzę, że popełnił pan trzy błędy ortograficzne” – markiz Favras po otrzymaniu wyroku skazującego go na śmierć, 1790

Założymy, że bez nazw własnych :D

 

Zresztą – nędzna ściema będzie widoczna jak na drabblu

"Przychodzę tu od lat, obserwować cud gwiazdki nad kolejnym opowiadaniem. W tym roku przyprowadziłam dzieci.” – Gość Poniedziałków, 07.10.2066

Ej, pomysł jest świetny. Konkurs na drabble na najdłuższą średnią liter w słowie bez nazw własnych i wątpliwych neologizmów. Ocena: 1-5 za czytelność tekstu, plus średnia liter na słowo.

Administrator portalu Nowej Fantastyki. Masz jakieś pytania, uwagi, a może coś nie działa tak, jak powinno? Napisz do mnie! :)

Wchodzę w to, pomysł super. Tylko proponowałbym jeszcze wykluczyć nazwy pierwiastków i związków chemicznych, które nazwami własnymi z definicji nie są, ale stanowią potencjalne pole do nadużyć.

Lecą smoki pod obłoki, wiatr im kręci smocze loki

Wchodzisz w organizację czy w uczestnictwo? ; )

Administrator portalu Nowej Fantastyki. Masz jakieś pytania, uwagi, a może coś nie działa tak, jak powinno? Napisz do mnie! :)

Znowu konkurs na drabble?!

W sumie dobrze – będzie czas na od-portalowe wakacje. :)

W uczestnictwo. To zbyt fajna zabawa, żeby mnie miała ominąć przez sędziowanie.

Lecą smoki pod obłoki, wiatr im kręci smocze loki

I jeszcze zakaz słów typu praprapraprapraprapraprapraprapra[...]dziadek :P

Oraz przeciągania i jąkania, a także ła-ma-nia.

 

– Toooooooooooooooooooośmyyyyyyyyyyyyyy zrooooobiiiiiiiiiiiliiiiiiiiii, ziiiiiiiiiiiooooooooooooooom! – wywrzesczał Ten-Któremu-Było-Na-Imię-Piotrek.

Administrator portalu Nowej Fantastyki. Masz jakieś pytania, uwagi, a może coś nie działa tak, jak powinno? Napisz do mnie! :)

Profesor ksenobiochemii spojrzał przez sześćsetdziewięćdziesiątsiedemmilionówczterystaosiemdziesiąttrzytysiącepięćsetdwudziestoczteroipółkrotnie powiększający mikroskop i osłupiał.

Coś takiego też chyba nie przejdzie? ;-)

Total recognition is cliché; total surprise is alienating.

To co można, jak nic nie można? :D

Takie pytanie kontrolne: czy na przykład Polskie Koleje Państwowe albo wódz Siedzący Byk są dopuszczalne, czy też wylatują, jako nazwy było nie było własne?

Babska logika rządzi!

Polskie nazwy własne są okej, raczej nie stwarzają pola do manipulacji. Co innego, gdyby to nawet nie były eflickie, ale niemieckie nazwy własne : )

Administrator portalu Nowej Fantastyki. Masz jakieś pytania, uwagi, a może coś nie działa tak, jak powinno? Napisz do mnie! :)

O, pamiętam ten program. A skecz dobry :)

Administrator portalu Nowej Fantastyki. Masz jakieś pytania, uwagi, a może coś nie działa tak, jak powinno? Napisz do mnie! :)

Odsapnę po Apokalipsie i zrobimy ten, nad zasadami pomyślę, żeby nie było groteski :)

"Przychodzę tu od lat, obserwować cud gwiazdki nad kolejnym opowiadaniem. W tym roku przyprowadziłam dzieci.” – Gość Poniedziałków, 07.10.2066

beryl: Malickiego i Filharmonię Dowcipu z występu w Warszawie w 2012 ponoć można kupić na płycie. Z tego co pamiętam – warto ;-) Nie tylko dla skeczu o języku niemieckim.

 

"Świryb" (Bailout) | "Fisholof." (Cień Burzy) | "Wiesz, jesteś jak brud i zarazki dla malucha... niby syf, ale jak dzieciaka uodparnia... :D" (Emelkali)

Fajny pomysł na ten konkurs. I jury niepotrzebne, jedynie jakiś zliczacz. Czytelność tekstu też można oceniać według tego pomysłu, np. 20 pkt na wyjście i minus jeden za każdy komentarz “nie rozumiem” :D

Nieee, może być czytelny, ale niefajny drabel. Może być tak, że “nie rozumiem” wynika z użycia zbyt trudnych słów. I co wtedy?

Babska logika rządzi!

Dj wszystko napisze, spokojnie, będzie jasne.

"Przychodzę tu od lat, obserwować cud gwiazdki nad kolejnym opowiadaniem. W tym roku przyprowadziłam dzieci.” – Gość Poniedziałków, 07.10.2066

Nowa Fantastyka