- Hydepark: Zaimkomierz – podręczna pomoc w walce z zaimkozą

Hydepark:

inne

Zaimkomierz – podręczna pomoc w walce z zaimkozą

Ze względu na to, że cierpię na ciężki przypadek zaimkozy, postanowiłem opracować terapię na tę trudną i przewlekłą chorobę. Stworzyłem więc stronę internetową, która umożliwia wklejenie dowolnego tekstu i przeanalizowanie go pod kątem zaimków. Żeby poddać się terapii, wystarczy przed publikacją tekstu wkleić go na rzeczonej stronie, która pomoże wyłapać to, czego upośledzone tą ciężką chorobą oczy, nie są w stanie dostrzec. Żywię nadzieję, że regularne korzystanie z tego postępu medycyny, ewentualnie doprowadzi do remisji choroby.

 

Nie jestem pewny czy uwzględniłem wszystkie zaimki, dlatego proszę o pomoc. Wszelkie opinie, błędy czy propozycje usprawnienia tej aplikacji wrzucajcie w komentarzach.

 

Zwróćcie uwagę, że zaimek “nie” (od: one – je/nie) jest oznaczony jaśniej, bo słowo to zdecydowanie częściej występuje w formie przeczenia a nie zaimka. Jeżeli znacie jeszcze jakieś tego rodzaju wieloznaczne słowa, będące zaimkami, które warto byłoby w ten sposób wyróżnić i wykluczyć ze statystyki, to dajcie znać.

 

> ZAIMKOMIERZ <

Komentarze

obserwuj

Super inicjatywa, Lukenie :) Pomyśl nad rozbudową funkcjonalności o wyłapywanie powtórzeń w n pobliskich zdaniach (np 3 w przód i w tył) ;)

Ja bym oddzieliła siękozę od zaimkozy... Zwłaszcza, że siękoza jest łatwa do wykrycia chociażby w Wordzie (wystarczy wyszukać “się” i sprawdzić zagęszczenie podświetleń).

Ale – nie da się wyszukać na raz “się”, “sobie” i "siebie”.

She was with me. She did all those things and so many more, things I would never tell anyone, and she never even loved me. Now that’s love.

Fajne :) Ale do mocnego dopracowania.

 

Wieloznaczne zaimki: je, mnie i mną (tu statystyka raczej na rzecz zaimków). Oraz, jak pokazuje przykład poniżej “temu”.

 

KONIECZNIE dodaj “swój” z odmianą! To najgorszy zaimek śmieć. Takoż “jakiś”. Poniżej durny przykład tego, czego nie wyłapuje, a co jest bardzo ważne, a wyłapuje to, co powinno zostać.

 

 

Siękozę bym zostawiła w tym samym programie, ale może da się zaznaczyć “się” innym kolorem? W ogóle można by dać różne kolory dla zaimków osobowych wraz z dzierżawczymi, a wszystkich innych, bo zaimkoza z reguły dotyczy osobowych i ich pochodnych.

 

Dla porządku: “nie” przeczące jest partykułą, a nie “formą przeczenia”. ale to akurat z punktu widzenia programiku nieistotne ;)

http://altronapoleone.home.blog

Proponuję nie wklejać do tego fragmentów pisma świętego, bo zaimkomierz wywali poza skalę i będzie error ;)

Known some call is air am

 @si­lver_ad­vent

Super ini­cja­ty­wa, Lu­ke­nie :) Po­myśl nad roz­bu­do­wą funk­cjo­nal­no­ści o wy­ła­py­wa­nie po­wtó­rzeń w n po­bli­skich zda­niach (np 3 w przód i w tył) ;)

Po­my­ślę :) .

 

@DHBW

Ja bym od­dzie­li­ła się­ko­zę od za­im­ko­zy... Zwłasz­cza, że się­ko­za jest łatwa do wy­kry­cia cho­ciaż­by w Wor­dzie (wy­star­czy wy­szu­kać “się” i spraw­dzić za­gęsz­cze­nie pod­świe­tleń).

Ale – nie da się wy­szu­kać na raz “się”, “sobie” i "sie­bie”.

To też jest cie­ka­wa su­ge­stia. Pro­ble­mem z roz­dzie­la­niem wy­ni­ków na takie ka­te­go­rie jest... ko­lo­ro­za. Tzn. wy­ni­ki będą po pro­stu coraz mniej czy­tel­ne z każ­dym ko­lej­nym ko­lo­rem. Ale może gdyby tak zro­bić “war­stwy”, które by się prze­łą­cza­ło, po­ka­zu­ją­ce wzor­ce we­dług róż­nych reguł... Hmm. Na razie je­stem cie­kaw na co jesz­cze wpad­nie­cie, bo za­kres po­ten­cjal­nych moż­li­wo­ści roz­bu­do­wy wpły­wa na de­cy­zje ar­chi­tek­to­nicz­ne na temat warstw abs­trak­cji pod maską.

 

@dra­ka­ina

Do­da­łem od­mia­ny obu wspo­mnia­nych za­im­ków. Nie ukry­wam, że przy­da­ła­by mi się pomoc ję­zy­ko­znaw­cy w kwe­stii “da­nych”, któ­rych pro­gram używa do dzia­ła­nia.

Wie­lo­znacz­ne za­im­ki: je, mnie i mną (tu sta­ty­sty­ka ra­czej na rzecz za­im­ków). Oraz, jak po­ka­zu­je przy­kład po­ni­żej “temu”.

Te kon­tek­sty będą naj­trud­niej­sze do wy­ła­pa­nia i nie je­stem jesz­cze pewny, czy mam am­bi­cję osią­gnąć taki sto­pień do­kład­no­ści. Może gdyby tak zebrać chociaż parę najbardziej powszechnych, albo relatywnie prostych reguł, z których da się wywnioskować czy słowo jest rzeczywiście zaimkiem...

 

Tu jest lista wszyst­kich za­im­ków, które obec­nie wy­ła­pu­je: https://github.com/lukasz-zaroda/zaimkomierz/blob/master/src/pronouns.txt . Być może nie­złym po­my­słem by­ło­by po­gru­po­wać tę listę i jakoś zor­ga­ni­zo­wać. Ale oba­wiam się, że sam nie je­stem w sta­nie nad tym za­pa­no­wać. Tzn. mogę za­pro­po­no­wać for­mat ta­kiej listy, zro­zu­mia­ły przez pro­gram, który uwzględ­ni te wszyst­kie ka­te­go­rie za­im­ków i bę­dzie je za­wie­rał w zor­ga­ni­zo­wa­ny spo­sób, ale ktoś mu­siał­by mi pomóc ją uzu­peł­nić.

Się­ko­zę bym zo­sta­wi­ła w tym samym pro­gra­mie, ale może da się za­zna­czyć “się” innym ko­lo­rem? W ogóle można by dać różne ko­lo­ry dla za­im­ków oso­bo­wych wraz z dzier­żaw­czy­mi, a wszyst­kich in­nych, bo za­im­ko­za z re­gu­ły do­ty­czy oso­bo­wych i ich po­chod­nych.

Myślę, że naj­lep­szy byłby sys­tem, w któ­rym by się wy­bie­ra­ło “re­gu­łę”, któ­rej chce się użyć i by­ło­by kilka do wy­bo­ru. W ten spo­sób wy­ni­ki nie by­ły­by prze­ko­lo­ro­wa­ne tym wszyst­kim. Po­my­ślę jakby to zro­bić.

 

@O­ut­ta Sewer

To się na­zy­wa stress te­sting ;) .

Łukasz

https://biblia.deon.pl/rozdzial.php?id=286 Poziom zaimkozy: 304 na 2922 znaków (nie licząc spacji) to zaimki. Wynik: 10,4%.

https://biblia.deon.pl/rozdzial.php?id=253 Poziom zaimkozy: 535 na 3845 znaków (nie licząc spacji) to zaimki. Wynik: 13,91%.

https://biblia.deon.pl/rozdzial.php?id=5 Poziom zaimkozy: 130 na 2102 znaków (nie licząc spacji) to zaimki. Wynik: 6,18%.

https://biblia.deon.pl/rozdzial.php?id=225 Poziom zaimkozy: 420 na 2676 znaków (nie licząc spacji) to zaimki. Wynik: 15,7%.

(Zaznaczam, że mamy tu do czynienia z przekładem z języka z zupełnie innej rodziny.)

 

https://www.fantastyka.pl/opowiadania/pokaz/26919 Poziom zaimkozy: 351 na 4920 znaków (nie licząc spacji) to zaimki. Wynik: 7,13%.

https://www.fantastyka.pl/opowiadania/pokaz/26443 Poziom zaimkozy: 204 na 2906 znaków (nie licząc spacji) to zaimki. Wynik: 7,02%.

https://www.fantastyka.pl/opowiadania/pokaz/27280 Poziom zaimkozy: 2777 na 35587 znaków (nie licząc spacji) to zaimki. Wynik: 7,8%.

https://www.fantastyka.pl/opowiadania/pokaz/28009 Poziom zaimkozy: 252 na 2866 znaków (nie licząc spacji) to zaimki. Wynik: 8,79%.

 

https://www.fantastyka.pl/opowiadania/pokaz/25134 Poziom zaimkozy: 642 na 10974 znaków (nie licząc spacji) to zaimki. Wynik: 5,85%.

https://www.fantastyka.pl/opowiadania/pokaz/27543 Poziom zaimkozy: 990 na 14426 znaków (nie licząc spacji) to zaimki. Wynik: 6,86%.

https://www.fantastyka.pl/opowiadania/pokaz/21694 Poziom zaimkozy: 98 na 1447 znaków (nie licząc spacji) to zaimki. Wynik: 6,77%.

https://www.fantastyka.pl/opowiadania/pokaz/20105 Poziom zaimkozy: 126 na 3352 znaków (nie licząc spacji) to zaimki. Wynik: 3,76%.

Ehkm. Autorem zdjęcia jest Tatko.

    Te konteksty będą najtrudniejsze do wyłapania i nie jestem jeszcze pewny, czy mam ambicję osiągnąć taki stopień dokładności. Może gdyby tak zebrać chociaż parę najbardziej powszechnych, albo relatywnie prostych reguł, z których da się wywnioskować czy słowo jest rzeczywiście zaimkiem...

Wiesz, tylko takich reguł nie ma. Gadżet jest fajny, problem w tym, że, żeby wyłapywać idealnie, musiałby być AI. A wtedy by się na nas wypiął i zajął własnymi sprawami :)

    Myślę, że najlepszy byłby system, w którym by się wybierało “regułę”, której chce się użyć i byłoby kilka do wyboru.

Brzmi profesjonalnie ^^

 

ETA: Jeszcze, dla porównania – mój przekład tego tekstu (zrobiony w 2019, para językowa angielski-polski): https://www.deviantart.com/ursulav/art/An-Evening-With-Sings-to-Trees-39658323

osiągnął wynik: Poziom zaimkozy: 483 na 7867 znaków (nie licząc spacji) to zaimki. Wynik: 6,14%.

Angielski należy do języków indoeuropejskich i jest dość bogaty w zaimki

Gdzie nie ma zasad, tam są kwasy.

To nie zastąpi rozumu, ale jak wyłapie 95% problemów, to spełni swoją rolę :) . Niektóre specjalne przypadki można byłoby uwzględnić, jeżeli jest to uzasadnione praktycznie, tj. występują w miarę powszechnie i są łatwo definiowalne.

Łukasz

Hah! No kto, jak nie Tarnina, sprawdziłby mój złośliwy żarcik, w dodatku porównał z moimi tekstami? :D Ciekawe, że w Korzeniach jest najwyższy wynik. Narracja pierwszosobowa, skupiona na opowiedzeniu o rodzinie bohaterki?

Known some call is air am

To nie zastąpi rozumu, ale jak wyłapie 95% problemów, to spełni swoją rolę :)

Nic nie zastąpi rozumu ^^

No kto, jak nie Tarnina, sprawdziłby mój złośliwy żarcik, w dodatku porównał z moimi tekstami? :D

Narracja pierwszosobowa, skupiona na opowiedzeniu o rodzinie bohaterki?

Możliwe. Dobór tekstów był mniej więcej przypadkowy.

 

ETA: Mój przekład się przykroił – powinno być: Poziom zaimkozy: 505 na 8164 znaków (nie licząc spacji) to zaimki. Wynik: 6,19%.

Gdzie nie ma zasad, tam są kwasy.

Widzę, że “swój” i “jakiś” dodane, przypomniał mi się jeszcze ktoś/kogoś/komuś itp.

 

Oraz ponawiam pytanie, czy jest możliwość oznaczania różnych grup zaimków różnymi kolorami? Skoro da się zrobić “nie” na jasnozielono, to może dałoby się też inne wyróżnić inaczej?

http://altronapoleone.home.blog

zakres potencjalnych możliwości rozbudowy wpływa na decyzje architektoniczne na temat warstw abstrakcji pod maską.

coolcoolcoolcoolcoolcool Co? indecision xD

 

Jeśli chodzi o mój pomysł, to teraz chyba łatwo byłoby Ci podzielić to narzędzie na dwa – wystarczy chyba skopiować kod i wyrzucić z każdej kopii pewne rzeczy? Może mógłbyś zrobić zakładki i byłoby:

  1. Siękoza
  2. Zaimkoza
  3. Siękoza + zaimkoza :>

Raz jeszcze pochwalam ten bardzo miły pomysł heart

 

She was with me. She did all those things and so many more, things I would never tell anyone, and she never even loved me. Now that’s love.

coolcoolcoolcoolcoolcool Co? indecision xD

Żargon. Nie przełożę, bo zapomniałam, jak to się robiło. Ulubiona_emotka_Baila.

Gdzie nie ma zasad, tam są kwasy.

@drakaina

Da się, ale trzeba najpierw wydzielić te grupy. Najprościej byłoby gdyby obecny plik zawierający wszystkie zaimki ( https://github.com/lukasz-zaroda/zaimkomierz/blob/master/src/pronouns.txt ) podzielić na kilka innych. Mając te zaimki rozdzielone, mógłbym to zaimplementować. Ktoś chętny do pomocy? xD Można dołożyć cegiełkę do projektu, a ja będę miał więcej czasu na część programistyczną. W przeciwnym razie musisz poczekać, aż zbiorę się w sobie, żeby ponownie rozgrzebać ten plik.

Łukasz

Zastanawiam się jeszcze nad jedną rzeczą: czy jest możliwa sytuacja, że ten sam wyraz będzie przynależał do kilku grup? Wydaje mi się to możliwe. A jeżeli tak, to jak takiego cudaka oznaczyć? Jakimś gradientem? xd

Łukasz

Ja mogę pomóc od strony typologii zaimków  i innych śmieci. Bo po prawdzie nagromadzenie partykuły przeczącej “nie” też nie wygląda dobrze, więc w sumie dobrze, że to jest podkreślane.

http://altronapoleone.home.blog

Hmm.

Przyniosłam jego buty od szewca. (dzierżawczy)

Jego na pewno nie muszę prosić. (osobowy)

A jeżeli tak, to jak takiego cudaka oznaczyć? Jakimś gradientem? xd

W tym sezonie modne są paski ^^

Gdzie nie ma zasad, tam są kwasy.

Nie dzieliłabym na aż tak daleko idące kategorie, tzn. dla osobowych i dzierżawczych dałabym jeden kolor (może “swój” wyróżniła odcieniem, bo on w polszczyźnie jest nader rzadko potrzebny), a dla pozostałych (może jakoś wewnętrznie podzielonych, ale nie wiem) inny. Nie chodzi przecież o naukę gramatyki opisowej, tylko wyłapanie własnych błędów.

http://altronapoleone.home.blog

@drakaina

Jak przygotujesz te pliki, rozdzielając zaimki według swojego uznania, i mi podeślesz, to je wyróżnię :) . Tak jak pisałem, to powinien być plik txt, w którym każdy zaimek jest w oddzielnej linii.

Łukasz

Imho, bez sensu, ponieważ klucz nie tkwi w zaimkach i ich powtarzaniu. Czasami się wybiją i krzyczą,  niekiedy nie. Kontekst. Warunki nie do ustalenia, chyba że patrzymy na sprawę czysto technicznie: dwa zaimki w jednym zdaniu – niet; dwa się w jednym zdaniu niet; te zaimki są dozwolone, gdy występują w jednym zdaniu i poniższym – niet. Jeśli nic się nie powtarza – sukces. ;-

Logika zaprowadzi cię z punktu A do punktu B. Wyobraźnia zaprowadzi cię wszędzie. A.E.

@Asylum

To nie jest magiczny przepis na dobry tekst. Po prostu jak ktoś nie zauważa zaimków, to daje mu to wiedzę, a wiedza daje tylko szersze pole manewru :) . To tylko takie zaimkowe przybliżające okulary.

Łukasz

Okejka, jeśli tak. ;-) Zaczynam mieć uczulenie na przepisy. 

Logika zaprowadzi cię z punktu A do punktu B. Wyobraźnia zaprowadzi cię wszędzie. A.E.

Asylum – zgoda. Ale jako pomoc w wyćwiczeniu samodzielnej walki z zaimkozą ten pomysł wydaje mi się dobry. Czy autor będzie potrafił ocenić, który zaimek zostawić, a który wyciąć, to inna sprawa, ale to głównie kwestia wprawy. Jako wspomaganie ćwiczenia warsztatu to dobry pomysł, nawet dam link w poradniku.

http://altronapoleone.home.blog

Tak swoją drogą, to to narzędzie będzie najbardziej przydatne, jak zdołam obliczyć poziom zaimkozy dla każdego akapitu oddzielnie. Wtedy jak wyskoczy 20% dla dłuższego akapitu, to będzie całkiem silny sygnał, że może warto go jeszcze raz przeczytać, pod tym kątem, za parę dni. Poziom zaimkozy dla całego tekstu jest stosunkowo mało przydatny. Zrobiłem go głównie z ciekawości, jak wypada dla różnych tekstów, której chyba każdy trochę miał ;) .

Łukasz

Bardzo dobre narzędzie, Lukenie.

Zapisuję link.

"Wolność polega na tym, że możemy czynić wszystko, co nie przynosi szkody bliźniemu naszemu". Paryż, 1789 r.

Narzędziowo – może, lecz pozwólcie, że pozostanę – sceptyczna. Kurcze, mózg to nie komputer, wszystko jedno, ile warstw pod nim zaplanujecie. Jest określony  cel/zadanie, której ma zrealizować. Czy procenty coś oddają – tak, czy się nimi kierować – być może lecz potrzebne byłyby coś więcej.

Logika zaprowadzi cię z punktu A do punktu B. Wyobraźnia zaprowadzi cię wszędzie. A.E.

Cudowny koncept!

 

Zaimków jest całe mnóstwo, a jeszcze więcej ich odmian, więc zebranie pełnej bazy może trochę potrwać – tu jest tego w opór:

https://pl.wiktionary.org/wiki/Aneks:J%C4%99zyk_polski_-_zaimki

Ale już teraz widzę że to ma wielki potencjał. (BTW, zauważyłem że kolory i słowa rozjeżdżają mi się w firefoksie – w chrome jest wszystko ok. Nikt już nie używa firefoksa...)

 

Na szybko (weryfikowane z wikisłownikiem, proszę nie bić jeśli wikisłownik się mylił):

– zaimki których nie wyłapuje: tamtego, taki, ktoś, każdy, nikt.

– zaimki które mogą być też innymi słowami: je (ojciec je zawołał vs ojciec je sałatkę), jak (może być i zaimkiem, i spójnikiem, no i jest też takie zwierzątko), kiedy (znowu – raz zaimek, raz spójnik).

 

Pozdróweczka i dzięki!

Precz z sygnaturkami.

Narzędziowo – może, lecz pozwólcie, że pozostanę – sceptyczna. Kurcze, mózg to nie komputer, wszystko jedno, ile warstw pod nim zaplanujecie. Jest określony  cel/zadanie, której ma zrealizować. Czy procenty coś oddają – tak, czy się nimi kierować – być może lecz potrzebne byłyby coś więcej.

Droga Asylum, ale przecież to nie jest soft do kreacji tekstów, a jedynie pomoc dla autora do jednego z elementów autokorekty. I jako taka jest świetna. Pokazuje, które zdania warto jeszcze wypolerować.

"Wolność polega na tym, że możemy czynić wszystko, co nie przynosi szkody bliźniemu naszemu". Paryż, 1789 r.

Dla mnie, zwodzi na manowce, jak google maps, Chrościsko. Jeśli chodzi o myśl, słowo jestem chyba cholernie radykalna. ;-)

Logika zaprowadzi cię z punktu A do punktu B. Wyobraźnia zaprowadzi cię wszędzie. A.E.

Google maps jest super :)

"Wolność polega na tym, że możemy czynić wszystko, co nie przynosi szkody bliźniemu naszemu". Paryż, 1789 r.

Asylum, ale spróbuj na to spojrzeć tak: powiedzmy, że zauważasz w swoim pisaniu, że nadużywasz jakiegoś słowa, np. spójnika “ale” (sama tak miałam, ostra aleoza) i postanawiasz z tym powalczyć. Możesz oczywiście wyszukiwać w wordzie każde wystąpienie “ale” i zamieniać je na inne spójniki bądź w ogóle inne konstrukcje. Póki to kwestia jednego spójnika, który w dodatku jest nieodmienny, nie problem. Ja już nawet zdołałam w sobie wyrobić odruch reakcji na napisanie “ale” i stawiam go o wiele mniej. Niemniej jeśli ktoś ma problem z zaimkami ogólnie i nadużywa wszelkich dzierżawczych (które w polszczyźnie są największym problemem i zaimkoza to głównie właśnie dzierżawcze), to wyobraź sobie robotę z wyszukiwaniem wszystkich form gramatycznych – wszystkich przypadków dla wszystkich zaimków dzierżawczych, których w polszczyźnie jest w ch/olerę/uj* (*do wyboru).

Tu dostanie wszystko na tacy, a jeśli uda się pokolorować grupy zaimków, to będzie naprawdę fajne narzędzie do 1) dostrzeżenia problemów warsztatowych; 2) zrobienia pierwszego kroku do ich eliminacji.

 

Mapom google zdarza się prowadzić na manowce, ale za to pokazują dobrze, gdzie są korki ;) Bezcenne.

http://altronapoleone.home.blog

BTW, zauważyłem że kolory i słowa rozjeżdżają mi się w firefoksie – w chrome jest wszystko ok. Nikt już nie używa firefoksa...

Ja używam. U mnie działa.

Dla mnie, zwodzi na manowce, jak google maps

Każdego narzędzia trzeba używać z głową...

Gdzie nie ma zasad, tam są kwasy.

Jak znajdziecie jakieś brakujące zaimki i chcielibyście, żeby zostały niezwłocznie dodane do bazy, to możecie wkleić je tu, od razu ze wszystkimi odmianami, każdy wyraz w oddzielnej linijce. Wtedy mogę zrobić tylko kopiuj/wklej całej grupy, co jest dla mnie mniej angażujące niż szukanie odmian, więc prawdopodobnie tego samego dnia te zaimki zostaną uwzględnione, a jak wrzucacie bez odmian, to muszę się zebrać w sobie, żeby najpierw zbiorczo te odmiany poznajdywać i pojedynczo pokopiować, co może potrwać parę dni w zależności od tego kiedy znajdę czas :) .

Łukasz

nikt już nie używa firefoksa...

Ja używam, więc z Tarniną jest nas dwie.

 

Nie znoszę chrome.

http://altronapoleone.home.blog

Firefox hooligans rulez! #teamdrakaina&Tarnina

Known some call is air am

Gdzie nie ma zasad, tam są kwasy.

 

Wkrótce.

Łukasz

Pamiętam o obiecanej typologii, ale niestety ostatnie dni to było zupełnie inne pisanie, przez weekend powinnam to ogarnąć

http://altronapoleone.home.blog

@drakaina

Nie ma problemu. Tak myślę, że może najlepiej byłoby, gdybym stworzył oddzielny wątek, w którym każdy mógłby pomóc, wrzucając jeden lub parę odmienionych zaimków któregoś rodzaju. Jednej osobie trudno byłoby to wszystko spisać, ale grupa wolontariuszy miałaby szansę.

Uważasz, że jaki ich podział miałby największy sens? Ze względu na funkcje (dzierżawcze, osobowe itd.)?

Łukasz

@drakaina

Może powstrzymaj się jeszcze przez chwilę z tworzeniem tej typologii. Daj tylko znać jak byłoby najlepiej podzielić te zaimki. W oddzielnym wątku ogłoszę wielki spis zaimków i wtedy też opublikuję format, w którym powinny być umieszczane. Wtedy siłą kupy uda nam się zrobić niezłą bazę danych, mam nadzieję.

Łukasz

Okej. Wieczorem napiszę Ci priva

http://altronapoleone.home.blog

@drakaina

Spoko, odezwij się jak tylko znajdziesz trochę czasu i chęci :) . Ostatecznie chciałbym, żeby ten system zwracał pisarzowi uwagę na różne cechy fragmentów jego tekstu (nie jako krytykę, tylko jako obserwacje, z którymi autor może zrobić co zechce). Czyli np. wykrywał zagęszczenia powtórzeń itp. Dlatego nowa wersja tej aplikacji będzie się nazywała trochę inaczej, bo nie chciałbym być wyłącznie zaimkocentryczny.

 

 W związku z tym jeszcze jedna rzecz mnie zastanawia. Czy miałoby sens zbieranie informacji o tym, do którego przypadku przynależy jakie słowo? Czy jakakolwiek użyteczna analiza skorzystałaby na posiadaniu takiej informacji na temat zaimków? Oczywiście pamiętając o tym, że czym więcej danych byśmy wymagali, tym trudniej byłoby wolontariuszom je zbierać (dlatego nie można tego procesu zbyt skomplikować). Trudno jest mi to wyważyć, bo nie wiem, jakie analizy językowe byłyby użyteczne. Jakbyś mogła to przemyśleć i podzielić się swoimi wnioskami, to moglibyśmy stworzyć coś naprawdę fajnego.

 

Zapraszam też do pomocy i dzielenia się przemyśleniami wszystkich innych, zainteresowanych tego rodzaju analizą językową :) .

Łukasz

Czy miałoby sens zbieranie informacji o tym, do którego przypadku przynależy jakie słowo?

Zależy czego miałoby to dotyczyć. Polska deklinacja rzeczownika jest tak upiorna (w sumie kilkadziesiąt wzorów odmiany, nieobejmujących całej rzeszy wyjątków, plus formy homogeniczne dla kilku przypadków gramatycznych dla sporej liczby słów), że na to musiałbyś chyba mieć zaawansowaną AI, Google Translate i inne translatory wciąż mają z tym problem.

Z kolei dla zaimków i innych słów często powtarzalnych to nie bardzo ma sens, bo owszem, istotne dla stylu bywa, żeby np. nie nadużywać dopełniacza (przykład absurdalny: “nie wziąłem [kogo czego?] klucza od [kogo czego?] domu [kogo czego?] mężczyzny z [kogo czego?] miasta [kogo czego?] królów polskich  czyli [kogo czego?] Krakowa), ale poza tym nieszczególnie.

http://altronapoleone.home.blog

@drakaina

Tzn. o te odmiany pytałem tylko w kontekście zaimków, bo zaimki wprowadzamy ręcznie, to i informację o odmianach można wprowadzić razem z nimi, np:

M/W: mój

D: mojego/mego

C: mojemu/memu

B: mojego/mego

N: moim/mym

Me: moim/mym

Taki zapis koduje w sobie informacje o przypadku dla każdego słowa. To praktycznie można wprowadzić do bazy razem z samymi zaimkami. Tylko nie jestem pewny na ile byłoby przydatne (szczególnie, że jak widać, jedno słowo występuje w wielu przypadkach – problem wieloznaczności).

Łukasz

No i co z powtarzającymi się formami? Bo np. “moim” to nie tylko N i Msc l.poj., ale także C l.mn.

Chyba że by podawał wszystkie opcje, ale imho to mało przydatna funkcjonalność.

http://altronapoleone.home.blog

Oki, to tego nie ruszamy :) .

Łukasz

W tekście nowym, nigdy nie czytanym, osiągam 11.6%, w wyniku bezmyślnych poprawek 10.4% :-)

Ciekawe czy przy użyciu rozumu (na razie nie ryzykowałem) dałoby się w celach sportowych zejść do 4%.

Pokój – szczęśliwość; ale bojowanie Byt nasz podniebny

Świetny pomysł, zwłaszcza kiedy mamy dłuższe opowiadanie pisane w przypływie takiej weny, że nie skupiamy się na poprawności i musimy robić to już później, po napisaniu całości. Może kiedyś skorzystam, nawet z czystej ciekawości, bo mimo że pilnuję się przy pisaniu, to pewnie nie wszystko da się wyłapać. ;)

W kolejnym nowym tekście (jest na becie), po bezmyślnych (na razie) poprawkach, osiągnąłem 5.5%. A sądziłem, że mam stałą osobniczą na poziomie ponad 10 :-)

Poziom zaimkozy: 1689 na 30700 znaków (nie licząc spacji) to zaimki. Wynik: 5.5%.

Pokój – szczęśliwość; ale bojowanie Byt nasz podniebny

Ciekawe czy przy użyciu rozumu (na razie nie ryzykowałem) dałoby się w celach sportowych zejść do 4%.

Ja już na niektórych tekstach/fragmentach udało się zejść poniżej 5% (ale raczej 4,7 niż 4,2). Także przy odpowiednich chęciach, czemu i 4 nie złamać?:P

Слава Україні!

Wydaje mi się, że wartości w okolicach 5-7% są zupełnie normalnym wynikiem.

Jak najbardziej. Robiłem swego czasu analizę zaimkomierzem tekstów z NF i miejscami wychodziło nawet więcej:P

Слава Україні!

Święci z Vukovaru: 

Poziom zaimkozy: 4137 na 46798 znaków (nie licząc spacji) to zaimki. Wynik: 8.84%.

 

… i to by było tyle.

Najlepszy tekst na portalu i prawie 9%...

Ej, ludzie, ale to nie jedyne kryterium! Nie rzucać kamyczków do ogródka “och, och, te zasady takie fujne!”

Powtarzam po raz enty: wskazówki, nie prawa fizyki. Najważniejsze jest to, o czym chcecie opowiedzieć – sęk w tym, że jak opowiecie brzydko lub nieadekwatnie do treści, to nikt tego nie zechce czytać.

Tylko tyle.

Gdzie nie ma zasad, tam są kwasy.

Oczywiście:P Dlatego zaimkomierz jest dobry do wyłapania kondensacji zaimków, ale sama ich zawartość to tylko jakaś ciekawostka:P

Слава Україні!

Gdzie nie ma zasad, tam są kwasy.

Ej, ludzie, ale to nie jedyne kryterium!

Nie? Niemożliwe! ;-)

 

Oczywiste jest, że ocena każdego tekstu jest wieloczynnikowa. Cudownie, że cokolwiek da się zmierzyć, wychodząc poza “wydaje mi się” czytelnika.

 

Poza tym Firefox rulez!

 

EDIT: Pancergranaty mają zaimkozę 4.25% :-) a nie były pisane pod kątem optymalizacji tego parametru.

Pokój – szczęśliwość; ale bojowanie Byt nasz podniebny

Ależ to fajne. :-)

Dobry pomysł, ja jestem uzależniona od zaimków. yes

Pecunia non olet

Cieszę się, że się podoba, ale tylko przypomnę, że Zaimkomierz nie jest już rozwijany – jego rolę przejął Betomat , który jest dokładniejszy, bo dzieli zaimki na grupy itp. :) . Jedynym brakiem Betomatu jest to, że nie podaje jeszcze statystyk w skali całego tekstu (które są bardziej ciekawostką, niż czymś realnie użytecznym), dlatego Zaimkomierz jest wciąż dostępny, ale w przyszłości może zostać zdjęty.

Łukasz

(które są bardziej ciekawostką, niż czymś realnie użytecznym), dlatego Zaimkomierz jest wciąż dostępny,

Hm. A jesteś pewny, że to nie jest jedyna słuszna metoda oceny prozy? ;-)

Zresztą poezji też, a więc wszechrzeczy!

 

Mój nowy tekst (ten nieciekawy na becie), mimo że lekko optymalizowany z użyciem rozumu ma 8.19% :-(

 

A poważnie, te Twoje maszynki są świetne i użyteczne. Niektóre rzeczy widać dobrze właśnie po pokolorowaniu.

Pokój – szczęśliwość; ale bojowanie Byt nasz podniebny

@Radek

Jak uda nam się stworzyć algorytm doskonale oceniający prozę, wtedy, na podstawie takiego feedbacku, będziemy mogli uczyć sztuczną inteligencję na tekstach złożonych z losowych wyrazów, aż w końcu nauczy się pisać wyłącznie Doskonałe Teksty. ;)

A poważnie, te Twoje maszynki są świetne i użyteczne. Niektóre rzeczy widać dobrze właśnie po pokolorowaniu.

Dzięki. Motywuje mnie to do dalszego ich rozwijania :) .

Łukasz

Że też Ci się chłopie chce...

Ale to właśnie dzięki takim ludziom ten świat ciągle idzie do przodu.

 

Mój nowy tekst (ten nieciekawy na becie)

Nie potwierdzam, a nawet, najsampierw, aczkolwiek, bynajmniej  – wręcz zaprzeczam! laugh

Pecunia non olet

@Radek

Właśnie sprawdziłem, że piórkowa “Miłość Schrodingera” Gekiego składa się w prawie dziesięciu procentach z zaimków i miejscami dorównuje nawet mojej siękozie, także tego ;) .

 

Łukasz

Liczby nie kłamią :-P

Pokój – szczęśliwość; ale bojowanie Byt nasz podniebny

Dla mnie liczby dla dla człowieka kłamią. xd Obrazoburczo stwierdzę!

Logika zaprowadzi cię z punktu A do punktu B. Wyobraźnia zaprowadzi cię wszędzie. A.E.

Liczby nie mogą kłamać, albowiem nie są agentami moralnymi.

 

#precyzja

Gdzie nie ma zasad, tam są kwasy.

Liczby nie mogą? Mogą, Tarnino. Niestety, podobnie jak słowa i dwuwartościowa logika. Moralność, etyka, zasady? Napiszę tak, nie mamy obecnie sprzyjających warunków ku temu.

Logika zaprowadzi cię z punktu A do punktu B. Wyobraźnia zaprowadzi cię wszędzie. A.E.

Kłamstwo jest celowym powiedzeniem nieprawdy. Ekhm.

Gdzie nie ma zasad, tam są kwasy.

@Tarnina

Zgodnie ze słownikiem:

kłamstwo «twierdzenie niezgodne z rzeczywistością, mające wprowadzić kogoś w błąd»

Żeby stwierdzić, czy liczby mogą kłamać, trzeba się więc chyba najpierw zapytać, czy mogą coś twierdzić. Spójrzmy więc na definicję twierdzić:

twierdzić

1. «przedstawiać coś jako rzecz prawdziwą, pewną»

2. «przekazywać jakąś informację»

3. «utrzymywać coś, zapewniać o czymś»

Czy liczby przekazują jakąś informację? Dla pewności sprawdźmy jeszcze definicję przekazywania:

3. «wysłać jakiś bodziec, sygnał, impuls do jakiegoś urządzenia, narządu itp.»

Wydaje się, że liczby przekazują jakieś informacje, a więc twierdzą, a więc mogą kłamać. :hmm:

Łukasz

    Żeby stwierdzić, czy liczby mogą kłamać, trzeba się więc chyba najpierw zapytać, czy mogą coś twierdzić.

Rozumowanie w pełni prawidłowe, ale zapomniałeś o różnicy kategorialnej między liczbą (bytem na pewno niematerialnym, prawie na pewno – ogólnym, należącym do tzw. trzeciego świata, czyli świata idei platońskich), a agentem moralnym.

Otóż agent moralny może twierdzić (i kłamać) dosłownie, liczba zaś – tylko w przenośni. A to dlatego, że twierdzenie (asercja) jest czynnością, tych zaś liczby, jako byty idealne, nie wykonują. Natomiast agent moralny może przedstawiać liczby jako argumenty za podtrzymywaną przez siebie tezą, i wtedy mówimy (przenośnie), że liczby coś twierdzą.

QED

Gdzie nie ma zasad, tam są kwasy.

Narzędzie na pewno wielu osobom się przyda. Doceniam determinację, która doprowadziła do jego powstania. Tak że: brawo, Lukenie.

Ale, ale – co Ty z tymi procentami? Nieważne, jak często się zaimków używa, ważne, żeby robić to z głową.

Niektórzy tną nadgorliwie. To nie tak, że im mniej zaimków, tym lepszy warsztat. Pamiętajmy, że grają one więcej niż jedną rolę. Oprócz płytko logicznej mogą pełnić funkcję ekspresywną (”a jego wiara!” kontra “a jego wiara... ach, ta jego wiara!” – o, jak namnożyliśmy chwastów ;)) albo rozjaśniająco-wygładzającą, to znaczy zwiększającą czytelność i płynność przekazu (”one” w poprzednim zdaniu). Istnieje spora szara strefa, w której należałoby zostawić autorowi swobodę.

W porządku, prawem korektorów jest stosowanie zbyt gęstego sita. W ten sposób wyłapują więcej prawdziwych uchybień. Czyli bardzo dobrze – dopóki autor nie ulega korektorowi bez namysłu. Niech regułkowi absolutyści minimalizują bez końca, nie patrząc na efekty. Byle nie zdobyli nad nami władzy absolutnej. Niech zaimkomierze wyznaczają nowe granice. Byle nie przejęły Internetu Rzeczy i za przekraczanie limitów nie zaczęły nasyłać na nas dronów.

Ad  “kiedy”: owszem, zaimków jest rozmaitość, nie wszystkie jednak są częścią problemu.

Oczywiście, częstość występowania każdego słowa może być ciekawą informacją. I czasami przydatną dla autora. Niemniej walić na oślep autor nie może. Zanim ograniczymy populację szkodników, powinniśmy poznać ich rolę w ekosystemie. Uważajmy też na inne, podobne, a pożyteczne stworzonka.

Dobra, dodam jeszcze, że nie akceptuję krucjaty przeciw powtarzaniu “się”. Kiedy potrzebuję czasownika zwrotnego, korzystam z niego. A potrzebuję często, taka specyfika polszczyzny. Czy zastanawiacie się, ile razy w akapicie używacie danej końcówki gramatycznej? Przecież zaimek zwrotny w niektórych językach jest lub bywa taką końcówką. W naszym sprawy mają się inaczej – lecz to kwestia konwencji. Prawda, literatura nie mowa codzienna i – standardowo – powtórzenia się w niej ogranicza. Nie można jednak wszystkich słów traktować równą miarą. “Się” jest wszechobecne i już. Do dłuższego zdania da się zgrabnie wsadzić nawet cztery zaimki zwrotne – trzeba tylko taktycznie je rozmieścić. Na takie zdanie zwróciłem uwagę w “Extensie” Dukaja. Nie poczułem niezręczności, przeciwnie. Redaktor z WL najwyraźniej też nie, skoro przepuścił.

Tak, można ciąć bez końca, nie zważając na zanik komunikatywności tekstu. Można obsesyjnie unikać powtórzeń, wygibaśnie przeformułowując zdania. Ale w konsekwencji dostaniemy raczej coś w rodzaju trudnego wiersza niż płynnie się czytającą prozę.

Problem zaimkozy istnieje. W amatorskich opowiadaniach i tłumaczeniach zaimki bywają straszną plagą, to fakt. Częstość użycia “się” i wspomnianych końcówek gramatycznych również warto kontrolować (w rozsądnym stopniu). Nie neguję tego. Zwyczajnie apeluję, żeby nie przesadzać w drugą stronę, nie popadać w fanatyzm. Pomyśleć czasem odwrotnie.    

Total recognition is cliché; total surprise is alienating.

Można obsesyjnie unikać powtórzeń, wygibaśnie przeformułowując zdania.

Zawsze tak robię, a można nie?

Pokój – szczęśliwość; ale bojowanie Byt nasz podniebny

Tak serio? Można się nie bać, że któryś wyraz wystąpi dwa razy na jednej stronie. Stosować pewną taryfę ulgową wobec słów powtarzających się ze względu na specyfikę jężyka albo naturę tekstu. Np. "się", "być", imiona bohaterów. A mniej serio: można wszystko. Zrzuć kajdany ;)       

Total recognition is cliché; total surprise is alienating.

Tak serio? Można się nie bać, że któryś wyraz wystąpi dwa razy na jednej stronie.

Mi mówili, że ten sam wyraz (z drobnymi wyjątkami) nie może wystąpić w sąsiednich zdaniach. Czyli jeśli mam w co drugim zdaniu być, a w pozostałych mieć, to jest brzydko, ale wciąż dobrze.

Mówię oczywiście o tekście jakkolwiek literackim.

 

Serio!

Pokój – szczęśliwość; ale bojowanie Byt nasz podniebny

Ja taka nadgorliwa jestem. devil Pomijając fakt, że u siebie oczywiście nie zauważam, tnę takie powtórzenia równo.laugh

Pecunia non olet

@Radek

Z wyjątkami takimi jak "się", "i" albo "by". Nie dwa "się" w każdym zdaniu, ale w niektórych. Od czasu do czasu. "Być", które pełni wiele funkcji składniowych i w dodatku ma nieregularną, wielordzeniową fleksję (był, będzie, jest, są – różne brzmienia), też sporadycznie może występować częściej.

Nie wziąłem tego z kosmosu, Internetu ani z tajemnych mądrości cioci Zosi. Punktem odniesienia jest dla mnie dobra proza.

 

Oryginały – krystomatryce – były niewidzialne, mieściły się za emaliowanymi bladym błękitem stalowymi płytami. Tak więc książkę niejako drukowało się za każdym razem, kiedy ktoś jej potrzebował. Sprawa nakładów, ich wysokości, wyczerpywania przestała istnieć. Było to naprawdę wielkie osiągnięcie, a jednak żal mi było książek. Dowiedziawszy się, że istnieją antykwariaty z papierowymi książkami, odszukałem jeden. Rozczarowałem się, pozycji naukowych prawie nie było. Literatura rozrywkowa, trochę dziecięcej, nieco roczników starych pism.

Stanisław Lem, “Powrót z gwiazd”

 

Nawet jeśli dwa “było” w jednym zdaniu to efekt przeoczenia mistrza Lema (trudno orzec), mamy tu cztery “być” w jednym akapicie. Jestem przekonany, że choćby zamienić “żal mi było” na “żałowałem”, jakieś osoby z portalu niesłusznie dopatrzyłyby się tutaj “byłozy”.

 

Mi mówili, że ten sam wyraz (z drobnymi wyjątkami) nie może wystąpić w sąsiednich zdaniach.

Ta wytyczna brzmi sensownie. Kłopot polega na tym, że są osoby, które bezrefleksyjnie zaostrzają rozsądne reguły i absolutyzują je.

 

@bruce

Cóż mogę napisać... Postaraj się jednak nie przeginać z nożyczkami ;)      

Total recognition is cliché; total surprise is alienating.

Staram się, a jakże. wink

Pozdrawiam. 

Pecunia non olet

@jeroh:

Było to naprawdę wielkie osiągnięcie, a jednak żal mi było książek.

Zgodnie z tym, czego mnie uczono, poprawiałbym:

Było to naprawdę wielkie osiągnięcie, a jednak żałowałem książek.

 

W następnym też są książki: klęska, porażka i do wyrzucenia ;-)

Tzn. mam pomysł na zredagowanie tego całego akapitu na poprawnie, ale sądzę, że nie o to Tobie chodziło. Wrzucę może do porad językowych do testu.

Z wyjątkami takimi jak "się", "i" albo "by".

Wyjątków jest więcej, bo na przykład też “nie”.

 

@bruce:

Jest brzytwa Ockhama, niech nożyczki bruce zostaną :-)

Pokój – szczęśliwość; ale bojowanie Byt nasz podniebny

Hehehe, dobry duet, tu brzytwa, tam nożyczki. Horrorek, jak nic. laugh

Pecunia non olet

Nowa Fantastyka