WUMed | Tekst jak sieć: ile wyrazów wystarczy, by rozpoznać autora?
14 kwietnia 2019
Czy wiesz, że...

Indywidualność autora widać już w powiązaniach między zaledwie kilkunastoma wyrazami tekstu angielskiego. W językach słowiańskich rozpoznać to można jeszcze łatwiej - sugerują analizy tekstów literackich przeprowadzone nową metodą stylometrii, zaproponowaną przez fizyków z Krakowa.

Jak zweryfikować, spod czyjego pióra wyszedł historyczny tekst znany jedynie z fragmentów? Jak ustalić rzeczywistego twórcę internetowego paszkwilu? Jak naprawdę wiarygodnie stwierdzić, czy tekst pracy magisterskiej bądź doktorskiej nie jest plagiatem?

Tradycyjne metody stylometryczne w wielu przypadkach zawodzą lub nie prowadzą do dostatecznie pewnych wniosków. Na łamach czasopisma „Information Sciences” (https://doi.org/10.1016/j.ins.2019.01.040) naukowcy z Instytutu Fizyki Jądrowej Polskiej Akademii Nauk (IFJ PAN) w Krakowie przedstawili własne narzędzie statystyczne do analizy stylometrycznej. Skonstruowane jest ono z użyciem grafów i pozwala spojrzeć na strukturę tekstów w jakościowo nowy sposób - poinformował Instytut w przesłanym PAP komunikacie.
„Wnioski płynące z naszych badań z jednej strony są budujące. Wskazują bowiem, że indywidualność każdej osoby przejawia się wyraźnie w sposobie używania już zaskakująco małej liczby wyrazów. Ale jest i druga, ciemniejsza strona medalu. Skoro bowiem okazujemy się tak oryginalni, będzie nas można łatwiej identyfikować po wypowiedziach” - mówi prof. dr hab. Stanisław Drożdż (IFJ PAN, Politechnika Krakowska).

PO STYLU MNIE POZNACIE

tylometria – czyli nauka zajmująca się wyznaczaniem statystycznych charakterystyk stylu tekstów – opiera się na spostrzeżeniu, że każdy z nas nieco inaczej używa nawet tego samego języka. Jedni mają szerszy zasób słownictwa, inni węższy, ktoś lubi stosować pewne sformułowania i popełnia błędy, ktoś inny unika powtórzeń i jest purystą językowym. Gdy piszemy, różnimy się też sposobem stosowania znaków interpunkcyjnych.
W typowym podejściu stylometrycznym zazwyczaj bada się podstawowe cechy tekstu, np. częstotliwość występowania poszczególnych wyrazów, interpunkcję zaś się ignoruje. Analizy są przeprowadzane dla badanego tekstu oraz dla tekstów napisanych przez potencjalnych, dobrze znanych autorów. Za twórcę uznaje się tę osobę, której dzieła mają parametry o wartościach najbardziej zbliżonych do otrzymanych dla identyfikowanego materiału.

GRA W GRAFY

„My zaproponowaliśmy, żeby charakterystycznych cech stylu szukać w sieciowej reprezentacji tekstu, za pomocą grafów” - wyjaśnia cytowany w komunikacie Tomasz Stanisz, doktorant IFJ PAN i pierwszy autor publikacji, po czym precyzuje: „Graf to zbiór punktów, czyli wierzchołków grafu, połączonych liniami, czyli krawędziami grafu. W najprostszym przypadku – w tak zwanej sieci nieważonej – wierzchołki odpowiadają poszczególnym wyrazom i są połączone krawędziami wtedy i tylko wtedy, gdy w tekście dane dwa wyrazy przynajmniej raz wystąpiły obok siebie. Na przykład dla zdania `Ala ma kota` graf miałby trzy wierzchołki, po jednym dla każdego wyrazu, ale krawędzie byłyby tylko dwie, jedna między `Ala` a `ma`, druga między `ma` a `kota`”.

Podczas konstruowania swoich narzędzi stylometrycznych badacze z IFJ PAN testowali różne rodzaje grafów. Najlepsze wyniki otrzymano dla grafów ważonych, a więc takich, w których każda krawędź niesie informację o liczbie wystąpień odpowiadającego jej połączenia między wyrazami. W takich sieciach najbardziej przydatne okazały się dwa parametry: krotność węzłów i tzw. współczynnik gronowania. Pierwszy z nich opisuje liczbę krawędzi wychodzących z danego węzła i bezpośrednio wiąże się z liczbą wystąpień danego wyrazu w tekście. Z kolei współczynnik gronowania opisuje prawdopodobieństwo tego, że dwa wyrazy połączone krawędzią z danym wyrazem są połączone krawędzią także między sobą.

96 KSIĄŻEK

Za pomocą tak przygotowanych narzędzi statystycznych krakowscy fizycy przyjrzeli się 96 książkom: po sześciu powieściom ośmiu znanych autorów angielskich (Austen, Conrad, Defoe, Dickens, Doyle, Eliot, Orwell, Twain) i ośmiu polskich (Korczak, Kraszewski, Lam, Orzeszkowa, Prus, Reymont, Sienkiewicz, Żeromski). Grupa z IFJ PAN sprawdzała następnie, z jaką wiarygodnością można w ramach jednego języka stwierdzić autorstwo 12 losowo wybranych dzieł, traktując pozostałą część puli utworów jako materiał do porównań.
„W przypadku tekstów angielskich identyfikowaliśmy autorów poprawnie w niemal 90 proc. przypadków. Na dodatek by osiągnąć sukces należało prześledzić powiązania między zaledwie 10-12 wyrazami badanego tekstu. Wbrew naiwnej intuicji, dalsze zwiększanie liczby badanych wyrazów nie podnosiło znacząco skuteczności metody” - mówi Tomasz Stanisz.

W języku polskim ustalenie autorstwa okazało się jeszcze prostsze: wystarczało prześledzić powiązania zaledwie 5-6 wyrazów. Co szczególnie ciekawe, mimo dwukrotnie mniejszej niż w języku angielskim puli istotnych wyrazów, prawdopodobieństwo poprawnej identyfikacji wzrastało – nawet do 95 proc.! Tak wysoka poprawność diagnoz była jednak osiągana tylko wtedy, gdy jako osobne wyrazy traktowano także znaki interpunkcyjne. W obu językach pominięcie interpunkcji skutkowało wyraźną redukcją liczby poprawnych odgadnięć. Zaobserwowana rola interpunkcji to kolejne potwierdzenie wniosków z publikacji grupy prof. Drożdża z 2017 roku (http://dx.doi.org/10.1016/j.ins.2016.09.051), gdzie wykazano, że interpunkcja pełni w języku rolę równie ważną jak same wyrazy.
„W porównaniu z językiem angielskim język polski wydaje się dawać większe możliwości ujawniania się stylu autora. Sądzimy, że podobną cechą charakteryzują się również pozostałe języki słowiańskie. Angielski jest bowiem językiem pozycyjnym, co oznacza, że istotna jest w nim kolejność wyrazów w zdaniu. Taki język pozostawia mniej miejsca na indywidualny styl wypowiedzi niż języki słowiańskie, w których o roli słowa czy wyrazu w zdaniu decyduje fleksja, czyli odmiana. Dopuszcza ona bowiem większą swobodę organizacji kolejności wyrazów w zdaniu przy niezmienionym jego znaczeniu” - podsumowuje prof. Drożdż.

http://naukawpolsce.pap.pl/aktualnosci/news,33606,tekst-jak-siec-ile-wyrazow-wystarczy-rozpoznac-autora.html

instytucje współpracujące

Instytut
"Pomnik - Centrum Zdrowia Dziecka"
w Warszawie
Narodowy Instytut Geriatrii, Reumatologii i Rehabilitacji
im. prof. dr hab. med. Eleonory Reicher

ul. Spartańska 1, Warszawa
Narodowe Centrum
Profilaktyki Zdrowotnej
www.ncpz.eu
Narodowy Instytut
Kardiologii

ul. Alpejska 42, 04-628 Warszawa
Uniwersyteckie Centrum Kliniczne
Warszawskiego Uniwersytetu Medycznego

ul. Banacha 1A, 02-097 Warszawa
Szpital Praski
p.w. Przemienienia Pańskiego
Sp. z o.o.

Aleja Solidarności 67, Warszawa
Szpital Wolski
im. dr Anny Gostyńskiej
Samodzielny Publiczny Zakład Opieki Zdrowotnej

ul. Kasprzaka 17, Warszawa
Warszawski
Szpital Południowy

ul. Rotmistrza Witolda Pileckiego 99, Warszawa
Mazowiecki Szpital Wojewódzki
im. św. Jana Pawła II w Siedlcach
Sp. z o.o.

Księcia Józefa Poniatowskiego 26,
08-110 Siedlce
Szpital Miejski
w Siedlcach

ul. Starowiejska 15, Siedlce
Szpital Powiatowy
w Garwolinie

ul. Lubelska 50,
08-400 Garwolin
Samodzielny Publiczny Szpital
Kliniczny im. prof. Orłowskiego
CMKP

ul. Czerniakowska 231,
00-416 Warszawa
Szpital Czerniakowski
Sp. z o. o.

ul. Stępińska 19/25, Warszawa
Mazowiecki Szpital Bródnowski
ul. Kondratowicza 8, Warszawa
Samodzielny Publiczny
Szpital Kliniczny
im. prof. Adama Grucy
CMKP

ul. Konarskiego 13, Otwock
Szpital Specjalistyczny
im. Świętej Rodziny

Madalińskiego 25, 02-544 Warszawa
Szpital Kolejowy
im. dr med. Włodzimierza Roeflera
w Pruszkowie
Szpital św. Anny
w Piasecznie
Adama Mickiewicza 39,
05-500 Piaseczno
Szpital Dziecięcy
im. prof. dr. med. Jana Bogdanowicza
Samodzielny Publiczny Zakład Opieki Zdrowotnej

ul. Niekłańska 4/24, Warszawa
Mazowiecki
Szpital Wojewódzki
Drewnica Sp. z o.o.

Rychlińskiego 1, Ząbki
Szpital Matki Bożej
Nieustającej Pomocy
w Wołominie

ul. Gdyńska 1/3
05-200 Wołomin
Mazowieckie Centrum
Neuropsychiatrii Sp. z o.o.

Zagórze k/Warszawy
05-462 Wiązowna
Wojewódzka Stacja
Pogotowia Ratunkowego
i Transportu Sanitarnego
"MEDITRANS"
SPZOZ w Warszawie

ul. Hoża 56, 00-685 Warszawa
Samodzielny Zespół Publicznych
Zakładów Lecznictwa Otwartego
Warszawa-Ochota

ul. Szcześliwicka 36, 02-353 Warszawa
Samodzielny Zespół Publicznych
Zakładów Lecznictwa Otwartego Warszawa Bemowo-Włochy

ul. Gen. M. C. Coopera 5, Warszawa
Samodzielny Zespół Publicznych Zakładów Lecznictwa Otwartego
Warszawa-Mokotów

ul. A.J.Madalińskiego 13, Warszawa
Samodzielny Zespół Publicznych Zakładów Opieki Zdrowotnej
im. Dzieci Warszawy
w Dziekanowie Leśnym
Centrum Medyczne
GRUPA ZDROWIE

Nowodworskie
Centrum Medyczne

ul. Miodowa 2
Nowy Dwór Mazowiecki
Stołeczne Centrum
Opiekuńczo-Lecznicze
Sp. z o.o.

ul. Mehoffera 72/74, Warszawa
Zakład Opiekuńczo - Leczniczy
Zakład Leczniczo - Rehabilitacyjny
WIGOR

w Legionowie
Centrum Intensywnej Terapii Olinek
ul. Bobrowiecka 9, Warszawa
RADIOMEDICA
Centrum Diagnostyki Obrazowej

ul.Bobrowiecka 9, Warszawa
Hospicjum
Sióstr Felicjanek
im. bł. Hanny Chrzanowskiej

ul. Nowowiejska 10A, Warszawa
HOSPICJUM EWDOMED
ul. Piłsudskiego 3a
05-510 Konstancin-Jeziorna
NESTOR
Bezpieczny Dom Opieki

ul.Bobrowiecka 9, Warszawa
Fundacja
Odzyskać Radość

Bogurzyn 87, 06-521 Wiśniewo
Niepubliczny żłobek
Ale Frajda

ul. Bolesławicka 40, Warszawa
Warszawskie Zakłady
Sprzętu Ortopedycznego S.A.

al. Bohaterów Września 9, Warszawa
www.fantomy-szkoleniowe.pl
Podkarpackie centrum
Usług Dydaktycznych

ul. Rymanowska 15a
35-083 Rzeszów
Kontakt
Warszawska Uczelnia Medyczna
im. Tadeusza Koźluka

ul. Bobrowiecka 9, 00-728 Warszawa

INFORMACJE O UCZELNI / REKRUTACJA:  
T: 22 559 21 05
T: 22 559 21 06
T: 22 559 22 35
E: rekrutacja@wumed.edu.pl
Copyright © 2023 - WUMED
INFORMACJA DOTYCZĄCA PLIKÓW COOKIES
Informujemy, iż w celu optymalizacji treści dostępnych na stronie wumed.edu.pl, oraz dostosowania strony do indywidualnych potrzeb użytkownika korzystamy z informacji zapisanych za pomocą plików cookies na Państwa urządzeniach. Pliki cookies możecie Państwo sprawdzić za pomocą ustawień swojej przeglądarki internetowej. Dalsze korzystanie z naszej strony, bez zmiany ustawień przeglądarki internetowej oznacza, iż akceptujecie Państwo stosowanie plików cookies. Więcej informacji w zakładce OCHRONA DANYCH OSOBOWYCH.
rozmiar tekstu
kolory strony