SUBTLEX-PL - frekwencje polskich słów na podstawie napisów do filmów

03 Mar 2015 - by Paweł Mandera

W skrócie: tutaj dostępne są starannie przetestowane frekwencje polskich słów. Więcej informacji znajdziesz w niniejszym wpisie, a szczegóły w tym artykule.

Frekwencje słów

Jak często używane są poszczególne słowa? To pytanie jest interesujące samo w sobie, ale z punktu widzenia psycholingwistyki odpowiedź na nie jest absolutnie kluczowa, bo frekwencja bardzo silnie determinuje to, w jaki sposób i jak szybko badani udzielają odpowiedzi w większości eksperymentów.

Center for Reading Research od dawna przygotowuje tego typu statystyki dla poszczególnych języków starannie sprawdzając jakość frekwencji obliczonych na bazie różnych korpusów tekstów. Regularnie powtarzającym się rezultatem jest to, że frekwencje oparte na korpusie napisów do filmów, znacznie lepiej odzwierciedlają zachowanie badanych w eksperymentach niż te obliczone na bazie innych, nawet znacznie większych, korpusów tekstów.

SUBTLEX-PL

W ramach pracy nad doktoratem na Uniwersytecie w Gandawie przygotowałem tego listę frekwencyjną dla polskich słów. W tym celu ściągnęliśmy około 100,000 plików z napisami i po starannym wyczyszczeniu utworzyliśmy korpus liczący około 146 milionów słów. Cały korpus został otagowany przy użyciu TaKIPI – pozwoliło to na określenie części mowy i podstawowej formy każdego słowa w korpusie.

Następnie policzyliśmy ile razy każde słowo występuje w korpusie, w jakim odsetku filmów się pojawia, jak często występuje jako określona część mowy, jak często możemy jej przypisać daną formę podstawową oraz kilka innych statystyk. Publikujemy wszystkie te dane, więc SUBTLEX-PL zawiera znacznie więcej informacji niż typowa lista frekwencyjna.

Po szczegóły odsyłam do naszego artykułu opublikowanego w Behavior Research Methods. Zachęcam również do korzystania z frekwencji poprzez nasz interfejs. Frekwencje dostępne są też do ściągnięcia w kilku formatach na tej stronie.