Co to jest TF-IDF, jego wpływ na SEO i dlaczego Surfer ma Prominent Words and Phrases

Sposobów na matematyczne opisanie zależności między słowami jest wiele. TF-IDF jest jedną z metod, która pozwala na określenie stopnia powiązania konkretnych słów z tematyką. Z tego tekstu dowiesz się, jak jest obliczany TF-IDF, dlaczego warto zwrócić uwagę na tę metodę i jakie istnieją dla niego alternatywy.

Co to jest TF-IDF

TF-IDF to metoda obliczania wagi słów, w oparciu o liczbę ich wystąpień, należąca do grupy algorytmów, obliczających statystyczne wagi termów… Wiemy, wygląda skomplikowanie, ale nie przestawaj czytać! Teoria brzmi znacznie trudniej, niż tak naprawdę jest w praktyce :-)

Analiza odbywa się w oparciu o częstotliwość występowania słowa w dokumencie i logarytm odwrotnej częstości występowania słowa w dokumentach, stanowiących korpus porównawczy (zbiór dokumentów).

Innymi słowy, dzięki TF-IDF dowiadujemy się, które słowa mają największą wagę w dokumentach. Możemy to odnieść np. do treści stron internetowych występujących w top10. Dzięki wadze i częstości występowania słów na stronach, plasujących się wysoko w wynikach wyszukiwania, możemy optymalizować nasz content.


Jak to działa?

Pierwsza część algorytmu, TF (terms frequency), sprawdza, jak często dane słowo pojawia się w dokumencie, w stosunku do ilości treści. Im częściej słowo występuje, tym wyższy będzie wynik TF-IDF.

IDF (inverse document frequency) oblicza z kolei odwrotny stosunek ilości dokumentów, w którym wystąpiło słowo, do ilości wszystkich dokumentów w zbiorze. Im rzadziej słowo występuje w korpusie porównawczym, tym wyższy będzie TF-IDF.

Takim zbiorem może być grupa tekstów na różne tematy, np. wszystkie artykuły w polskiej Wikipedii. Dzięki temu algorytm wie, czy dane słowo jest popularne w całym zbiorze, stanowiącym punkt odniesienia dla konkretnego tematu. Im więcej dokumentów ze zbioru zawiera to słowo, tym mniejszą wagę ono uzyskuje.

W wyniku mnożenia TF*IDF otrzymujemy wagę słowa. Dzięki tej metodzie znajdujemy słowa, które występują często w analizowanym dokumencie i rzadko w korpusie porównawczym. Wyróżniają one treść na tle całego zbioru i stanowią o powiązaniu słowa z danym tematem.

TF-IDF Wzór


Dlaczego TF-IDF może być interesujący


Po pierwsze, dzięki TF-IDF jesteśmy w stanie znaleźć słowa, które są istotne w kontekście konkretnego wyrażenia. To znacznie ułatwia optymalizację i budowanie odpowiedniej tematyki w obrębie tworzonych treści.

Po drugie, TF-IDF pozwala na uszeregowanie słów w kolejności od najważniejszych do najmniej istotnych, co z kolei pozwala wyczerpać zakres tematyczny dla wybranego zapytania.

Po trzecie, wykorzystanie słów TF-IDF daje dobre rezultaty w SEO. O wynikach możesz przeczytać w case study na blogu Matta Diggity’ego: https://diggitymarketing.com/tfidf-for-seo/ i Authority Hacker: https://www.authorityhacker.com/tf-idf/


Czego nie wiemy o TF-IDF?

Nie wiadomo czy Google używa TF-IDF, a nawet jeśli tak, to w jakiej formie. To jeden z podstawowych problemów tego algorytmu, ponieważ zależy on w dużej mierze od analizy zbioru dokumentów.

It’s unknown if Google is using TF*IDF in their algorithm, and if they are, is it a mutated form of it or not? That said, there have been some private correlation studies that I’ve been privy whose data suggests that it’s likely.

Matt Diggity, https://diggitymarketing.com/tfidf-for-seo/

Źle dobrany lub niekompletny zbiór sprawia, że ocena wagi słowa jest błędna. Podany wcześniej przykład Wikipedii jako zbioru dokumentów do analizy IDF może niekoniecznie być dobrym wyborem, ponieważ każdy ograniczony zbiór jest w jakiejś tematyce stronniczy.

Jeśli Google faktycznie korzysta z TF-IDF, stawia go to tym samym na lepszej pozycji niż jakiekolwiek inne, dostępne na rynku narzędzie. Dlaczego? Google ma tę przewagę, że dysponuje zbiorem treści z całego Internetu. Dzięki temu jest w stanie stworzyć bezstronny korpus porównawczy (oczywiście, o ile używa TF-IDF).

Skuteczność TF-IDF

Podstawową zmienną, która ma wpływ na ostateczne wagi poszczególnych słów, jest zbiór dokumentów, który wykorzystujemy do obliczenia IDF. Trzeba pamiętać, że IDF musi być przeliczony dla każdego słowa występującego w dokumentach, aby zapewnić akceptowalną szybkość działania.

Im zbiór dokumentów (korpus) jest bardziej rozbudowany, tym więcej danych trzeba przeliczyć. Stwarza to problemy infrastrukturalne, takie jak:

  • przechowywanie danych,
  • udostępnianie wyników w krótkim czasie.

Trudność w określaniu wielkości zbioru polega na tym, że trzeba znaleźć kompromis między szybkością działania, a dokładnością wyników. Warto w tym miejscu przypomnieć, że im większy korpus, tym dokładniejsze wyniki uzyskujemy.

Wyrażenia a TF-IDF

IDF polega na obliczaniu logarytmu z wyniku dzielenia dwóch zmiennych. Wyobraź sobie koszt obliczenia IDF dla każdego słowa w języku polskim. Różne źródła podają, że może ich być od 140 do 350 tysięcy. Teraz pomyśl, ile mogłoby zająć przeliczenie, przechowywanie oraz udostępnianie do dalszych obliczeń IDF dla każdego wyrażenia składającego się z dwóch, trzech, czterech słów… To praktycznie niewykonalne, a mówimy tylko o języku polskim.

Dłuższe wyrażenia znacznie bardziej różnicują treści. Weźmy na przykład taki “bank krwi”. W ramach TF-IDF uzyskujemy informację, że słowo “bank” jest niezwykle istotne, jednak jest spora różnica, czy użyjemy wyrażeń “bank krwi”, “bank nasienia” czy “bank spółdzielczy”.

Problemy, z jakimi musi mierzyć się sprawnie działający system obliczania TF-IDF, to:

  • Określanie wielkości zbioru dokumentów,
  • Dbanie o bezstronność zbioru,
  • Cykliczne aktualizacje, wynikające z powstawania nowych słów,
  • Konieczność posiadania osobnych zbiorów dla różnych języków,
  • Niezwykle kosztowne obliczanie TF-IDF dla wyrażeń składających się z 2 i więcej słów.

TF-IDF, mimo swoich ograniczeń, wciąż jest skuteczny i przydatny w kontekście tworzenia i optymalizacji treści.

W Surferze postanowiliśmy jednak znaleźć rozwiązanie, które będzie bazowało bezpośrednio na algorytmie Google oraz pozwoli określać istotność słów i fraz, bez względu na jego ewolucję.

Pozwól, że opowiemy Ci jak to działa.

Prominent words and phrases

Proces określania istotnych słów i wyrażeń zaczyna się, podobnie jak w TF-IDF, od obliczenia częstości występowania. Wyniki działania są dostępne w tabelach Popular words i Popular phrases. Aby słowo lub wyrażenie znalazło się na tej liście, musi być jednym z 30 najpopularniejszych słów lub wyrażeń oraz pojawiać się w treści co najmniej dwa razy.

Drugą część procesu stanowi obliczenie wspólnych słów i wyrażeń dla stron występujących w pierwszej dziesiątce wyników wyszukiwania. Polegamy na aktualnych wynikach działania algorytmu Google. Słowo lub fraza są umieszczone na liście, jeśli występują na co najmniej 4 stronach z top10.

Oba zbiory zostają przecięte, a wynik zawiera słowa i frazy, które są dla nich wspólne. Uzyskane w ten sposób wyrażenia stanowią dokładny obraz tego, co aktualnie jest premiowane przez wyszukiwarkę Google, niezależnie od tego, w jaki sposób przeanalizowała ona treści.

Dlaczego Prominent, a nie TF-IDF?

Wyniki TF-IDF są wartościowe, jednak zawierają jedynie słowa. Wyrażenia pozwalają na większe zróżnicowanie treści, a analiza TF-IDF dla wyrażeń z dużej bazy jest praktycznie niewykonalna ze względu na niezbędną do tego ilość obliczeń.

Postawiliśmy na Prominent z dwóch powodów:

  • Możemy analizować wyrażenia, które mają większą wartość różnicującą.
  • Nie próbujemy odtworzyć algorytmu Google, a analizujemy jego wyniki. Dzięki temu Prominent words and phrases są niezależne od tego, w jaki sposób i czy w ogóle Google korzysta z TF-IDF.

Porównanie wyników TF-IDF oraz Prominent

Dla jeszcze lepszego zaprezentowania różnic, przedstawiamy wyniki prostego testu. Przykład przedstawia analizę TF-IDF i Prominent words and phrases dla frazy „seo services” w USA. Wnioski z eksperymentu są następujące:


  • Większa ilość słów i wyrażeń została znaleziona w Prominent.
  • Większa dokładność wyróżnia Prominent, które zamiast słowa “seo” podaje kilkanaście wariantów wykorzystania w postaci wyrażeń dwu, trzy i czterowyrazowych.

Do analizy TF-IDF wykorzystałem Seobility: https://www.seobility.net/en/tf-idf-keyword-tool/


Podsumowanie

Mimo że TF-IDF jest skutecznym i wartościowym sposobem na optymalizację treści pod kątem konkretnego słowa kluczowego, to zdecydowaliśmy się na autorskie rozwiązanie. Prominent words and phrases dostarcza więcej danych i bazuje bezpośrednio na wynikach dostarczanych przez algorytm Google. Gdyby TF-IDF dawało lepsze wytyczne, znalazłbyś tę analizę w Surferze.

Michał Suski

Z marketingiem internetowym związany od 2016. Współzałożyciel Surfera i fan pozycjonowania w oparciu o dane. Zawsze chętnie dzieli się wiedzą na webinarach, konferencjach, szkoleniach i w artykułach.

(4.8/5), głosów: 16
Ocena strony:
Komentarze
3 komentarze
Michał Suski
Hey @jibran ayub, for TF-IDF i used SEObility: https://www.seobility.net/en/tf-idf-keyword-tool/ this one to be precise. I analyzed a random website against seo services keyword and extracted whole TF-IDF table.
jibran ayub
hey which website did you use to check it?
Jahir Rayhan
Thanks, Michal for sharing.