Dane kategorialne

  • 1 Odpowiedzi
  • 730 Wyświetleń
*

nowicjusz

  • Nowy użytkownik
  • *
  • 7
    • Zobacz profil
Dane kategorialne
« dnia: Listopad 16, 2017, 10:51:40 pm »
Hej,
zastanawiam się nad algorytmami machine learning i podobno można przewidywać ceny mieszkań na podstawie dzielnicy. Mam pytanie, jak takie dane algorytm przetwarza? Tzn. jak takie dane podaje się do algorytmów? Chyba nie w formie tekstowej?

*

artuditu

  • Nowy użytkownik
  • *
  • 10
    • Zobacz profil
Odp: Dane kategorialne
« Odpowiedź #1 dnia: Listopad 16, 2017, 11:18:10 pm »
Oczywiście algorytmy uczenia maszynowego przetwarzają tylko i wyłącznie liczby. Jeśli masz cechę typu dzielnica, która może przyjmować \( n \) wartości to rozdzielasz ją na \( n \) cech. Upraszczając - jeśli dzielnica może mieć np. tylko trzy wartości - centrum, śródmieście, przedmieście - to cechę dzielnica rozdzielasz na trzy cechy. Coś w stylu:
czy_centrum | czy_srodmiescie | czy_przedmiescie

Wszystkie z tych cech przyjmują wartość 0 oprócz dzielnicy, której dotyczy aktualny wiersz, wtedy przyjmuję wartość 1. Tzn. cechę "dzielnica" i jej wartość "przedmieście" zamieniasz na wektor cech i wektor wartości, który wygląda tak: (0,0,1) - dla naszego przykładu.

Akurat wycena nieruchomości jest o tyle specyficzna, że można próbować także inaczej implementować położenie konkretnej nieruchomości. Jeśli znamy dokładny adres to możemy próbować policzyć odległość od centrum i zamiast dzielnicy wrzucamy do algorytmu daną odległość. Ale jest to już trochę inna - trudniejsza bajka.