Dal corso: Fondamenti di intelligenza artificiale: apprendimento automatico

Selezionare l’algoritmo migliore

- Qualcosa che dovrai fare come specialista di apprendimento automatico è scegliere l'algoritmo migliore per la tua sfida. In alcuni casi non avrai molta scelta. Se i tuoi dati sono etichettati, probabilmente vorrai utilizzare l'apprendimento supervisionato. Ricorda che i dati etichettati ti aiutano a comprendere sia l'input che l'output. Quindi, se stai creando un'applicazione che ti aiuta a valutare la tua casa, avrai bisogno di un sacco di dati etichettati. Di solito si tratta di tag diversi che consentono di identificare i dati. Quindi taggherai come codice postale, metratura e numero di bagni. La tua macchina non deve trovare i propri schemi. Se i tuoi dati non sono etichettati, probabilmente utilizzerai l'apprendimento non supervisionato. Qui lascerai che la macchina crei i propri cluster. Quindi alimenterai alla tua macchina tutti i dati che hai su diverse case. Quindi la macchina decide quali cluster hanno più senso. Forse la macchina ha raggruppato tutte le case che hanno una migliore pedonabilità. Potrebbe anche essere un criterio sconosciuto. Una volta che hai i cluster, sarai in grado di estrarre un significato. Se si dispone di enormi quantità di dati non etichettati, probabilmente si desidera utilizzare il clustering k-means. O qualche altro modo per fare in modo che le macchine creino cluster. Il rovescio della medaglia, se si dispone di un gruppo di dati etichettati, è possibile utilizzare la regressione, il vicino k più vicino o gli alberi decisionali. Puoi anche provare un sacco di algoritmi diversi e poi dare un'occhiata più da vicino ai risultati. Tieni presente che questo può richiedere molto tempo e utilizzare una notevole potenza di calcolo, quindi non aspettarti di ottenere risultati immediati. Supponiamo che tu stia lavorando con l'apprendimento automatico supervisionato, vuoi usare tre diversi algoritmi sui tuoi dati di addestramento, alberi decisionali, baie ingenue o k-nearest neighbor. Quindi puoi guardare i risultati e vedere quale aveva il più alto livello di precisione. Puoi anche provare qualcosa chiamato modellazione d'insieme. Questo è quando si lavora per creare diversi insiemi di algoritmi di apprendimento automatico. Ci sono un paio di modi in cui puoi creare ensemble. C'è il sacchetto, il potenziamento e l'impilamento. Il bagging è quando si creano diverse versioni dell'algoritmo di machine learning. Ricorda che gli alberi decisionali possono essere organizzati in molti modi diversi. È possibile creare molti predittori diversi per la nota radice. Quindi, se vuoi usare il sacchetto, dovresti semplicemente creare diversi alberi diversi e vedere quale ha avuto i migliori risultati. Puoi anche calcolare la media dei risultati se ottieni risultati incoerenti. Il potenziamento è quando si utilizzano diversi algoritmi di apprendimento automatico per cercare di aumentare l'accuratezza dei risultati. È possibile utilizzare il clustering k-means in combinazione con un albero decisionale. Qui prendere le foglie dell'albero e poi lasciare che sia la macchina a decidere se c'è qualche raggruppamento interessante. Questo è anche un buon esempio di apprendimento semi-supervisionato. Lo stacking è quando si utilizzano diversi algoritmi di machine learning e li si impila per migliorare la precisione. Il team che ha vinto il premio Netflix ha utilizzato una forma di impilamento. Si chiamava Feature Waited Linear Stacking. Hanno creato diversi modelli predittivi e poi li hanno impilati uno sopra l'altro. Quindi potresti impilare il vicino k-più vicino in cima a baie ingenue. Ognuno potrebbe semplicemente aggiungere lo 0,01%, ma nel tempo questo può essere un miglioramento significativo. Alcuni vincitori di concorsi di apprendimento automatico impilano più di 30 algoritmi. La cosa fondamentale da ricordare è che puoi pensare a ogni algoritmo di apprendimento automatico come a un potenziale strumento. Puoi sperimentare per trovare il migliore o puoi lavorare con diversi strumenti come un modo per migliorare la tua precisione.

Contenuti