Feature engineering is een moeilijke term voor het sorteren en het in context plaatsen van bepaalde data. Wilt u een goed model bouwen? Dan zult u, na het vaststellen van het onderzoeksgebied en het verzamelen en opschonen van de data, aan de slag moeten met ‘feature engineering’.
Wilt u bijvoorbeeld klantgedrag voorspellen? Dan is transactionele data (iemand heeft iets op een bepaald tijdstip gekocht) niet zo relevant. Om patronen te herkennen, is het interessanter om te weten hoeveel transacties er zijn geweest, wat de omzet was in een bepaalde periode of het omzetverschil vergelijken tussen twee periodes.
U leest het al: om dit soort data te sorteren en in een context te kunnen plaatsen, heeft u wel kennis nodig van het terrein dat u gaat onderzoeken. In het vakgebied van machine learning spreken we ook wel over ‘domeinkennis’. Gaat u een economisch model maken? Dan moet u wel experts betrekken die betekenis kunnen geven aan bepaalde economisch factoren.
Als er data ontbreekt, kunt u met deze domeinkennis beter bepalen of dit cruciale data is. Ook kunt u de uitkomsten veel beter interpreteren, zoals of er een fout zit in het model, of het toeval is, of dat de resultaten echt kloppen.