Estimation of Panel Data Models for Clustering: an Empirical Application

This thesis work is based on the research article "Estimation of Panel Data Models with Parameter Heterogeneity when Group Membership is Unknown", published on the Journal of Econometric Methods in 2012 by C-C. Lin and S. Ng whose focus is the estimation of panel data models with partial data heterogeneity when looking for a group structure. Two methods are considered: the first one is a pseudo-threshold methodology, which assesses group membership using threshold variables and cut-offs, while the second one is a modified version of the very popular K-Means algorithm for clustering: this version allows to obtain a classification in a supervised learning framework in which a target variable is predicted by means of many regressors; group membership is assessed setting conditional means as centroids in the groups and assigning each unit to the group with the nearest centroid. Both methods start with unknown group membership and they have the goal of estimating group-specific coefficients, telling the impact of different regressors in predicting the target in every group obtained, assessing group membership and determining the best number of groups according to two different criteria: a sequential test for parameter heterogeneity, as the one proposed by Pesaran and Yamagata (2008)and a modified BIC criterion. The best number of groups is determined when homogeneity within a cluster and heterogeneity between clusters is reached in sequential test, while the modified BIC considers the goodness of fit and the parsimony in the model and the best number of clusters corresponds to the minimum BIC. I tried to apply these two clustering approaches in a financial setup, considering as target the excess returns of each costituent of the Nikkei 225 Index, which is the most representative of the Japanese Stock Market; in order to reach a compromise between complete parameter heterogeneity and complete homogeneity, I used many regressors which are common to all the stocks, like the benchmark five factors of Fama and French and the observable risk factors suggested by Ando and Bai (2015), and also individual-specific factors, like market or balancesheet data, over a 10-year period.

Questa tesi è basata sul paper "Estimation of Panel Data Models with Parameter Heterogeneity when Group Membership is Unknown" di C-C. Lin and S. Ng pubblicato nel 2012 sul Journal of Econometric Methods, il cui focus è la stima di modelli panel con parziale eterogeneità dei dati, nonché la ricerca di una possibile struttura di gruppo. Due metodi sono considerati nel paper: il primo utilizza variabili-soglia e cut-off per determinare l'appartenenza ai diversi gruppi e per questo è definito metodo pseudo-threshold, mentre il secondo è una versione modificata dell'algoritmo K-Means, molto diffuso in letteratura: tale versione consente di ottenere una classificazione in un modello di apprendimento supervisionato, quando è necessario predire un target in base a più variabili esplicative; l'appartenenza ai gruppi è determinata, in questo caso, assumendo come centroidi le medie condizionate e assegnando ogni unità al gruppo più vicino in termini di distanza dal centroide. Entrambe le metodologie considerano in partenza sconosciuta l'appartenenza ai gruppi e hanno l'obiettivo di determinarla, così come di stimare i parametri specifici per ogni gruppo ed il numero ottimale di gruppi in base a due diversi criteri: il primo è un test sequenziale di omogeneità come quello proposto da Pesaran e Yamagata (2008), mentre l'altro è una versione modificata del Criterio di Informazione Bayesiano. Tale numero è determinato, nel test sequenziale, quando l'omogeneità all'interno dei gruppi e l'eterogeneità tra gruppi è raggiunta, mentre il valore minimo del BIC modificato corrisponde al miglior numero di gruppi. Ho cercato un'applicazione finanziaria per queste due metodologie, considerando come target l'eccesso di ritorno di ogni azione del NIkkei 225, indice rappresentativo del mercato azionario giapponese. Per raggiungere il compromesso tra completa eterogeneità e completa omogeneità ho utilizzato, nel modello di regressione panel su un periodo di dieci anni, sia regressori comuni a tutti i titoli dell'indice, come i cinque fattori di Fama e French e i fattori di rischio osservabili suggeriti da Ando e Bai (2015), sia fattori specifici per ogni azione, come valori di mercato e di bilancio.