La rapida crescita delle fonti di notizie online ha aumentato la difficoltà per gli utenti di individuare in modo efficiente contenuti in linea con i propri interessi personali. Questa tesi affronta il problema dell’accesso a contenuti rilevanti in presenza di sovraccarico informativo, attraverso la progettazione e l’implementazione di un sistema di raccomandazione per feed Really Simply Syndication (RSS) personalizzati, basato sulla similarità dei contenuti e sulla modellazione delle preferenze degli utenti. L’obiettivo principale di questa tesi è investigare se rappresentazioni basate su embedding, derivate dai titoli degli articoli, combinate con tecniche di ricerca Approximate Nearest Neighbour (ANN), possano personalizzare efficacemente i feed RSS e fornire articoli rilevanti agli utenti. Viene presentata una revisione dello stato dell’arte nei lettori RSS e nei sistemi di raccomandazione basati sul contenuto, evidenziando i limiti del filtraggio a livello di sorgente e la necessità di una personalizzazione più fine a livello di singolo articolo. Sulla base di tale analisi, è stato sviluppato un sistema web basato su un’architettura modulare. Il backend è implementato utilizzando il framework Flask e un database SQLite per la persistenza dei dati, mentre il frontend si basa su tecnologie web standard quali HyperText Markup Language (HTML), Cascading Style Sheets (CSS), Bootstrap e JavaScript. Il contenuto degli articoli è codificato mediante un modello pre-addestrato di sentence embedding, utilizzando il titolo dell’articolo come principale rappresentazione testuale, mentre le preferenze degli utenti sono modellate attraverso la similarità tra nuovi articoli e contenuti precedentemente apprezzati o rifiutati. Il recupero efficiente dei candidati è ottenuto mediante un grafo Hierarchical Navigable Small World (HNSW), e i punteggi di raccomandazione sono calcolati utilizzando una funzione di similarità coseno pesata con normalizzazione. Il sistema proposto è valutato offline utilizzando un dataset originale di 1185 articoli RSS raccolti da diversi domini tematici, tra cui sport e scienza. Viene adottata una suddivisione temporale training–test con validazione incrociata basata sul tempo, al fine di prevenire la fuga di informazioni e simulare scenari realistici di raccomandazione. Le prestazioni sono valutate mediante metriche standard basate sul ranking, tra cui Precision@K, Recall@K, Mean Average Precision (MAP) e Normalized Discounted Cumulative Gain (NDCG). I risultati sperimentali dimostrano che il sistema raggiunge un’elevata accuratezza delle raccomandazioni e una buona qualità del ranking, in particolare per valori ridotti di K. L’analisi evidenzia un chiaro compromesso tra precisione e recall all’aumentare della dimensione del vicinato, con valori intermedi che offrono il miglior equilibrio tra rilevanza, copertura e coerenza. Complessivamente, i risultati confermano che l’utilizzo di raccomandazioni basate su embedding, combinato con tecniche efficienti di ricerca dei vicini più prossimi, rappresenta un approccio efficace per la personalizzazione dei feed RSS. Il sistema proposto fornisce inoltre una base scalabile ed estensibile per futuri sviluppi, quali strategie di raccomandazione ibride e l’integrazione del feedback degli utenti in tempo reale.

The rapid growth of online news sources has increased the difficulty for users to efficiently identify content that matches their personal interests. This thesis addresses the problem of accessing relevant content in the presence of information overload by designing and implementing a personalized Really Simply Syndication (RSS) Feed Recommendation System based on content similarity and user preference modelling. The primary objective of this thesis is to investigate whether embedding-based representations derived from article titles, combined with Approximate Nearest Neigh bour (ANN) search, can effectively personalize RSS feeds and deliver relevant articles to users. The state of the art in RSS readers and content-based recommender systems is reviewed, highlighting the limitations of source-level filtering and the need for fine-grained article-level personalization. Based on this analysis, a web-based system is developed using a modular architecture. The backend is implemented using the Flask framework, SQLite database for data persistence, while the frontend relies on standard web technologies i.e. Hypertext Markup Language (HTML), Cascading Style Sheets (CSS), Bootstrap, Javascript. Article content is encoded using a pretrained sentence embedding model, using the article title as the primary textual representation, and user preferences are modelled through similarities between new articles and previously liked or disliked content. Efficient candidate retrieval is achieved using a Hierarchical Navigable Small World (HNSW) graph, and recommendation scores are computed using a weighted cosine similarity function with normalization. The proposed system is evaluated offline using an original dataset of 1185 RSS articles collected from multiple topical domains, including sports and science. A temporal train–test split with time-based cross–validation is adopted to prevent information leakage and to simulate realistic recommendation scenarios. Performance is assessed using standard ranking-based metrics, including Precision@K, Recall@K, Mean Average Precision (MAP), and Normalized Discounted Cumulative Gain (NDCG). Experimental results demonstrate that the system achieves high recommendation accuracy and ranking quality, particularly at small cut–offs. The analysis highlights a clear trade-off between precision and recall as the neighbourhood size increases, with moderate neighbourhood sizes providing the best balance between relevance, coverage, and consistency. Overall, the results confirm that embedding based content recommendation combined with efficient nearest neighbour search is an effective approach for personalizing RSS feeds. The system provides a scalable and extensible foundation for future enhancements, such as hybrid recommendation strategies and online user feedback integration.

progettazione e implementazione di un sistema di raccomandazione per feed RSS personali

PATRICK JOEL TEKAM, XXX
2024/2025

Abstract

La rapida crescita delle fonti di notizie online ha aumentato la difficoltà per gli utenti di individuare in modo efficiente contenuti in linea con i propri interessi personali. Questa tesi affronta il problema dell’accesso a contenuti rilevanti in presenza di sovraccarico informativo, attraverso la progettazione e l’implementazione di un sistema di raccomandazione per feed Really Simply Syndication (RSS) personalizzati, basato sulla similarità dei contenuti e sulla modellazione delle preferenze degli utenti. L’obiettivo principale di questa tesi è investigare se rappresentazioni basate su embedding, derivate dai titoli degli articoli, combinate con tecniche di ricerca Approximate Nearest Neighbour (ANN), possano personalizzare efficacemente i feed RSS e fornire articoli rilevanti agli utenti. Viene presentata una revisione dello stato dell’arte nei lettori RSS e nei sistemi di raccomandazione basati sul contenuto, evidenziando i limiti del filtraggio a livello di sorgente e la necessità di una personalizzazione più fine a livello di singolo articolo. Sulla base di tale analisi, è stato sviluppato un sistema web basato su un’architettura modulare. Il backend è implementato utilizzando il framework Flask e un database SQLite per la persistenza dei dati, mentre il frontend si basa su tecnologie web standard quali HyperText Markup Language (HTML), Cascading Style Sheets (CSS), Bootstrap e JavaScript. Il contenuto degli articoli è codificato mediante un modello pre-addestrato di sentence embedding, utilizzando il titolo dell’articolo come principale rappresentazione testuale, mentre le preferenze degli utenti sono modellate attraverso la similarità tra nuovi articoli e contenuti precedentemente apprezzati o rifiutati. Il recupero efficiente dei candidati è ottenuto mediante un grafo Hierarchical Navigable Small World (HNSW), e i punteggi di raccomandazione sono calcolati utilizzando una funzione di similarità coseno pesata con normalizzazione. Il sistema proposto è valutato offline utilizzando un dataset originale di 1185 articoli RSS raccolti da diversi domini tematici, tra cui sport e scienza. Viene adottata una suddivisione temporale training–test con validazione incrociata basata sul tempo, al fine di prevenire la fuga di informazioni e simulare scenari realistici di raccomandazione. Le prestazioni sono valutate mediante metriche standard basate sul ranking, tra cui Precision@K, Recall@K, Mean Average Precision (MAP) e Normalized Discounted Cumulative Gain (NDCG). I risultati sperimentali dimostrano che il sistema raggiunge un’elevata accuratezza delle raccomandazioni e una buona qualità del ranking, in particolare per valori ridotti di K. L’analisi evidenzia un chiaro compromesso tra precisione e recall all’aumentare della dimensione del vicinato, con valori intermedi che offrono il miglior equilibrio tra rilevanza, copertura e coerenza. Complessivamente, i risultati confermano che l’utilizzo di raccomandazioni basate su embedding, combinato con tecniche efficienti di ricerca dei vicini più prossimi, rappresenta un approccio efficace per la personalizzazione dei feed RSS. Il sistema proposto fornisce inoltre una base scalabile ed estensibile per futuri sviluppi, quali strategie di raccomandazione ibride e l’integrazione del feedback degli utenti in tempo reale.
2024
Design and Implementation of a Personal RSS Feed Recommendation System
The rapid growth of online news sources has increased the difficulty for users to efficiently identify content that matches their personal interests. This thesis addresses the problem of accessing relevant content in the presence of information overload by designing and implementing a personalized Really Simply Syndication (RSS) Feed Recommendation System based on content similarity and user preference modelling. The primary objective of this thesis is to investigate whether embedding-based representations derived from article titles, combined with Approximate Nearest Neigh bour (ANN) search, can effectively personalize RSS feeds and deliver relevant articles to users. The state of the art in RSS readers and content-based recommender systems is reviewed, highlighting the limitations of source-level filtering and the need for fine-grained article-level personalization. Based on this analysis, a web-based system is developed using a modular architecture. The backend is implemented using the Flask framework, SQLite database for data persistence, while the frontend relies on standard web technologies i.e. Hypertext Markup Language (HTML), Cascading Style Sheets (CSS), Bootstrap, Javascript. Article content is encoded using a pretrained sentence embedding model, using the article title as the primary textual representation, and user preferences are modelled through similarities between new articles and previously liked or disliked content. Efficient candidate retrieval is achieved using a Hierarchical Navigable Small World (HNSW) graph, and recommendation scores are computed using a weighted cosine similarity function with normalization. The proposed system is evaluated offline using an original dataset of 1185 RSS articles collected from multiple topical domains, including sports and science. A temporal train–test split with time-based cross–validation is adopted to prevent information leakage and to simulate realistic recommendation scenarios. Performance is assessed using standard ranking-based metrics, including Precision@K, Recall@K, Mean Average Precision (MAP), and Normalized Discounted Cumulative Gain (NDCG). Experimental results demonstrate that the system achieves high recommendation accuracy and ranking quality, particularly at small cut–offs. The analysis highlights a clear trade-off between precision and recall as the neighbourhood size increases, with moderate neighbourhood sizes providing the best balance between relevance, coverage, and consistency. Overall, the results confirm that embedding based content recommendation combined with efficient nearest neighbour search is an effective approach for personalizing RSS feeds. The system provides a scalable and extensible foundation for future enhancements, such as hybrid recommendation strategies and online user feedback integration.
File in questo prodotto:
File Dimensione Formato  
thesis.pdf

embargo fino al 02/11/2026

Dimensione 5.88 MB
Formato Adobe PDF
5.88 MB Adobe PDF   Richiedi una copia

È consentito all'utente scaricare e condividere i documenti disponibili a testo pieno in UNITESI UNIPV nel rispetto della licenza Creative Commons del tipo CC BY NC ND.
Per maggiori informazioni e per verifiche sull'eventuale disponibilità del file scrivere a: [email protected].

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.14239/34977