Conversión de HTML a RDF

Estoy buscando una API / servicio web / herramienta / etc de uso general … que permita convertir una página HTML dada a un gráfico RDF tan específico como sea posible (lo más probable es que use una ontología de backbone y / o mapeador).

¿Has probado GRDDL ?

GRDDL es una técnica para obtener datos RDF a partir de documentos XML y, en particular, páginas XHTML.

Usé XQuery para extraer los datos del conjunto de páginas web. Tuve que escribir consultas personalizadas para las páginas web. Creo que este es el enfoque más directo para un conjunto específico de archivos HTML. Sin embargo, obviamente no es bueno para el caso general. Para un conjunto diferente de páginas web, otras consultas personalizadas deben escribirse.

Usé JSoup para raspar datos de HTML. Utiliza el estilo jQuery de consultar HTML DOM, que ya conocía, por lo que fue una herramienta realmente simple de usar para mí. También lo financié de forma bastante robusta, pero lo necesitaba solo para obtener 3 fonts de datos, por lo que aún no tengo una gran experiencia con esta herramienta. jsoup