Extraer texto del HTML analizado con Python

Soy nuevo en Python y he estado tratando de buscar a través de html con expresiones regulares que se han analizado con BeautifulSoup. No he tenido éxito y creo que la razón es que no entiendo completamente cómo configurar correctamente las expresiones regulares. He visto preguntas anteriores sobre problemas similares, pero aún no me he dado cuenta. Si alguien pudiera extraer el “/ torrent / 32726/0 /” y “Slackware Linux 13.0 [x86 DVD ISO]”, así como una expresión detallada de cómo funciona la expresión regular, sería muy útil.

  Slackware Linux 13.0 [x86 DVD ISO]   

Editar: Lo que quise decir es que estoy tratando de extraer “/ torrent / 32726/0 /” y “Slackware Linux 13.0 [x86 DVD ISO]” usando las funciones de BeautifulSoups para buscar en el árbol de análisis sintáctico. He estado intentando varias cosas después de buscar y leer la documentación, pero todavía no estoy seguro de cómo hacerlo.

BeautifulSoup también podría extraer valores de nodo de tu html.

 from BeautifulSoup import BeautifulSoup html = ('Page title' '' '' '' '' '' '
Slackware Linux 13.0 [x86 DVD ISO]Slackware Linux 14.0 [x86 DVD ISO]Slackware Linux 15.0 [x86 DVD ISO]
' 'body' '') soup = BeautifulSoup(html) links = [td.find('a') for td in soup.findAll('td', { "class" : "name" })] for link in links: print link.string

Salida:

 Slackware Linux 13.0 [x86 DVD ISO] Slackware Linux 14.0 [x86 DVD ISO] Slackware Linux 15.0 [x86 DVD ISO] 

Puede usar lxml.html para analizar el documento html:

 from lxml import html doc = html.parse('http://example.com') for a in doc.cssselect('td a'): print a.get('href') print a.text_content() 

Tendrá que ver cómo está estructurado el documento para encontrar la mejor manera de determinar los enlaces que desea (puede haber otras tablas con enlaces en ellos que no necesita, etc.): es posible que primero desee encontrar el elemento de la table derecha, por ejemplo. También hay opciones además de los selectores css (xpath por ejemplo) para buscar el documento / el elemento.

Si lo necesita, puede convertir los enlaces en enlaces absolutos con el método .make_links_absolute() (hágalo en el documento después del análisis, y todas las URL serán absolutas, muy prácticas)