Eliminar tags html en sed o similar

Estoy tratando de obtener los contenidos de la tabla de una página web. Sin embargo, necesito los contenidos, pero no las tags

. Ni siquiera necesito “tr” o “td” solo el contenido. por ejemplo:

  I want only this   and also this   only texts/numbers in between tags and not the tags. 

también me gustaría poner el resultado de la primera columna así en un nuevo archivo csv column1, info1, info2, info3 coumn2, info1, info2, info3

Intenté eliminar los patrones

pero cuando busco la tabla también hay otras tags como así que quiero borrar todas las tags; en resumen, todo con .

Solutions Collecting From Web of "Eliminar tags html en sed o similar"

sed 's/< [^>]\+>//g' eliminará todas las tags, pero es posible que desee reemplazarlas por un espacio para que las tags que están una al lado de la otra no se ejecuten juntas:

one two

convirtiéndose en: onetwo . Entonces podrías hacer sed 's/< [^>]\+>/ /g' para que salga one two (bueno, en realidad one two ).

Dicho eso, a menos que solo necesite el texto en bruto, y parece que está tratando de hacer algunas transformaciones en los datos después de eliminar las tags, un lenguaje de scripting como Perl podría ser una herramienta más adecuada para hacer estas cosas.

Como mu es demasiado corto, mencionar que raspar HTML puede ser un poco incierto, usar algo que en realidad analiza el HTML para usted sería la mejor manera de hacerlo. PHP DOM API es bastante bueno para este tipo de cosas.

Original:

Mac Terminal REGEX se comporta de forma un poco diferente. Pude hacer esto en mi Mac utilizando el siguiente ejemplo:

 $ curl google.com | sed 's/< [^>]*>//g' % Total % Received % Xferd Average Speed Time Time Time Current Dload Upload Total Spent Left Speed 100 219 100 219 0 0 385 0 --:--:-- --:--:-- --:--:-- 385 301 Moved 301 Moved The document has moved here. $ bash --version GNU bash, version 3.2.57(1)-release (x86_64-apple-darwin14) Copyright (C) 2007 Free Software Foundation, Inc. 

Editar:

Solo por aclaración, el original se veía así:

 $ curl googl.com  301 Moved 

301 Moved

The document has moved here.

También el molesto encabezado curl se puede eliminar usando la opción -s:

 $ curl -s google.com | sed 's/< [^>]*>//g' 301 Moved 301 Moved The document has moved here. $