Articles of encoding de caracteres

Biblioteca de detección de encoding en python

Esto de alguna manera está relacionado con mi pregunta aquí . Proceso toneladas de textos (principalmente en HTML y XML) obtenidos a través de HTTP. Estoy buscando una biblioteca en python que pueda hacer una detección inteligente de encoding basada en diferentes estrategias y convertir textos a unicode utilizando la mejor conjetura de encoding de […]

E con acento no se muestra correctamente

En mi página, el texto en la parte superior central («Ce site Internet.») Contiene E con acentos que en mi computadora aparecen como signos de interrogación. Esto a pesar del hecho de que tengo meta charset = “UTF-8” en mi etiqueta principal y el archivo PHP que contiene el texto aparece como UTF-8 cuando se […]

Conflictos de impresión de caracteres cuando se usan diferentes conjuntos de caracteres para contenido estático y dynamic

¿Alguien podría decirme cómo resolver este conflicto de encoding? Nota: Mis archivos se guardan como archivos UTF-8. Cuando uso: La página web muestra caracteres a continuación como de costumbre (están codificados en la página): çÇ, ğĞ, şŞ Pero cuando los mismos personajes provienen de DB (codificados con mysqli) aparecen anormales : , , Cuando uso: […]

Efectos de atributos de la etiqueta HTML5 en navegadores más antiguos

Mi marcado tiene la etiqueta compatible con HTML5 simple, así: El documento valida bien bajo el doctype HTML5, pero ¿qué desventajas, si las hay, existen para usar este método cuando se trata de navegadores más antiguos? Si bien IE8 y versiones posteriores representan un pequeño porcentaje de la cuota de mercado, todavía existen en la […]

Codificación HTML de PHP

Estoy intentando analizar una página HTML, pero la encoding está estropeando mis resultados. Después de algunas investigaciones encontré una solución muy popular usando utf8_encode() y utf8_decode() , pero no cambia nada. En las siguientes líneas, puede verificar mi código y la salida. Código $str_html = $this->curlHelper->file_get_contents_curl($page); $str_html = utf8_encode($str_html); $dom = new DOMDocument(); $dom->resolveExternals = […]

Mostrando algún tipo de apóstrofo (Actualmente se muestra como diamante)

Algunas filas en mi base de datos contienen un apóstrofo de algún tipo, que, cuando se muestra con PHP, se convierte en diamantes con un signo de interrogación en el centro. Ejemplo, si se copia correctamente: Captain Jim O’Brien Estos “apóstrofes” se insertaron muy probablemente a través de TinyMCE, donde el usuario estaba copiando y […]

Formularios HTML: problemas que combinan charset con enctype en Firefox

Tengo un sitio web con un tablero de mensajes. La pizarra permite a las personas publicar mensajes e incluir archivos adjuntos. Tuve un problema en el que mi sitio estaba hipando cada vez que alguien escribía una publicación con caracteres que no eran de Unicode. En un esfuerzo por resolverlo, cambié mi código de formulario […]

Personaje incorrecto de Google Chrome: ¿error?

Hice este simple HTML para mostrarte lo que me molesta … @font-face { font-family: “ubuntu-light”; src: url(Font/ubuntu/Ubuntu-L.ttf) format(“truetype”); } h1 { font-family: “ubuntu-light”; } Ubuntu font test Š š Ž ž Č č Puede obtener la fuente aquí: http://font.ubuntu.com Entonces, el punto es que si abro la página en Safari o Firefox, la página se […]

¿El formulario HTML seguro acepta el juego de caracteres?

Me enfrenté a un problema de encoding de parámetros al enviar un formulario con el método get (no puedo usar el método de publicación). Algunos caracteres acentuados no se escaparon en la URL, ya que mi página era UTF8. El controlador Spring recuperó caracteres malos en su lugar. Resolví este problema estableciendo accept-charset=”ISO-8859-1″ en mi […]

¿Cómo cambio la “encoding real” de mi documento HTML?

Ejecuté mi página web a través del validador de HTML W3C y recibí este error. La encoding ascii no es el nombre preferido de la encoding de caracteres en uso. El nombre preferido es us-ascii. (Charmod C024) ✉ Línea 5, Columna 70: La statement de encoding interna utf-8 no está de acuerdo con la encoding […]