Informes de descarga de PDFs
08 Jan 2008
Publicado por marta
Aquà algo muy concreto que da bastante guerra: Cómo evitar imprecisiones a la hora de elaborar informes sobre la descarga de documentos en formato PDF.
Como habrá quien aún procese logs http para obtener sus informes, aquà hay una lista de problemas históricamente asociados a la obtención de resultados sobre descargas:
- Un solo PDF puede provocar más de una petición http (por su tamaño, se descarga por partes o páginas y cada parte implica una entrada en el log). Esto provoca distorsiones cuando la medida a utilizar es el número de descargas (los documentos más voluminosos se presentan como los más populares), lo que nos obliga a buscar soluciones como:
1. Recurrir a realizar comparativas sobre el volumen de visitas entre diferentes documentos (con las limitaciones que la definición de visita pueda acarrear en un entorno que no usa cookies).
2. Filtrar las peticiones redundantes, delatadas por el código (”Return Code”) 206 asociado a aquellas que recaen sobre un archivo en proceso de descarga (a medida que se va avanzando sobre las páginas del documento).
- Los archivos descargados se contabilizan como hits (accesos), pero no entran dentro de la definición de page views (páginas vistas) al no tratarse de documentos web. Esto resulta con frecuencia en informes aislados en compartimentos estanco: Archivos descargados y páginas visualizadas. Como consecuencia, resulta muy difÃcil vincular una serie de descargas a la navegación de páginas realizada por el usuario de modo previo a dichas descargas.
Cubiertos estos problemas históricos (y muy presentes para mucha gente), veamos cual es el principal problema asociado a una metodologÃa de análisis basada en huella (tag):
- El PDF no puede generar tráfico porque no puede incorporar huella (JavaScript), al contrario que los documentos web. Esto obliga a etiquetar el Click (evento) que precede a la descarga. En consecuencia:
1. No sabemos si el documento se ha descargado o visualizado. Sólo sabemos que alguien ha solicitado su descarga.
2. Por extensión de las limitaciones asociadas a la huella, no tenemos dato alguno con relación a los visitantes que no admiten JavaScript (la visibilidad es en este caso menor incluso que en las documentos web, que pueden incorporar una sección NOSCRIPT).
¿En qué se traduce todo esto? En que, una vez más, la técnica utilizada provoca estragos en los KPIs escogidos a nivel de requerimientos de negocio. Si estamos analizando logs y ya no podemos filtrar el histórico tendremos que tener cuidado con la comparativa basada en el número de descargas (la imprecisión en el concepto de visitante que pueda contaminar el criterio de visita es extensible a todas las tablas y en consecuencia menos grave). Por otra parte, si usamos huella, podremos jugar con el dato almacenado durante el click de solicitud, que puede ir más allá de la descarga para permitir su cruzado con información de navegación de páginas.







Añade un comentario