Extremidades y trucos de Sciencetext

Blogging inclina, hojeando trucos y computando cortes

Control de calidad dinámico para el Web

23 de febrero de 2009 · por David Bradley

[Poste a Twitter]

control de calidadA finales de enero, Google señaló por medio de una bandera encima de todos los Web site en el Internet como contener el malware. Al parecer, era un error humano en que alguien tenía una raya vertical en la base de datos y humedeció la salida del Search Engine. Divulgué sobre la edición de Sciencetext y vía Twitter hasta que el problema fue resuelto y Google admitió culpabilidad.

Ése era un “one-off”, aunque trajo el mundo entero a un alto que molía por lo menos si usted intentaba visitar una página de ese Search Engine. De hecho el alto que muele a el cual trajo el Internet está en una igualdad con el alto que muele a el cual el Reino Unido ha sido traído (a la hora de la escritura) por algunas ráfagas de la nieve. Compruebe hacia fuera la etiqueta del picadillo de Twitter #uksnow para ver lo que significo. ¿Este asunto “tendía” en Twitter más arriba que el día de Superbowl y de Groundhog? ¡el el día de Groundhog mientras que el Superbowl estaba en curso!

De todas formas, el desastre destaca una edición la mayoría extensa de la cara de los usuarios del Internet repetidamente: ¿Cómo puede usted decir si un Web page que usted está visitando está de buena calidad o no?

Obviamente, usted puede utilizar su propio juicio y hacer una decisión si el contenido y las opiniones expresados son válidos, la evidencia basada y justificable. Pero, qué si usted es lectura fuera de su campo de la maestría, o es un estudiante que investiga un asunto por primera vez. Lo más de forma preocupante posible, es la cuestión de la dirección médica en la tela. ¿Si usted es un paciente desesperado para la información sobre su condición, que busca tratamientos eficaces, entonces cómo puede usted decir que el sitio que usted encuentra en la tapa de los resultados de la búsqueda de Google no es un vendedor ambulante del aceite de la serpiente?

Sobrecarga del Search Engine

Por otra parte, los motores de búsqueda proporcionan generalmente números enormes de resultados. Éstos son alineados a menudo por la importancia y el renombre del acoplamiento, pero ése no refleja necesariamente calidad. Los muchos de gente pudieron ligarse simplemente a la basura para cualquier razón.

“Evaluar la calidad de estos resultados, una debe comprobar manualmente cada documento de la tela y aplicar una cierta heurística para determinarse cuál es la calidad de la información,” Surya Yadav en la universidad del Tech de Tejas, en Lubbock, Tejas, explica. Sin embargo, eso simplemente trae a discusión el círculo completo a cómo hace a persona de la endecha evalúan la información aparentemente experta. Por otra parte, mientras que esta tarea sería extremadamente difícil si solamente algunos resultados fueron vueltos, a menudo hay millares.

El Internet es extremadamente útil en que da el acceso de la gente por todo el mundo a todas las clases de información. Mucha de esta información tiene valor, pero mucho de él es también inútil. While search engines have become very effective at retrieving relevant information, it is currently the responsibility of the user to wade through the results to evaluate them with respect to quality.

Quality criteria

Yadav, who is the James & Elizabeth Sowell Professor of Telecom Technology, at Rawls College of Business, at Texas Tech University, in Lubbock, Texas, has pondered such issues at length. Now, he and his colleagues have developed a series of criteria for determining web page quality, which they say can be implemented in a flexible and automated system to calculate a quality score for each page. They have demonstrated proof of principle with a medical search.

Quality criteria consists of measures for evaluating websites as well as their web pages,” Yadav told Sciencetext, “Website-evaluation criteria include Source, Credential, Conflict of Interest, and Bias etc. Web page-evaluation criteria include Relevance, Accuracy, Cohesiveness, Currency, Information Context, and Evidence etc.”

Needless to say, should such a system be implemented it would in practice work well only for a short time without ongoing human checking. As with Google search engine results pages (SERPs), those seeking to game the system and get their page to the top of the results or spoof the quality of their site will quickly reverse engineer the criteria being applied and find so-called black hat (spammy) methods to circumvent them.

The result would be that the results returned as being of good quality would be quickly contaminated by spam pages just as are the SERPs of most of the major search engines. Users would then have to rely on their own expertise and knowledge to sift the wheat from the chaff as they currently do. We would return once again to our initial question: How can you tell if a web page you’re visiting is of good quality or not?

The answer lies in the quality rating system being dynamic and checking web page content and sources under the website criteria, explains Yadav. “A system flexible enough to change dynamically and adjust the quality criteria and also evaluate the website credibility will mean spammers will have a tough time circumventing the system. A quality rating system must be dynamic and flexible where criteria set can easily be changed,” he says.

Surya B. Yadav (2008). Automation of webpage quality determination Int. J. Information Quality, 2 (2), 152-176



3 responses so far ↓

  • Hersh Bhardwaj // Feb 24, 2009 at 12:45 pm

    Hi David,
    Insightful post, thanks. I have read prof. Yadav’s writings in past. Everyone from a Matt Cutts to an ordinary searcher has always wondered if such a system can be developed where we get the most relevant information every time. Theoretically, a dynamic and flexible system can be developed but again websites are not designed upon an absolute standard in science labs. Even the most perfect system will have problems rating the same ten sites in the same ranking every time. Its not the spammers we should worry about, its the basic relevancy-issues of SEs that first need a lot of attention. What you think?

  • David Bradley // Feb 24, 2009 at 2:56 pm

    Yeah, I think you’re probably right. I reported on this because I thought it was an interesting paper, but I don’t feel they actually have an answer.

  • Hersh Bhardwaj // Feb 24, 2009 at 4:48 pm

    Exactly! I am glad you thought the same. Its easy to theorize and list problems; as we do in most university research departments!(sorry to sound anti-academic).

Leave a Comment

Comments are checked for spam before appearing, no need to post it twice.