Los filtros de spam bayesianos calculan la probabilidad de que un mensaje sea spam según su contenido. A diferencia de los filtros simples basados en contenido, el filtrado bayesiano de spam aprende del spam y del buen correo, lo que resulta en un enfoque antispam muy robusto, adaptable y eficiente que, lo mejor de todo, casi no da falsos positivos.
¿Cómo reconoces el correo basura?
Piensa en cómo detectas el spam. Una mirada rápida suele ser suficiente. Usted sabe cómo se ve el correo no deseado y cómo se ve un buen correo.
La probabilidad de que el spam parezca buen correo es de alrededor de … cero.
Los filtros basados en contenido de puntuación no se adaptan
¿No sería estupendo que los filtros automáticos de spam también funcionaran así?
Los filtros de spam basados en contenido de puntuación lo intentan. Buscan palabras y otras características típicas del spam. A cada elemento característico se le asigna una puntuación, y una puntuación de spam para todo el mensaje se calcula a partir de las puntuaciones individuales. Algunos filtros de puntuación también buscan características del correo legítimo, reduciendo la puntuación final de un mensaje.
El enfoque de los filtros de puntuación funciona, pero también tiene varios inconvenientes:
- La lista de características se crea a partir del correo no deseado (y el buen correo) disponible para los ingenieros del filtro. Para obtener un buen conocimiento del spam típico que cualquiera puede obtener, el correo debe ser recolectado en cientos de direcciones de correo electrónico. Esto debilita la eficiencia de los filtros, especialmente porque la Las características del buen correo serán diferentes para cada persona. , pero esto no se tiene en cuenta.
- Las características a buscar son más o menos. grabado en piedra . Si los spammers hacen el esfuerzo de adaptarse (y hacen que su spam parezca un buen correo para los filtros), las características de filtrado deben ser ajustadas manualmente, un esfuerzo aún mayor.
- La puntuación asignada a cada palabra probablemente se basa en una buena estimación, pero sigue siendo arbitraria. Y al igual que la lista de características, no se adapta al cambiante mundo del spam en general ni a las necesidades de un usuario individual.
Los filtros de spam bayesianos se modifican, mejoran y mejoran
Los filtros de spam bayesianos también son una clase de filtros basados en contenido de puntuación. Sin embargo, su enfoque elimina los problemas de los filtros de spam de puntuación simple, y lo hace de manera radical. Dado que la debilidad de los filtros de puntuación se encuentra en la lista de características construida manualmente y sus puntuaciones, esta lista se elimina.
En cambio, los filtros de spam Bayesianos construyen la lista ellos mismos. Lo ideal es que comiences con una (gran) cantidad de correos electrónicos que hayas clasificado como spam y otra buena cantidad de correo. Los filtros analizan ambos y analizan el correo legítimo y el correo no deseado para calcular la probabilidad de que aparezcan varias características en el correo no deseado y en el correo correcto.
Cómo un filtro bayesiano de spam examina un correo electrónico
Las características que un filtro de spam Bayesiano puede ver pueden ser:
- las palabras en el cuerpo del mensaje, por supuesto, y
- sus encabezados (remitentes y rutas de mensajes, por ejemplo!), pero también
- otros aspectos como el código HTML / CSS (como colores y otros formatos), o incluso
- pares de palabras, frases y
- metainformación (donde aparece una frase particular, por ejemplo).
Si una palabra, "Cartesiano", por ejemplo, nunca aparece en el correo no deseado, pero a menudo en el correo electrónico legítimo que recibe, la probabilidad de que "Cartesiano" indique que el correo no deseado está cerca de cero. "Toner", por otro lado, aparece exclusivamente, y con frecuencia, en el spam. El "tóner" tiene una probabilidad muy alta de encontrarse en el correo no deseado, no muy por debajo de 1 (100%).
Cuando llega un nuevo mensaje, es analizado por el filtro de spam Bayesiano, y la probabilidad de que el mensaje completo sea spam se calcula utilizando las características individuales.
Supongamos que un mensaje contiene "cartesiano" y "tóner". Solo con estas palabras no queda claro si tenemos correo no deseado o legítimo. Otras características indicarán (con suerte y lo más probable) una probabilidad que permita al filtro clasificar el mensaje como spam o buen correo.
Los filtros de spam bayesianos pueden aprender automáticamente
Ahora que tenemos una clasificación, el mensaje se puede usar para entrenar aún más el filtro. En este caso, se reduce la probabilidad de que "Cartesiano" indique un buen correo (si se encuentra que el mensaje que contiene "Cartesiano" y "Tóner" es spam), o la probabilidad de que "Tóner" indique que el correo no deseado debe reconsiderarse.
Usando esta técnica autoadaptativa, los filtros bayesianos pueden Aprende de las decisiones propias y de los usuarios. (Si ella corrige manualmente un error de juicio por los filtros). La adaptabilidad del filtrado bayesiano también asegura que sean más efectivos para el usuario de correo electrónico individual. Si bien el spam de la mayoría de las personas puede tener características similares, el correo legítimo es característicamente diferente para todos.
¿Cómo pueden los spammers superar los filtros bayesianos?
Las características del correo legítimo son tan importantes para el proceso de filtrado de spam Bayesiano como lo es el spam. Si los filtros están capacitados específicamente para cada usuario, a los spammers les será más difícil trabajar alrededor de los filtros de spam de todos (o incluso de la mayoría de las personas), y los filtros pueden adaptarse a casi todo lo que intentan los spammers.
Los spammers solo superarán los filtros bayesianos bien entrenados si hacen que sus mensajes de spam se vean perfectamente como el correo electrónico normal que todos pueden recibir.
Los spammers no suelen enviar esos correos electrónicos ordinarios. Supongamos que esto se debe a que estos correos electrónicos no funcionan como correo no deseado.Por lo tanto, es probable que no lo hagan cuando los correos electrónicos ordinarios y aburridos sean la única forma de superar los filtros de correo no deseado.
Sin embargo, si los spammers cambian a los correos electrónicos de apariencia más común, veremos mucho spam en nuestras Bandejas de entrada, y el correo electrónico puede volverse tan frustrante como lo fue en los días pre-Bayesianos (o incluso peor). Sin embargo, también habrá arruinado el mercado para la mayoría de los tipos de spam, y por lo tanto no durará mucho.
Los indicadores fuertes pueden ser el talón de Aquiles del filtro de spam bayesiano
Se puede percibir una excepción para que los spammers trabajen a través de los filtros bayesianos incluso con su contenido habitual. Es en la naturaleza de las estadísticas bayesianas que una palabra o característica que aparece con frecuencia en un buen correo puede ser tan importante como para hacer que cualquier mensaje parezca spam y sea calificado por el filtro.
Si los spammers encuentran una manera de determinar sus palabras de correo seguro, utilizando los recibos de devolución HTML para ver qué mensajes abrió, por ejemplo, pueden incluir uno de ellos en un correo no deseado y llegar a usted incluso a través de un pozo. Filtro bayesiano entrenado.
John Graham-Cumming ha intentado esto al permitir que dos filtros bayesianos funcionen uno contra el otro, el "malo" que se adapta a los mensajes que se encuentran para pasar a través del filtro "bueno". Él dice que funciona, aunque el proceso requiere mucho tiempo y es complejo. No creemos que veamos gran parte de esto, al menos no a gran escala, y no adaptados a las características de correo electrónico de las personas. Los spammers pueden (intentar) descubrir algunas palabras clave para las organizaciones (algo como "Almaden" para algunas personas en IBM, tal vez?) En su lugar.
Por lo general, el spam siempre será (significativamente) diferente del correo regular o, sin embargo, no será spam.
La conclusión: la fuerza del filtro bayesiano puede ser su debilidad
Los filtros de spam bayesianos sonfiltros basados en contenido ese:
- sonCapacitado específicamente para reconocer el correo electrónico no deseado del usuario individual y el correo bueno., haciéndolos altamente efectivos y difíciles de adaptar para los spammers.
- Puede continuamente y sin mucho esfuerzo o análisis manual.adaptar A los últimos trucos de los spammers.
- tener en cuenta el buen correo del usuario individual y tener unabaja tasa de falsos positivos.
- Desafortunadamente, si esto causa una confianza ciega en los filtros antispam bayesianos, se traduce enerror ocasional aún más grave. El efecto opuesto defalsos negativos (el spam que se ve exactamente como el correo regular) tiene el potencial de molestar y frustrar a los usuarios.