Filtro Bloom, una implementación en PHP

Filtro Bloom, una implementación en PHP

En esta ocasión voy a presentar una implementación simple de un filtro de Bloom implementado en PHP. Puedes ver la implementación en mi github: https://github.com/oscarpascualbakker/bloomfilter.

Un filtro Bloom es una estructura de datos probabilísticos que se utiliza para comprobar si un elemento es miembro de un conjunto. En esta estructura, los elementos se pueden agregar al conjunto, pero no eliminar.

Una consulta a un filtro Bloom devuelve «posiblemente en el conjunto» o «definitivamente no en el conjunto».

Un filtro Bloom es una matriz de m bits (bitarray), inicialmente todos establecidos en 0. También debe haber k funciones de hash diferentes definidas, cada una de las cuales mapea o aplica un hash a algún elemento establecido en una de las m posiciones de la matriz, generando una distribución aleatoria uniforme. Normalmente, k es una constante pequeña que depende de la probabilidad de falsos errores que vamos a permitir.

Para agregar un elemento al conjunto, es necesario realizar k funciones de hash sobre el elemento, obtener las k posiciones correspondientes en el filtro y establecer estos bits en 1.

Para verificar si un elemento está en el conjunto es necesario realizar de nuevo las k funciones de hash sobre ese elemento para obtener las posiciones en el filtro. Si alguno de los bits en estas posiciones es 0, el elemento definitivamente no está en el conjunto.

Si todas las posiciones se establecen en 1, entonces el elemento está en el conjunto o los bits se han establecido en 1 durante la inserción de otros elementos, lo que da como resultado un falso positivo.

No es posible eliminar elementos en un filtro Bloom simple, y no hay forma de distinguir entre un positivo legítimo y un falso positivo. Técnicas más avanzadas pueden resolver este problema.

Filtro Bloom
Fuente: Wikipedia

Utilidades de un filtro Bloom

Los filtros Bloom son útiles en los casos en que:

  • los datos a buscar son grandes
  • la memoria disponible en el sistema es limitada/baja

Por este motivo el algoritmo tiene muchos usos. Dado que es un sistema que responde de forma muy rápida si un elemento está (¡probablemente!) en un conjunto o no, se usa para ahorrar tiempo y espacio.

  • Sistemas de almacenamiento en caché
  • Detección de contraseña débil
  • Protocolo de caché de Internet
  • Navegación segura en Google Chrome
  • Sincronización de billetera en Bitcoin (esto fue deprecado de Bitcoin, pero formó parte de las primeras versiones)
  • Rastreo de IP basado en hash
  • Seguridad cibernética como análisis de virus

Espero que te haya gustado este algoritmo (entiendo que sí, si has leído hasta aquí).

¡Hasta la próxima!

Merkle Tree o Árbol de Merkle en PHP

Merkle Tree o Árbol de Merkle en PHP

En esta entrada voy a hablar de una implementación en PHP de un «Merkle Tree«, un árbol de Merkle, una implementación en árbol binario para conseguir un hash de un conjunto de datos. En anteriores artículos ya hablé de (o usé) árboles binarios, como en el artículo sobre la cola de prioridad en PHP (un buen ejemplo de árbol binario).

Esta estructura de datos fue originalmente propuesta en 1979 por Ralph Merkle, y de ahí su nombre.

Puedes ver la implementación de este Merkle Tree en mi github.

Usos más destacados

Los árboles de Merkle tienen una finalidad básica: obtener un hash, llamado Merkle Root, que identifique clara y unívocamente el conjunto original de datos. Por esta razón su uso está muy extendido en la comunicación entre ordenadores. A modo de ejemplo, cuando se descarga una gran cantidad de ficheros de un servidor podemos «calcular» si su contenido ha sido modificado/dañado comprobando que el Merkle Root original coincide con el que hemos calculado durante la descarga.

En el mundo de las criptomonedas también se aplica el algoritmo de Merkle Tree para comprobar que las transacciones no han sido modificadas. La primera criptomoneda del mundo, Bitcoin, incluye un Merkle Root en cada bloque.

Funcionamiento de un Merkle Tree

El funcionamiento de un árbol de Merkle es bastante simple. Se trata, en primer lugar, de asignar un hash a cada elemento del conjunto de datos. Cuando todos los datos estás hasheados, hay que concatenar esos mismo hashes y volver a aplicar la misma función de hash por parejas. Esta operación se repite hasta que sólo queda un nodo que, obviamente, contiene la raíz de Merkle.

Keep reading →

Algoritmo de Dijkstra en PHP

Algoritmo de Dijkstra en PHP

El algoritmo de Dijkstra es un algoritmo de caminos mínimos. Está diseñado para encontrar el camino de menor ponderación (sea peso, distancia, coste, …) entre un nodo y todos los demás. Sin embargo, para poder explicar el Algoritmo de Dijkstra (y concretamente esta implementación en PHP) debería empezar con un poco de teoría de grafos. El problema es que entonces el artículo se alargaría muchísimo, así que sólo daré una breve pincelada, pero entraré en materia de inmediato.

Un grafo es una representación basada en vértices (nodos) y aristas (conexiones). Para entenderlo mejor, un grafo podría ser la representación de aeropuertos y los vuelos entre ellos. Cada vértice sería un aeropuerto, y un vuelo sería una arista, con lo que si hay varios vuelos, también hay varias aristas. Veamos un ejemplo de grafo:

Grafo de ejemplo para el algoritmo de Dijkstra en PHP

Este grafo sería un «grafo dirigido», dado que las aristas tienen una dirección; van de un vértice a otro. El peso de cada arista podría ser la distancia en millas, y el número dentro de cada vértice podría ser el código de un aeropuerto.

Keep reading →

Cola de prioridad en PHP con cambio de prioridad

Hace ya unos días escribía un artículo sobre la Cola de Prioridad en PHP 7.4 que había implementado, y que está disponible en Github.

Por temas laborales he tenido que implementar el algoritmo de Dijkstra en PHP, y esto puede hacerse tanto con cola de prioridad como sin ella. La diferencia, en términos de coste de computación (Big O notation) era abismal, así que decidí usar la cola de prioridad al implementar Dijkstra. El problema era que mi cola de prioridad no tenía una función básica: «cambio de prioridad«.

Implementar ‘cambio de prioridad’ en la Cola de Prioridad en PHP

Después de analizar el código vi que era fácilmente implementable, testeable y usable en otros algoritmos, al estar debidamente encapsulada.

Keep reading →

Cola de prioridad en PHP 7.4

Hace unos días implementé una cola de prioridad en PHP 7.4 basándome en el concepto de ‘Heap‘. Un heap es un montón, una pila que parece desordenada, pero cuyo contenido sigue una lógica ordenada. De hecho, a partir de este concepto nace la técnica de ordenación del mismo nombre ‘Heap sort‘.

Antes de comentar la implementación de la cola, explicaré brevemente qué ventajas obtenemos al hacer así las cosas.

Ventajas de un heap para organizar una cola de prioridad

Al crear un sistema de prioridad como este buscamos obtener un medio ágil y rápido tanto de inserción como de extracción. En el caso del heap usamos un árbol binario, dado que con esta estructura podemos conseguir implementar la cola en un árbol (un array) homogéneo y completo. Este es el aspecto de un heap construido mediante un árbol binario:

Arbol binario que representa la cola de prioridad

Keep reading →