embeddings maintainer and trigger post-processor

2026-04-27 17:17:40 +03:00 · 2025-06-29 16:40:38 -05:00 · 2025-06-29 16:40:38 -05:00 · 783c20a6fc
commit 783c20a6fc
parent 34d184a3b9
5 changed files with 362 additions and 122 deletions
--- a/frigate/data_processing/post/semantic_trigger.py
+++ b/frigate/data_processing/post/semantic_trigger.py
@ -0,0 +1,275 @@
+"""Real time processor to trigger alerts by matching embeddings."""
+
+import datetime
+import logging
+from typing import Any
+
+import cv2
+import numpy as np
+from peewee import DoesNotExist
+
+from frigate.comms.inter_process import InterProcessRequestor
+from frigate.config import FrigateConfig
+from frigate.data_processing.types import PostProcessDataEnum
+from frigate.db.sqlitevecq import SqliteVecQueueDatabase
+from frigate.embeddings.util import ZScoreNormalization
+from frigate.models import Event, Trigger
+from frigate.util.builtin import cosine_distance
+from frigate.util.path import get_event_thumbnail_bytes
+
+from ..post.api import PostProcessorApi
+from ..types import DataProcessorMetrics
+
+logger = logging.getLogger(__name__)
+
+WRITE_DEBUG_IMAGES = True
+
+
+class SemanticTriggerProcessor(PostProcessorApi):
+    def __init__(
+        self,
+        db: SqliteVecQueueDatabase,
+        config: FrigateConfig,
+        requestor: InterProcessRequestor,
+        metrics: DataProcessorMetrics,
+        embeddings,
+    ):
+        super().__init__(config, metrics, None)
+        self.db = db
+        self.embeddings = embeddings
+        self.requestor = requestor
+        self.trigger_embeddings: list[np.ndarray] = []
+
+        self.thumb_stats = ZScoreNormalization()
+
+    def process_data(
+        self, data: dict[str, Any], data_type: PostProcessDataEnum
+    ) -> None:
+        event_id = data["event_id"]
+        camera = data["camera"]
+        process_type = data["type"]
+        logger.info(
+            f"semantic trigger event_id: {event_id}, type: {process_type}, camera: {camera}"
+        )
+
+        # TODO: check if triggers exist for this camera, bail if none
+
+        # Get embeddings based on type
+        thumbnail_embedding = None
+        description_embedding = None
+
+        if process_type == "image":
+            cursor = self.db.execute_sql(
+                """
+                SELECT thumbnail_embedding FROM vec_thumbnails WHERE id = ?
+                """,
+                [event_id],
+            )
+            row = cursor.fetchone() if cursor else None
+            if row:
+                thumbnail_embedding = np.frombuffer(row[0], dtype=np.float32)
+
+        if process_type == "text":
+            cursor = self.db.execute_sql(
+                """
+                SELECT description_embedding FROM vec_descriptions WHERE id = ?
+                """,
+                [event_id],
+            )
+            row = cursor.fetchone() if cursor else None
+            if row:
+                description_embedding = np.frombuffer(row[0], dtype=np.float32)
+
+        # Skip processing if we don't have any embeddings
+        if thumbnail_embedding is None and description_embedding is None:
+            logger.warning(f"No embeddings found for event_id: {event_id}")
+            return
+
+        triggers = (
+            Trigger.select(
+                Trigger.camera,
+                Trigger.name,
+                Trigger.data,
+                Trigger.type,
+                Trigger.embedding,
+                Trigger.threshold,
+            )
+            .where(Trigger.camera == camera)
+            .dicts()
+            .iterator()
+        )
+
+        for trigger in triggers:
+            logger.debug(f"Processing trigger: {trigger['camera']}_{trigger['name']}")
+
+            trigger_embedding = np.frombuffer(trigger["embedding"], dtype=np.float32)
+
+            # Determine which embedding to compare based on trigger type
+            if trigger["type"] == "image" and thumbnail_embedding is not None:
+                data_embedding = thumbnail_embedding
+                normalized_distance = self.thumb_stats.normalize(
+                    [cosine_distance(data_embedding, trigger_embedding)],
+                    save_stats=False,
+                )[0]
+            elif trigger["type"] == "text" and description_embedding is not None:
+                data_embedding = description_embedding
+                normalized_distance = cosine_distance(data_embedding, trigger_embedding)
+            elif trigger["type"] == "both":
+                # For "both" type triggers, check both embeddings and use the best match
+                similarities = []
+                similarity_sources = []  # Track which embedding produced each similarity
+
+                if thumbnail_embedding is not None:
+                    thumb_distance = cosine_distance(
+                        thumbnail_embedding, trigger_embedding
+                    )
+                    thumb_normalized = self.thumb_stats.normalize(
+                        [thumb_distance], save_stats=False
+                    )[0]
+                    thumb_similarity = 1 - thumb_normalized
+                    similarities.append(thumb_similarity)
+                    similarity_sources.append("thumbnail")
+
+                if description_embedding is not None:
+                    desc_distance = cosine_distance(
+                        description_embedding, trigger_embedding
+                    )
+                    desc_similarity = 1 - desc_distance
+                    similarities.append(desc_similarity)
+                    similarity_sources.append("description")
+
+                if not similarities:
+                    continue  # Skip if no valid embeddings
+
+                # Find the best similarity and its source
+                max_similarity_idx = similarities.index(max(similarities))
+                similarity = similarities[max_similarity_idx]
+                selected_source = similarity_sources[max_similarity_idx]
+                normalized_distance = 1 - similarity
+
+                # Debug log showing all similarities and which was selected
+                if len(similarities) > 1:
+                    logger.debug(
+                        f"Both embeddings available for trigger '{trigger['name']}': "
+                        f"thumbnail={similarities[0]:.4f}, description={similarities[1]:.4f}, "
+                        f"selected={selected_source} with similarity={similarity:.4f}"
+                    )
+                else:
+                    logger.debug(
+                        f"Single embedding available for trigger '{trigger['name']}': "
+                        f"{selected_source}={similarity:.4f}"
+                    )
+            else:
+                # Skip trigger if embedding type doesn't match available data
+                continue
+
+            similarity = 1 - normalized_distance
+
+            logger.debug(
+                f"Trigger for {trigger['data'] if trigger['type'] == 'text' else 'image/both'} "
+                f"(camera: {trigger['camera']}): normalized: {normalized_distance:.4f}, "
+                f"similarity: {similarity:.4f}, threshold: {trigger['threshold']}"
+            )
+
+            # Check if similarity meets threshold
+            if similarity >= trigger["threshold"]:
+                logger.info(
+                    f"Trigger '{trigger['name']}' activated with similarity {similarity:.4f}"
+                )
+
+            if WRITE_DEBUG_IMAGES:
+                try:
+                    event: Event = Event.get(Event.id == event_id)
+                except DoesNotExist:
+                    return
+
+                # Skip the event if not an object
+                if event.data.get("type") != "object":
+                    return
+
+                thumbnail_bytes = get_event_thumbnail_bytes(event)
+
+                nparr = np.frombuffer(thumbnail_bytes, np.uint8)
+                thumbnail = cv2.imdecode(nparr, cv2.IMREAD_COLOR)
+
+                font_scale = 0.5
+                font = cv2.FONT_HERSHEY_SIMPLEX
+                cv2.putText(
+                    thumbnail,
+                    f"{similarity:.4f}",
+                    (10, 30),
+                    font,
+                    fontScale=font_scale,
+                    color=(0, 255, 0),
+                    thickness=2,
+                )
+
+                current_time = int(datetime.datetime.now().timestamp())
+                cv2.imwrite(
+                    f"debug/frames/trigger-{event_id}_{current_time}.jpg",
+                    thumbnail,
+                )
+
+                if False:
+                    if type == "image":
+                        sql_query = """
+                            SELECT
+                                id,
+                                distance
+                            FROM vec_thumbnails
+                            WHERE thumbnail_embedding MATCH ?
+                                AND k = 100
+                        """
+                    elif type == "text":
+                        sql_query = """
+                            SELECT
+                                id,
+                                distance
+                            FROM vec_descriptions
+                            WHERE description_embedding MATCH ?
+                                AND k = 100
+                        """
+
+                    # Add the IN clause if event_ids is provided and not empty
+                    # this is the only filter supported by sqlite-vec as of 0.1.3
+                    # but it seems to be broken in this version
+                    # if event_id:
+                    #     sql_query += " AND id IN ({})".format(",".join("?" * len(event_id)))
+
+                    # order by distance DESC is not implemented in this version of sqlite-vec
+                    # when it's implemented, we can use cosine similarity
+                    sql_query += " ORDER BY distance"
+
+                    parameters = [
+                        trigger_embedding
+                    ]  # + event_ids if event_ids else [query_embedding]
+
+                    results = self.db.execute_sql(sql_query, parameters).fetchall()
+                    # Extract raw distances
+                    raw_distances = [r[1] for r in results]
+
+                    # Normalize
+                    normalized_distances = self.thumb_stats.normalize(
+                        raw_distances, save_stats=False
+                    )
+
+                    # Pair with IDs
+                    normalized_results = list(
+                        zip([r[0] for r in results], normalized_distances)
+                    )
+
+                    logger.info(
+                        f"Semantic trigger results for event_id {event_id}: {len(normalized_results)} matches found."
+                    )
+
+                    # Optional: Log top few for inspection
+                    for thumb_id, norm_score in normalized_results[:5]:
+                        logger.debug(
+                            f"Normalized match: {thumb_id} → z-score: {1 - norm_score:.4f}"
+                        )
+
+    def handle_request(self, topic, request_data):
+        return None
+
+    def expire_object(self, object_id, camera):
+        pass
--- a/frigate/data_processing/real_time/semantic_trigger.py
+++ b/frigate/data_processing/real_time/semantic_trigger.py
@ -1,81 +0,0 @@
-"""Real time processor to trigger alerts by matching embeddings."""
-
-import datetime
-import logging
-from typing import Any
-
-import cv2
-import numpy as np
-
-from frigate.comms.inter_process import InterProcessRequestor
-from frigate.config import FrigateConfig
-from frigate.config.classification import CameraSemanticSearchConfig
-from frigate.util.builtin import EventsPerSecond, InferenceSpeed
-
-from ..types import DataProcessorMetrics
-from .api import RealTimeProcessorApi
-
-logger = logging.getLogger(__name__)
-
-
-class SemanticTriggerProcessor(RealTimeProcessorApi):
-    def __init__(
-        self,
-        config: FrigateConfig,
-        trigger_config: CameraSemanticSearchConfig,
-        requestor: InterProcessRequestor,
-        metrics: DataProcessorMetrics,
-        embeddings,
-    ):
-        super().__init__(config, metrics)
-        self.embeddings = embeddings
-        self.trigger_config = trigger_config
-        self.requestor = requestor
-        self.image_inference_speed = InferenceSpeed(self.metrics.image_embeddings_speed)
-        self.image_eps = EventsPerSecond()
-        self.text_inference_speed = InferenceSpeed(self.metrics.text_embeddings_speed)
-        self.text_eps = EventsPerSecond()
-        self.trigger_embeddings: list[np.ndarray] = []
-        self.last_run = datetime.datetime.now().timestamp()
-        self.__generate_trigger_embeddings()
-
-    def __generate_trigger_embeddings(self) -> None:
-        self.image_eps.start()
-        self.text_eps.start()
-        for trigger in self.trigger_config.triggers:
-            embedding = self.embeddings.embed_description(None, trigger, upsert=False)
-            self.trigger_embeddings.append(embedding)
-
-    def __update_metrics(self, duration: float) -> None:
-        self.image_eps.update()
-        self.image_inference_speed.update(duration)
-
-    def process_frame(self, frame_data: dict[str, Any], frame: np.ndarray):
-        # self.metrics.classification_cps[
-        #     self.model_config.name
-        # ].value = self.classifications_per_second.eps()
-        camera = frame_data.get("camera")
-
-        now = datetime.datetime.now().timestamp()
-
-        rgb = cv2.cvtColor(frame, cv2.COLOR_YUV2RGB_I420)
-        img_embedding = self.embeddings.embed_thumbnail(None, rgb, upsert=False)
-        self.__update_metrics(datetime.datetime.now().timestamp() - now)
-
-        if camera != "framecache":
-            return
-
-        for trigger_embedding in self.trigger_embeddings:
-            for trigger in self.trigger_config.triggers:
-                dot_product = np.dot(img_embedding, trigger_embedding)
-                norm_img_embedding = np.linalg.norm(img_embedding)
-                norm_trigger_embedding = np.linalg.norm(trigger_embedding)
-                logger.info(
-                    f"{camera}: Cosine similarity is {dot_product / (norm_img_embedding * norm_trigger_embedding)}"
-                )
-
-    def handle_request(self, topic, request_data):
-        return None
-
-    def expire_object(self, object_id, camera):
-        pass
--- a/frigate/embeddings/init.py
+++ b/frigate/embeddings/init.py
@ -293,3 +293,9 @@ class EmbeddingsContext:
            EmbeddingsRequestEnum.embed_description.value,
            {"id": None, "description": text, "upsert": False},
        )
+
+    def generate_image_embedding(self, event_id: str, thumbnail: bytes) -> None:
+        return self.requestor.send_data(
+            EmbeddingsRequestEnum.embed_thumbnail.value,
+            {"id": str(event_id), "thumbnail": str(thumbnail), "upsert": False},
+        )
--- a/frigate/embeddings/maintainer.py
+++ b/frigate/embeddings/maintainer.py
@ -14,7 +14,10 @@ import numpy as np
 from peewee import DoesNotExist

 from frigate.comms.detections_updater import DetectionSubscriber, DetectionTypeEnum
-from frigate.comms.embeddings_updater import EmbeddingsRequestEnum, EmbeddingsResponder
+from frigate.comms.embeddings_updater import (
+    EmbeddingsRequestEnum,
+    EmbeddingsResponder,
+)
 from frigate.comms.event_metadata_updater import (
    EventMetadataPublisher,
    EventMetadataSubscriber,
@ -46,6 +49,7 @@ from frigate.data_processing.post.audio_transcription import (
 from frigate.data_processing.post.license_plate import (
    LicensePlatePostProcessor,
 )
+from frigate.data_processing.post.semantic_trigger import SemanticTriggerProcessor
 from frigate.data_processing.real_time.api import RealTimeProcessorApi
 from frigate.data_processing.real_time.bird import BirdRealTimeProcessor
 from frigate.data_processing.real_time.custom_classification import (
@ -56,12 +60,11 @@ from frigate.data_processing.real_time.face import FaceRealTimeProcessor
 from frigate.data_processing.real_time.license_plate import (
    LicensePlateRealTimeProcessor,
 )
-from frigate.data_processing.real_time.semantic_trigger import SemanticTriggerProcessor
 from frigate.data_processing.types import DataProcessorMetrics, PostProcessDataEnum
 from frigate.db.sqlitevecq import SqliteVecQueueDatabase
 from frigate.events.types import EventTypeEnum, RegenerateDescriptionEnum
 from frigate.genai import get_genai_client
-from frigate.models import Event, Recordings
+from frigate.models import Event, Recordings, Trigger
 from frigate.types import TrackedObjectUpdateTypesEnum
 from frigate.util.builtin import serialize
 from frigate.util.image import (
@ -110,7 +113,7 @@ class EmbeddingMaintainer(threading.Thread):
            ),
            load_vec_extension=True,
        )
-        models = [Event, Recordings]
+        models = [Event, Recordings, Trigger]
        db.bind(models)

        if config.semantic_search.enabled:
@ -120,6 +123,8 @@ class EmbeddingMaintainer(threading.Thread):
            if config.semantic_search.reindex:
                self.embeddings.reindex()

+            # TODO: sync triggers
+
        # create communication for updating event descriptions
        self.requestor = InterProcessRequestor()

@ -189,16 +194,6 @@ class EmbeddingMaintainer(threading.Thread):
                )
            )

-        self.realtime_processors.append(
-            SemanticTriggerProcessor(
-                self.config,
-                self.config.cameras["orlandocam"].semantic_search,
-                self.requestor,
-                metrics,
-                self.embeddings,
-            )
-        )
-
        # post processors
        self.post_processors: list[PostProcessorApi] = []

@ -222,6 +217,17 @@ class EmbeddingMaintainer(threading.Thread):
                AudioTranscriptionPostProcessor(self.config, self.requestor, metrics)
            )

+        if self.config.semantic_search.enabled:
+            self.post_processors.append(
+                SemanticTriggerProcessor(
+                    db,
+                    self.config,
+                    self.requestor,
+                    metrics,
+                    self.embeddings,
+                )
+            )
+
        self.stop_event = stop_event
        self.tracked_events: dict[str, list[Any]] = {}
        self.early_request_sent: dict[str, bool] = {}
@ -398,33 +404,6 @@ class EmbeddingMaintainer(threading.Thread):
            event_id, camera, updated_db = ended
            camera_config = self.config.cameras[camera]

-            # call any defined post processors
-            for processor in self.post_processors:
-                if isinstance(processor, LicensePlatePostProcessor):
-                    recordings_available = self.recordings_available_through.get(camera)
-                    if (
-                        recordings_available is not None
-                        and event_id in self.detected_license_plates
-                        and self.config.cameras[camera].type != "lpr"
-                    ):
-                        processor.process_data(
-                            {
-                                "event_id": event_id,
-                                "camera": camera,
-                                "recordings_available": self.recordings_available_through[
-                                    camera
-                                ],
-                                "obj_data": self.detected_license_plates[event_id][
-                                    "obj_data"
-                                ],
-                            },
-                            PostProcessDataEnum.recording,
-                        )
-                elif isinstance(processor, AudioTranscriptionPostProcessor):
-                    continue
-                else:
-                    processor.process_data(event_id, PostProcessDataEnum.event_id)
-
            # expire in realtime processors
            for processor in self.realtime_processors:
                processor.expire_object(event_id, camera)
@ -461,6 +440,41 @@ class EmbeddingMaintainer(threading.Thread):
                ):
                    self._process_genai_description(event, camera_config, thumbnail)

+            # call any defined post processors
+            for processor in self.post_processors:
+                if isinstance(processor, LicensePlatePostProcessor):
+                    recordings_available = self.recordings_available_through.get(camera)
+                    if (
+                        recordings_available is not None
+                        and event_id in self.detected_license_plates
+                        and self.config.cameras[camera].type != "lpr"
+                    ):
+                        processor.process_data(
+                            {
+                                "event_id": event_id,
+                                "camera": camera,
+                                "recordings_available": self.recordings_available_through[
+                                    camera
+                                ],
+                                "obj_data": self.detected_license_plates[event_id][
+                                    "obj_data"
+                                ],
+                            },
+                            PostProcessDataEnum.recording,
+                        )
+                elif isinstance(processor, AudioTranscriptionPostProcessor):
+                    continue
+                elif isinstance(processor, SemanticTriggerProcessor):
+                    processor.process_data(
+                        {"event_id": event_id, "camera": camera, "type": "image"},
+                        PostProcessDataEnum.tracked_object,
+                    )
+                else:
+                    processor.process_data(
+                        {"event_id": event_id, "camera": camera},
+                        PostProcessDataEnum.tracked_object,
+                    )
+
            # Delete tracked events based on the event_id
            if event_id in self.tracked_events:
                del self.tracked_events[event_id]
@ -669,6 +683,16 @@ class EmbeddingMaintainer(threading.Thread):
        if self.config.semantic_search.enabled:
            self.embeddings.embed_description(event.id, description)

+        # Check semantic trigger for this description
+        for processor in self.post_processors:
+            if isinstance(processor, SemanticTriggerProcessor):
+                processor.process_data(
+                    {"event_id": event.id, "camera": event.camera, "type": "text"},
+                    PostProcessDataEnum.tracked_object,
+                )
+            else:
+                continue
+
        logger.debug(
            "Generated description for %s (%d images): %s",
            event.id,
--- a/frigate/util/builtin.py
+++ b/frigate/util/builtin.py
@ -428,3 +428,19 @@ def sanitize_float(value):
    if isinstance(value, (int, float)) and not math.isfinite(value):
        return 0.0
    return value
+
+
+def cosine_similarity(a: np.ndarray, b: np.ndarray) -> float:
+    return 1 - cosine_distance(a, b)
+
+
+def cosine_distance(a: np.ndarray, b: np.ndarray) -> float:
+    """Returns cosine distance to match sqlite-vec's calculation."""
+    dot = np.dot(a, b)
+    a_mag = np.dot(a, a)  # ||a||^2
+    b_mag = np.dot(b, b)  # ||b||^2
+
+    if a_mag == 0 or b_mag == 0:
+        return 1.0
+
+    return 1.0 - (dot / (np.sqrt(a_mag) * np.sqrt(b_mag)))