cv-analysis-service/scripts/save_figure_detection_data.py

import argparse
import json
from pathlib import Path

from cv_analysis.server.pipeline import get_analysis_pipeline


def parse_args():
    parser = argparse.ArgumentParser()
    parser.add_argument("pdf")
    return parser.parse_args()


if __name__ == "__main__":
    args = parse_args()

    detect_figures = get_analysis_pipeline("figure")

    with open(args.pdf, "rb") as f:
        pdf_bytes = f.read()

    results = list(detect_figures(pdf_bytes))

    folder = Path(args.pdf).parent
    file_stem = Path(args.pdf).stem

    with open(f"{folder}/{file_stem}_figures.json", "w+") as f:
        json.dump(results, f, indent=2)