You can not select more than 25 topics Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.
kmftools/bookscraper/CHATGPT_CONTEXT.md

87 lines
1.7 KiB

This file contains ambiguous Unicode characters!

This file contains ambiguous Unicode characters that may be confused with others in your current locale. If your use case is intentional and legitimate, you can safely ignore this warning. Use the Escape button to highlight these characters.

ChatGPT Project Context Bookscraper / Celery Branch
(Plaatsen in /docs/CHATGPT_CONTEXT.md of in de repo root)
1. Scraper Status (NIET AANPASSEN ZONDER TOESTEMMING)
De Python-based bookscraper is volledig functioneel.
De volgende onderdelen zijn stabiel en mogen niet worden overschreven, herschreven of opgeschoond zonder expliciete toestemming:
prepare_scripts() genereert drie scripts:
say.txt: alleen het TTS-script (bash, timestamps, Sinji voice, safe)
makebook.txt: alleen m4b merge + move
allinone.txt: TTS + merge + move
Volume-structuur: v1, v2, v3, …
Chapter-output:
Chapter 1 bevat een header:
URL: <chapter-url>
Description:
<beschrijving>
---
Overige chapters hebben alleen de tekst
Rate limiter werkt
Chapter parsing werkt
Description parsing werkt
Cover download werkt
Skiplogica werkt correct
2. Ontwikkelregels voor ChatGPT
Nooit bestaande werkende code verwijderen
Geen stille rewrites
Geen herstructurering zonder toestemming
Wijzigingen worden minimalistisch en doelgericht toegepast
Bij voorkeur veranderingen in diff/patch-stijl
Altijd aangeven welke bestanden worden geraakt
Directorystructuur behouden:
output/<book>/<site>/v1 etc.
3. Huidige Focus: celery_branch
ChatGPT moet zich richten op:
Celery worker architectuur verbeteren
Queueing & retry policies
Stabiliteit & observability
Integratie met scraping tasks
Zonder scraperfunctie te breken
4. Omgeving
Project draait in VS Code Dev Containers
Docker Compose structuren aanwezig
Celery + queue + worker containers in gebruik
Gebruik deze context in alle antwoorden.
find . \
-not -path "_/**pycache**_" \
-not -name "_.pyc" \
-print | sed -e 's;[^/]_/; |;g;s;|;|--;'