commit 4cec5bb4fad9cc2c276e3a316025af75f43a5008 Author: midnight Date: Thu Oct 24 22:22:46 2024 +0200 Add Home diff --git a/Home.md b/Home.md new file mode 100644 index 0000000..5b56fab --- /dev/null +++ b/Home.md @@ -0,0 +1,46 @@ +# Feldolgozás +## Jogszabályok feldolgozása és a chunkok előállítása + +*Jegyzetes:* + +- Eredeti jogszabály XML -> Köztes fa + - Az eredeti jogszabály lineáris és helyenként hierarchikus XML-ből áll + - Eredmény: szövegi részek tisztán hierarchikus szerkezetben +- A köztes fa előállítása visitorokkal történik: + - feldolgozzák a specifikus XML elemeket (tartalom, attribútumok) + - pl.: táblázatból szöveges vagy markdown formátum +- Minden elem tartalmazhat: + - Context + - minden olyan információ ami az adott content könnyebb megértéséhez és megtalálásához szükséges lehet + - pl.: a törvénynek a címe, a preambulum, a fejezet címe + - Content + - A content pedig minden olyan tartalom ami a keresések megválaszolásához szükséges információkat tartalmazzák + - pl.: egy paragrafus tartalma, egy táblázat szövege +- A fa bejárása során jönnek létre a chunkok + - Minden context összefűzve addig, amíg nem nem jutunk contentig + - Eredmény: + - Egybefüggő szöveg a szerkezet szerint a kontextusban minden, a tartalomig vezető információval + - Kereshető rész + - HTML/XML elemek eltávolítva +- A chunkokhoz a legközelebbi jhId van hozzárendelve + - Fában való felfelé kereséssel van meghatározva + +---------------------- + +*Szöveges:* + +A jogszabályok xml formátumából lineáris és helyenként hierarchikus szerkezetéből építünk egy egységes köztes fa szerkezetet. +Ebben a fában a jogszabály szövegének részei találhatóak tisztán hierarchikus szerkezetben. + +> **Példa:** +> norma -> dokumentum -> könyv -> rész -> fejezet -> bekezdés -> szakasz + +Ezek előállításához visitorok-ba szervezett feldolgozók segítenek amelyek képesek feldolgozni specifikus xml elemeket, azoknak tartalmát és attributumait (pl: táblázatok-ból tudunk előállítani szöveges formátumot, vagy markdown-os szerkezetet). + +Minden eleme az általunk épített fának tartalmazhat egy Context-et vagy egy Content-et. +A contextben található minden olyan információ ami az adott content könnyebb megértéséhez és megtalálásához szükséges lehet (pl: a törvénynek a címe, a preambulum, a fejezet címe). +A content pedig minden olyan tartalom ami a keresések megválaszolásához szükséges információkat tartalmazzák (pl: egy paragrafus tartalma, egy táblázat szövege). + +A chunkok ebből a fa szerkezetből épülnek fel, ahogy bejárjuk a fát minden context-et összefűzünk egészen addig amíg nem érkezünk egy olyan levélhez ami content-et tartalmaz. Ezáltal a végén kapunk egy olyan egybefüggő szöveget amiben szerkezet szerint a kontextus-ban szerepel minden content-ig vezető információ, és a contentben összefűzve az kereshető rész áll elő. A legvégén pedig eltávolítunk minden HMTL/XML elemet a szövegből. + +A `jhId` (NJT-n való anchor linkek előállításához szükséges) hozzárendelése a chunkokhoz egyszerűen a fában való felfele kereséssel lett megoldva, így a chunkhoz legközelebbi `jhId`-t tudjuk meghatározni. \ No newline at end of file