Add Home

2024-10-24 22:22:46 +02:00
commit 4cec5bb4fa

46
Home.md Normal file

@@ -0,0 +1,46 @@
# Feldolgozás
## Jogszabályok feldolgozása és a chunkok előállítása
*Jegyzetes:*
- Eredeti jogszabály XML -> Köztes fa
- Az eredeti jogszabály lineáris és helyenként hierarchikus XML-ből áll
- Eredmény: szövegi részek tisztán hierarchikus szerkezetben
- A köztes fa előállítása visitorokkal történik:
- feldolgozzák a specifikus XML elemeket (tartalom, attribútumok)
- pl.: táblázatból szöveges vagy markdown formátum
- Minden elem tartalmazhat:
- Context
- minden olyan információ ami az adott content könnyebb megértéséhez és megtalálásához szükséges lehet
- pl.: a törvénynek a címe, a preambulum, a fejezet címe
- Content
- A content pedig minden olyan tartalom ami a keresések megválaszolásához szükséges információkat tartalmazzák
- pl.: egy paragrafus tartalma, egy táblázat szövege
- A fa bejárása során jönnek létre a chunkok
- Minden context összefűzve addig, amíg nem nem jutunk contentig
- Eredmény:
- Egybefüggő szöveg a szerkezet szerint a kontextusban minden, a tartalomig vezető információval
- Kereshető rész
- HTML/XML elemek eltávolítva
- A chunkokhoz a legközelebbi jhId van hozzárendelve
- Fában való felfelé kereséssel van meghatározva
----------------------
*Szöveges:*
A jogszabályok xml formátumából lineáris és helyenként hierarchikus szerkezetéből építünk egy egységes köztes fa szerkezetet.
Ebben a fában a jogszabály szövegének részei találhatóak tisztán hierarchikus szerkezetben.
> **Példa:**
> norma -> dokumentum -> könyv -> rész -> fejezet -> bekezdés -> szakasz
Ezek előállításához visitorok-ba szervezett feldolgozók segítenek amelyek képesek feldolgozni specifikus xml elemeket, azoknak tartalmát és attributumait (pl: táblázatok-ból tudunk előállítani szöveges formátumot, vagy markdown-os szerkezetet).
Minden eleme az általunk épített fának tartalmazhat egy Context-et vagy egy Content-et.
A contextben található minden olyan információ ami az adott content könnyebb megértéséhez és megtalálásához szükséges lehet (pl: a törvénynek a címe, a preambulum, a fejezet címe).
A content pedig minden olyan tartalom ami a keresések megválaszolásához szükséges információkat tartalmazzák (pl: egy paragrafus tartalma, egy táblázat szövege).
A chunkok ebből a fa szerkezetből épülnek fel, ahogy bejárjuk a fát minden context-et összefűzünk egészen addig amíg nem érkezünk egy olyan levélhez ami content-et tartalmaz. Ezáltal a végén kapunk egy olyan egybefüggő szöveget amiben szerkezet szerint a kontextus-ban szerepel minden content-ig vezető információ, és a contentben összefűzve az kereshető rész áll elő. A legvégén pedig eltávolítunk minden HMTL/XML elemet a szövegből.
A `jhId` (NJT-n való anchor linkek előállításához szükséges) hozzárendelése a chunkokhoz egyszerűen a fában való felfele kereséssel lett megoldva, így a chunkhoz legközelebbi `jhId`-t tudjuk meghatározni.