Add Home
46
Home.md
Normal file
46
Home.md
Normal file
@@ -0,0 +1,46 @@
|
|||||||
|
# Feldolgozás
|
||||||
|
## Jogszabályok feldolgozása és a chunkok előállítása
|
||||||
|
|
||||||
|
*Jegyzetes:*
|
||||||
|
|
||||||
|
- Eredeti jogszabály XML -> Köztes fa
|
||||||
|
- Az eredeti jogszabály lineáris és helyenként hierarchikus XML-ből áll
|
||||||
|
- Eredmény: szövegi részek tisztán hierarchikus szerkezetben
|
||||||
|
- A köztes fa előállítása visitorokkal történik:
|
||||||
|
- feldolgozzák a specifikus XML elemeket (tartalom, attribútumok)
|
||||||
|
- pl.: táblázatból szöveges vagy markdown formátum
|
||||||
|
- Minden elem tartalmazhat:
|
||||||
|
- Context
|
||||||
|
- minden olyan információ ami az adott content könnyebb megértéséhez és megtalálásához szükséges lehet
|
||||||
|
- pl.: a törvénynek a címe, a preambulum, a fejezet címe
|
||||||
|
- Content
|
||||||
|
- A content pedig minden olyan tartalom ami a keresések megválaszolásához szükséges információkat tartalmazzák
|
||||||
|
- pl.: egy paragrafus tartalma, egy táblázat szövege
|
||||||
|
- A fa bejárása során jönnek létre a chunkok
|
||||||
|
- Minden context összefűzve addig, amíg nem nem jutunk contentig
|
||||||
|
- Eredmény:
|
||||||
|
- Egybefüggő szöveg a szerkezet szerint a kontextusban minden, a tartalomig vezető információval
|
||||||
|
- Kereshető rész
|
||||||
|
- HTML/XML elemek eltávolítva
|
||||||
|
- A chunkokhoz a legközelebbi jhId van hozzárendelve
|
||||||
|
- Fában való felfelé kereséssel van meghatározva
|
||||||
|
|
||||||
|
----------------------
|
||||||
|
|
||||||
|
*Szöveges:*
|
||||||
|
|
||||||
|
A jogszabályok xml formátumából lineáris és helyenként hierarchikus szerkezetéből építünk egy egységes köztes fa szerkezetet.
|
||||||
|
Ebben a fában a jogszabály szövegének részei találhatóak tisztán hierarchikus szerkezetben.
|
||||||
|
|
||||||
|
> **Példa:**
|
||||||
|
> norma -> dokumentum -> könyv -> rész -> fejezet -> bekezdés -> szakasz
|
||||||
|
|
||||||
|
Ezek előállításához visitorok-ba szervezett feldolgozók segítenek amelyek képesek feldolgozni specifikus xml elemeket, azoknak tartalmát és attributumait (pl: táblázatok-ból tudunk előállítani szöveges formátumot, vagy markdown-os szerkezetet).
|
||||||
|
|
||||||
|
Minden eleme az általunk épített fának tartalmazhat egy Context-et vagy egy Content-et.
|
||||||
|
A contextben található minden olyan információ ami az adott content könnyebb megértéséhez és megtalálásához szükséges lehet (pl: a törvénynek a címe, a preambulum, a fejezet címe).
|
||||||
|
A content pedig minden olyan tartalom ami a keresések megválaszolásához szükséges információkat tartalmazzák (pl: egy paragrafus tartalma, egy táblázat szövege).
|
||||||
|
|
||||||
|
A chunkok ebből a fa szerkezetből épülnek fel, ahogy bejárjuk a fát minden context-et összefűzünk egészen addig amíg nem érkezünk egy olyan levélhez ami content-et tartalmaz. Ezáltal a végén kapunk egy olyan egybefüggő szöveget amiben szerkezet szerint a kontextus-ban szerepel minden content-ig vezető információ, és a contentben összefűzve az kereshető rész áll elő. A legvégén pedig eltávolítunk minden HMTL/XML elemet a szövegből.
|
||||||
|
|
||||||
|
A `jhId` (NJT-n való anchor linkek előállításához szükséges) hozzárendelése a chunkokhoz egyszerűen a fában való felfele kereséssel lett megoldva, így a chunkhoz legközelebbi `jhId`-t tudjuk meghatározni.
|
||||||
Reference in New Issue
Block a user