The file has 100.719.644 lines, here are the first 50:
<text id="1">
<p id="1">
<s id="1">
(
0
)
<enty>
Miércoles
</enty>
,
17
diciembre
-
<enty>
JAM
</enty>
<enty>
SESSION
</enty>
i
Assemblea
de
músics
joves
(
0
)
Jueves
,
11
diciembre
-
Bon
<enty>
Nadal
</enty>
!
</s>
<s id="2">
!
</s>
<s id="3">
!
</s>
<s id="4">
(
0
)
Sobre
TAP
Ok, I can understand that, one of the test I did was replacing all the tags for exemple this way:
<s id="1"> by AAAidIGCI1CDZZZ,
but it chrashed anyway, what else can I do?
but how can this: AAAidIGCI1CDZZZ
possibly be xml, freeling tags it as proper noun, or number...
AAApidIGCI1CDZZZ AAApidIGCI1CDZZZ Z 1
AAACBsZZZ aaacbszzz NP00000 1
"AAAidIGCI1CDZZZ" is not XML, but <s id="1"> is indeed
Freeling analyzes text. If you feed it garbage, will try to do its best assuming the input was text.
That is why you get "proper noun". If you don't want nonsense answers, do not ask nonsense questions.... (asking to analyze AAAidIGCI1CDZZZ as text is a nonsense question)
Please provide more details…
Please provide more details. Which is the exact command you are writting?
analyze -f ca.cfg < orig.txt…
analyze -f ca.cfg < orig.txt > target.txt, this is the command I'm using
what is the content of orig…
what is the content of orig.txt ??
The file has 100.719.644…
The file has 100.719.644 lines, here are the first 50:
<text id="1">
<p id="1">
<s id="1">
(
0
)
<enty>
Miércoles
</enty>
,
17
diciembre
-
<enty>
JAM
</enty>
<enty>
SESSION
</enty>
i
Assemblea
de
músics
joves
(
0
)
Jueves
,
11
diciembre
-
Bon
<enty>
Nadal
</enty>
!
</s>
<s id="2">
!
</s>
<s id="3">
!
</s>
<s id="4">
(
0
)
Sobre
TAP
FreeLing is designed to…
FreeLing is designed to process text. If you feed XML into it, no wonder it crashes.
Ok, I can understand that,…
Ok, I can understand that, one of the test I did was replacing all the tags for exemple this way:
<s id="1"> by AAAidIGCI1CDZZZ,
but it chrashed anyway, what else can I do?
That is still XML. There…
That is still XML. There should be no tags, only text.
The input must be plain text, in UTF8. One token per line, one blank line after each sentence.
but how can this:…
but how can this: AAAidIGCI1CDZZZ
possibly be xml, freeling tags it as proper noun, or number...
AAApidIGCI1CDZZZ AAApidIGCI1CDZZZ Z 1
AAACBsZZZ aaacbszzz NP00000 1
"AAAidIGCI1CDZZZ" is not XML…
"AAAidIGCI1CDZZZ" is not XML, but <s id="1"> is indeed
Freeling analyzes text.
If you feed it garbage, will try to do its best assuming the input was text.
That is why you get "proper noun". If you don't want nonsense answers, do not ask nonsense questions.... (asking to analyze AAAidIGCI1CDZZZ as text is a nonsense question)