epl.icm.edu.pl Forum Index epl.icm.edu.pl
Forum dyskusyjne o tematach związanych z e-Administracją i digitalizacją
 
 FAQFAQ   SearchSearch   MemberlistMemberlist   UsergroupsUsergroups   RegisterRegister 
 ProfileProfile   Log in to check your private messagesLog in to check your private messages   Log inLog in 

Jezyk
Goto page 1, 2  Next
 
This forum is locked: you cannot post, reply to, or edit topics.   This topic is locked: you cannot edit posts or make replies.    epl.icm.edu.pl Forum Index -> Struktura metadanych 0.1
View previous topic :: View next topic  
Author Message
AO



Joined: 01 Apr 2005
Posts: 14
Location: NDAP

PostPosted: Wed Apr 06, 2005 7:54 am    Post subject: Jezyk Reply with quote

Język jaki jest każdy widzi.


AO_meta_jezyk#1.rtf
 Description:

Download
 Filename:  AO_meta_jezyk#1.rtf
 Filesize:  21.39 KB
 Downloaded:  547 Time(s)

Back to top
View user's profile Send private message
jarwyp



Joined: 14 Mar 2005
Posts: 138
Location: ICM

PostPosted: Wed Apr 06, 2005 9:27 am    Post subject: Pytania Reply with quote


  1. Czy kodowanie języka zgodne z zapodanym iso definiuje także alfabet ? U nas problem jest minimalny, ale już na przykład dla rosyjskiego nie - można pisać cyrilicą i łaciną, a dla japońskiego jest już zupełnie źle - trzy równorzędne alfabety dla tego samego języka.
  2. Skoro język nie definiuje kodowania to gdzie go zdefiniujemy ? Można uznać, że cały dokument ma być zakodowany jako UTF-8 lub UTF-16 jeśli mamy katakanę, ewentualnie UTF-32 jeśli mamy mandaryński, ale to musi być określone w standardzie.

Więcej pytań później.
Back to top
View user's profile Send private message
AO



Joined: 01 Apr 2005
Posts: 14
Location: NDAP

PostPosted: Wed Apr 06, 2005 10:52 am    Post subject: Jezyk dokumentu a sprawa jego zapisu: formalnego (alfabet) i Reply with quote

cd z tematu: i technicznego (komputer)

Tak jak rozumiem język określa język(i) dokumentu.

Kodowanie liter ustawia użyty program w którym tekst jest edytowany i powinno być konwertowane mechanicznie w zależności od potrzeb (sprawy techniczne).
Nie ma przeszkód, aby dokument w języku polskim był pisany z użyciem CP852, win1250 czy ISO-88592, a wyświetlany jako utf-8.
Przykład: teksty pisane w win1250 podczas edycji serwisu WWW w serwisie wyświetlane są jako ISO-88592 - konwesja "w locie".

Myślę, że podobnie należy potraktować sprawę alfabetów. Polski tekst na upartego można napisać cyrylicą (jak rosyjski czy ukraiński łaciną), ale dalej będzie to polski język (rosyjski czy ukraiński).
Back to top
View user's profile Send private message
jarwyp



Joined: 14 Mar 2005
Posts: 138
Location: ICM

PostPosted: Wed Apr 06, 2005 11:09 am    Post subject: Techniczne i nietechniczne Reply with quote

Można określić, że kodowanie nas nie interesuje bo ma być kodowane w locie, ale to nie jest dobre. Jeśli nie narzucimy kodowania to wcale nie jest powiedziane, że ktokolwiek się do tego zastosuje. Wystarczające może się okazać wymuszenie definicji kodowania w nagłówku XML i stosowanie się do tego w całych metadanych, ale musimy to określić explicite.
Co do alfabetu to nie jestem przekonany, że nam nie będzie potrzebny. Nie jestem lingwistą, żeby ocenić jakie mogą być różnice gdy język jest jeden a alfabetów kilka. Mam jednak wrażenie, że takie coś może być konieczne (być może da się to zgadnąć z kodowania i z użytych znaków, ale nie mam pewności).
Back to top
View user's profile Send private message
AO



Joined: 01 Apr 2005
Posts: 14
Location: NDAP

PostPosted: Wed Apr 06, 2005 11:35 am    Post subject: Re kodowanie znakow Reply with quote

Może tu umieścić:

Cytat z FORMATu :
"pozwala zidentyfikować przy pomocy jakiego programu [<i>i z jakim kodowaniem znaków</i>AO] został utworzony plik i przy pomocy jakiego programu [<i>i z jakim kodowaniem znaków</i>AO] będziemy mogli go otworzyć"

Wtedy system kodowania pobierany z automatu. Narzucanie systemu kodowania znaków widzę czarno. Odkąd zajmuję się komputerami poznałem już 4 standardy. Wszystkie były najlepsze i wszystkie były standardami.
Back to top
View user's profile Send private message
kschmidt
Site Admin


Joined: 20 Mar 2005
Posts: 153
Location: NDAP

PostPosted: Wed Apr 06, 2005 12:57 pm    Post subject: głos moderatora - dyskusja o kodowaniu znaków Reply with quote

Wydaje mi się, że musimy cały czas pamiętać że standard ma dotyczyć współczesnie wytwarzanej dokumentacji w Polsce. Oznacza to, że dyskusja (choć ciekawa) na temat kodowania katakany czy mandaryńskiego jest chyba nieco przedwczesna. Nie przewiduję też problemów ze starocerkiewnosłowiańskim - te sprawy powinniśmy rozwiązywać przy okazji systemu zintegrowanego do zarządzania już zgomadzonymi materiałami archiwalnymi (w innym miejscu forum!). Tam problematyka kodowania znaków (zwłaszcza alfabetów "historycznych") na pewno będzie kluczowa.
Dla współczesnej administracji sprawa będzie marginalna. Mogę sobie wyobrazić list pisany do polskiego urzędu po japońsku, ale może na razie zostawmy ten problem (choć dobrze, że sygnalizujemy).

Ponadto chyba warto zauważyć, że zapisanie w metadanych że coś jest w języku polskim bedzie zapisaniem na stałe = ta informacja będzie niezmienna w czasie. Co do kodowania znaków wcale nie mam takiej pewności. Ale może się zamknę bo mnie napadniecie że już nigdy nie wolno będzie zmienić kodowania pierwotnego tekstu... i znów się zacznie

_________________
--
Kazimierz Schmidt
Back to top
View user's profile Send private message Send e-mail
AO



Joined: 01 Apr 2005
Posts: 14
Location: NDAP

PostPosted: Wed Apr 06, 2005 1:43 pm    Post subject: Re: głos moderatora Reply with quote

Dokumenty w polskich urzędach wytwarzane są w różnych językach vide MSZ lub NDAP

W starocerkiewnosłowiańskim nie są wytwarzane ani nie będą wytwarzane pisma urzędowe, ale...

Można sobie wyobrazić zamówienie przez archiwum z Wybrzeża Kości Słoniowej (złożone przez ambasadę w AGADzie) tłumaczenia Eposu o Gilgameszu ze starocerkiewnosłowiańskiego na łacinę wraz ze skanem oryginału.

Oficjalne pismo z ambasady oficjalna odpowiedź. Pismo w języku pol, załącznik w języku lat. A czy skan (załącznik) będzie dokumentem podlegającym projektowanym przez nas kryteriom??? jeżeli tak, to nie da się ukryć, że jest w starocerkiewnosłowiańskim.

uFF
Back to top
View user's profile Send private message
AO



Joined: 01 Apr 2005
Posts: 14
Location: NDAP

PostPosted: Wed Apr 06, 2005 2:28 pm    Post subject: Jezyka finita (chyba) Reply with quote

Standard ISO 639 od 1,5 roku używają archiwa państwowe. Jak dotąd nawet AGAD nie zgłosił braków.

Wersja 2 elementu Język



AO_meta_jezyk#2.rtf
 Description:
wesja druga (chyba końcowa)

Download
 Filename:  AO_meta_jezyk#2.rtf
 Filesize:  19.84 KB
 Downloaded:  483 Time(s)

Back to top
View user's profile Send private message
jarwyp



Joined: 14 Mar 2005
Posts: 138
Location: ICM

PostPosted: Wed Apr 06, 2005 3:52 pm    Post subject: Mnie się podoba Reply with quote

Mnie już odpowiada ten element.
A najbardziej to, że coś się ruszyło na forum - a nie dywagacje moje i Kazika.
Co do kodowania - proponuję określić w standardzie, że przy zapisie XML'owym kodowanie jest określone następująco:

  1. domyślnym kodowaniem jest UTF-8
  2. jeśli określenie kodowania METADANYCH (nie dokumentu) jest istotne to zapisujemy je w nagłówku XML i stosujemy się do tej definicji.

Kodowanie dokumentu określamy w elemencie Format. Wyodrębnię taki atrybut w specyfikacji formatu.
Back to top
View user's profile Send private message
jarwyp



Joined: 14 Mar 2005
Posts: 138
Location: ICM

PostPosted: Wed Apr 06, 2005 4:08 pm    Post subject: Normalizacja Reply with quote

Załączam znormalizowany do naszej wersji format tego elementu. Dodałem przykład XML, usunąłem przykład HTML. Reszta bez zmian za AO.


jezyk-20050406-jarwyp.doc
 Description:
Wersja 2005.04.06 - jarwyp

Download
 Filename:  jezyk-20050406-jarwyp.doc
 Filesize:  19 KB
 Downloaded:  491 Time(s)

Back to top
View user's profile Send private message
AO



Joined: 01 Apr 2005
Posts: 14
Location: NDAP

PostPosted: Tue Apr 12, 2005 2:30 pm    Post subject: Re: Mnie się podoba Reply with quote

jarwyp wrote:

Co do kodowania - proponuję określić w standardzie, że przy zapisie XML'owym kodowanie jest określone następująco:
...
Kodowanie dokumentu określamy w elemencie Format. Wyodrębnię taki atrybut w specyfikacji formatu.


1 O ile pamiętam format pliku (np. XML) opisujemy w elemencie FORMAT i jest to dobre miejsce na kodowanie znaków. Czy jest jakiś powód aby szczególnie wyróżniać dokumenty w formacie XML i narzucać kodowanie, a co z np. HTML?, XHTML?

2. Jakiś czas temu, na jednym ze spotkań na Geodezji, został przywołany niejaki Ockham. Pytanie:
Jaki jest cel wprowadzenia dodatkowgo szczebelka (cecha) o nazwie "kod"
Co on wyróżnia i od czego? Poproszę o przykład.

Adam
Back to top
View user's profile Send private message
jarwyp



Joined: 14 Mar 2005
Posts: 138
Location: ICM

PostPosted: Tue Apr 12, 2005 4:05 pm    Post subject: To nie tak Reply with quote

Pomylono dwie rzeczy - od początku dyskusji:

  1. kodowanie metadanych
  2. kodowanie dokumentu

Moja propozycja rozdzielała te dwie rzeczy:

  • Aby zdefiniować standard kodowania użyty przy zapisie METADANYCH narzucam domyślnie UTF-8 (jeśli nagłówek XML nie precyzuje inaczej)
  • Aby określić kodowanie dokumentu - jeśli jest taka konieczność używamy elementu: Format.Specyfikacja.Kodowanie.

I tak przykładowo metadane dla pliku CSV zapisane w windowsie XP będą:
Code:

<?xml version="1.0"?>
<dokument>
    ...
    <format>
        ...
        <specyfikacja>
            <kodowanie>CP-1250</kodowanie>
        </specyfikacja>
    <format>
    ...
</dokument>

I wszystko jest OK
Natomiast dla analogicznych danych zapisanych także w CP-1250 ale z dziwną nazwą :
Code:

<?xml version="1.0" encoding="CP-1250"?>
<dokument>
    <tytul>Bardzo dziwny dokument łóżźćś</tytuł>
    ...
    <format>
        ...
        <specyfikacja>
            <kodowanie>CP-1250</kodowanie>
        </specyfikacja>
    <format>
    ...
</dokument>

I musimy to zrobić bo w tytule są nietypowe znaczki.
Czy teraz rozjaśniłem trochę problem ?
Back to top
View user's profile Send private message
AO



Joined: 01 Apr 2005
Posts: 14
Location: NDAP

PostPosted: Wed Apr 13, 2005 9:43 am    Post subject: Re: To nie tak Reply with quote

jarwyp wrote:
Pomylono dwie rzeczy - od początku dyskusji:

  1. kodowanie metadanych
  2. kodowanie dokumentu


Tak też myślałem. Choć nie od początku dyskusji, a jakieś dwa posty wyżej. W zamieszczonym tekście zabrakło małego słówka "METADANYCH" (użycie go tylko w pkt. 2. zasugerowało, że pkt. 1 odnosi się do DOKUMENTÓW - stąd moje pytanie) cytat z tego postu:
"Co do kodowania - proponuję określić w standardzie, że przy zapisie XML'owym [METADANYCH- AO] kodowanie jest określone następująco:
1. domyślnym kodowaniem [Metadanych- AO] jest UTF-8"

W związku z powyższym pierwsze moje pytanie uważam za bezprzedmiotowe. Słówko zmieniające sens zostało odnalezione.

Pozostaje punkt drugi, który pozwolę sobie ponowić:
"Jaki jest cel wprowadzenia dodatkowgo szczebelka (cecha) o nazwie "kod"
Co on wyróżnia i od czego? Poproszę o przykład. "

oraz rozwinąć:
Jaki warunek konieczny zmusza nas do zastosowania cechy "kod" i zapisu:
<język>
<kod>pol</kod>
</język>

zamiast
<język>pol</język>

Adam
Back to top
View user's profile Send private message
jarwyp



Joined: 14 Mar 2005
Posts: 138
Location: ICM

PostPosted: Wed Apr 13, 2005 5:11 pm    Post subject: Re: To nie tak Reply with quote

Quote:

oraz rozwinąć:
Jaki warunek konieczny zmusza nas do zastosowania cechy "kod" i zapisu:
<język>
<kod>pol</kod>
</język>

zamiast
<język>pol</język>


Nic nas do tego nie zmusza. W chwili obecnej jest to moja próba ujednolicenia struktury XML'owej metadanych. Wciąż się zastanawiam jaką postać powinny mieć elementy. Nie jestem przekonany, że pominięcie nazwy atrybutu - kod jest w czymkolwiek lepsze/gorsze od uwzględnienie jej.
Sam skłaniałbym się do zapisu:
Code:

<język kod="pol"/>

Oczywiście jak już będą ustalone wszystkie elementy to zajmę się ujednoliceniem wszystkiego - tak aby nie było nigdzie problemów z zakodowaniem - niewykluczone, że wtedy atrybut kod zniknie z zapisu. Ale chyba dopiero wtedy.
Back to top
View user's profile Send private message
AO



Joined: 01 Apr 2005
Posts: 14
Location: NDAP

PostPosted: Thu Apr 14, 2005 12:24 pm    Post subject: koniec Reply with quote

OK.
Back to top
View user's profile Send private message
Display posts from previous:   
This forum is locked: you cannot post, reply to, or edit topics.   This topic is locked: you cannot edit posts or make replies.    epl.icm.edu.pl Forum Index -> Struktura metadanych 0.1 All times are GMT + 1 Hour
Goto page 1, 2  Next
Page 1 of 2

 
Jump to:  
You cannot post new topics in this forum
You cannot reply to topics in this forum
You cannot edit your posts in this forum
You cannot delete your posts in this forum
You cannot vote in polls in this forum
You cannot attach files in this forum
You can download files in this forum


Powered by phpBB © 2001, 2005 phpBB Group