epl.icm.edu.pl

AO · Joined: 01 Apr 2005 Posts: 14 Location: NDAP

Język jaki jest każdy widzi.

jarwyp · Joined: 14 Mar 2005 Posts: 138 Location: ICM

Czy kodowanie języka zgodne z zapodanym iso definiuje także alfabet ? U nas problem jest minimalny, ale już na przykład dla rosyjskiego nie - można pisać cyrilicą i łaciną, a dla japońskiego jest już zupełnie źle - trzy równorzędne alfabety dla tego samego języka.
Skoro język nie definiuje kodowania to gdzie go zdefiniujemy ? Można uznać, że cały dokument ma być zakodowany jako UTF-8 lub UTF-16 jeśli mamy katakanę, ewentualnie UTF-32 jeśli mamy mandaryński, ale to musi być określone w standardzie.

Więcej pytań później.

AO · Joined: 01 Apr 2005 Posts: 14 Location: NDAP

cd z tematu: i technicznego (komputer)

Tak jak rozumiem język określa język(i) dokumentu.

Kodowanie liter ustawia użyty program w którym tekst jest edytowany i powinno być konwertowane mechanicznie w zależności od potrzeb (sprawy techniczne).
Nie ma przeszkód, aby dokument w języku polskim był pisany z użyciem CP852, win1250 czy ISO-88592, a wyświetlany jako utf-8.
Przykład: teksty pisane w win1250 podczas edycji serwisu WWW w serwisie wyświetlane są jako ISO-88592 - konwesja "w locie".

Myślę, że podobnie należy potraktować sprawę alfabetów. Polski tekst na upartego można napisać cyrylicą (jak rosyjski czy ukraiński łaciną), ale dalej będzie to polski język (rosyjski czy ukraiński).

jarwyp · Joined: 14 Mar 2005 Posts: 138 Location: ICM

Można określić, że kodowanie nas nie interesuje bo ma być kodowane w locie, ale to nie jest dobre. Jeśli nie narzucimy kodowania to wcale nie jest powiedziane, że ktokolwiek się do tego zastosuje. Wystarczające może się okazać wymuszenie definicji kodowania w nagłówku XML i stosowanie się do tego w całych metadanych, ale musimy to określić explicite.
Co do alfabetu to nie jestem przekonany, że nam nie będzie potrzebny. Nie jestem lingwistą, żeby ocenić jakie mogą być różnice gdy język jest jeden a alfabetów kilka. Mam jednak wrażenie, że takie coś może być konieczne (być może da się to zgadnąć z kodowania i z użytych znaków, ale nie mam pewności).

AO · Joined: 01 Apr 2005 Posts: 14 Location: NDAP

Może tu umieścić:

Cytat z FORMATu :
"pozwala zidentyfikować przy pomocy jakiego programu [<i>i z jakim kodowaniem znaków</i>AO] został utworzony plik i przy pomocy jakiego programu [<i>i z jakim kodowaniem znaków</i>AO] będziemy mogli go otworzyć"

Wtedy system kodowania pobierany z automatu. Narzucanie systemu kodowania znaków widzę czarno. Odkąd zajmuję się komputerami poznałem już 4 standardy. Wszystkie były najlepsze i wszystkie były standardami.

kschmidt · Site Admin Joined: 20 Mar 2005 Posts: 153 Location: NDAP

Wydaje mi się, że musimy cały czas pamiętać że standard ma dotyczyć współczesnie wytwarzanej dokumentacji w Polsce. Oznacza to, że dyskusja (choć ciekawa) na temat kodowania katakany czy mandaryńskiego jest chyba nieco przedwczesna. Nie przewiduję też problemów ze starocerkiewnosłowiańskim - te sprawy powinniśmy rozwiązywać przy okazji systemu zintegrowanego do zarządzania już zgomadzonymi materiałami archiwalnymi (w innym miejscu forum!). Tam problematyka kodowania znaków (zwłaszcza alfabetów "historycznych") na pewno będzie kluczowa.
Dla współczesnej administracji sprawa będzie marginalna. Mogę sobie wyobrazić list pisany do polskiego urzędu po japońsku, ale może na razie zostawmy ten problem (choć dobrze, że sygnalizujemy).

Ponadto chyba warto zauważyć, że zapisanie w metadanych że coś jest w języku polskim bedzie zapisaniem na stałe = ta informacja będzie niezmienna w czasie. Co do kodowania znaków wcale nie mam takiej pewności. Ale może się zamknę bo mnie napadniecie że już nigdy nie wolno będzie zmienić kodowania pierwotnego tekstu... i znów się zacznie

AO · Joined: 01 Apr 2005 Posts: 14 Location: NDAP

Dokumenty w polskich urzędach wytwarzane są w różnych językach vide MSZ lub NDAP

W starocerkiewnosłowiańskim nie są wytwarzane ani nie będą wytwarzane pisma urzędowe, ale...

Można sobie wyobrazić zamówienie przez archiwum z Wybrzeża Kości Słoniowej (złożone przez ambasadę w AGADzie) tłumaczenia Eposu o Gilgameszu ze starocerkiewnosłowiańskiego na łacinę wraz ze skanem oryginału.

Oficjalne pismo z ambasady oficjalna odpowiedź. Pismo w języku pol, załącznik w języku lat. A czy skan (załącznik) będzie dokumentem podlegającym projektowanym przez nas kryteriom??? jeżeli tak, to nie da się ukryć, że jest w starocerkiewnosłowiańskim.

uFF

AO · Joined: 01 Apr 2005 Posts: 14 Location: NDAP

Standard ISO 639 od 1,5 roku używają archiwa państwowe. Jak dotąd nawet AGAD nie zgłosił braków.

Wersja 2 elementu Język

jarwyp · Joined: 14 Mar 2005 Posts: 138 Location: ICM

Mnie już odpowiada ten element.
A najbardziej to, że coś się ruszyło na forum - a nie dywagacje moje i Kazika.
Co do kodowania - proponuję określić w standardzie, że przy zapisie XML'owym kodowanie jest określone następująco:

domyślnym kodowaniem jest UTF-8
jeśli określenie kodowania METADANYCH (nie dokumentu) jest istotne to zapisujemy je w nagłówku XML i stosujemy się do tej definicji.

Kodowanie dokumentu określamy w elemencie Format. Wyodrębnię taki atrybut w specyfikacji formatu.

jarwyp · Joined: 14 Mar 2005 Posts: 138 Location: ICM

Załączam znormalizowany do naszej wersji format tego elementu. Dodałem przykład XML, usunąłem przykład HTML. Reszta bez zmian za AO.

AO · Joined: 01 Apr 2005 Posts: 14 Location: NDAP

jarwyp · Joined: 14 Mar 2005 Posts: 138 Location: ICM

Pomylono dwie rzeczy - od początku dyskusji:

kodowanie metadanych
kodowanie dokumentu

Moja propozycja rozdzielała te dwie rzeczy:

Aby zdefiniować standard kodowania użyty przy zapisie METADANYCH narzucam domyślnie UTF-8 (jeśli nagłówek XML nie precyzuje inaczej)
Aby określić kodowanie dokumentu - jeśli jest taka konieczność używamy elementu: Format.Specyfikacja.Kodowanie.

I tak przykładowo metadane dla pliku CSV zapisane w windowsie XP będą:

AO · Joined: 01 Apr 2005 Posts: 14 Location: NDAP

jarwyp · Joined: 14 Mar 2005 Posts: 138 Location: ICM

AO · Joined: 01 Apr 2005 Posts: 14 Location: NDAP