View previous topic :: View next topic |
Author |
Message |
AO
Joined: 01 Apr 2005 Posts: 14 Location: NDAP
|
Posted: Wed Apr 06, 2005 7:54 am Post subject: Jezyk |
|
|
Język jaki jest każdy widzi.
Description: |
|
Download |
Filename: |
AO_meta_jezyk#1.rtf |
Filesize: |
21.39 KB |
Downloaded: |
5606 Time(s) |
|
|
Back to top |
|
|
jarwyp
Joined: 14 Mar 2005 Posts: 138 Location: ICM
|
Posted: Wed Apr 06, 2005 9:27 am Post subject: Pytania |
|
|
- Czy kodowanie języka zgodne z zapodanym iso definiuje także alfabet ? U nas problem jest minimalny, ale już na przykład dla rosyjskiego nie - można pisać cyrilicą i łaciną, a dla japońskiego jest już zupełnie źle - trzy równorzędne alfabety dla tego samego języka.
- Skoro język nie definiuje kodowania to gdzie go zdefiniujemy ? Można uznać, że cały dokument ma być zakodowany jako UTF-8 lub UTF-16 jeśli mamy katakanę, ewentualnie UTF-32 jeśli mamy mandaryński, ale to musi być określone w standardzie.
Więcej pytań później.
|
|
Back to top |
|
|
AO
Joined: 01 Apr 2005 Posts: 14 Location: NDAP
|
Posted: Wed Apr 06, 2005 10:52 am Post subject: Jezyk dokumentu a sprawa jego zapisu: formalnego (alfabet) i |
|
|
cd z tematu: i technicznego (komputer)
Tak jak rozumiem język określa język(i) dokumentu.
Kodowanie liter ustawia użyty program w którym tekst jest edytowany i powinno być konwertowane mechanicznie w zależności od potrzeb (sprawy techniczne).
Nie ma przeszkód, aby dokument w języku polskim był pisany z użyciem CP852, win1250 czy ISO-88592, a wyświetlany jako utf-8.
Przykład: teksty pisane w win1250 podczas edycji serwisu WWW w serwisie wyświetlane są jako ISO-88592 - konwesja "w locie".
Myślę, że podobnie należy potraktować sprawę alfabetów. Polski tekst na upartego można napisać cyrylicą (jak rosyjski czy ukraiński łaciną), ale dalej będzie to polski język (rosyjski czy ukraiński).
|
|
Back to top |
|
|
jarwyp
Joined: 14 Mar 2005 Posts: 138 Location: ICM
|
Posted: Wed Apr 06, 2005 11:09 am Post subject: Techniczne i nietechniczne |
|
|
Można określić, że kodowanie nas nie interesuje bo ma być kodowane w locie, ale to nie jest dobre. Jeśli nie narzucimy kodowania to wcale nie jest powiedziane, że ktokolwiek się do tego zastosuje. Wystarczające może się okazać wymuszenie definicji kodowania w nagłówku XML i stosowanie się do tego w całych metadanych, ale musimy to określić explicite.
Co do alfabetu to nie jestem przekonany, że nam nie będzie potrzebny. Nie jestem lingwistą, żeby ocenić jakie mogą być różnice gdy język jest jeden a alfabetów kilka. Mam jednak wrażenie, że takie coś może być konieczne (być może da się to zgadnąć z kodowania i z użytych znaków, ale nie mam pewności).
|
|
Back to top |
|
|
AO
Joined: 01 Apr 2005 Posts: 14 Location: NDAP
|
Posted: Wed Apr 06, 2005 11:35 am Post subject: Re kodowanie znakow |
|
|
Może tu umieścić:
Cytat z FORMATu :
"pozwala zidentyfikować przy pomocy jakiego programu [<i>i z jakim kodowaniem znaków</i>AO] został utworzony plik i przy pomocy jakiego programu [<i>i z jakim kodowaniem znaków</i>AO] będziemy mogli go otworzyć"
Wtedy system kodowania pobierany z automatu. Narzucanie systemu kodowania znaków widzę czarno. Odkąd zajmuję się komputerami poznałem już 4 standardy. Wszystkie były najlepsze i wszystkie były standardami.
|
|
Back to top |
|
|
kschmidt Site Admin
Joined: 20 Mar 2005 Posts: 153 Location: NDAP
|
Posted: Wed Apr 06, 2005 12:57 pm Post subject: głos moderatora - dyskusja o kodowaniu znaków |
|
|
Wydaje mi się, że musimy cały czas pamiętać że standard ma dotyczyć współczesnie wytwarzanej dokumentacji w Polsce. Oznacza to, że dyskusja (choć ciekawa) na temat kodowania katakany czy mandaryńskiego jest chyba nieco przedwczesna. Nie przewiduję też problemów ze starocerkiewnosłowiańskim - te sprawy powinniśmy rozwiązywać przy okazji systemu zintegrowanego do zarządzania już zgomadzonymi materiałami archiwalnymi (w innym miejscu forum!). Tam problematyka kodowania znaków (zwłaszcza alfabetów "historycznych") na pewno będzie kluczowa.
Dla współczesnej administracji sprawa będzie marginalna. Mogę sobie wyobrazić list pisany do polskiego urzędu po japońsku, ale może na razie zostawmy ten problem (choć dobrze, że sygnalizujemy).
Ponadto chyba warto zauważyć, że zapisanie w metadanych że coś jest w języku polskim bedzie zapisaniem na stałe = ta informacja będzie niezmienna w czasie. Co do kodowania znaków wcale nie mam takiej pewności. Ale może się zamknę bo mnie napadniecie że już nigdy nie wolno będzie zmienić kodowania pierwotnego tekstu... i znów się zacznie
_________________ --
Kazimierz Schmidt |
|
Back to top |
|
|
AO
Joined: 01 Apr 2005 Posts: 14 Location: NDAP
|
Posted: Wed Apr 06, 2005 1:43 pm Post subject: Re: głos moderatora |
|
|
Dokumenty w polskich urzędach wytwarzane są w różnych językach vide MSZ lub NDAP
W starocerkiewnosłowiańskim nie są wytwarzane ani nie będą wytwarzane pisma urzędowe, ale...
Można sobie wyobrazić zamówienie przez archiwum z Wybrzeża Kości Słoniowej (złożone przez ambasadę w AGADzie) tłumaczenia Eposu o Gilgameszu ze starocerkiewnosłowiańskiego na łacinę wraz ze skanem oryginału.
Oficjalne pismo z ambasady oficjalna odpowiedź. Pismo w języku pol, załącznik w języku lat. A czy skan (załącznik) będzie dokumentem podlegającym projektowanym przez nas kryteriom??? jeżeli tak, to nie da się ukryć, że jest w starocerkiewnosłowiańskim.
uFF
|
|
Back to top |
|
|
AO
Joined: 01 Apr 2005 Posts: 14 Location: NDAP
|
Posted: Wed Apr 06, 2005 2:28 pm Post subject: Jezyka finita (chyba) |
|
|
Standard ISO 639 od 1,5 roku używają archiwa państwowe. Jak dotąd nawet AGAD nie zgłosił braków.
Wersja 2 elementu Język
Description: |
wesja druga (chyba końcowa) |
|
Download |
Filename: |
AO_meta_jezyk#2.rtf |
Filesize: |
19.84 KB |
Downloaded: |
4871 Time(s) |
|
|
Back to top |
|
|
jarwyp
Joined: 14 Mar 2005 Posts: 138 Location: ICM
|
Posted: Wed Apr 06, 2005 3:52 pm Post subject: Mnie się podoba |
|
|
Mnie już odpowiada ten element.
A najbardziej to, że coś się ruszyło na forum - a nie dywagacje moje i Kazika.
Co do kodowania - proponuję określić w standardzie, że przy zapisie XML'owym kodowanie jest określone następująco:
- domyślnym kodowaniem jest UTF-8
- jeśli określenie kodowania METADANYCH (nie dokumentu) jest istotne to zapisujemy je w nagłówku XML i stosujemy się do tej definicji.
Kodowanie dokumentu określamy w elemencie Format. Wyodrębnię taki atrybut w specyfikacji formatu.
|
|
Back to top |
|
|
jarwyp
Joined: 14 Mar 2005 Posts: 138 Location: ICM
|
Posted: Wed Apr 06, 2005 4:08 pm Post subject: Normalizacja |
|
|
Załączam znormalizowany do naszej wersji format tego elementu. Dodałem przykład XML, usunąłem przykład HTML. Reszta bez zmian za AO.
Description: |
Wersja 2005.04.06 - jarwyp |
|
Download |
Filename: |
jezyk-20050406-jarwyp.doc |
Filesize: |
19 KB |
Downloaded: |
5100 Time(s) |
|
|
Back to top |
|
|
AO
Joined: 01 Apr 2005 Posts: 14 Location: NDAP
|
Posted: Tue Apr 12, 2005 2:30 pm Post subject: Re: Mnie się podoba |
|
|
jarwyp wrote: |
Co do kodowania - proponuję określić w standardzie, że przy zapisie XML'owym kodowanie jest określone następująco:
...
Kodowanie dokumentu określamy w elemencie Format. Wyodrębnię taki atrybut w specyfikacji formatu. |
1 O ile pamiętam format pliku (np. XML) opisujemy w elemencie FORMAT i jest to dobre miejsce na kodowanie znaków. Czy jest jakiś powód aby szczególnie wyróżniać dokumenty w formacie XML i narzucać kodowanie, a co z np. HTML?, XHTML?
2. Jakiś czas temu, na jednym ze spotkań na Geodezji, został przywołany niejaki Ockham. Pytanie:
Jaki jest cel wprowadzenia dodatkowgo szczebelka (cecha) o nazwie "kod"
Co on wyróżnia i od czego? Poproszę o przykład.
Adam
|
|
Back to top |
|
|
jarwyp
Joined: 14 Mar 2005 Posts: 138 Location: ICM
|
Posted: Tue Apr 12, 2005 4:05 pm Post subject: To nie tak |
|
|
Pomylono dwie rzeczy - od początku dyskusji:
- kodowanie metadanych
- kodowanie dokumentu
Moja propozycja rozdzielała te dwie rzeczy:
- Aby zdefiniować standard kodowania użyty przy zapisie METADANYCH narzucam domyślnie UTF-8 (jeśli nagłówek XML nie precyzuje inaczej)
- Aby określić kodowanie dokumentu - jeśli jest taka konieczność używamy elementu: Format.Specyfikacja.Kodowanie.
I tak przykładowo metadane dla pliku CSV zapisane w windowsie XP będą:
Code: |
<?xml version="1.0"?>
<dokument>
...
<format>
...
<specyfikacja>
<kodowanie>CP-1250</kodowanie>
</specyfikacja>
<format>
...
</dokument>
|
I wszystko jest OK
Natomiast dla analogicznych danych zapisanych także w CP-1250 ale z dziwną nazwą :
Code: |
<?xml version="1.0" encoding="CP-1250"?>
<dokument>
<tytul>Bardzo dziwny dokument łóżźćś</tytuł>
...
<format>
...
<specyfikacja>
<kodowanie>CP-1250</kodowanie>
</specyfikacja>
<format>
...
</dokument>
|
I musimy to zrobić bo w tytule są nietypowe znaczki.
Czy teraz rozjaśniłem trochę problem ?
|
|
Back to top |
|
|
AO
Joined: 01 Apr 2005 Posts: 14 Location: NDAP
|
Posted: Wed Apr 13, 2005 9:43 am Post subject: Re: To nie tak |
|
|
jarwyp wrote: | Pomylono dwie rzeczy - od początku dyskusji:
- kodowanie metadanych
- kodowanie dokumentu
|
Tak też myślałem. Choć nie od początku dyskusji, a jakieś dwa posty wyżej. W zamieszczonym tekście zabrakło małego słówka "METADANYCH" (użycie go tylko w pkt. 2. zasugerowało, że pkt. 1 odnosi się do DOKUMENTÓW - stąd moje pytanie) cytat z tego postu:
"Co do kodowania - proponuję określić w standardzie, że przy zapisie XML'owym [METADANYCH- AO] kodowanie jest określone następująco:
1. domyślnym kodowaniem [Metadanych- AO] jest UTF-8"
W związku z powyższym pierwsze moje pytanie uważam za bezprzedmiotowe. Słówko zmieniające sens zostało odnalezione.
Pozostaje punkt drugi, który pozwolę sobie ponowić:
"Jaki jest cel wprowadzenia dodatkowgo szczebelka (cecha) o nazwie "kod"
Co on wyróżnia i od czego? Poproszę o przykład. "
oraz rozwinąć:
Jaki warunek konieczny zmusza nas do zastosowania cechy "kod" i zapisu:
<język>
<kod>pol</kod>
</język>
zamiast
<język>pol</język>
Adam
|
|
Back to top |
|
|
jarwyp
Joined: 14 Mar 2005 Posts: 138 Location: ICM
|
Posted: Wed Apr 13, 2005 5:11 pm Post subject: Re: To nie tak |
|
|
Quote: |
oraz rozwinąć:
Jaki warunek konieczny zmusza nas do zastosowania cechy "kod" i zapisu:
<język>
<kod>pol</kod>
</język>
zamiast
<język>pol</język>
|
Nic nas do tego nie zmusza. W chwili obecnej jest to moja próba ujednolicenia struktury XML'owej metadanych. Wciąż się zastanawiam jaką postać powinny mieć elementy. Nie jestem przekonany, że pominięcie nazwy atrybutu - kod jest w czymkolwiek lepsze/gorsze od uwzględnienie jej.
Sam skłaniałbym się do zapisu:
Oczywiście jak już będą ustalone wszystkie elementy to zajmę się ujednoliceniem wszystkiego - tak aby nie było nigdzie problemów z zakodowaniem - niewykluczone, że wtedy atrybut kod zniknie z zapisu. Ale chyba dopiero wtedy.
|
|
Back to top |
|
|
AO
Joined: 01 Apr 2005 Posts: 14 Location: NDAP
|
Posted: Thu Apr 14, 2005 12:24 pm Post subject: koniec |
|
|
OK.
|
|
Back to top |
|
|
|