文字コードについての簡単なまとめ

UTF-8の場合、一文字を1~4バイトとして通常は認識する。日本語は大体３バイト。

しかし、結合文字（㋿、👨‍👨‍👦‍👦など）や第三、四水準漢字（伃、丩などの常用漢字でないもの）は複数の文字で構成されているので、４バイトとなる。

上記のような、複数の文字（コードポイント：文字コードのようなもの）で構成されている文字をサロゲートペアという。

UTF-8ではサロゲートペアが考慮されていないので、バラバラに表示される事がある。

しかし、UTF-16ではサロゲートペアが考慮されているため、問題がないことが多い。

結構よく使うけれど、ついつい忘れがちなのが

char、varchar、nchar、nvarcharの取り扱い方の違い。

すごく簡単に説明すると

意外と説明されていないことが多い由来についてです。

nとはNational（固有の）

varとはvariable（可変の）

char（文字）はそのままですね。

なので、さっきのを日本語訳してみましょう。

なんだか意味が一気に覚えられるような気がしませんか？

日本語はかなり難しく、漢字は絵文字と同じようなバイトの計算方法なのでかなりエラーが起きるときがあります。

バイト数でチェックしていると、たまに罠に落ちることがありますので、気をつけましょう。

簡単なことを言うと、基本nvarcharを使用しておけば問題ないです！（そんなことないです。）