ਕੰਪਿਊਟਰ ', ਪ੍ਰੋਗਰਾਮਿੰਗ
UTF-8 - ਅੱਖਰ ਇੰਕੋਡਿੰਗ
ਯੂਨੀਕੋਡ ਲੱਗਭਗ ਸਾਰੇ ਮੌਜੂਦਾ ਅੱਖਰ ਸੈੱਟ ਨੂੰ ਸਹਿਯੋਗ ਦਿੰਦਾ ਹੈ. ਯੂਨੀਕੋਡ ਅੱਖਰ ਸਮੂਹ ਇੰਕੋਡਿੰਗ ਬੇਹਤਰੀਨ ਫਾਰਮ UTF-8 ਇੰਕੋਡਿੰਗ ਹੈ. ਇਹ ਡਾਟਾ, ਕੁਸ਼ਲਤਾ ਅਤੇ ਕਾਰਵਾਈ ਦੀ ਸੌਖ ਦੀ ਭਟਕਣਾ ਨੂੰ ASCII ਨਾਲ ਅਨੁਕੂਲਤਾ, ਵਿਰੋਧ ਨੂੰ ਸਹਿਯੋਗ ਦਿੰਦਾ ਹੈ. ਪਰ ਪਹਿਲੀ ਪਹਿਲੀ ਕੁਝ.
ਕੋਡਿੰਗ ਫਾਰਮ
ਬਾਈਟ ਅਤੇ 32-ਬਿੱਟ ਸ਼ਬਦ - ਕੰਪਿਊਟਰ, ਨਾ ਸਿਰਫ ਦੇ ਤੌਰ ਤੇ ਨੰਬਰ ਵੱਖਰਾ ਗਣਿਤ ਆਬਜੈਕਟ, ਦੇ ਨਾਲ ਨਾਲ ਸਟੋਰੇਜ਼ ਦੇ ਯੂਨਿਟ ਦੇ ਸੰਜੋਗ ਅਤੇ ਪਰਬੰਧਨ ਹੱਲ ਕੀਤਾ-ਆਕਾਰ ਨੂੰ ਡਾਟਾ ਨੂੰ ਸੰਚਲਿਤ. ਜਦ ਕਰਦੀ ਹੈ ਕਿ ਪੇਸ਼ ਕਰਨ ਲਈ ਇੰਕੋਡਿੰਗ ਮਿਆਰੀ ਖਾਤੇ ਵਿੱਚ ਇਸ ਨੂੰ ਲੈ ਚਾਹੀਦਾ ਹੈ ਅੱਖਰ ਦੀ ਗਿਣਤੀ.
ਕੰਪਿਊਟਰ ਸਿਸਟਮ ਵਿੱਚ, ਅੰਕ 8 ਬਿੱਟ (1 ਬਾਈਟ), 16 ਜ 32 ਬਿੱਟ ਮੈਮੋਰੀ ਸੈੱਲ ਵਿੱਚ ਸਟੋਰ. ਹਰ ਫਾਰਮ ਨੂੰ ਇੱਕ ਯੂਨੀਕੋਡ ਇੰਕੋਡਿੰਗ ਹੈ, ਜੋ ਕਿ ਮੈਮੋਰੀ ਸੈੱਲ ਦੀ ਤਰਤੀਬ ਇੱਕ ਪੂਰਨ ਅੰਕ ਇੱਕ ਖਾਸ ਪ੍ਰਤੀਕ ਕਰਨ ਲਈ ਅਨੁਸਾਰੀ ਹੈ ਦੱਸਦੀ ਹੈ. ਮਿਆਰੀ ਵਿੱਚ ਯੂਨੀਕੋਡ ਅੱਖਰ 8, 16 ਅਤੇ 32-ਬਿੱਟ ਬਲਾਕ ਕੋਡਿੰਗ ਦੇ ਤਿੰਨ ਵੱਖ-ਵੱਖ ਰੂਪ ਹਨ. ਇਸ ਅਨੁਸਾਰ, ਉਹ UTF-8, UTF-16 ਅਤੇ UTF-32 ਦੇ ਤੌਰ ਤੇ ਜਾਣਿਆ ਜਾਦਾ ਹੈ. ਨਾਮ ਦਾ UTF ਯੂਨੀਕੋਡ ਪਰਿਵਰਤਨ ਫਾਰਮੈਟ ਲਈ ਖੜ੍ਹਾ ਹੈ. ਇੰਕੋਡਿੰਗ ਦਾ ਮਤਲਬ ਹੈ ਦੀ ਤਿੰਨ ਰੂਪ ਦੇ ਹਰ ਬਰਾਬਰ ਨੁਮਾਇੰਦਗੀ ਯੂਨੀਕੋਡ ਅੱਖਰ ਵੱਖ-ਵੱਖ ਕਾਰਜ ਵਿਚ ਫਾਇਦੇ ਹਨ ਹੈ.
ਡਾਟਾ ਇਨਕ੍ਰਿਪਸ਼ਨ ਯੂਨੀਕੋਡ ਮਿਆਰ ਦੇ ਸਾਰੇ ਅੱਖਰ ਦੀ ਨੁਮਾਇੰਦਗੀ ਕਰਨ ਲਈ ਵਰਤਿਆ ਜਾ ਸਕਦਾ ਹੈ. ਇਸ ਲਈ, ਉਹ ਕਾਰਨ ਦੀ ਇੱਕ ਕਿਸਮ ਦੇ ਲਈ ਪੂਰੀ ਹੱਲ ਕਰਨ ਲਈ ਅਨੁਕੂਲ ਹਨ, ਕੋਡਿੰਗ ਦੇ ਵੱਖ-ਵੱਖ ਰੂਪ ਵਰਤ. ਹਰ ਕੋਡਿੰਗ unambiguously ਡਾਟਾ ਦੇ ਨੁਕਸਾਨ ਦੇ ਬਗੈਰ ਹੋਰ ਦੋ ਦੇ ਕਿਸੇ ਵੀ ਵਿੱਚ ਤਬਦੀਲ ਕੀਤਾ ਜਾ ਸਕਦਾ ਹੈ.
nenalozheniya ਅਸੂਲ
ਫਾਰਮ ਯੂਨੀਕੋਡ ਇੰਕੋਡਿੰਗ ਦੇ ਹਰ ਗੈਰ ਅੰਸ਼ਕ ਓਵਰਲੈਪ ਦੇ ਮੱਦੇਨਜ਼ਰ ਵਿਕਸਤ. ਉਦਾਹਰਨ ਲਈ, Windows-932 ਕੋਡ ਦੇ ਇੱਕ-ਦੋ ਬਾਈਟ ਦੇ ਅੱਖਰ ਬਣਦਾ ਹੈ. ਤਰਤੀਬ ਦੀ ਲੰਬਾਈ ਪਹਿਲੇ ਬਾਈਟ 'ਤੇ ਨਿਰਭਰ ਕਰਦਾ ਹੈ, ਇਸ ਲਈ ਦੋ-ਬਾਈਟ ਹੈ ਅਤੇ ਸਿੰਗਲ ਬਾਇਟ ਅਲੱਗ ਦੀ ਲੜੀ' ਚ ਮੋਹਰੀ ਬਾਈਟ ਮੁੱਲ. ਪਰ, ਇੱਕ ਸਿੰਗਲ ਬਾਇਟ ਦੀ ਕੀਮਤ ਅਤੇ ਪਿੱਛੇ ਬਾਇਟ ਲਹੌਰ ਸਕਦਾ ਹੈ. ਇਹ ਉਦਾਹਰਨ ਲਈ ਦਾ ਮਤਲਬ ਹੈ ਕਿ ਅੱਖਰ ਖੋਜ D (ਕੋਡ 44) ਇਸ ਨੂੰ ਗਲਤੀ ਨਾਲ ਦੋ-ਬਾਈਟ ਅੱਖਰ 'ਡੀ' ਦੀ ਤਰਤੀਬ ਦਾ ਦੂਜਾ ਹਿੱਸਾ ਵਿੱਚ ਪ੍ਰਵੇਸ਼ ਨੂੰ ਲੱਭ ਸਕਦੇ ਹੋ (ਕੋਡ 84 44). ਨੂੰ ਬਾਹਰ ਦਾ ਪਤਾ ਕਰਨ ਲਈ ਹੈ, ਜੋ ਕਿ ਕ੍ਰਮ ਠੀਕ ਹੈ, ਪ੍ਰੋਗਰਾਮ ਪਿਛਲੇ ਬਾਈਟ ਖਾਤੇ ਵਿੱਚ ਰੱਖਣਾ ਚਾਹੀਦਾ ਹੈ.
ਸਥਿਤੀ ਨੂੰ ਗੁੰਝਲਦਾਰ ਹੈ, ਜੇਕਰ ਮੋਹਰੀ ਹੈ ਅਤੇ ਪਿੱਛੇ ਬਾਈਟ ਮੈਚ ਹੈ. ਇਸ ਦਾ ਮਤਲਬ ਹੈ ਕਿ ਅਸਪੱਸ਼ਟਤਾ ਨੂੰ ਹਟਾਉਣ ਲਈ ਕ੍ਰਮ ਵਿੱਚ ਟੈਕਸਟ ਜ ਵਿਲੱਖਣ ਕੋਡ ਲੜੀ ਦੇ ਸ਼ੁਰੂ ਪਹੁੰਚਣ ਦੇ ਅੱਗੇ ਇੱਕ ਉਲਟਾ ਖੋਜ ਹੋ ਜਾਵੇਗਾ. ਇਹ ਨਾ ਸਿਰਫ ਅਕੁਸ਼ਲ ਹੈ, ਪਰ, ਸੰਭਵ ਗਲਤੀ ਤੱਕ ਸੁਰੱਖਿਅਤ ਨਹੀ ਹੈ, ਕਿਉਕਿ ਪੂਰਾ ਪਾਠ ਕਰਨ ਲਈ ਸਿਰਫ ਇੱਕ ਹੀ ਨੂੰ ਗਲਤ ਬਾਈਟ ਪੜਨਯੋਗ ਬਣ ਗਿਆ ਹੈ.
ਫਾਰਮੈਟ ਤਬਦੀਲੀ ਯੂਨੀਕੋਡ ਨਾਲ ਇਹ ਸਮੱਸਿਆ ਤਕਨੀਕ ਹੈ, ਕਿਉਕਿ ਮੋਹਰੀ, ਸ਼ੁਰੂਆਤੀ ਦੇ ਮੁੱਲ, ਅਤੇ ਸਟੋਰੇਜ਼ ਦੇ ਇਕ ਵੀ ਯੂਨਿਟ ਉਸੇ ਜਾਣਕਾਰੀ ਨਹੀ ਹਨ. ਇਹ ਖੋਜ ਕਰਨ ਅਤੇ ਤੁਲਨਾ, ਕਦੇ ਅੱਖਰ ਕੋਡ ਦੇ ਵੱਖ-ਵੱਖ ਹਿੱਸੇ ਦੀ ਇਤਫ਼ਾਕ ਕਾਰਨ ਗਲਤ ਨਤੀਜੇ ਦੇਣ ਲਈ ਹੈ, ਜੋ ਕਿ ਸਭ ਨੂੰ ਯੂਨੀਕੋਡ ਯਕੀਨੀ. ਤੱਥ ਇਹ ਹੈ ਕਿ ਕੋਡਿੰਗ ਦੇ ਇਹ ਫਾਰਮ ਅਸੂਲ nenalozheniya ਪਾਲਨਾ, ਨੂੰ ਹੋਰ ਪੂਰਬੀ ਏਸ਼ੀਆਈ ਬਹੁ-ਬਾਈਟ ਇੰਕੋਡਿੰਗ ਤੱਕ ਵੱਖਰਾ ਹੈ.
nonintersection ਹੋਰ ਪਹਿਲੂ ਯੂਨੀਕੋਡ ਇੰਕੋਡਿੰਗ ਹਰ ਅੱਖਰ, ਇੱਕ ਸਾਫ਼-ਪ੍ਰਭਾਸ਼ਿਤ ਸਰਹੱਦ ਹੈ, ਜੋ ਕਿ ਹੈ. ਇਹ ਪਿਛਲੇ ਨਿਸ਼ਾਨ ਦੇ ਅਨਿਸਚਿਤ ਗਿਣਤੀ ਨੂੰ ਸਕੈਨ ਕਰਨ ਦੀ ਲੋੜ ਨੂੰ ਖਤਮ ਕਰਦਾ ਹੈ. ਇਹ ਫੀਚਰ ਕਈ ਵਾਰ ਸਵੈ-ਪੈਦਾਵਾਰ ਇੰਕੋਡਿੰਗ ਕਿਹਾ ਗਿਆ ਹੈ. ਕੋਡ ਯੂਨਿਟ ਦੀ ਭਟਕਣਾ ਸਿਰਫ ਇੱਕ ਹੀ ਅੱਖਰ ਦੇ ਇਕ ਭਟਕਣਾ ਪੇਸ਼ ਕੀਤਾ ਜਾਵੇਗਾ, ਅਤੇ ਆਲੇ-ਦੁਆਲੇ ਦੇ ਅੱਖਰ ਅਜੇ ਵੀ ਬਰਕਰਾਰ ਹਨ. 8-ਬਿੱਟ ਫਾਰਮੈਟ ਤਬਦੀਲੀ ਵਿੱਚ, ਬਾਇਟ, 10xxxxxx ਨਾਲ ਸ਼ੁਰੂ (ਬਾਈਨਰੀ ਕੋਡ ਵਿੱਚ) ਨੂੰ ਸੰਕੇਤਕ ਅੰਕ ਦਾ ਪਤਾ ਕਰਨ ਲਈ, ਜੇ ਪ੍ਰਤੀਕ ਦੇ ਸ਼ੁਰੂ ਵਿੱਚ ਇੱਕ ਤਿੰਨ ਨੂੰ ਉਲਟਾ ਤਬਦੀਲੀ ਲਈ ਦੀ ਲੋੜ ਹੈ.
ਇਕਸਾਰਤਾ
ਯੂਨੀਕੋਡ ਕਨਸੋਰਟੀਅਮ ਪੂਰੀ ਇੰਕੋਡਿੰਗ ਦੇ ਸਾਰੇ 3 ਫਾਰਮ ਨੂੰ ਸਹਿਯੋਗ ਦਿੰਦਾ ਹੈ. ਯੂਨੀਕੋਡ ਅੱਖਰ-ਇੰਕੋਡਿੰਗ ਮਿਆਰੀ ਸਰੂਪ ਦੇ ਬਰਾਬਰ ਠੀਕ ਫਾਰਮ - ਇਹ UTF-8 ਅਤੇ ਯੂਨੀਕੋਡ, ਸਭ ਤਬਦੀਲੀ ਫਾਰਮੈਟ ਦੇ ਤੌਰ ਤੇ ਵਿਰੋਧ ਕਰਨ ਲਈ ਨਾ ਮਹੱਤਵਪੂਰਨ ਹੈ.
ਬਾਈਟ-ਸਥਿਤੀ
UTF-32 ਅੱਖਰ ਦੀ ਨੁਮਾਇੰਦਗੀ ਕਰਨ ਲਈ ਇੱਕ 32-ਬਿੱਟ ਕੋਡ ਯੂਨਿਟ ਹੈ, ਜੋ ਕਿ ਯੂਨੀਕੋਡ ਕੋਡ ਦੇ ਵਿਚਾਲੇ ਦੀ ਲੋੜ ਹੈ. UTF-16 - ਦੋ 16-ਬਿੱਟ ਇਕਾਈ ਹੈ. ਇੱਕ UTF-8 4 ਬਾਈਟ ਤੱਕ ਦਾ ਇਸਤੇਮਾਲ ਕਰਦਾ ਹੈ.
UTF-8 ਇੰਕੋਡਿੰਗ ਬਾਈਟ-ਅਧਾਰਿਤ ASCII-ਅਧਾਰਿਤ ਸਿਸਟਮ ਨਾਲ ਅਨੁਕੂਲ ਹੋਣ ਲਈ ਤਿਆਰ ਕੀਤਾ ਗਿਆ ਹੈ. ਮੌਜੂਦਾ ਸਾਫਟਵੇਅਰ ਅਤੇ ਇੱਕ ਲੰਬੇ ਸਮ ਲਈ ਸੂਚਨਾ ਤਕਨਾਲੋਜੀ ਦੇ ਅਭਿਆਸ ਦੇ ਜ਼ਿਆਦਾਤਰ ਬਾਈਟ ਦੇ ਇੱਕ ਦ੍ਰਿਸ਼ ਵਿੱਚ ਅੱਖਰ ਦੀ ਨੁਮਾਇੰਦਗੀ 'ਤੇ ਭਰੋਸਾ. ਬਹੁ ਪਰੋਟੋਕਾਲ ਦਾ ਸਦਾ 'ਤੇ ਨਿਰਭਰ ਕਰਦਾ ਹੈ , ASCII ਇੰਕੋਡਿੰਗ ਅਤੇ ਵਰਤਦਾ ਹੈ ਕਿਸੇ ਖਾਸ ਲਈ ਕੰਟਰੋਲ ਅੱਖਰ ਪੜੇਗਾ. ਇੱਕ ਸਧਾਰਨ ਤਰੀਕੇ ਨਾਲ, ਹਾਲਾਤ ਯੂਨੀਕੋਡ ਕਰ ਸਕਦੇ ਹੋ ਅਨੁਕੂਲ ਹੋਣ ਲਈ ਯੂਨੀਕੋਡ ਅੱਖਰ, ਕਿਸੇ ਵੀ ਬਰਾਬਰ ਅੱਖਰ ਜ ਇੱਕ ਕੰਟਰੋਲ ਅੱਖਰ ਦੀ ਨੁਮਾਇੰਦਗੀ ਲਈ 8-ਬਿੱਟ ਕੋਡਿੰਗ ਵਰਤ. ਇਸ ਨੂੰ ਅੰਤ ਵਿੱਚ ਕਰਨ ਲਈ, ਅਤੇ ਇਸ ਨੂੰ UTF-8 ਇੰਕੋਡਿੰਗ ਹੈ.
ਵੇਰੀਏਬਲ ਦੀ ਲੰਬਾਈ
UTF-8 -, ਵੇਰੀਏਬਲ ਲੰਬਾਈ ਦੀ ਕੋਡਿੰਗ 8-ਬਿੱਟ ਸਟੋਰੇਜ਼ ਯੂਨਿਟ ਦੇ ਰੱਖਦਾ, ਵੱਡੇ ਬਿੱਟ ਹੈ, ਜੋ ਕਿ ਪਤਾ ਲੱਗਦਾ ਹੈ, ਜੋ ਕਿ ਹਰ ਵਿਅਕਤੀ ਨੂੰ ਬਾਈਟ ਦੀ ਲੜੀ ਦਾ ਹਿੱਸਾ ਹੈ ਨਾਲ ਸਬੰਧਿਤ ਹੈ. ਕੋਡ ਲੜੀ ਦੇ ਪਹਿਲੇ ਤੱਤ ਨੂੰ ਅਲਾਟ ਮੁੱਲ ਦੀ ਇੱਕ ਸੀਮਾ ਹੈ, ਕਿਸੇ ਹੋਰ - ਅਗਲੇ ਲਈ. ਇਹ disjointness ਇੰਕੋਡਿੰਗ ਪ੍ਰਦਾਨ ਕਰਦਾ ਹੈ.
ASCII
UTF-8 ਇੰਕੋਡਿੰਗ ਪੂਰਾ ਸਹਿਯੋਗ ਹੈ, ASCII ਕੋਡ (0x00-0x7F). ਇਸ ਦਾ ਮਤਲਬ ਹੈ ਕਿ ਯੂਨੀਕੋਡ ਅੱਖਰ U + 0000-U + 007F ਸਿੰਗਲ ਬਾਇਟ 0x00-0x7F ਵਿੱਚ UTF-8 ਵਿੱਚ ਤਬਦੀਲ ਕਰ ਰਹੇ ਹਨ ਅਤੇ ASCII ਤੱਕ ਅਭੇਦ ਬਣ. ਇਸ ਦੇ ਨਾਲ, ਸਮੱਿਸਆ ਬਚਣ ਲਈ, ਮੁੱਲ ਕਿਸੇ ਵੀ ਹੋਰ ਯੂਨੀਕੋਡ ਅੱਖਰ ਦੀ ਇੱਕ ਸਿੰਗਲ ਬਾਇਟ ਨੁਮਾਇੰਦਗੀ ਵਿਚ ਵਰਤਿਆ ਨਾ 0x00-0x7F. ਇੰਕੋਡ ਕਰਨ ਲਈ ਨਿਸ਼ਾਨ ASCII ਦੇ ਇਲਾਵਾ ਹੋਰ neideograficheskih, ਦੋ ਬਾਈਟ ਦੇ ਇੱਕ ਦ੍ਰਿਸ਼ ਨੂੰ ਵਰਤ. ਚਿੰਨ੍ਹ ਲੈਕੇ U + 0800-U + ffff ਤਿੰਨ ਬਾਈਟ ਦੀ ਨੁਮਾਇੰਦਗੀ ਕਰ ਰਹੇ ਹਨ, ਅਤੇ U + ffff ਵੱਧ ਹੋਰ ਦੇ ਨਾਲ ਵਾਧੂ ਕੋਡ ਚਾਰ ਬਾਈਟ ਦੀ ਲੋੜ ਹੈ.
ਐਪਲੀਕੇਸ਼ਨ ਦੇ ਖੇਤਰ
UTF-8 ਇੰਕੋਡਿੰਗ ਆਮ ਤੌਰ 'ਤੇ ਨੂੰ HTML ਪਰੋਟੋਕਾਲ ਵਿਚ ਤਰਜੀਹ ਦਿੱਤੀ ਗਈ ਹੈ, ਅਤੇ ਵਰਗੇ.
XML UTF-8 ਇੰਕੋਡਿੰਗ ਲਈ ਪੂਰਾ ਸਹਿਯੋਗ ਨਾਲ ਪਹਿਲੀ ਮਿਆਰੀ ਬਣ ਗਿਆ ਹੈ. ਮਿਆਰ ਸੰਗਠਨ ਵੀ ਇਸ ਨੂੰ ਕਰਨ ਦੀ ਸਿਫਾਰਸ਼. URL ਨੂੰ ਪਤੇ ਨੂੰ ਹੈ, ਜੋ ਕਿ ASCII-ਅੱਖਰ ਤੱਕ ਵੱਖ ਵੱਖ ਹੁੰਦਾ ਹੈ ਵਿੱਚ ਸਹਿਯੋਗ ਨੂੰ ਸਮੱਸਿਆ ਹੱਲ ਜਦ ਕਨਸੋਰਟੀਅਮ W3C ਅਤੇ IETF ਇੰਜੀਨੀਅਰਿੰਗ ਗਰੁੱਪ ਨੂੰ ਸਭ ਦੀ ਕੋਡਿੰਗ 'ਤੇ ਇਕ ਸਮਝੌਤੇ' ਕਰਨ ਲਈ ਆਇਆ ਸੀ ਕੀਤਾ ਗਿਆ ਸੀ URL ਨੂੰ ਪਤੇ ਨੂੰ UTF-8 ਵਿੱਚ ਸਿਰਫ਼.
ASCII ਨਾਲ ਅਨੁਕੂਲਤਾ ਸਾਫਟਵੇਅਰ ਨੂੰ ਤਬਦੀਲੀ ਦੀ ਸਹੂਲਤ. UTF-8 JEdit, ਈਮੈਕਸ, BBEdit, ਈਲੈਪਸ, ਅਤੇ "ਨੋਟਪੈਡ" Windows ਓਪਰੇਟਿੰਗ ਸਿਸਟਮ ਨੂੰ ਵੀ ਸ਼ਾਮਲ ਹੈ, ਸਭ ਨੂੰ ਪਾਠ ਸੰਪਾਦਕ, ਕੰਮ ਕਰਦਾ ਹੈ ਦੇ ਨਾਲ. ਇੰਕੋਡਿੰਗ ਯੂਨੀਕੋਡ ਦੀ ਕੋਈ ਹੋਰ ਫਾਰਮ ਸੰਦ ਹੈ ਦੇ ਅਜਿਹੇ ਇੱਕ ਸਹਿਯੋਗ ਦੀ ਸ਼ੇਖੀ ਨਾ ਕਰ ਸਕਦਾ ਹੈ.
ਫਾਇਦਾ ਕੋਡਿੰਗ ਹੈ, ਜੋ ਕਿ ਇਸ ਨੂੰ ਬਾਈਟ ਦੇ ਇੱਕ ਲੜੀ ਦੇ ਸ਼ਾਮਲ ਹਨ ਹੈ. UTF-8 ਸਤਰ ਨਾਲ C ਅਤੇ ਹੋਰ ਪਰੋਗਰਾਮਿੰਗ ਭਾਸ਼ਾ ਵਿੱਚ ਕੰਮ ਕਰਨ ਲਈ ਆਸਾਨ ਹੈ. ਇਹ ਇੰਕੋਡਿੰਗ ਦੇ ਹੀ ਰੂਪ ਹੈ, ਕ੍ਰਮ ਲੇਬਲ ਦੀ ਲੋੜ ਨਹੀ ਹੈ BOM ਜ XML ਵਿੱਚ ਇੱਕ ਇਕੋਡਿੰਗ ਘੋਸ਼ਣਾ ਬਾਈਟ.
ਸਵੈ-ਸਮਕਾਲੀ
ਮਾਹੌਲ ਨੂੰ ਹੋਰ ਬਹੁ-ਬਾਈਟ ਅੱਖਰ ਸੈੱਟ ਨਾਲ ਤੁਲਨਾ ਨੂੰ ਕਾਰਵਾਈ ਕਰਨ ਦੇ 8-ਬਿੱਟ ਨਿਸ਼ਾਨ ਨੂੰ ਵਰਤਦਾ ਹੈ, ਜੋ ਕਿ ਹੈ, ਵਿੱਚ UTF-8 ਹੇਠ ਫਾਇਦੇ ਹਨ:
- ਪਹਿਲੀ ਬਾਈਟ ਕੋਡ ਕ੍ਰਮ ਇਸ ਦੀ ਲੰਬਾਈ ਬਾਰੇ ਜਾਣਕਾਰੀ ਸ਼ਾਮਿਲ ਹੈ. ਇਹ ਸਿੱਧੀ ਖੋਜ ਦੀ ਕੁਸ਼ਲਤਾ ਨੂੰ ਵਧਾ.
- ਪ੍ਰਤੀਕ ਦੇ ਸ਼ੁਰੂ ਲੱਭਣ ਦੇ ਤੌਰ ਤੇ ਸ਼ੁਰੂ ਬਾਇਟ ਮੁੱਲ ਦੀ ਇੱਕ ਨਿਸ਼ਚਿਤ ਸੀਮਾ ਤੱਕ ਹੀ ਸੀਮਿਤ ਹੈ ਸਰਲ.
- ਕੋਈ ਇੰਟਰਸੈਕਸ਼ਨ ਬਾਈਟ ਮੁੱਲ.
ਲਾਭ ਦੀ ਤੁਲਨਾ ਕਰੋ
UTF-8 ਇੰਕੋਡਿੰਗ ਸੰਖੇਪ ਹੈ. ਪਰ ਜਦ ਈਸਟ ਏਸ਼ੀਅਨ ਅੱਖਰ ਇੰਕੋਡਿੰਗ ਲਈ ਵਰਤੇ (ਚੀਨੀ, ਜਪਾਨੀ, ਕੋਰੀਅਨ, ਚੀਨੀ ਦੇ ਚਿੰਨ੍ਹ ਵਰਤ ਕੇ ਲਿਖਣ) 3-ਬਾਈਟ ਕ੍ਰਮ ਵਰਤਿਆ. ਵੀ UTF-8 ਇੰਕੋਡਿੰਗ ਨੂੰ ਕਾਰਵਾਈ ਕਰਨ ਦੀ ਗਤੀ ਕੋਡਿੰਗ ਦੇ ਹੋਰ ਫਾਰਮ ਨੂੰ ਮਿਲਿਆ ਹੈ. ਇੱਕ ਬਾਈਨਰੀ ਲੜੀਬੱਧ ਲਾਈਨ ਬਾਈਨਰੀ ਯੂਨੀਕੋਡ ਲੜੀਬੱਧ ਦੇ ਤੌਰ ਤੇ ਹੀ ਨਤੀਜਾ ਨਿਕਲਦਾ.
ਅੱਖਰ ਇੰਕੋਡਿੰਗ ਸਕੀਮ
ਅੱਖਰ ਇੰਕੋਡਿੰਗ ਸਕੀਮ ਇੰਕੋਡਿੰਗ ਨਿਸ਼ਾਨ ਫਾਰਮ ਅਤੇ ਸਿੰਗਲ ਬਾਇਟ ਟਿਕਾਣਾ ਕੋਡ ਯੂਨਿਟ ਲਈ ਢੰਗ ਹਨ. ਇੰਕੋਡਿੰਗ ਸਕੀਮ ਯੂਨੀਕੋਡ ਮਿਆਰ ਇੱਕ ਸ਼ੁਰੂਆਤੀ ਬਾਈਟ ਕ੍ਰਮ ਨੂੰ ਨਿਸ਼ਾਨ (BOM, ਬਾਈਟ ਕ੍ਰਮ ਨੂੰ ਨਿਸ਼ਾਨ) ਦੀ ਵਰਤੋ ਦਿੰਦਾ ਹੈ ਇਹ ਪਤਾ ਕਰਨ ਲਈ.
UTF-8 ਵਿਸ਼ੇਸ਼ਤਾ ਨੂੰ ਟੈਗ ਵਿਚ BOM ਕੋਡਿੰਗ ਦੇ ਫਾਰਮ ਦੀ ਵਰਤੋ ਕਰਨ ਲਈ ਸਿਰਫ ਹਵਾਲਾ ਦੇ ਕੇ ਹੀ ਸੀਮਿਤ ਹੈ, ਜਦ. ਦੇ ਤੌਰ ਤੇ ਇਸ ਦੇ ਇੰਕੋਡਿੰਗ ਯੂਨਿਟ ਦਾ ਆਕਾਰ ਇੱਕ ਬਾਇਟ ਹੈ ਏਡੀਅਨ ਵਿੱਚ UTF-8 ਨੂੰ ਨਿਰਧਾਰਤ ਕਰਨ ਵਿੱਚ ਸਮੱਸਿਆ ਹੈ,. ਕੋਡਿੰਗ ਦੇ ਇਸ ਫਾਰਮ ਲਈ BOM ਦਾ ਇਸਤੇਮਾਲ ਕਰਨ ਦੀ ਲੋੜ ਹੈ ਨਾ ਹੀ ਸਿਫਾਰਸ਼ ਕੀਤੀ ਨਾ ਗਿਆ ਹੈ. BOM ਪਾਠ ਵਿੱਚ ਵਾਪਰ ਸਕਦੀ ਹੈ UTF-8 ਇੰਕੋਡਿੰਗ ਲਈ ਬਾਈਟ ਕ੍ਰਮ ਨੂੰ ਨਿਸ਼ਾਨ ਜ ਦਸਤਖਤ ਵਰਤ ਹੋਰ codings ਤੱਕ ਤਬਦੀਲ ਹੋ ਗਿਆ. 3 ਬਾਈਟ ਈਐਫ BB 16 16 ਐਫ 16 ਦੀ ਇੱਕ ਲੜੀ ਹੈ.
UTF-8 ਇੰਕੋਡਿੰਗ ਸੈੱਟ ਕਰਨ ਲਈ ਕਰਨਾ ਹੈ
ਨੂੰ HTML ਕੋਡਿੰਗ UTF-8 ਹੇਠ ਕੋਡ ਨਾਲ ਇੰਸਟਾਲ ਕੀਤਾ ਹੈ:
ਸਿਰ '
ਮੈਟਾ HTTP-equiv = "ਸਮੱਗਰੀ-ਕਿਸਮ" ਸਮੱਗਰੀ ਨੂੰ = "ਪਾਠ / html; ਅੱਖਰ = UTF-8" ˃
PHP ਵਿੱਚ UTF-8 ਇੰਕੋਡਿੰਗ ਆਉਟਪੁੱਟ ਪੱਧਰ ਦੇ ਮੁੱਲ ਨੂੰ ਨਿਰਧਾਰਿਤ ਕਰਨ ਵਿੱਚ ਗਲਤੀ ਦੇ ਬਾਅਦ ਫਾਇਲ ਦੇ ਸ਼ੁਰੂ 'ਤੇ ਸਿਰਲੇਖ () ਫੰਕਸ਼ਨ ਵਰਤ ਸੈੱਟ ਕੀਤਾ ਗਿਆ ਹੈ:
˂? PHP
error_reporting (-1);
ਸਿਰਲੇਖ ( "ਸਮੱਗਰੀ-ਕਿਸਮ: ਪਾਠ / html; ਅੱਖਰ = UTF-8 ');
MySQL ਡਾਟਾਬੇਸ ਨੂੰ UTF-8 ਇੰਕੋਡਿੰਗ ਸੈੱਟ ਕੀਤਾ ਗਿਆ ਹੈ ਜੁੜਨ ਲਈ:
˂? PHP
mysql_set_charset ( 'ਤੇ utf8');
CSS-ਫਾਇਲ ਇੰਕੋਡਿੰਗ ਹੇਠ UTF-8 ਅੱਖਰ ਦਿੱਤੀ ਹੈ:
@charset "UTF-8";
ਜਦ ਤੁਹਾਨੂੰ ਬਚਾਉਣ ਸਾਰੇ ਕਿਸਮ ਦੇ ਫਾਇਲ, ਦੀ ਚੋਣ BOM ਬਿਨਾ UTF-8 ਇੰਕੋਡਿੰਗ ਹੋਰ ਸਾਈਟ ਨੂੰ ਕੰਮ ਨਹੀ ਕਰੇਗਾ. UTF-8 ਇੰਕੋਡਿੰਗ ਤਬਦੀਲ ਕਰਨ ਲਈ DreamWeave ਵਿਚ ਇਹ ਕਰਨ ਲਈ ਮੇਨੂ ਇਕਾਈ ਨੂੰ "- - ਪੰਨਾ ਵਿਸ਼ੇਸ਼ਤਾ ਟਾਇਟਲ / ਇੰਕੋਡਿੰਗ ਸੋਧ" ਦੀ ਚੋਣ ਕਰਨ ਦੀ ਲੋੜ ਹੈ. ਸਫ਼ਾ ਲੋਡ ਬਾਅਦ, ਤੱਕ "ਕੁਨੈਕਟ ਯੂਨੀਕੋਡ ਦਸਤਖਤ (BOM)» ਚੈੱਕ ਮਾਰਕ ਹਟਾਉਣ ਅਤੇ ਤਬਦੀਲੀ ਲਾਗੂ. ਇੱਕ ਸਫ਼ੇ 'ਤੇ ਜ ਇੱਕ ਡਾਟਾਬੇਸ' ਚ ਕਿਸੇ ਵੀ ਪਾਠ ਕੋਡਿੰਗ ਦਾ ਇੱਕ ਹੋਰ ਰੂਪ ਹੈ ਪੇਸ਼ ਕੀਤਾ ਗਿਆ ਸੀ, ਜੇ, ਇਸ ਨੂੰ ਮੁੜ-ਦਿਓ, ਜ ਮੁੜ-ਇੰਕੋਡ ਕਰਨ ਲਈ ਜ਼ਰੂਰੀ ਹੈ. ਜੇਕਰ ਤੁਹਾਨੂੰ ਰੈਗੂਲਰ ਸਮੀਕਰਨ ਨਾਲ ਕੰਮ ਕਰਦੇ ਹਨ, ਸੋਧਕ ਯੂ ਵਰਤਣ ਲਈ ਇਹ ਯਕੀਨੀ ਹੋ.
ਤੁਹਾਨੂੰ ਇਹ ਵੀ Windows ਦੀ "ਨੋਟਪੈਡ" ਵਿੱਚ UTF-8 ਇੰਕੋਡਿੰਗ ਵਿੱਚ ਫਾਇਲ ਨੂੰ ਬਚਾ ਸਕਦਾ ਹੈ. ਮੇਨੂ ਇਕਾਈ ਦੀ ਚੋਣ ਕਰਨ ਉਪਰੰਤ - ਇੰਕੋਡਿੰਗ ਦੀ ਲੋੜ ਦੀ ਫਾਰਮ ਨੂੰ ਇੰਸਟਾਲ ਅਤੇ UTF-8 ਵਿੱਚ ਫਾਇਲ ਸੰਭਾਲਣ ਲਈ "ਫਾਇਲ ਵਿੱਚ ਸੰਭਾਲਣਾ ...".
ਇੱਕ ਪਾਠ ਸੰਪਾਦਕ ਨੋਟਪੈਡ ++, ਜੇ ਵਿੱਚ UTF-8 ਦੇ ਇਲਾਵਾ ਹੋਰ ਨੂੰ ਸੈੱਟ ਮੇਨੂ ਇਕਾਈ ਦੁਆਰਾ, ਵਿਚ "BOM ਬਿਨਾ UTF-8 ਵਿੱਚ ਤਬਦੀਲ ਕਰੋ» ਅੱਖਰ ਨੂੰ ਬਦਲ ਅਤੇ UTF-8 ਵਿੱਚ ਨੂੰ ਬਚਾਉਣ.
ਕੋਈ ਵੀ ਬਦਲ ਹੈ
ਵਿਸ਼ਵੀਕਰਨ, ਜਿੱਥੇ ਸਿਆਸੀ ਅਤੇ ਭਾਸ਼ਾਈ ਚੌਕੇ ਮਿਟ ਰਹੇ ਹਨ ਦੇ ਪ੍ਰਸੰਗ ਵਿੱਚ, ਅੱਖਰ ਸੈੱਟ ਹੈ, ਜੋ ਕਿ ਸਥਾਨਕ ਗੁਣ, ਥੋੜਾ ਵਰਤਣ ਦੇ ਹਨ. ਯੂਨੀਕੋਡ ਇੱਕ ਸਿੰਗਲ ਅੱਖਰ ਸਮੂਹ ਹੈ, ਜੋ ਕਿ ਸਭ ਨੂੰ localizations ਨੂੰ ਸਹਿਯੋਗ ਹੈ. ਇੱਕ UTF-8 - ਯੂਨੀਕੋਡ ਦੇ ਸਹੀ ਢੰਗ ਨਾਲ ਲਾਗੂ ਹੈ, ਜੋ ਕਿ ਦੀ ਇੱਕ ਉਦਾਹਰਨ ਹੈ:
- ਇਹ ASCII ਇੰਕੋਡਿੰਗ ਨਾਲ ਅਨੁਕੂਲਤਾ ਵੀ ਸ਼ਾਮਲ ਹੈ ਦੇ ਸੰਦ, ਦੀ ਇੱਕ ਵਿਆਪਕ ਲੜੀ ਨੂੰ ਸਹਿਯੋਗ ਦਿੰਦਾ ਹੈ;
- ਇਹ ਭਟਕਣਾ ਡਾਟਾ ਰੋਧਕ ਹੁੰਦਾ ਹੈ;
- ਸਧਾਰਨ ਅਤੇ ਇਲਾਜ 'ਚ ਪ੍ਰਭਾਵਸ਼ਾਲੀ;
- ਪਲੇਟਫਾਰਮ ਸੁਤੰਤਰ ਹੈ.
UTF-8 ਇੰਕੋਡਿੰਗ ਬਹਿਸ ਜ ਅੱਖਰ ਸਮੂਹ ਦੇ ਕੀ ਫਾਰਮ ਬਾਰੇ ਬਿਹਤਰ ਹੈ ਦੇ ਆਗਮਨ ਦੇ ਨਾਲ, ਇਸ ਨੂੰ ਅਰਥ ਬਣਦਾ ਹੈ.
Similar articles
Trending Now