ಕಂಪ್ಯೂಟರ್, ಪ್ರೋಗ್ರಾಮಿಂಗ್
UTF-8, - ಅಕ್ಷರ ಸಂಕೇತೀಕರಣ
ಯೂನಿಕೋಡ್ ವಾಸ್ತವವಾಗಿ ಎಲ್ಲಾ ಅಸ್ತಿತ್ವದಲ್ಲಿರುವ ಅಕ್ಷರ ಬೆಂಬಲಿಸುತ್ತದೆ. ಯುನಿಕೋಡ್ ಸೆಟ್ ಎನ್ಕೋಡಿಂಗ್ ಅತ್ಯುತ್ತಮ ರೂಪ UTF-8 ಎನ್ಕೋಡಿಂಗ್ ಆಗಿದೆ. ಇದು ದತ್ತಾಂಶ, ದಕ್ಷತೆ ಮತ್ತು ಸಂಸ್ಕರಣೆಯ ಸುಲಭವಾಗಿ ಅಸ್ಪಷ್ಟತೆ ಮಾಡಿದ ASCII ಹೊಂದಾಣಿಕೆಯ ಪ್ರತಿಭಟನೆಯು ಬೆಂಬಲಿಸುತ್ತದೆ. ಆದರೆ ಮೊದಲ ಮೊದಲ ವಿಷಯಗಳನ್ನು.
ರೂಪ ಕೋಡಿಂಗ್
ಬೈಟ್ ಮತ್ತು 32-ಬಿಟ್ ಪದಗಳ - ಕಂಪ್ಯೂಟರ್ ಅಮೂರ್ತ ಗಣಿತ ವಸ್ತುಗಳನ್ನು ಕೇವಲ ಸಂಖ್ಯೆಗಳನ್ನು ಅಲ್ಲ, ಜೊತೆಗೆ ಸಂಗ್ರಹ ಘಟಕಗಳ ಸಂಯೋಜನೆಗಳು ಮತ್ತು ನಿರ್ವಹಣೆ ನಿಗದಿತ ಗಾತ್ರದ ಡೇಟಾ ನಿರ್ವಹಿಸುತ್ತವೆ. ಪ್ರಸ್ತುತಪಡಿಸಲು ಹೇಗೆ ನಿರ್ಣಯಿಸುವಲ್ಲಿ ಸಂಕೇತೀಕರಣ ಪ್ರಮಾಣದ ಗಣನೆಗೆ ತೆಗೆದುಕೊಳ್ಳಲೇಬೇಕು ಅಕ್ಷರಗಳ ಸಂಖ್ಯೆ.
ಗಣಕ ವ್ಯವಸ್ಥೆಗಳಲ್ಲಿ ಪೂರ್ಣಾಂಕಗಳ 8 ಬಿಟ್ಗಳು (1 ಬೈಟ್), 16 ಅಥವಾ 32 ಬಿಟ್ ಮೆಮೊರಿ ಜೀವಕೋಶಗಳು ಸಂಗ್ರಹಿಸಲಾಗಿದೆ. ಪ್ರತಿ ರಚನೆಯಲ್ಲಿ ಯೂನಿಕೋಡ್ ಎನ್ಕೋಡಿಂಗ್ ಸ್ಮೃತಿಯ ಜೀವಕೋಶಗಳು ಅನುಕ್ರಮ ನಿರ್ದಿಷ್ಟ ಚಿಹ್ನೆ ಅನುಗುಣವಾದ ಒಂದು ಪೂರ್ಣಾಂಕ ವರ್ಣಿಸಬಹುದು. ಮಾದರಿಯಲ್ಲಿ ಕೋಡಿಂಗ್ ಯೂನಿಕೋಡ್ ಅಕ್ಷರಗಳನ್ನು 8, 16 ಮತ್ತು 32-ಬಿಟ್ ಬ್ಲಾಕ್ಗಳನ್ನು ಮೂರು ವಿವಿಧ ಪ್ರಕಾರಗಳಿವೆ. ರೀತಿಯಾಗಿ, UTF-8, UTF-16 ಮತ್ತು UTF-32 ಎಂದು ಕರೆಯಲಾಗುತ್ತದೆ. ಹೆಸರು UTF ಯೂನಿಕೋಡ್ ಟ್ರಾನ್ಸ್ಫರ್ಮೇಷನ್ ಫಾರ್ಮ್ಯಾಟ್ ಹೊಂದಲಾಗಿದೆ. ಎನ್ಕೋಡಿಂಗ್ ಸಾಧನವಾಗಿ ಮೂರು ರೂಪಗಳನ್ನು ಪ್ರತಿ ಸಮಾನ ಪ್ರಾತಿನಿಧ್ಯ ಯುನಿಕೋಡ್ ವಿವಿಧ ಅನ್ವಯಗಳಲ್ಲಿ ಪ್ರಯೋಜನಗಳನ್ನು ಹೊಂದಿದೆ ಆಗಿದೆ.
ಡೇಟಾ ಗೂಢಲಿಪೀಕರಣ ಯುನಿಕೋಡ್ ನಿರ್ದಿಷ್ಟ ಎಲ್ಲ ಅಕ್ಷರಗಳನ್ನು ನಿರೂಪಿಸಲು ಬಳಸಬಹುದು. ಹಾಗಾಗಿ, ಅವರು ಪರಿಹಾರಗಳನ್ನು ಸಂಪೂರ್ಣವಾಗಿ ಹೊಂದಬಲ್ಲ ಕಾರಣಗಳಿಗಾಗಿ ವಿವಿಧ, ಕೋಡಿಂಗ್ ವಿವಿಧ ಸ್ವರೂಪಗಳು ಬಳಸಿ. ಪ್ರತಿ ಕೋಡಿಂಗ್ ನಿಸ್ಸಂದಿಗ್ಧವಾಗಿ ದತ್ತಾಂಶದ ನಷ್ಟವಿಲ್ಲದೆಯೇ ಇತರ ಎರಡು ಯಾವುದೇ ಪರಿವರ್ತಿಸಬಹುದು.
nenalozheniya ತತ್ವ
ರೂಪಗಳು ಯುನಿಕೋಡ್ ಎನ್ಕೋಡಿಂಗ್ ಪ್ರತಿಯೊಂದು ಅಲ್ಲದ ಆಂಶಿಕ ಅತಿಕ್ರಮದ ವೀಕ್ಷಣೆಯಲ್ಲಿ ಅಭಿವೃದ್ಧಿ. ಉದಾಹರಣೆಗೆ, ವಿಂಡೋಸ್ 932 ಕೋಡ್ ಒಂದು ಅಥವಾ ಎರಡು ಬೈಟ್ಗಳು ಪಾತ್ರಗಳು ರೂಪಿಸುತ್ತದೆ. ಅನುಕ್ರಮವು ಉದ್ದದ ಮೊದಲ ಬೈಟ್ ಮೇಲೆ ಅವಲಂಬಿತವಾಗಿರುತ್ತದೆ, ಆದ್ದರಿಂದ ಎರಡು ಬೈಟ್ ಮತ್ತು ಬೈಟ್ ಜೋಡಣಾ ಸರಣಿ ಪ್ರಮುಖ ಬೈಟ್ ಮೌಲ್ಯಗಳು. ಆದರೆ ಏಕ ಬೈಟ್ ಮೌಲ್ಯವನ್ನು ಮತ್ತು ಹಿಂದುಳಿದಿದ್ದರು ಬೈಟ್ ಅನುಕ್ರಮ ಜೊತೆಜೊತೆಯಲ್ಲೇ ಮಾಡಬಹುದು. ಈ ಪಾತ್ರದ ಹುಡುಕಾಟ ಡಿ (ಕೋಡ್ 44) (ಕೋಡ್ 84 44) ಇದು ತಪ್ಪಾಗಿ ಎರಡು ಬೈಟ್ ಕ್ಯಾರೆಕ್ಟರ್ "ಡಿ" ಅನುಕ್ರಮ ಎರಡನೇ ಭಾಗವನ್ನು ಪ್ರವೇಶಿಸುವ ಕಾಣಬಹುದು ಉದಾಹರಣೆಗೆ ಅರ್ಥ. ಸರಿಯಾದ ಇದು ಸನ್ನಿವೇಶವನ್ನು ಹುಡುಕಲು, ಪ್ರೋಗ್ರಾಂ ಹಿಂದಿನ ಬೈಟ್ಗಳು ಖಾತೆಗೆ ತೆಗೆದುಕೊಳ್ಳಬೇಕು.
ಪರಿಸ್ಥಿತಿ ಲೀಡಿಂಗ್ ಮತ್ತು ಬೈಟ್ಗಳು ಪಂದ್ಯದಲ್ಲಿ, ಜಟಿಲವಾಗಿದೆ. ಈ ದ್ವಂದ್ವಾರ್ಥತೆಯನ್ನು ತೆಗೆದು ಸಲುವಾಗಿ ಪಠ್ಯ ಅಥವಾ ಅನನ್ಯ ಕೋಡ್ ಅನುಕ್ರಮವು ಆರಂಭದಲ್ಲಿ ತಲುಪುವ ಮೊದಲು ರಿವರ್ಸ್ ವೀಕ್ಷಣ ಎಂದು ಅರ್ಥ. ಈ ಕೇವಲ ಅಸಮರ್ಥ, ಆದರೆ, ಸಾಧ್ಯ ದೋಷಗಳನ್ನು ರಕ್ಷಿಸಲಾಗಿದೆ ಅಲ್ಲಿಂದ ಪೂರ್ಣ ಪಠ್ಯ ಒಂದೇ ತಪ್ಪು ಬೈಟ್ ಓದಲಾಗುವುದಿಲ್ಲ ಮಾರ್ಪಟ್ಟಿದೆ.
ಪ್ರಮುಖ, ಹಿಂಬಾಲಕ ಮೌಲ್ಯವನ್ನು, ಮತ್ತು ಸಂಗ್ರಹಣೆಯ ಒಂದು ಏಕ ಘಟಕ ಅದೇ ಮಾಹಿತಿಯನ್ನು ಏಕೆಂದರೆ ರೂಪದಲ್ಲಿ ಪರಿವರ್ತನೆ ಯೂನಿಕೋಡ್ ಈ ಸಮಸ್ಯೆಯನ್ನು ತಪ್ಪಿಸುತ್ತದೆ. ಈ ಎಲ್ಲಾ ಯುನಿಕೋಡ್ ಖಾತ್ರಿಗೊಳಿಸುತ್ತದೆ ಕಾರಣ ಪಾತ್ರ ಕೋಡ್ ವಿವಿಧ ಭಾಗಗಳ ಕಾಕತಾಳೀಯ ತಪ್ಪಾದ ಫಲಿತಾಂಶವನ್ನು ನೀಡುವ ಎಂದಿಗೂ ಹುಡುಕುವ ಮತ್ತು ಹೋಲಿಕೆ, ಫಾರ್. ಕೋಡಿಂಗ್ ಇವುಗಳ ತತ್ವ nenalozheniya ವೀಕ್ಷಿಸಲು ವಾಸ್ತವವಾಗಿ, ಪೂರ್ವ ಏಷ್ಯಾದ ಇತರ ಬಹು ಬೈಟ್ ಎನ್ಕೋಡಿಂಗ್ಗಳು ಅವುಗಳನ್ನು ಭಿನ್ನವಾಗಿಸಿದೆ.
ಮತ್ತೊಂದು ಅಂಶವೆಂದರೆ nonintersection ಯೂನಿಕೋಡ್ ಎನ್ಕೋಡಿಂಗ್ಗಳು ಪ್ರತಿ ಪಾತ್ರದ ಒಂದು ಸ್ಪಷ್ಟವಾದ ನಿರೂಪಣೆಯ ಗಡಿಯನ್ನು ಹೊಂದಿದೆ ಎಂಬುದು. ಈ ಹಿಂದಿನ ಚಿಹ್ನೆಗಳು ಅನಿರ್ದಿಷ್ಟ ಸಂಖ್ಯೆಯ ಸ್ಕ್ಯಾನ್ ಅಗತ್ಯವನ್ನು ತಪ್ಪಿಸುತ್ತದೆ. ಈ ವೈಶಿಷ್ಟ್ಯವು ಕೆಲವೊಮ್ಮೆ ಸ್ವಯಂ ಓಡಿ ಎನ್ಕೋಡಿಂಗ್ ಕರೆಯಲಾಗುತ್ತದೆ. ಕೋಡ್ ಘಟಕಗಳ ಡಿಸ್ಟಾರ್ಷನ್ ಒಂದೇ ಪಾತ್ರದ ಅಸ್ಪಷ್ಟತೆ ಪರಿಚಯಿಸಲು, ಮತ್ತು ಸುತ್ತಮುತ್ತಲಿನ ಅಕ್ಷರಗಳು ಇನ್ನೂ ಅಳಿವಿನಂಚಿನಲ್ಲಿರುವ. 8-ಬಿಟ್ ರೂಪದಲ್ಲಿ ಪರಿವರ್ತನೆ ರಲ್ಲಿ ಬೈಟ್, 10xxxxxx ಆರಂಭಗೊಂಡು (ಅವಳಿ ಕೋಡ್) ಸೂಚಕವನ್ನು ಅಂಕಗಳನ್ನು ಒಂದರಿಂದ ಮೂರು ರಿವರ್ಸ್ ಪರಿವರ್ತನೆಗಳು ಚಿನ್ಹೆಯನ್ನು ಆರಂಭದಲ್ಲಿ ಅಗತ್ಯವಿದೆ ಹುಡುಕಲು ವೇಳೆ.
ಸ್ಥಿರತೆ
ಯುನಿಕೋಡ್ ಮಂಡಳಿ ಸಂಪೂರ್ಣವಾಗಿ ಎನ್ಕೋಡಿಂಗ್ಗಳು ಎಲ್ಲಾ 3 ರೂಪಗಳು ಬೆಂಬಲಿಸುತ್ತದೆ. ಯುನಿಕೋಡ್-ಸಂಕೇತೀಕರಣ ಪ್ರಮಾಣದ ಸಾಕಾರ ಸಮಾನವಾಗಿ ಮಾನ್ಯ ರೂಪಗಳು - ಇದು, UTF 8 ಮತ್ತು ಯೂನಿಕೋಡ್, ಎಲ್ಲಾ ಪರಿವರ್ತನೆ ಸ್ವರೂಪಗಳಂಥ ವಿರೋಧಿಸಲು ಮುಖ್ಯವಾದುದು.
ಬೈಟ್ ದೃಷ್ಟಿಕೋನ
UTF-32 ಅಕ್ಷರಗಳನ್ನು ನಿರೂಪಿಸಲು ಯುನಿಕೋಡ್ ಸಂಕೇತ ಸೇರಿಕೊಳ್ಳುತ್ತದೆ ಇದು 32-ಬಿಟ್ ಕೋಡ್ ಘಟಕ, ಅಗತ್ಯವಿದೆ. UTF-16 - 16-ಬಿಟ್ ಘಟಕಗಳಿಗೆ ಒಂದು. ಒಂದು UTF-8, 4 ಬೈಟ್ಗಳವೆರೆಗೆ ಬಳಸುತ್ತದೆ.
UTF-8 ಎನ್ಕೋಡಿಂಗ್ ಬೈಟ್ ಆಧಾರಿತ ಮಾಡಿದ ASCII ಆಧಾರಿತ ವ್ಯವಸ್ಥೆಗಳು ಹೊಂದಾಣಿಕೆಯಾಗದೇ ವಿನ್ಯಾಸಗೊಳಿಸಲಾಗಿದೆ. ದೀರ್ಘಕಾಲ ಅಸ್ತಿತ್ವದಲ್ಲಿರುವ ಸಾಫ್ಟ್ವೇರ್ ಮತ್ತು ಮಾಹಿತಿ ತಂತ್ರಜ್ಞಾನ ಅಭ್ಯಾಸ ಅತ್ಯಂತ ಬೈಟ್ಗಳು ಅನುಕ್ರಮ ಪಾತ್ರಗಳ ಪ್ರಾತಿನಿಧ್ಯ ಅವಲಂಬಿಸಿತ್ತು. ಬಹು ಪ್ರೋಟೋಕಾಲ್ಗಳು ಹಠ ಅವಲಂಬಿಸಿರುತ್ತದೆ ಮಾಡಿದ ASCII ಎನ್ಕೋಡಿಂಗ್ ಮತ್ತು ಬಳಸುವ ಎರಡೂ ವಿಶೇಷ ನಿಯಂತ್ರಣ ಅಕ್ಷರಗಳನ್ನು ತಪ್ಪಿಸುತ್ತದೆ. ಯೂನಿಕೋಡ್ ಅಕ್ಷರಗಳನ್ನು, ಯಾವುದೇ ಸಮಾನ ASCII ಅಕ್ಷರ ಅಥವಾ ಒಂದು ನಿಯಂತ್ರಣ ನಿರೂಪಿಸುವ 8-ಬಿಟ್ ಕೋಡಿಂಗ್ ಬಳಸಿಕೊಂಡು, ಯೂನಿಕೋಡ್ ಮಾಡಬಹುದು ಪರಿಸ್ಥಿತಿಗಳಿಗೆ ಹೊಂದಿಕೊಳ್ಳುವ ಒಂದು ಸರಳ ರೀತಿಯಲ್ಲಿ. ಈ ನಿಟ್ಟಿನಲ್ಲಿ, ಮತ್ತು ಇದು UTF-8 ಎನ್ಕೋಡಿಂಗ್ ಆಗಿದೆ.
ವೇರಿಯಬಲ್ ಉದ್ದ
UTF-8, - 8-ಬಿಟ್ ಸಂಗ್ರಹ ಘಟಕಗಳು ಒಳಗೊಂಡ ವೇರಿಯಬಲ್ ಉದ್ದ ಕೋಡಿಂಗ್, ಮೇಲಿನ ಬಿಟ್ಗಳು ಇದು ಪ್ರತಿಯೊಂದು ಬೈಟ್ ಅನುಕ್ರಮ ಗೆ ಯಾವ ಭಾಗದಲ್ಲಿ ಸೇರುತ್ತದೆ ಸೂಚಿಸುತ್ತದೆ. ಕೋಡ್ ಮೊದಲ ಕ್ರಮಾಗತದ ಅಂಶವಾಗಿದೆ ವಿತರಿಸಲಾಗುತ್ತದೆ ಮೌಲ್ಯವು ಶ್ರೇಣಿ, ಇನ್ನೊಂದು - ಮುಂದಿನ. ಈ disjointness ಎನ್ಕೋಡಿಂಗ್.
ಮಾಡಿದ ASCII
UTF-8 ಎನ್ಕೋಡಿಂಗ್ ಸಂಪೂರ್ಣವಾಗಿ ಬೆಂಬಲಿತವಾಗಿದೆ ASCII ಸಂಕೇತಗಳು (0x00-0x7F). ಯುನಿಕೋಡ್ ಪಾತ್ರಗಳು U + 0000-U + 007F ಬೈಟ್ 0x00-0x7F UTF-8, ಪರಿವರ್ತಿಸಲ್ಪಡುತ್ತದೆ ಹೀಗಾಗಿ ಮಾಡಿದ ASCII ಒಂದೇ ಮಾರ್ಪಟ್ಟಿದೆ ಎಂದು ಅರ್ಥ. ಇದಲ್ಲದೆ, ಗೊಂದಲ ತಪ್ಪಿಸಲು, ಮೌಲ್ಯ ಯಾವುದೇ ಯೂನಿಕೋಡ್ ಅಕ್ಷರಗಳನ್ನು ಒಂದು ಬೈಟ್ ಪ್ರಾತಿನಿಧ್ಯ ಬಳಸುವುದಿಲ್ಲ 0x00-0x7F. ಬಳಸಿಕೊಳ್ಳಲಿಲ್ಲ ಚಿಹ್ನೆಗಳು ಎರಡು ಬೈಟ್ಗಳು ಒಂದು ಅನುಕ್ರಮವನ್ನು ಬಳಸಿ, ಮಾಡಿದ ASCII ಬೇರೆ neideograficheskih. ಸಿಂಬಲ್ಸ್ ವ್ಯಾಪ್ತಿಯಲ್ಲಿ U + 0800-U + FFFF ಮೂರು ಬೈಟ್ಗಳು ಪ್ರತಿನಿಧಿಸುತ್ತದೆ, ಮತ್ತು ಹೆಚ್ಚು U + FFFF ಹೆಚ್ಚು ಹೆಚ್ಚುವರಿ ಸಂಕೇತಗಳು ನಾಲ್ಕು ಬೈಟ್ಗಳು ಅಗತ್ಯವಿರುತ್ತದೆ.
ಅಪ್ಲಿಕೇಶನ್ ಗೋಳ
UTF-8 ಎನ್ಕೋಡಿಂಗ್ ಸಾಮಾನ್ಯವಾಗಿ ಎಚ್ಟಿಎಮ್ಎಲ್ ನಿಯಮಾವಳಿಗಳಿಗೆ ಆದ್ಯತೆ ನೀಡಲಾಗುತ್ತದೆ, ಮತ್ತು ಹಾಗೆ ಇದೆ.
ಮದುವೆ UTF-8 ಎನ್ಕೋಡಿಂಗ್ ಪೂರ್ಣ ಬೆಂಬಲದೊಂದಿಗೆ ಮೊದಲ ಗುಣಮಟ್ಟವಾಗಿದೆ. ದರ್ಜೆಯ ಸಂಘಟನೆಗಳು ಇದನ್ನು ಶಿಫಾರಸು. ಮಾಡಿದ ASCII ಅಕ್ಷರಗಳನ್ನು ಭಿನ್ನವಾಗಿದೆ ಆ URL ಭಾಷಣದಲ್ಲಿ ಬೆಂಬಲ ಸಮಸ್ಯೆ, ಒಕ್ಕೂಟವು ಡಬ್ಲ್ಯು 3 ಸಿ IETF ರಚನೆಯಾಗುವುದಕ್ಕೂ ಎಂಜಿನಿಯರಿಂಗ್ ಗುಂಪು ಎಲ್ಲಾ ಕೋಡಿಂಗ್ ಕುರಿತು ಒಂದು ಒಪ್ಪಂದಕ್ಕೆ ಬಂದಾಗ ಬಗೆಹರಿಸಲಾಯಿತು URL ಅನ್ನು ವಿಳಾಸಗಳನ್ನು ಪ್ರತ್ಯೇಕವಾಗಿ ಅನ್ನು UTF-8.
ಮಾಡಿದ ASCII ಹೊಂದಾಣಿಕೆ ಹೊಸ ಸಾಫ್ಟ್ವೇರ್ ಪರಿವರ್ತನೆ ಸುಗಮಗೊಳಿಸುತ್ತದೆ. ಜೊತೆಗೆ UTF-8, jEdit, ಈಮಾಕ್ಸ್ GenericName BBEdit ಬಳಸಿ, ಎಕ್ಲಿಪ್ಸ್ ಮತ್ತು "ನೋಟ್ಪಾಡ್" ವಿಂಡೋಸ್ ಆಪರೇಟಿಂಗ್ ಸಿಸ್ಟಮ್ ಸೇರಿದಂತೆ ಹೆಚ್ಚಿನ ಪಠ್ಯ ಸಂಪಾದಕರು, ಮಾಡುತ್ತದೆ. ಎನ್ಕೋಡಿಂಗ್ ಯೂನಿಕೋಡ್ ಬೇರೆ ಯಾವುದೇ ರೂಪ ಉಪಕರಣವನ್ನು ಇಂತಹ ಬೆಂಬಲ ಹೆಗ್ಗಳಿಕೆ ಸಾಧ್ಯವಿಲ್ಲ.
ಲಾಭ ಕೋಡಿಂಗ್ ಇದು ಬೈಟ್ಗಳು ಪರಿವಿಡಿಯನ್ನು ಒಳಗೊಂಡಿದ್ದರೆ ಎಂಬುದು. UTF-8, ದಾರದಿಂದ ಸಿ ಮತ್ತು ಇತರ ಪ್ರೋಗ್ರಾಮಿಂಗ್ ಭಾಷೆಗಳಲ್ಲಿ ಕೆಲಸ ಸುಲಭ. ಈ ಎನ್ಕೋಡಿಂಗ್ ಸ್ವರೂಪದ, ಆದೇಶ ಇಲ್ಲ ಲೇಬಲ್ಗಳನ್ನು ಅಗತ್ಯವಿರುತ್ತದೆ ಬಿಒಎಮ್ ಅಥವಾ XML ಒಂದು ಎನ್ಕೋಡಿಂಗ್ ಘೋಷಣೆ ಬೈಟ್ಗಳು.
ಸ್ವಯಂ ಸಿಂಕ್ರೊನೈಸೇಶನ್
ಸಂಸ್ಕರಣೆಯ 8-ಬಿಟ್ ಸಂಕೇತಗಳನ್ನು ಬಳಸುತ್ತದೆ ಇತರ ಬಹು ಬೈಟ್ ಅಕ್ಷರ ಹೋಲಿಸಿದರೆ ಪರಿಸರವನ್ನು ರಲ್ಲಿ, UTF-8, ಕೆಳಗಿನ ಅನುಕೂಲತೆಗಳನ್ನು ಹೊಂದಿದೆ
- ಮೊದಲ ಬೈಟ್ ಕೋಡ್ ಸರಣಿಯನ್ನು ಉದ್ದ ಸುಮಾರು ಮಾಹಿತಿಯನ್ನು ಹೊಂದಿದೆ. ಈ ನೇರ ಹುಡುಕಾಟ ಸಾಮರ್ಥ್ಯವನ್ನು ಹೆಚ್ಚಿಸುತ್ತದೆ.
- ಆರಂಭಿಕ ಬೈಟ್ ಮೌಲ್ಯಗಳು ಸ್ಥಿರ ಶ್ರೇಣಿಗೆ ಸೀಮಿತವಾಗಿದೆ ಎಂದು ಚಿಹ್ನೆಯನ್ನು ಆರಂಭದಲ್ಲಿ ಕಂಡುಹಿಡಿಯುವ ಸರಳೀಕೃತ.
- ಯಾವುದೇ ಛೇದಕ ಬೈಟ್ ಮೌಲ್ಯಗಳು.
ಪ್ರಯೋಜನಗಳನ್ನು ಹೋಲಿಸಿ
UTF-8 ಎನ್ಕೋಡಿಂಗ್ ಸಾಂದ್ರವಾಗಿರುತ್ತದೆ. ಆದರೆ (ಚೀನೀ, ಜಪಾನೀಸ್, ಕೊರಿಯನ್, ಚಿಹ್ನೆಗಳು ಬಳಸಿಕೊಂಡು ಚೀನೀ ಬರವಣಿಗೆಯ) 3-ಬೈಟ್ ಅನುಕ್ರಮಗಳನ್ನು ಬಳಸಲಾಗುತ್ತದೆ ಈಸ್ಟ್ ಏಷ್ಯನ್ ಅಕ್ಷರಗಳು ಎನ್ಕೋಡಿಂಗ್ ಬಳಸಿದಾಗ. ಅಲ್ಲದೆ UTF-8 ಎನ್ಕೋಡಿಂಗ್ ಪ್ರಕ್ರಿಯೆ ವೇಗದಲ್ಲಿ ಕೋಡಿಂಗ್ ಇತರ ರೂಪಗಳು ಕೀಳು. ಬೈನರಿ ವಿಂಗಡಿಸುವ ಸಾಲುಗಳು ಬೈನರಿ ಯೂನಿಕೋಡ್ ವಿಂಗಡಿಸುವ ಅದೇ ಫಲಿತಾಂಶ.
ಅಕ್ಷರ ಸಂಕೇತೀಕರಣ ಯೋಜನೆಯ
ಅಕ್ಷರ ಸಂಕೇತೀಕರಣ ಯೋಜನೆಯ ಎನ್ಕೋಡಿಂಗ್ ಚಿಹ್ನೆಗಳು ರೂಪ ಮತ್ತು ಬೈಟ್ ಸ್ಥಳ ಕೋಡ್ ಘಟಕಗಳಿಗೆ ವಿಧಾನವನ್ನು ಒಳಗೊಂಡಿದೆ. ಎನ್ ಕೋಡಿಂಗ್ ವಿಧಾನವನ್ನು ಯುನಿಕೋಡ್ ನಿರ್ದಿಷ್ಟ ಆರಂಭಿಕ ಬೈಟ್ ಸಲುವಾಗಿ ಗುರುತು (ಬಿಒಎಮ್, ಬೈಟ್ ಸಲುವಾಗಿ ಚಿಹ್ನೆ) ಬಳಕೆಯನ್ನು ಒದಗಿಸುತ್ತದೆ ನಿರ್ಧರಿಸಲು.
UTF-8, ವೈಶಿಷ್ಟ್ಯವನ್ನು ಟ್ಯಾಗ್ನಲ್ಲಿ ಬಿಒಎಮ್ ಕೋಡಿಂಗ್ ರೂಪಗಳು ಬಳಕೆಗೆ ಮಾತ್ರ ಉಲ್ಲೇಖ ಸೀಮಿತವಾಗಿದೆ ಮಾಡಿದಾಗ. ಇದರ ಎನ್ಕೋಡಿಂಗ್ ಘಟಕದ ಗಾತ್ರದ ಒಂದು ಬೈಟ್ ಮಾಹಿತಿ ಎಂಡಿಯನ್ UTF-8, ನಿರ್ಧರಿಸುವಲ್ಲಿ ತೊಂದರೆಗಳು, ಹೊಂದಿವೆ. ಕೋಡಿಂಗ್ ಈ ಫಾರ್ಮ್ ಬಿಒಎಮ್ ಬಳಸಿ ಅಗತ್ಯವಿದೆ ಅಥವಾ ಶಿಫಾರಸು ಎರಡೂ ಇದೆ. ಬಿಒಎಮ್ UTF-8 ಎನ್ಕೋಡಿಂಗ್ ಫಾರ್ ಬೈಟ್ ಸಲುವಾಗಿ ಗುರುತು ಅಥವಾ ಸಹಿಯನ್ನು ಬಳಸಿ ಇತರ codings ಪರಿವರ್ತನೆಗೆ ಪಠ್ಯ ಸಂಭವಿಸುತ್ತದೆ. 3 ಬೈಟ್ಗಳು ಇಎಫ್ ಬಿಬಿ 16 16 ಬಿಎಫ್ 16 ಅನುಕ್ರಮವಾಗಿರುವಲ್ಲಿ.
UTF-8 ಎನ್ಕೋಡಿಂಗ್ ಹೊಂದಿಸಲು ಹೇಗೆ
ಎಚ್ಟಿಎಮ್ಎಲ್ ಕೋಡಿಂಗ್ ಅನ್ನು UTF 8 ಮುಂದಿನ ಕೋಡ್ನೊಂದಿಗೆ ಸ್ಥಾಪಿಸಲಾಗಿದೆ:
ಹೆಡ್
Meta http-equiv = "ವಿಷಯ ಪ್ರಕಾರ" ವಿಷಯ = "ಪಠ್ಯ / html; ಅಕ್ಷರಸೆಟ್ = UTF-8" ˃
ಪಿಎಚ್ಪಿ ರಲ್ಲಿ UTF-8 ಎನ್ಕೋಡಿಂಗ್ ಔಟ್ಪುಟ್ ಮಟ್ಟದ ಮೌಲ್ಯವನ್ನು ದೋಷ ಹಚ್ಚಿದ ನಂತರ ಕಡತ ಆರಂಭದಲ್ಲಿ ಹೆಡರ್ () ಕಾರ್ಯ ಬಳಸಿಕೊಂಡು ಹೊಂದಿಸಲಾಗಿದೆ:
˂? ಪಿಎಚ್ಪಿ
error_reporting (-1);
ಹೆಡರ್ ( "ವಿಷಯ ಕೌಟುಂಬಿಕತೆ: ಪಠ್ಯ / html; ಅಕ್ಷರಸೆಟ್ = UTF-8 ');
ಒಂದು MySQL ಡೇಟಾ ಬೇಸ್ UTF-8 ಎನ್ಕೋಡಿಂಗ್ ಹೊಂದಿಸಲಾಗಿದೆ ಸಂಪರ್ಕಪಡಿಸುದಕ್ಕಾಗಿ:
˂? ಪಿಎಚ್ಪಿ
mysql_set_charset ( 'UTF8');
ಸಿಎಸ್ಎಸ್ ಫೈಲ್ ಎನ್ಕೋಡಿಂಗ್ ಕೆಳಗಿನಂತೆ UTF- 8 ಅಕ್ಷರಗಳನ್ನು ನಿರ್ದಿಷ್ಟಪಡಿಸಿದ ಇದೆ:
@charset "UTF-8";
ನೀವು ಎಲ್ಲಾ ರೀತಿಯ ಕಡತಗಳನ್ನು, ಬಿಒಎಮ್ ಇಲ್ಲದೆ UTF-8 ಎನ್ಕೋಡಿಂಗ್ ಆಯ್ಕೆ ಉಳಿಸಿದಾಗ ಇಲ್ಲದಿದ್ದರೆ ಸೈಟ್ ಕೆಲಸ ಮಾಡುವುದಿಲ್ಲ. UTF-8 ಗೆ ಎನ್ಕೋಡಿಂಗ್ ಬದಲಾಯಿಸಲು DreamWeave ಈ ಮಾಡಲು ಮೆನು ಐಟಂ "ಶೀರ್ಷಿಕೆ / ಎನ್ಕೋಡಿಂಗ್ - - ಪುಟ ಪ್ರಾಪರ್ಟೀಸ್ ಮಾರ್ಪಾಡುಗಳು" ಆರಿಸಬೇಕಿದೆ. ಪುಟ ಮರುಲೋಡ್ ನಂತರ ಮಾತ್ರವೇ "ಸಂಪರ್ಕ ಯೂನಿಕೋಡ್ ಸಹಿ (ಬಿಒಎಮ್)» ಚೆಕ್ ಗುರುತು ತೆಗೆದು ಬದಲಾವಣೆಗಳನ್ನು ಅನ್ವಯಿಸುತ್ತವೆ. ಒಂದು ಪುಟದಲ್ಲಿ ಅಥವಾ ಡೇಟಾಬೇಸ್ನಲ್ಲಿ ಯಾವುದೇ ಪಠ್ಯ ಕೋಡಿಂಗ್ ಇನ್ನೊಂದು ರೂಪ ಪರಿಚಯಿಸಲಾಯಿತು, ಇದು ಮರು ನಮೂದಿಸಿ ಅಥವಾ ಮರು ಎನ್ಕೋಡ್ ಅಗತ್ಯ. ನೀವು ನಿರೂಪಣೆಗಳಿಂದ ಕೆಲಸ ಮಾಡುವಾಗ, ಪರಿವರ್ತಕ ಯು ಬಳಸಲು ಮರೆಯದಿರಿ.
ನೀವು ವಿಂಡೋಸ್ "ನೋಟ್ಪಾಡ್" ನಲ್ಲಿ UTF-8 ಎನ್ಕೋಡಿಂಗ್ ಫೈಲ್ ಉಳಿಸಬಹುದು. ಮೆನು ಐಟಂ ಆಯ್ಕೆ ನಂತರ - ಎನ್ಕೋಡಿಂಗ್ ಅಗತ್ಯ ರೂಪ ಅನುಸ್ಥಾಪಿಸಲು ಮತ್ತು ಅನ್ನು UTF-8 ಫೈಲ್ ಅನ್ನು ಉಳಿಸಲು ನೀವು "ಫೈಲ್ ಇದರಂತೆ ಉಳಿಸು ...".
ಒಂದು ಪಠ್ಯ ಸಂಪಾದಕ ನೋಟ್ಪಾಡ್ ++ ಮೆನು ಐಟಂ ಮೂಲಕ UTF-8, ಬೇರೆ ಸಜ್ಜುಗೊಳಿಸಿದಲ್ಲಿ, ರಲ್ಲಿ "ಬಿಒಎಮ್ ಇಲ್ಲದೆ UTF-8 ಗೆ ಪರಿವರ್ತಿಸಿ» ಪಾತ್ರವನ್ನು ಬದಲಿಸಲು ಮತ್ತು UTF-8, ಉಳಿಸುತ್ತವೆ.
ಯಾವುದೇ ಪರ್ಯಾಯ ಇಲ್ಲ
ರಾಜಕೀಯ ಮತ್ತು ಭಾಷಾವಾರು ಗಡಿಗಳ ಅಳಿಸಿಹಾಕಿತು ಅಲ್ಲಿ ಜಾಗತೀಕರಣ, ಸಂದರ್ಭದಲ್ಲಿ, ಸ್ಥಳೀಯ ಲಕ್ಷಣಗಳನ್ನು ಹೊಂದಿರುತ್ತದೆ ಅಕ್ಷರ ಸಂಪುಟ, ಕ್ಷಣಿಕವಾಗಿತ್ತು ಇವೆ. ಯುನಿಕೋಡ್ ಪ್ರಾದೇಶೀಕರಣಕ್ಕೆ ಬೆಂಬಲಿಸುವ ಒಂದು ಅಕ್ಷರ ಗುಂಪಾಗಿದೆ. ಒಂದು UTF-8, - ಯುನಿಕೋಡ್ ಸರಿಯಾದ ಅನುಷ್ಠಾನ, ಇದು ಒಂದು ಉದಾಹರಣೆಯಾಗಿದೆ:
- ಇದು ಮಾಡಿದ ASCII ಎನ್ಕೋಡಿಂಗ್ ಹೊಂದಾಣಿಕೆಯ ಸೇರಿದಂತೆ ಸಾಧನಗಳ ವ್ಯಾಪಕ ಬೆಂಬಲಿಸುತ್ತದೆ;
- ಇದು ಅಸ್ಪಷ್ಟತೆ ಡೇಟಾ ನಿರೋಧಕವಾದ;
- ಸರಳ ಮತ್ತು ಚಿಕಿತ್ಸೆಯಲ್ಲಿ ಪರಿಣಾಮಕಾರಿ;
- ವೇದಿಕೆಯ ಅವಲಂಬಿಸಿರುವುದಿಲ್ಲ.
ಆಫ್ UTF-8, ಚರ್ಚೆ ಎನ್ಕೋಡಿಂಗ್ ಅಥವಾ ಲಿಪಿಯಲ್ಲಿ ಯಾವ ರೂಪ ಬಗ್ಗೆ ಉತ್ತಮ ಉದಯವಾಗುವುದರೊಂದಿಗೆ ಇದು ಅರ್ಥಹೀನ ಆಗುತ್ತದೆ.
Similar articles
Trending Now