String.substring() ilginçliği
Benim de geçenlerde şuradaki bir blog yazısından öğrendiğim String sınıfının substring() metodu ile ilgili ilginç bir durumdan bahsedeyim. Yazacaklarımın çoğu çeviri değerinde.
String a = “abcdefgh”;
a = a.substring(0,3);
şeklinde bir kod ile başlangıçta oluşturduğumuz String tipinde a nesnesinin ilk 3 karakterini ayrıştırıp yine kendisine atamış oluyoruz. Oluşan nesne yeni bir String nesnesidir. Çünkü String değişmez(immutable) bir tiptir. Bir kez oluşturulduktan sonra değişmezler yani. Integer, Double gibi ilkel tipleri sarmalayan tipler de öyledirler.
String nesnesinde;
value; char[] tipinde bir değişken. String nesnesinde bulunan karakterleri tutuyor.
count;int tipinde bir değişken. String nesnesinde bulunan karakter sayısını tutuyor.
offset;int tipinde bir değişken. String nesnesinin ilk karakterinin indeksini tutuyor.
şeklinde 3 alan bulunuyor.
substring() işlemi ile char[] dizisi (value) yeni oluşan String nesnesine doğrudan kopyalanıyor. Fakat count ve offset alanlarına uygun karşılıkları atanıyor. Dolayısıyla a nesnesini System.out.print(a); şeklinde konsola yazdıracak olursak “abc” değerlerini görüyoruz. Garip olan şu ki Reflection ile a nesnesinin sahip olduğu karakter dizisine ulaştığımızda gördüğümüz değer “abcdefgh”. (Reflection ile nasıl nesnenin gerçek “value” değerini gördüğümüzün çok önemi olmadığı için kod örneğini yazmaya gerek yok hani). Buradan oluşan yeni String nesnesinin count ve offset değerleri farklı olsa da karakter dizisinin birebir kopya olduğunu anlıyoruz. Örnek koda şuradan bakılabilir.
Bu durum hafıza kullanımında gereksiz şişmelere yol açabiliyor. Özellikle de sık sık substring() metotu ile büyük String nesneleri ayrıştıran bir işlem varsa. Yeri gelmişken bir String nesnesinin hafızada ne kadar yer kapladığını da şu şekilde hesaplıyoruz.
Yukarıda bahsettiğimiz int tipinde count ve offset değişkenlere ilave olarak bir de hashCode için int tipinde bir değişken tutuluyor. Bu 3 int tipindeki değişken 4’er baytdan 12 bayt, nesnenin “object header” denen kimlik bilgisi de 8 bayt yer kaplıyor. Boş karakter dizisi olan char[] değişkeni de 8 bayt karater dizisi, 4 bayt dizinin uzunluğunu tutmak için bulunan değişken, ve 4 bayt da toplamda 16’nın 12’ye en yakın katı olan 16’ya tamamlamak için olmak üzere; 16 bayt yer kaplıyor. 12+8+16=36’yı da bir sonraki 8’in katı olan 40’a tamamlıyoruz. Bu da boş bir String nesnesinin 40 bayt yer kapladığını gösteriyor.
Kabaca şöyle bir formül çıkıyor;
– String nesnesinde bulunan karakter sayısını iki ile çarp,
– 38 ekle,
– Sonuç 8’in katı bir sayı değilse sonraki ilk 8’in katı olan sayıya yuvarla
20 karakter içeren bir String nesnesi;
20*2 = 40,
40+38=78,
78’i de 8’in sonraki ilk katına tamamlarsak ->80 bayt yer kaplıyor
Mevzuya dönecek olursak bu gibi hafıza şişmelerini engellemek için substring() metodundan dönen String nesnesini yine bir String nesnesinin yapılandırıcısına parametre olarak geçiyoruz.
String a = new String(a.substring(0,3));
Bu arada aynı durum String sınıfının trim() metodu için de geçerli. Farkında olmaya değer bir ilginçlik.
Son Yorumlar